openai开源 没等来OpenAI,等来了Open-Sora全面开源
没等来OpenAI,等来了Open-Sora全面开源
Open-Sora 1.0是 Colossal-AI团队开源的全球首个类 Sora架构视频生成模型,涵盖完整训练流程,包括数据处理、训练细节和模型权重,旨在降低技术门槛并推动视频生成技术发展。以下从模型架构、训练方法、数据预处理、生成效果及优化策略五个方面展开解读:
一、模型架构设计:基于 Diffusion Transformer的时空建模Open-Sora 1.0采用 Diffusion Transformer(DiT)架构,以开源文生图模型 PixArt-α为基座,通过引入时间注意力层扩展至视频数据。核心架构包含三部分:
预训练 VAE:压缩视频数据至潜在空间,降低计算复杂度。文本编码器:使用 T5模型将文本转换为嵌入向量,用于语义对齐。STDiT模型(Spatial Temporal Diffusion Transformer):空间-时间注意力机制:每层串行叠加二维空间注意力与一维时间注意力模块,建模时序关系。
交叉注意力模块:对齐文本语义,减少全注意力机制的计算开销。
优势:相比全注意力机制,STDiT训练和推理效率更高;相比同类模型 Latte,能更好利用预训练图像 DiT权重,降低视频训练成本。
二、训练方法:三阶段渐进式优化Open-Sora复现方案参考 Stable Video Diffusion(SVD),分三阶段训练:
大规模图像预训练利用互联网图像数据训练文生图模型,生成高质量初始化权重。
采用 Stable Diffusion的预训练图像 VAE,保障初始性能并降低成本。
大规模视频预训练引入时序注意力模块,学习视频时间序列关联。
加载第一阶段权重,初始化时序模块输出为零以加速收敛。
使用 256x256小分辨率预训练,进一步降低成本。
高质量视频数据微调使用更高分辨率、时长的视频数据微调,提升生成质量。
数据规模比第二阶段少一个量级,但质量显著提升,实现从短到长、低分辨率到高分辨率的扩展。
训练成本:
第二阶段:2808 GPU小时(约 7000美元)。第三阶段:1920 GPU小时(约 4500美元)。总成本控制在 1万美元左右(使用 64块 H800训练)。三、数据预处理:自动化脚本降低门槛Colossal-AI团队提供完整的数据预处理工具链:
公开数据集下载:支持自动获取视频数据。长视频分割:按镜头连续性将长视频切分为短视频片段。提示词生成:使用开源大语言模型 LLaVA生成精细文本描述,两卡 3秒标注一个视频,质量接近 GPT-4V。输出格式:生成视频/文本对,可直接用于训练。四、模型生成效果:多场景展示与现存局限生成示例:
自然景观:悬崖海岸航拍、山川瀑布鸟瞰、水下海龟游弋。天文现象:延时摄影展示银河繁星闪烁。现存问题:
生成质量:当前版本仅使用 400K训练数据,生成质量有待提升(如乌龟多出一只脚)。复杂场景:不擅长生成人像和复杂画面。待优化方向:团队计划通过增加训练数据、改进架构提升生成质量。五、高效训练策略:Colossal-AI加速系统算子优化与混合并行:处理 64帧、512x512分辨率视频时,实现 1.55倍加速。异构内存管理:单台服务器(8×H800)可无障碍训练 1分钟 1080p视频。STDiT高效性:相比全注意力机制 DiT,帧数增加时加速比高达 5倍,显著提升长视频训练效率。总结与展望Open-Sora 1.0通过开源完整训练流程,显著降低了视频生成技术的复现门槛,为全球开发者提供了可复用的工具链。尽管当前版本存在生成质量局限,但团队计划通过扩大数据规模、优化架构(如支持多分辨率)持续改进。未来,该模型有望在电影、游戏、广告等领域推动 AI技术落地。开源地址:GitHub- Open-Sora
Agent重大突破!OpenAI智能体支持MCP,已开源
OpenAI对Agent SDK进行重大更新,支持MCP服务,现已开源,这一更新为Agent带来了统一接口标准,解锁了无限工具集成能力。以下是详细介绍:
MCP基本介绍全称与概念:MCP全称为Model Context Protocol,是一种专为大模型开放的统一开放接口。可将其类比为大模型的“USB接口”,任何符合接口标准的工具,如网络搜索、专业分析、本地查询、网络追踪等工具,都能与之连接。
核心框架组成模型:是系统的逻辑核心,决定系统如何处理和理解数据。在AI应用中,可能是理解语言的神经网络、处理图像的深度学习模型或进行预测分析的机器学习算法;在企业软件中,可能是指导客户互动的实体关系模型。
上下文:为模型提供运行环境,决定模型在不同条件下的行为,包含用户交互、环境因素和系统状态等变量。例如AI聊天机器人根据对话上下文生成回答,金融预测模型根据经济趋势调整预测结果。
协议:是通信的桥梁,定义系统内不同组件之间的交互规则,确保模型和上下文之间正确通信,保障分布式环境中的数据一致性、安全性和效率。
MCP对Agent的好处标准化接入工具和数据源Agent可通过统一接口与本地运行工具(如通过stdio服务器)和远程托管服务(HTTP over SSE服务)交互,极大扩展了第三方工具库。例如在金融领域,Agent接入股票分析MCP工具,可快速获取股票实时价格、历史走势、财务指标等数据并分析,为用户提供投资建议。
减少Agent与不同工具集成时的复杂性,Agent能轻松接入新工具和服务,无需大量修改核心逻辑,可快速适应新应用场景和需求。
动态工具发现能力Agent运行时,SDK调用MCP服务器方法动态获取当前可用工具列表,使Agent实时了解可用工具,无需在代码中硬编码工具信息。
这种机制赋予Agent高灵活性和适应性,能应对工具变化,如工具新增、删除或更新时,Agent可立即感知并调整行为。
性能优化支持缓存工具列表,Agent可多次运行复用,减少调用工具延迟,提升自动化效率。
Agent按需调用MCP服务器工具,而非初始化时加载所有工具,减少资源消耗,提高系统整体性能。
简化开发工作开发者通过简单配置将MCP服务器添加到Agent中,无需编写大量代码实现工具接入逻辑,简化开发流程,缩短开发周期。
工具接入标准化,便于开发者调试和测试工具,工具独立性也使问题定位更方便,提升开发效率。
实现解耦与模块化设计将工具和数据源实现细节与Agent逻辑分离,Agent无需关心工具具体实现,只需通过MCP协议交互,使Agent代码更简洁、易于维护。
工具作为独立模块通过MCP服务器提供给Agent,开发者可独立开发和部署工具,无需修改Agent代码,系统各部分可独立升级和优化,提升灵活性和可维护性。
MCP服务展示Firecrawl MCP服务:提供数据抓取、网页爬虫、深度研究、提取结构化数据等功能。
Browserbase MCP服务:可创建浏览器会话、导航至指定URL、截取屏幕截图等。
Opik MCP服务:启用追踪、获取追踪统计数据等。
Brave MCP:支持本地搜索、网络搜索等。
目前,OpenAI已在开源的Agent SDK中支持MCP,API和桌面版ChatGPT也将很快提供这一功能。
GPT-OSS来了,Mac16GB内存,本地运行OpenAI开源模型攻略
在16GB内存的Mac上本地运行OpenAI开源模型gpt-oss-20b的完整攻略如下:
一、硬件与模型适配性确认显存需求:gpt-oss-20b模型推理仅需16GB显存,与Mac的16GB共享内存(实际可用显存需通过技术手段优化)匹配。内存占用:实际运行需关闭其他应用,预留约10GB内存供模型使用。
图:20B模型显存需求与Mac硬件适配性二、推荐工具:LM Studio(唯一验证成功方案)1.下载与安装LM Studio主程序:从官网下载Mac版本命令行工具:安装后配置CLI工具.模型获取与加载下载模型:通过命令行获取gpt-oss-20blms get openai/gpt-oss-20b启动模型:使用无资源限制模式加载lms run openai/gpt-oss-20b--no-limit关键操作:等待10秒完成初始化,期间需保持终端窗口活跃。
图:LM Studio无限制模式启动成功三、避坑指南:不推荐方案1. OLLAMA(失败案例)问题现象:下载后报错current_time找不到,模型文件损坏。
删除模型命令ollama rm gpt-oss:20b失败。
重新下载后运行报500错误,无法加载模型文件。
结论:工具兼容性不足,不建议Mac用户使用。2. Hugging Face(HF)方案(失败案例)操作步骤:pip install transformers torch报错信息:第二步transformers serve直接失败。结论:依赖库与Mac生态兼容性差,安装过程复杂且易出错。四、运行效果验证基础测试:询问模型身份
图:模型正确识别自身为gpt-oss-20b功能测试:比较数字大小(参考视频链接:)性能表现:在16GB内存Mac上可稳定运行,响应速度满足基础需求。五、优化建议资源管理:关闭所有非必要应用,释放内存。
通过活动监视器监控内存占用,确保模型运行期间不低于10GB可用内存。
故障处理:若加载失败,重启LM Studio并重试--no-limit模式。
定期清理模型缓存文件(位于~/.lmstudio/models)。
交流支持:回复关键词【GPT】加入评测社群,获取实时问题解答。六、总结唯一可行方案:LM Studio的--no-limit模式是16GB内存Mac运行gpt-oss-20b的最优解。核心优势:绕过系统资源限制,通过内存优化技术实现低显存设备部署。扩展性:后续可尝试量化压缩技术进一步降低内存占用(需等待社区支持)。
openai开源和没等来OpenAI,等来了Open-Sora全面开源的问题分享结束啦,以上的文章解决了您的问题吗?欢迎您下次再来哦!