openai 开源 Agent重大突破!OpenAI智能体支持MCP,已开源
Agent重大突破!OpenAI智能体支持MCP,已开源
OpenAI对Agent SDK进行重大更新,支持MCP服务,现已开源,这一更新为Agent带来了统一接口标准,解锁了无限工具集成能力。以下是详细介绍:
MCP基本介绍全称与概念:MCP全称为Model Context Protocol,是一种专为大模型开放的统一开放接口。可将其类比为大模型的“USB接口”,任何符合接口标准的工具,如网络搜索、专业分析、本地查询、网络追踪等工具,都能与之连接。
核心框架组成模型:是系统的逻辑核心,决定系统如何处理和理解数据。在AI应用中,可能是理解语言的神经网络、处理图像的深度学习模型或进行预测分析的机器学习算法;在企业软件中,可能是指导客户互动的实体关系模型。
上下文:为模型提供运行环境,决定模型在不同条件下的行为,包含用户交互、环境因素和系统状态等变量。例如AI聊天机器人根据对话上下文生成回答,金融预测模型根据经济趋势调整预测结果。
协议:是通信的桥梁,定义系统内不同组件之间的交互规则,确保模型和上下文之间正确通信,保障分布式环境中的数据一致性、安全性和效率。
MCP对Agent的好处标准化接入工具和数据源Agent可通过统一接口与本地运行工具(如通过stdio服务器)和远程托管服务(HTTP over SSE服务)交互,极大扩展了第三方工具库。例如在金融领域,Agent接入股票分析MCP工具,可快速获取股票实时价格、历史走势、财务指标等数据并分析,为用户提供投资建议。
减少Agent与不同工具集成时的复杂性,Agent能轻松接入新工具和服务,无需大量修改核心逻辑,可快速适应新应用场景和需求。
动态工具发现能力Agent运行时,SDK调用MCP服务器方法动态获取当前可用工具列表,使Agent实时了解可用工具,无需在代码中硬编码工具信息。
这种机制赋予Agent高灵活性和适应性,能应对工具变化,如工具新增、删除或更新时,Agent可立即感知并调整行为。
性能优化支持缓存工具列表,Agent可多次运行复用,减少调用工具延迟,提升自动化效率。
Agent按需调用MCP服务器工具,而非初始化时加载所有工具,减少资源消耗,提高系统整体性能。
简化开发工作开发者通过简单配置将MCP服务器添加到Agent中,无需编写大量代码实现工具接入逻辑,简化开发流程,缩短开发周期。
工具接入标准化,便于开发者调试和测试工具,工具独立性也使问题定位更方便,提升开发效率。
实现解耦与模块化设计将工具和数据源实现细节与Agent逻辑分离,Agent无需关心工具具体实现,只需通过MCP协议交互,使Agent代码更简洁、易于维护。
工具作为独立模块通过MCP服务器提供给Agent,开发者可独立开发和部署工具,无需修改Agent代码,系统各部分可独立升级和优化,提升灵活性和可维护性。
MCP服务展示Firecrawl MCP服务:提供数据抓取、网页爬虫、深度研究、提取结构化数据等功能。
Browserbase MCP服务:可创建浏览器会话、导航至指定URL、截取屏幕截图等。
Opik MCP服务:启用追踪、获取追踪统计数据等。
Brave MCP:支持本地搜索、网络搜索等。
目前,OpenAI已在开源的Agent SDK中支持MCP,API和桌面版ChatGPT也将很快提供这一功能。
OpenAI 不可用使用开源模型一键替换 OpenAI API
当OpenAI不可用时,开发者可通过LlamaEdge等工具一键替换为开源模型,实现无缝迁移并保持API兼容性。以下是具体解决方案和操作步骤:
一、背景与可行性OpenAI服务限制OpenAI已明确停止对中国香港及中国大陆等地区提供服务,开发者需在7月9日前完成迁移,否则业务将中断。
开源模型能力突破
性能差距缩小:以MMLU测试为例,即将开源的Llama 3 405B得分86.1%,接近GPT-4o的87.2%。
成本优势:开源模型可本地部署,避免高昂的API调用费用。
技术成熟度:LlamaEdge等工具已实现与OpenAI API的完全兼容,支持快速迁移。
图:Llama 3与GPT-4o在MMLU测试中的性能对比二、一键替换方案:LlamaEdge1.核心优势轻量级与可移植性:基于Rust和Wasm技术,无Python依赖,支持嵌入应用。双端点支持:同时提供聊天模型(如Llama-3-8B)和向量模型(如Nomic-embed-text-v1.5)的API。硬件兼容性:支持Mac CPU/GPU、Nvidia GPU及边缘设备部署。2.快速部署方式(1)Docker镜像部署(推荐新手)
docker run--rm-p 8080:8080--name api-server secondstate/llama-3-8b-nomic-1.5:latest验证API:#聊天接口curl-X POST : application/json'-d'{"messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is the capital of France?"}],"model":"model_name"}'#向量接口curl-X POST : application/json'-d'{"model":"nomic-embed-text-v1.5.f16","input":["LlamaEdge is the easiest way to run LLMs locally."]}'(2)手动构建API Server(适合高级用户)
步骤1:安装WasmEdge运行时curl-sSf bash-s步骤2:下载模型与API程序#聊天模型curl-LO 向量模型curl-LO API程序curl-LO 步骤3:启动服务wasmedge--dir.:.--nn-preload default:GGML:AUTO:Meta-Llama-3-8B-Instruct-Q5_K_M.gguf--nn-preload embedding:GGML:AUTO:nomic-embed-text-v1.5.f16.gguf llama-api-server.wasm-p llama-3-chat,embedding--web-ui./chatbot-ui--model-name Meta-Llama-3-8B-Instruct-Q5_K_M,nomic-embed-text-v1.5.f16--ctx-size 4096,384--log-prompts--log-stat
图:LlamaEdge的API兼容性设计三、应用集成与扩展主流框架适配
Lobe Chat:修改OpenAI设置中的API Base URL为本地地址(如),并填写任意Key即可迁移。
Dify/LangChain:在模型配置中指定本地端点URL和模型名称(如Meta-Llama-3-8B-Instruct-Q5_K_M)。
完整RAG服务部署
步骤:
下载RAG专用Wasm程序(如rag-api-server.wasm)。
启动Qdrant向量数据库实例。
通过LlamaEdge调用聊天与检索接口。
参考文档:LlamaEdge RAG快速入门
图:Lobe Chat中替换OpenAI API的配置界面四、注意事项硬件要求:Docker部署需至少8GB内存。
Mac用户需使用CPU运行,或通过手动安装支持Apple GPU加速。
模型选择:轻量级任务:Llama-3-8B(适合聊天)。
高精度需求:Llama 3 405B(需更强硬件)。
社区支持:官方教程:SecondState模型列表
开发者论坛:LlamaEdge GitHub Discussions
通过上述方案,开发者可在数小时内完成从OpenAI到开源模型的迁移,确保业务连续性并降低长期成本。
没等来OpenAI,等来了Open-Sora全面开源
Open-Sora 1.0是 Colossal-AI团队开源的全球首个类 Sora架构视频生成模型,涵盖完整训练流程,包括数据处理、训练细节和模型权重,旨在降低技术门槛并推动视频生成技术发展。以下从模型架构、训练方法、数据预处理、生成效果及优化策略五个方面展开解读:
一、模型架构设计:基于 Diffusion Transformer的时空建模Open-Sora 1.0采用 Diffusion Transformer(DiT)架构,以开源文生图模型 PixArt-α为基座,通过引入时间注意力层扩展至视频数据。核心架构包含三部分:
预训练 VAE:压缩视频数据至潜在空间,降低计算复杂度。文本编码器:使用 T5模型将文本转换为嵌入向量,用于语义对齐。STDiT模型(Spatial Temporal Diffusion Transformer):空间-时间注意力机制:每层串行叠加二维空间注意力与一维时间注意力模块,建模时序关系。
交叉注意力模块:对齐文本语义,减少全注意力机制的计算开销。
优势:相比全注意力机制,STDiT训练和推理效率更高;相比同类模型 Latte,能更好利用预训练图像 DiT权重,降低视频训练成本。
二、训练方法:三阶段渐进式优化Open-Sora复现方案参考 Stable Video Diffusion(SVD),分三阶段训练:
大规模图像预训练利用互联网图像数据训练文生图模型,生成高质量初始化权重。
采用 Stable Diffusion的预训练图像 VAE,保障初始性能并降低成本。
大规模视频预训练引入时序注意力模块,学习视频时间序列关联。
加载第一阶段权重,初始化时序模块输出为零以加速收敛。
使用 256x256小分辨率预训练,进一步降低成本。
高质量视频数据微调使用更高分辨率、时长的视频数据微调,提升生成质量。
数据规模比第二阶段少一个量级,但质量显著提升,实现从短到长、低分辨率到高分辨率的扩展。
训练成本:
第二阶段:2808 GPU小时(约 7000美元)。第三阶段:1920 GPU小时(约 4500美元)。总成本控制在 1万美元左右(使用 64块 H800训练)。三、数据预处理:自动化脚本降低门槛Colossal-AI团队提供完整的数据预处理工具链:
公开数据集下载:支持自动获取视频数据。长视频分割:按镜头连续性将长视频切分为短视频片段。提示词生成:使用开源大语言模型 LLaVA生成精细文本描述,两卡 3秒标注一个视频,质量接近 GPT-4V。输出格式:生成视频/文本对,可直接用于训练。四、模型生成效果:多场景展示与现存局限生成示例:
自然景观:悬崖海岸航拍、山川瀑布鸟瞰、水下海龟游弋。天文现象:延时摄影展示银河繁星闪烁。现存问题:
生成质量:当前版本仅使用 400K训练数据,生成质量有待提升(如乌龟多出一只脚)。复杂场景:不擅长生成人像和复杂画面。待优化方向:团队计划通过增加训练数据、改进架构提升生成质量。五、高效训练策略:Colossal-AI加速系统算子优化与混合并行:处理 64帧、512x512分辨率视频时,实现 1.55倍加速。异构内存管理:单台服务器(8×H800)可无障碍训练 1分钟 1080p视频。STDiT高效性:相比全注意力机制 DiT,帧数增加时加速比高达 5倍,显著提升长视频训练效率。总结与展望Open-Sora 1.0通过开源完整训练流程,显著降低了视频生成技术的复现门槛,为全球开发者提供了可复用的工具链。尽管当前版本存在生成质量局限,但团队计划通过扩大数据规模、优化架构(如支持多分辨率)持续改进。未来,该模型有望在电影、游戏、广告等领域推动 AI技术落地。开源地址:GitHub- Open-Sora
好了,文章到此结束,希望可以帮助到大家。