openai开源两款推理模型(小米开源其首个推理大模型 Xiaomi MiMo,对标 OpenAI o1-mini)
小米开源其首个推理大模型 Xiaomi MiMo,对标 OpenAI o1-mini
小米开源的「Xiaomi MiMo」是其首个专为推理设计的大模型,参数规模为7B,在数学推理和代码竞赛等任务中性能超越OpenAI的o1-mini及阿里QwQ-32B-Preview,成为同等规模下推理能力领先的开源模型。
一、MiMo的核心技术突破预训练阶段创新
小米团队通过挖掘富含推理模式的语料,合成了约200B tokens的推理数据,并采用三阶段训练策略逐步提升难度,累计训练量达25T tokens,远超同等规模模型的常规训练量。
这种设计使模型在训练初期接触简单推理任务,后期逐步挑战复杂逻辑,最终形成更强的推理能力。
图源:小米大模型后训练阶段优化
“Test Difficulty Driven Reward”机制:针对困难算法问题中奖励稀疏的问题,通过动态调整奖励信号,引导模型更高效地学习复杂推理路径。
“Easy Data Re-Sampling”策略:通过重复采样简单数据增强训练稳定性,避免强化学习因数据分布不均导致的性能波动。
“Seamless Rollout”系统:优化强化学习框架,使训练速度提升2.29倍,验证速度提升1.96倍,显著降低研发成本。
图源:小米大模型二、性能对比与行业定位超越闭源与开源竞品
在数学推理(AIME24-25)和代码竞赛(LiveCodeBenchv5)两项公开测评中,MiMo-7B的性能优于:
OpenAI的闭源推理模型o1-mini(未公开参数规模,但通常被认为大于7B);
阿里开源的更大规模模型QwQ-32B-Preview(参数规模32B)。
这一结果证明,小米通过算法优化而非单纯扩大参数规模,实现了推理能力的突破。
对标行业标杆
OpenAI的o1系列模型以复杂推理能力著称,但闭源特性限制了学术界和开发者的研究与应用。
MiMo的开源策略填补了市场空白,为中小企业和研究机构提供了高性能、可定制的推理模型选择。
三、开源意义与生态布局推动技术普惠
MiMo-7B系列模型已全部开源至HuggingFace平台(链接:),开发者可自由下载、修改和部署。
开源技术报告(链接:)详细披露了训练数据、算法设计及实验结果,为行业提供可复现的参考。
小米大模型战略落地
MiMo是小米大模型Core团队成立后的首个重要成果,标志着小米从消费电子向AI基础设施领域的延伸。
未来,小米可能基于MiMo进一步开发垂直领域推理模型(如机器人控制、智能家居决策),强化其“AI+硬件”生态的竞争力。
四、挑战与未来方向当前局限性
尽管MiMo在特定任务中表现优异,但其推理能力仍局限于数学和编程领域,尚未验证在自然语言推理、多模态任务中的泛化性。
7B参数规模虽高效,但在处理超复杂问题时可能不如更大模型(如GPT-4、Gemini Ultra)。
潜在优化路径
扩展模型规模:通过增加参数和训练数据,进一步提升推理上限。
多模态融合:结合视觉、语音等信息,拓展推理场景(如科学实验分析、医疗诊断)。
轻量化部署:优化模型结构,使其在边缘设备(如手机、IoT终端)上高效运行。
总结:Xiaomi MiMo的开源是小米在AI领域的一次重要布局,其通过数据-算法-框架的协同创新,证明了小参数模型在推理任务中的潜力。随着社区贡献和持续迭代,MiMo有望成为开源推理模型的标杆,推动AI技术从“生成”向“思考”的深层进化。
硅基流动国际站上线 OpenAI gpt-oss
硅基流动国际站已上线 OpenAI开源的 gpt-oss-120B和 gpt-oss-20B两款轻量级 MoE模型,支持智能 Agent工作流,具备强大的逻辑推理与多任务处理能力,且在多项评测中表现优异。
一、模型基本信息gpt-oss-120B
总参数:117B
激活参数:5.1B
性能表现:在竞赛编程、通用问题解决、工具调用等任务中优于 OpenAI o3-mini,部分维度持平或超越 o4-mini,尤其在健康查询与竞赛数学领域表现突出。
gpt-oss-20B
总参数:21B
激活参数:3.6B
性能表现:规模更小但性能强劲,在竞赛数学和医疗应用中表现不俗,与 o3-mini持平甚至更优。
二、模型特点与技术优势架构设计
基于 Transformer架构,采用 MoE(混合专家)技术减少活跃参数量,提升推理效率。
交替使用密集注意力与局部带状稀疏注意力,类似 GPT-3的注意力模式。
使用分组多查询注意力机制(组大小为 8)和旋转位置编码(RoPE),原生支持 128K上下文长度(国际站支持 131K)。
训练优化
借鉴 OpenAI最先进的预训练与后训练技术,包括监督微调和高计算量强化学习,后训练流程与 o4-mini相似。
强调逻辑推理能力、效率及多样化部署环境的实际可用性。
核心能力
指令执行与工具调用:支持复杂任务分解与自动化工具调用。
少样本函数调用:通过少量示例快速适应新函数。
结构化输出与完整思维链(CoT):生成逻辑连贯、可解释的推理过程。
动态推理强度调整:根据任务需求平衡性能、成本与延迟。
三、性能评测结果评测任务:涵盖编程(Codeforces)、竞赛数学(AIME 2024/2025)、医疗(HealthBench)、通用问题解决(MMLU/HLE)及工具调用(TauBench)等关键领域。对比模型:OpenAI o3、o3-mini、o4-mini。关键结论:gpt-oss-120B:在多数任务中优于 o3-mini,部分维度持平或超越 o4-mini,尤其在健康查询与竞赛数学领域表现卓越。
gpt-oss-20B:规模更小但性能强劲,与 o3-mini持平甚至更优,在竞赛数学和医疗应用中表现突出。
四、使用方式与定价国际站入口
在线体验:
开发者 API文档:
定价信息
gpt-oss-120B:
输入:0.09美元/ M Tokens
输出:0.45美元/ M Tokens
gpt-oss-20B:
输入:0.04美元/ M Tokens
输出:0.18美元/ M Tokens
新用户福利:国际站新用户可自动获取 1美元赠金体验服务。
五、硅基流动国际站平台优势一站式大模型云服务:提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。模型生态丰富:除 gpt-oss外,已上架包括 FLUX.1 Kontext [dev]、GLM-4.5V、Step3、Qwen3-Coder等数十款模型,覆盖多领域需求。灵活组合与调用:开发者可自由组合模型,通过易用、高效的 API为生成式 AI应用选择最佳实践。总结硅基流动国际站上线的 gpt-oss模型凭借其先进的架构设计、高效的推理能力及优异的性能表现,为全球开发者提供了高性价比的选择。平台丰富的模型生态与灵活的调用方式,进一步降低了生成式 AI应用的开发门槛,助力创新与效率提升。
OpenAI 不可用使用开源模型一键替换 OpenAI API
当OpenAI不可用时,开发者可通过LlamaEdge等工具一键替换为开源模型,实现无缝迁移并保持API兼容性。以下是具体解决方案和操作步骤:
一、背景与可行性OpenAI服务限制OpenAI已明确停止对中国香港及中国大陆等地区提供服务,开发者需在7月9日前完成迁移,否则业务将中断。
开源模型能力突破
性能差距缩小:以MMLU测试为例,即将开源的Llama 3 405B得分86.1%,接近GPT-4o的87.2%。
成本优势:开源模型可本地部署,避免高昂的API调用费用。
技术成熟度:LlamaEdge等工具已实现与OpenAI API的完全兼容,支持快速迁移。
图:Llama 3与GPT-4o在MMLU测试中的性能对比二、一键替换方案:LlamaEdge1.核心优势轻量级与可移植性:基于Rust和Wasm技术,无Python依赖,支持嵌入应用。双端点支持:同时提供聊天模型(如Llama-3-8B)和向量模型(如Nomic-embed-text-v1.5)的API。硬件兼容性:支持Mac CPU/GPU、Nvidia GPU及边缘设备部署。2.快速部署方式(1)Docker镜像部署(推荐新手)
docker run--rm-p 8080:8080--name api-server secondstate/llama-3-8b-nomic-1.5:latest验证API:#聊天接口curl-X POST : application/json'-d'{"messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is the capital of France?"}],"model":"model_name"}'#向量接口curl-X POST : application/json'-d'{"model":"nomic-embed-text-v1.5.f16","input":["LlamaEdge is the easiest way to run LLMs locally."]}'(2)手动构建API Server(适合高级用户)
步骤1:安装WasmEdge运行时curl-sSf bash-s步骤2:下载模型与API程序#聊天模型curl-LO 向量模型curl-LO API程序curl-LO 步骤3:启动服务wasmedge--dir.:.--nn-preload default:GGML:AUTO:Meta-Llama-3-8B-Instruct-Q5_K_M.gguf--nn-preload embedding:GGML:AUTO:nomic-embed-text-v1.5.f16.gguf llama-api-server.wasm-p llama-3-chat,embedding--web-ui./chatbot-ui--model-name Meta-Llama-3-8B-Instruct-Q5_K_M,nomic-embed-text-v1.5.f16--ctx-size 4096,384--log-prompts--log-stat
图:LlamaEdge的API兼容性设计三、应用集成与扩展主流框架适配
Lobe Chat:修改OpenAI设置中的API Base URL为本地地址(如),并填写任意Key即可迁移。
Dify/LangChain:在模型配置中指定本地端点URL和模型名称(如Meta-Llama-3-8B-Instruct-Q5_K_M)。
完整RAG服务部署
步骤:
下载RAG专用Wasm程序(如rag-api-server.wasm)。
启动Qdrant向量数据库实例。
通过LlamaEdge调用聊天与检索接口。
参考文档:LlamaEdge RAG快速入门
图:Lobe Chat中替换OpenAI API的配置界面四、注意事项硬件要求:Docker部署需至少8GB内存。
Mac用户需使用CPU运行,或通过手动安装支持Apple GPU加速。
模型选择:轻量级任务:Llama-3-8B(适合聊天)。
高精度需求:Llama 3 405B(需更强硬件)。
社区支持:官方教程:SecondState模型列表
开发者论坛:LlamaEdge GitHub Discussions
通过上述方案,开发者可在数小时内完成从OpenAI到开源模型的迁移,确保业务连续性并降低长期成本。
文章到此结束,如果本次分享的openai开源两款推理模型和小米开源其首个推理大模型 Xiaomi MiMo,对标 OpenAI o1-mini的问题解决了您的问题,那么我们由衷的感到高兴!