openai开源两款推理模型(小米开源其首个推理大模型 Xiaomi MiMo,对标 OpenAI o1-mini)

编程之家2026-06-251054次浏览

小米开源其首个推理大模型 Xiaomi MiMo,对标 OpenAI o1-mini

小米开源的「Xiaomi MiMo」是其首个专为推理设计的大模型，参数规模为7B，在数学推理和代码竞赛等任务中性能超越OpenAI的o1-mini及阿里QwQ-32B-Preview，成为同等规模下推理能力领先的开源模型。

一、MiMo的核心技术突破预训练阶段创新

小米团队通过挖掘富含推理模式的语料，合成了约200B tokens的推理数据，并采用三阶段训练策略逐步提升难度，累计训练量达25T tokens，远超同等规模模型的常规训练量。

这种设计使模型在训练初期接触简单推理任务，后期逐步挑战复杂逻辑，最终形成更强的推理能力。

图源：小米大模型后训练阶段优化

“Test Difficulty Driven Reward”机制：针对困难算法问题中奖励稀疏的问题，通过动态调整奖励信号，引导模型更高效地学习复杂推理路径。

“Easy Data Re-Sampling”策略：通过重复采样简单数据增强训练稳定性，避免强化学习因数据分布不均导致的性能波动。

“Seamless Rollout”系统：优化强化学习框架，使训练速度提升2.29倍，验证速度提升1.96倍，显著降低研发成本。

图源：小米大模型二、性能对比与行业定位超越闭源与开源竞品

在数学推理（AIME24-25）和代码竞赛（LiveCodeBenchv5）两项公开测评中，MiMo-7B的性能优于：

OpenAI的闭源推理模型o1-mini（未公开参数规模，但通常被认为大于7B）；

阿里开源的更大规模模型QwQ-32B-Preview（参数规模32B）。

这一结果证明，小米通过算法优化而非单纯扩大参数规模，实现了推理能力的突破。

对标行业标杆

OpenAI的o1系列模型以复杂推理能力著称，但闭源特性限制了学术界和开发者的研究与应用。

MiMo的开源策略填补了市场空白，为中小企业和研究机构提供了高性能、可定制的推理模型选择。

三、开源意义与生态布局推动技术普惠

MiMo-7B系列模型已全部开源至HuggingFace平台（链接：），开发者可自由下载、修改和部署。

开源技术报告（链接：）详细披露了训练数据、算法设计及实验结果，为行业提供可复现的参考。

小米大模型战略落地

MiMo是小米大模型Core团队成立后的首个重要成果，标志着小米从消费电子向AI基础设施领域的延伸。

未来，小米可能基于MiMo进一步开发垂直领域推理模型（如机器人控制、智能家居决策），强化其“AI+硬件”生态的竞争力。

四、挑战与未来方向当前局限性

尽管MiMo在特定任务中表现优异，但其推理能力仍局限于数学和编程领域，尚未验证在自然语言推理、多模态任务中的泛化性。

7B参数规模虽高效，但在处理超复杂问题时可能不如更大模型（如GPT-4、Gemini Ultra）。

潜在优化路径

扩展模型规模：通过增加参数和训练数据，进一步提升推理上限。

多模态融合：结合视觉、语音等信息，拓展推理场景（如科学实验分析、医疗诊断）。

轻量化部署：优化模型结构，使其在边缘设备（如手机、IoT终端）上高效运行。

总结：Xiaomi MiMo的开源是小米在AI领域的一次重要布局，其通过数据-算法-框架的协同创新，证明了小参数模型在推理任务中的潜力。随着社区贡献和持续迭代，MiMo有望成为开源推理模型的标杆，推动AI技术从“生成”向“思考”的深层进化。

硅基流动国际站上线 OpenAI gpt-oss

硅基流动国际站已上线 OpenAI开源的 gpt-oss-120B和 gpt-oss-20B两款轻量级 MoE模型，支持智能 Agent工作流，具备强大的逻辑推理与多任务处理能力，且在多项评测中表现优异。

一、模型基本信息gpt-oss-120B

总参数：117B

激活参数：5.1B

性能表现：在竞赛编程、通用问题解决、工具调用等任务中优于 OpenAI o3-mini，部分维度持平或超越 o4-mini，尤其在健康查询与竞赛数学领域表现突出。

gpt-oss-20B

总参数：21B

激活参数：3.6B

性能表现：规模更小但性能强劲，在竞赛数学和医疗应用中表现不俗，与 o3-mini持平甚至更优。

二、模型特点与技术优势架构设计

基于 Transformer架构，采用 MoE（混合专家）技术减少活跃参数量，提升推理效率。

交替使用密集注意力与局部带状稀疏注意力，类似 GPT-3的注意力模式。

使用分组多查询注意力机制（组大小为 8）和旋转位置编码（RoPE），原生支持 128K上下文长度（国际站支持 131K）。

训练优化

借鉴 OpenAI最先进的预训练与后训练技术，包括监督微调和高计算量强化学习，后训练流程与 o4-mini相似。

强调逻辑推理能力、效率及多样化部署环境的实际可用性。

核心能力

指令执行与工具调用：支持复杂任务分解与自动化工具调用。

少样本函数调用：通过少量示例快速适应新函数。

结构化输出与完整思维链（CoT）：生成逻辑连贯、可解释的推理过程。

动态推理强度调整：根据任务需求平衡性能、成本与延迟。

三、性能评测结果评测任务：涵盖编程（Codeforces）、竞赛数学（AIME 2024/2025）、医疗（HealthBench）、通用问题解决（MMLU/HLE）及工具调用（TauBench）等关键领域。对比模型：OpenAI o3、o3-mini、o4-mini。关键结论：gpt-oss-120B：在多数任务中优于 o3-mini，部分维度持平或超越 o4-mini，尤其在健康查询与竞赛数学领域表现卓越。

gpt-oss-20B：规模更小但性能强劲，与 o3-mini持平甚至更优，在竞赛数学和医疗应用中表现突出。

四、使用方式与定价国际站入口

在线体验：

开发者 API文档：

定价信息

gpt-oss-120B：

输入：0.09美元/ M Tokens

输出：0.45美元/ M Tokens

gpt-oss-20B：

输入：0.04美元/ M Tokens

输出：0.18美元/ M Tokens

新用户福利：国际站新用户可自动获取 1美元赠金体验服务。

五、硅基流动国际站平台优势一站式大模型云服务：提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。模型生态丰富：除 gpt-oss外，已上架包括 FLUX.1 Kontext [dev]、GLM-4.5V、Step3、Qwen3-Coder等数十款模型，覆盖多领域需求。灵活组合与调用：开发者可自由组合模型，通过易用、高效的 API为生成式 AI应用选择最佳实践。总结硅基流动国际站上线的 gpt-oss模型凭借其先进的架构设计、高效的推理能力及优异的性能表现，为全球开发者提供了高性价比的选择。平台丰富的模型生态与灵活的调用方式，进一步降低了生成式 AI应用的开发门槛，助力创新与效率提升。

OpenAI 不可用使用开源模型一键替换 OpenAI API

当OpenAI不可用时，开发者可通过LlamaEdge等工具一键替换为开源模型，实现无缝迁移并保持API兼容性。以下是具体解决方案和操作步骤：

一、背景与可行性OpenAI服务限制OpenAI已明确停止对中国香港及中国大陆等地区提供服务，开发者需在7月9日前完成迁移，否则业务将中断。

开源模型能力突破

性能差距缩小：以MMLU测试为例，即将开源的Llama 3 405B得分86.1%，接近GPT-4o的87.2%。

成本优势：开源模型可本地部署，避免高昂的API调用费用。

技术成熟度：LlamaEdge等工具已实现与OpenAI API的完全兼容，支持快速迁移。

图：Llama 3与GPT-4o在MMLU测试中的性能对比二、一键替换方案：LlamaEdge1.核心优势轻量级与可移植性：基于Rust和Wasm技术，无Python依赖，支持嵌入应用。双端点支持：同时提供聊天模型（如Llama-3-8B）和向量模型（如Nomic-embed-text-v1.5）的API。硬件兼容性：支持Mac CPU/GPU、Nvidia GPU及边缘设备部署。2.快速部署方式（1）Docker镜像部署（推荐新手）

docker run--rm-p 8080:8080--name api-server secondstate/llama-3-8b-nomic-1.5:latest验证API：#聊天接口curl-X POST : application/json'-d'{"messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is the capital of France?"}],"model":"model_name"}'#向量接口curl-X POST : application/json'-d'{"model":"nomic-embed-text-v1.5.f16","input":["LlamaEdge is the easiest way to run LLMs locally."]}'（2）手动构建API Server（适合高级用户）

步骤1：安装WasmEdge运行时curl-sSf bash-s步骤2：下载模型与API程序#聊天模型curl-LO 向量模型curl-LO API程序curl-LO 步骤3：启动服务wasmedge--dir.:.--nn-preload default:GGML:AUTO:Meta-Llama-3-8B-Instruct-Q5_K_M.gguf--nn-preload embedding:GGML:AUTO:nomic-embed-text-v1.5.f16.gguf llama-api-server.wasm-p llama-3-chat,embedding--web-ui./chatbot-ui--model-name Meta-Llama-3-8B-Instruct-Q5_K_M,nomic-embed-text-v1.5.f16--ctx-size 4096,384--log-prompts--log-stat

图：LlamaEdge的API兼容性设计三、应用集成与扩展主流框架适配

Lobe Chat：修改OpenAI设置中的API Base URL为本地地址（如），并填写任意Key即可迁移。

Dify/LangChain：在模型配置中指定本地端点URL和模型名称（如Meta-Llama-3-8B-Instruct-Q5_K_M）。

完整RAG服务部署

步骤：

下载RAG专用Wasm程序（如rag-api-server.wasm）。

启动Qdrant向量数据库实例。

通过LlamaEdge调用聊天与检索接口。

参考文档：LlamaEdge RAG快速入门

图：Lobe Chat中替换OpenAI API的配置界面四、注意事项硬件要求：Docker部署需至少8GB内存。

Mac用户需使用CPU运行，或通过手动安装支持Apple GPU加速。

模型选择：轻量级任务：Llama-3-8B（适合聊天）。

高精度需求：Llama 3 405B（需更强硬件）。

社区支持：官方教程：SecondState模型列表

开发者论坛：LlamaEdge GitHub Discussions

通过上述方案，开发者可在数小时内完成从OpenAI到开源模型的迁移，确保业务连续性并降低长期成本。

文章到此结束，如果本次分享的openai开源两款推理模型和小米开源其首个推理大模型 Xiaomi MiMo,对标 OpenAI o1-mini的问题解决了您的问题，那么我们由衷的感到高兴！

牧师史诗任务牧师任务寻求指引rowspan属性是指什么合并，rowspan是什么标记的属性