官方,y31成色.232.1.232"早上滨颁鲍,晚上碍罢痴":惭颈苍颈惭补虫研究员讲述开放模型背后的工程暗战

Turing Post频道最近发布了一期与MiniMax高级研究员Olive Song的深度对话，这也是西方媒体首次对MiniMax研究团队的一对一访谈。对话录制于1月底一个周日晚上九点，当时Olive正在等待新一轮模型实验的结果。两周后，MiniMax在马年春节档投下重磅炸弹。同一个晚上，智谱GLM-5以“Pony Alpha”的匿名身份在OpenRouter走红数日后正式揭面，744亿参数对标Claude Opus 4.5。除夕当天（2月16日），阿里千问Qwen 3.5-Plus压轴登场，3970亿总参数、170亿激活参数，API价格仅为Gemini 3 Pro的十八分之一。不过，去年引发春节AI风暴的DeepSeek，V4版本则没有正式露面。虽然2月11日用户发现DeepSeek悄然将上下文窗口从128K升级至1M，但回复风格骤变引发“变冷淡”热搜，被认为只是V4的灰度测试，截至今天官方仍未正式官宣。 M2.5开源后，迅速被社区明星项目OpenClaw选为推荐模型。OpenClaw早在1月30日就通过OAuth（开放授权协议）插件接入了MiniMax的模型服务，M2.5发布后开发者可以零配置切换，在Telegram、WhatsApp上跑起自己的AI助手，每小时成本仅1美元。 1月9日才以165港元发行价登陆港交所的MiniMax，在M2.5发布前后股价一度大涨超过20%，到春节前最后一个交易日（2月16日）收于847港元，上市仅39天累计涨幅超过413%，市值突破2656亿港元。回头再听这场对话，会发现Olive在访谈中提到的几乎每一个技术难题，都精准预言了M2.5最终要解决的方向：环境适配、长程任务、Agent对齐、推理效率。她当时把即将发布的版本称为“2.2”，说“大约1个月到1个半月发一个版本”。从2025年10月底的M2到2026年2月中旬的M2.5，108天三个主要版本，MiniMax的迭代速度比她自己的预期还快。 Olive用了一个MiniMax内部流行的段子来形容她的日常。“一天之内不会全是好日子或全是坏日子。我们开玩笑说，早上ICU，晚上KTV——有时候反过来也行。”意思是早上可能还在抢救崩掉的实验（ICU，重症监护室），晚上就拿到好结果开始庆祝了（KTV，卡拉OK）；也可能早上结果很好，晚上又塌了。结果在一天之内剧烈摆动，是这个工作的常态。她做的是强化学习（reinforcement learning，简称RL，一种让模型通过试错和奖励信号来改进自身行为的训练方法）和模型评估，这两个领域是模型开发中最不留情面的环节。她也比大多数美国大型AI实验室面临更多资源约束。强化学习训练中，模型会想尽一切办法“hack”（黑掉）系统来获取高分。“它会疯狂调用bash命令（操作系统的命令行指令），有时候做出非常不安全的行为。”Olive说。专家开发者对模型行为有自己的预期，但不加约束的模型完全不按套路出牌。这种发现“新行为”的过程，在她看来反而是最兴奋的时刻。“即使这些行为可能不安全，可能不符合预期，发现它们本身就很刺激。”至于坏消息？“看到糟糕结果的那一瞬间确实不好受，但一旦开始拆解问题、定位原因，又变成了好时光。” MiniMax的研发节奏要求团队随时在线。有人通宵工作白天睡觉，有人跟着实验周期走。“实验跑一整天，中间可以休息，但如果我们对结果很好奇，根本等不了。我们对结果充满热情。”Olive说。这种弹性制度听起来自由，实际上靠的是对结果的高度投入。2、逐层排查：FP32精度的故事当时强化学习训练的准确率怎么都上不去。团队逐层检查log probabilities（对数概率，模型对每个词的预测置信度的数学表示），发现理论上应该收敛的算法存在一个隐蔽的偏差，最终定位到问题根源是LM head（语言模型头，模型最后一层，负责将内部表示转换为对每个词的概率预测）的数值精度。把它从低精度切换到FP32（32位浮点数，一种更高精度的数值格式）之后，训练恢复正常。 “理论上算法必须work，那一定是实现层面有什么gap。”Olive说。她的思路是：先确认理论算法的正确性，然后分析理论与实现之间的差距，逐层排查。她把这叫做追求“理论极限”——每一个实现细节都要尽可能逼近理论算法的最优状态。“我们发现精度问题是阻止我们接近那个极限的因素之一，然后我们解决了它。” 她拒绝透露正在进行的类似发现。“我们希望公开发表的结论是经过深度验证的，不是半成品。如果有突破，我们一定会发表。”后来M2.5发布时，MiniMax在技术博客中写道，M2系列进步的关键驱动力之一正是“强化学习的规模化”，配合自研的RL框架Forge、算法优化、奖励信号设计和基础设施工程。Olive访谈中反复强调的“工程极其重要”，在这里得到了最直接的验证。 “模型必须在高效和安全之间取得平衡。它不能为了达成最终目标就自行生长、做出危险行为。”她说。对齐的核心在于三件事：如何定义人类对齐，如何定义专家的期望，以及如何实际训练模型来满足这些期望。这里的“专家”是指和研究员坐在一起工作的开发者。MiniMax的组织方式是研究员和不同领域的开发者混合办公，每天分享实验结果。“我们坐在一起看模型的行为，开发者能立刻发现问题，然后我们一起想出修复方案或者构建新的训练数据。” 发布前一到两周，团队会进行大规模评估和对齐调优。内部有多维度的安全基准，涵盖敏感性安全（sensitive safety）和对齐安全（alignment safety）等不同方面。但Olive也坦承，一旦模型以开放权重（open weights，公开模型参数，允许用户自行部署和微调）发布，用户可以做的事情超出了他们的控制范围。“说实话，我不知道我们怎么处理这个问题。法律和法规在那里，人们也认同某些道德标准。” 访谈中，主持人提到了MiniMax Her的发布——这款角色扮演产物在Twitter上引发了广泛讨论。Olive坦言自己不是这方面的专家，MiniMax有一个专门团队负责角色扮演相关工作。但她补充了团队的共识：“我们确实相信，角色扮演，或者说AI陪伴人类、与人互动，在未来AI融入社会生活的过程中非常重要。这代表了一种非常卓越的能力，因为这是humanlike的——它有情感，它理解你的情感，而不只是解几道考试题。这是AI能力的另一面。” MiniMax的理念口号是“Intelligence with Everyone”（智能与每个人）。对Olive个人而言，这意味着AI如何切实改变了她的生活。“以前有很多非常专业的问题我无法理解，比如专业的编程问题或优化问题，现在借助AI我能做到了。这样我就能和更多人交流，交换更多想法。”另一方面，AI也帮助了她的日常生活，工作、日常事务、自我管理。“它改变了我的生活，我希望它也能改变每个人的生活——当然是往好的方向。” 主持人问到了一个实际问题：有没有在基准测试中没有暴露、但在真实Agent使用中才显现的强化学习失败模式？MiniMax如何收集反馈来改进下一代模型？ Olive描述了一个两阶段的流程。第一阶段是内部，开发者使用模型并指出问题，团队据此修复，但这还不够。第二阶段在模型正式发布之后，来自外部的大量反馈会涌入。“我们系统地收集这些反馈，分析每一个问题。有些是基础性的，有些只是我们遗漏的小问题，可以很快修复。” MiniMax的团队按能力模块分工。收集到需要改进的问题后，不同的人认领各自负责的部分。“他们会说‘我觉得我能解决这个问题，我会在下一代模型中解决它’，这就是我们收集反馈并改进模型的方式。” 随后，主持人问了一个尖锐的问题：开放模型在真实生产环境中，最先出问题的地方是什么？推理、工具调用、状态追踪、评估——哪个环节最先崩溃？ “比如很多人用Claude在不同的编码环境里工作，他们以为模型在所有环境里都表现一样好。但我不觉得当前的开放模型能达到那种准确度，或者说对不同环境、不同工具定义的理解深度。” 她承认这是一个可以解决的问题，MiniMax正在为此努力。“我们在2.2里改进了这个问题，但还没有达到Opus的水平。2.5的时候可能可以。我们确实有一些系统性的研究正在进行，已经展现了一些成果，但还不是最终结论，所以我不会说出来。” 这段话在M2.5发布后得到了印证。MiniMax在M2.5的技术文档中强调，模型在“完全没见过的环境”甚至“完全超出分布的环境”（out of distribution，训练时从未接触过的场景）中都展现出了比M2.1更高的得分。他们把“数十万个真实复杂环境中的大规模强化学习训练”列为核心技术路径。被问到是不是算力差距造成的，Olive的回答很有分寸：“算力是一个方面，但我们怎么构建问题、怎么接近问题，是另一个方面。我们对后者更有信心，相信我们能解决这个问题。” MiniMax的M2系列主打编码能力，但这并不意味着他们放弃了通用模型的方向。Olive澄清说，他们正在走向通用化，只是在编码上投入了更多精力。“我们的模型也可以放进任何通用Agent scaffold（Agent框架/脚手架，为AI提供工具调用、记忆管理等基础能力的软件架构）里，包括我们自己的Agent产物，那是通用目的的。我们也在做研究、报告写作、PPT之类的通用任务。” 她给出了一个很个人化的理由来解释为什么编码如此重要：“我觉得通过编码，你可以结构化整个世界，用工程的方式建模很多东西。对我来说，它背后是对人类能力的放大（scaled up humanity）。它本身蕴含了大量的智能和大量的工作。” 长程任务（long horizon，指需要模型在很多步骤中持续规划和执行的复杂任务）是Agent模型的核心挑战。Olive把Agentic RL（面向智能体场景的强化学习）与传统RL的区别拆成了三个层面。第一，定义。“首先你需要定义Agent是什么，定义Agent模型的工作方式。你需要定义任务，定义模型的目标。尤其在长程任务中，目标必须足够困难和多样。” 第三，基础设施。“你需要卓越的RL基础设施，让模型真正能在很长的horizon上rollout（在RL中指模型在环境中执行一系列完整动作的过程），同时保证GPU使用效率、训练与rollout之间的高效衔接、训练稳定性。” MiniMax有一个专门的团队负责计算效率优化。“他们的目标是最小化计算使用量，同时训练更多。”但被问到这是一个独立的团队还是她自己需要参与的工作时，Olive笑了：“我们其实是同一个团队，因为我们就是强化学习团队。我们从不同视角看同一个问题——可以从实现角度看，可以从数据角度看，但目标是一样的。” 她还透露，团队正在做一些”新的Agentic RL工作“，不会随当前版本发布。”这取决于我们的时间，我还不是很有信心，但我们在专注地做这件事。“ “我们研究团队从第一天就想做开源。开源社区太棒了，我入职第一天就学到了这一点。”但她也坦言公司层面有不同考虑。“作为公司，大家会关心这能不能赚钱，这是不是一门生意。开源权重的话，用API的人可能会减少。” MiniMax自己也大量使用开源工具。推理框架方面，他们和vLLM、SGLang（两个主流的大模型推理和服务框架，专注于高效部署和推理加速）深度合作。Olive说团队会研究各种开源Agent框架的代码和设计逻辑，“看他们的代码，看他们如何设计scaffold和引擎，然后反思我们自己对问题的思考方式，看是不是在同一个方向上。我们互相学习。” M2.5发布时，MiniMax选择在Hugging Face（全球最大的开源模型托管平台）上以修改版MIT协议开源全部权重。OpenClaw在1月30日的更新中就已经加入了MiniMax OAuth插件，让开发者零配置接入MiniMax模型。此后，OpenClaw社区开始涌现大量基于M2.5的Agent应用，从Telegram机器人到全自动化办公流程。有博主实测，三个M2.5 Agent通过Telegram全天候运行，成本仅为使用闭源前沿模型的5%。主持人追问了一个开发者关心的问题：团队是否低估了开放模型相比闭源API所需要的工程投入？毕竟使用开放模型意味着自行部署、管理算力、调试兼容性，这需要完全不同的工程能力。 Olive说她个人没有这个困扰。“如果有其他开源模型发布，我就下载下来部署到我们的机器上使用。”但她理解外部个人开发者的处境：“尤其是当他们没有自己的算力时，通过OpenRouter（一个聚合多个AI模型API的服务平台）之类的服务连接到模型会更容易。” “从专业评估的角度，五个问题远远不够。”她说。要做公正的模型对比，需要在每个领域有足够数量的测试题，而且通常需要多次测试，因为“模型本身不够稳定”。她指出了评估中的多个隐患：有些问题本身不正确，有些问题的答案不唯一，有些测试环境不固定，比如gold pattern（标准答案/参考模式）本身就通不过。“如果做专业评估，必须确保评估集是正确的、多样的、达到一定数量阈值的，这样测试才有置信度。” 不过如果只是为了好玩，她建议用那些你个人感兴趣的问题就好。她自己保持着一套私人测试集。“我从入职以来一直在收集各种问题，涵盖逻辑推理、数学证明、报告写作、Agent任务等等，很多很多。每出一个新模型我就拿这些问题跑一遍，看不同模型怎么接近这些问题，怎么反应。不同的模型有不同的个性。” “一个通用模型应该拥有所有性格，或者说应该能扮演所有角色。它可能有一个默认性格，但如果用户想让它变成不同的角色，它应该做到。如果通过system prompt（系统提示词，预先设定模型行为和身份的指令）注入新角色，它应该能切换。” 她认为不同模型性格差异的原因很可能是“训练数据的不同模式，以及不同团队可能有自己的constitution（行为准则/宪法式规范，定义模型默认行为的内部规则集）”。 “每天都有大量新文章、博客、论文发布。我们的处理方式是，我们有一个内部Agent，它追踪所有新的文章、博客和论文，然后按主题分发，做摘要，做分析。”她管它叫“内部研究员”（internal researcher）。这个Agent先做第一轮过滤，把筛选后的结果推送给人类研究员。“如果我们觉得它过滤得不好，我们还可以改进它。” 在这之后，团队会用编程Agent来快速上手新的代码仓库，“这样我们可以更快地理解新东西、更快地实验。我们用Agent和我们自己的模型来加速跟进所有的进展。” “加入公司工作几个月后，你就已经站在这个领域的最前沿了，或者说站在行业的顶端。你必须想出真正新的东西，或者面对根本不知道怎么解决的问题。这不是读一堆论文然后在论文基础上积累思考就行的。你需要从最基础的层面理解问题，从最基础的层面去思考，才能找到正确的解决方案。” 另一个巨大的落差是工程。“Engineering is very, very, very important。我在学校不知道这一点。”学校和实验室里的实验更像是toys（玩具），规模有限。但一旦真正scale up数据、算力和人员，就会遇到必须漂亮地解决的工程问题。“这是和我想象中不同的第二点。基本上就这两点。” MiniMax在公司层面有一个meta goal（元目标）：“比如我们想提升AI在改善生产力方面的能力，因为这是人们看重的价值。”在这个公司使命下，每个研究员设定自己的目标。 Olive的个人目标是什么？“对于下一代模型，我真的想让模型能够和专家优雅地协作，更好地与专家和开发者合作。”她估计这个目标大约需要两个版本的迭代，也就是三个月左右。 Olive在AI Engineer峰会上谈到过一个概念：模型不是执行单一动作，而是持续在循环中提问和尝试。主持人问她这是否属于持续学习（continual learning，指模型在部署后仍能从新经验中不断学习和改进）。她具体描述了她在峰会上分享的内容：“比如模型在一个新环境中接收到环境反馈，它需要知道该探索什么，该查看哪些环境信息，因为这是一个部分可观测的环境（partially observed environment，指Agent无法一次看到所有信息，需要主动探索才能获取全貌）。它需要知道采取什么行动来获得更好的信息，然后做出更好的反应，然后在环境中执行更困难、更复杂的任务。”这是第一阶段，“基本上现在所有Agent模型在某种程度上都能做到，也许不完美，但能做到一些。” 之后的阶段涉及模型自己定义目标。“那会是一个不同的定义，和我刚才说的不同。模型本身会定义自己的目标。”她说团队在这个方向上已经看到了一些不同形式的模型自我改进，但还没有最终结论。“也许在2.5的时候我们会有。” “我说，人们讨论AGI，也讨论ASI（超级人工智能），每天都在讨论。人们有不同的定义，而且定义每天都在变，进展太快了，人们有不同的看法。但我认为更重要的是，我们实际去朝着自己的定义努力。当我们搞清楚的时候，它就成真了。” 她提到了一本对于创造力的书，是她在本科时读的。她记不清确切的书名了，大概叫“The Art of Creativity”之类的。“它打开了我对自己思维的认识，改变了我看待世界和看待问题解决的方式。”

                                y31成色.232.1.232里亚布科夫提到了2021年12月、也就是袭击乌克兰两个月前的一份备忘录。在这份备忘录中，莫斯科要求北约停止扩张，并撤出自1997年以来驻扎在北约新成员国的军队。里亚布科夫说，这一要求仍然有效。它是抽取式的，一包里面很多副。手套身做了加长的设计，整体都有防滑颗粒，刷碗、拿东西的时候不会打滑。还是食品级材质的，洗菜洗水果、揉面用都很方便。y31成色.232.1.232《《大叔乖乖宠我》动漫 》姆巴佩还向巴黎圣日耳曼追讨2023-24赛季未支付的工资和奖金，总计达5500万欧元。这笔款项是在他拒绝激活自动续约条款后被俱乐部扣留的。此次刑事控诉进一步加剧了双方之间的经济纠纷，也反映了姆巴佩与巴黎圣日耳曼管理层之间的紧张关系，尤其是在他加盟皇家马德里之后。此案可能为反制足球界胁迫手段树立先例。巴黎检察官办公室将调查俱乐部高管是否存在违法行为。目前，巴黎圣日耳曼仅在私下为其立场辩护。本赛季，克莱顿的接球三分命中率为39.8%，运球后的三分命中率是36.9%，转换三分命中率为42.9%，定点三分命中率是43.5%，而且他很多出手都是在关键时刻；
                            

                                20260408 ? y31成色.232.1.232谈及此事，许俊杰心中十分感动。他对新京报记者说，从老板态度的转变中感受到了家乡人民对镇江队的归属感，作为镇江队的一员，这份荣耀让他倍感珍惜。《14岁女生第一次高潮后多久能恢复》经过这一系列系统的实验探索，我们证明了μP是科学扩展diffusion Transformers的有效手段，我们也相信μP会是未来基础模型扩展的必备利器。通过本工作的大量努力，我们希望让社区了解μP理论，拥抱μP实践，思考理论上最优的智能扩展范式（模型大小，数据量，推理时间）。我们也相信，放眼人工智能的长远未来，类似μP的底层理论的发展仍然是必不可少的，也必将会在未来的大规模实践中有着不可或缺的一席之地。
                            

? 郑文蕊记者高英英摄

                                20260408 ? y31成色.232.1.232由此不难猜测，作为07年龄段新国青队主帅头号人选，久尔杰维奇已经在有意识地考察适龄球员。毕竟在此之前，他还曾担任1999年龄段原中国男足亚运队主帅，朱辰杰、蒋圣龙、陶强龙等人都是其麾下爱将。此外，目前担任国足正、副领队的童杰、杨楠亦曾分别在中国男足亚运队、U20国足与久尔杰维奇合作过。《金瓶梅电视剧全集电视剧在线看高清》IT之家 6 月 24 日消息，据新浪科技报道，在今日开幕的 2025 年夏季达沃斯论坛上，浙江强脑科技有限公司合伙人何熙昱锦出席并致辞。
                            

? 段少喜记者张秀伶摄

                            ? 拜仁甚至考虑向尼科提出一份新的、更有吸引力的报价，以表明拜仁对他的渴望，并在万一他转会巴萨失败时提供备选方案。三亚imax影院特色
                        

69婬妇漫动嫩草吃瓜资源