69婬妇漫动嫩草吃瓜资源

EN
www.shqdfmc.com

y31成色.232.1.232"早上滨颁鲍,晚上碍罢痴":惭颈苍颈惭补虫研究员讲述开放模型背后的工程暗战

Turing Post频道最近发布了一期与MiniMax高级研究员Olive Song的深度对话,这也是西方媒体首次对MiniMax研究团队的一对一访谈。对话录制于1月底一个周日晚上九点,当时Olive正在等待新一轮模型实验的结果。两周后,MiniMax在马年春节档投下重磅炸弹。 同一个晚上,智谱GLM-5以“Pony Alpha”的匿名身份在OpenRouter走红数日后正式揭面,744亿参数对标Claude Opus 4.5。除夕当天(2月16日),阿里千问Qwen 3.5-Plus压轴登场,3970亿总参数、170亿激活参数,API价格仅为Gemini 3 Pro的十八分之一。 不过,去年引发春节AI风暴的DeepSeek,V4版本则没有正式露面。虽然2月11日用户发现DeepSeek悄然将上下文窗口从128K升级至1M,但回复风格骤变引发“变冷淡”热搜,被认为只是V4的灰度测试,截至今天官方仍未正式官宣。 M2.5开源后,迅速被社区明星项目OpenClaw选为推荐模型。OpenClaw早在1月30日就通过OAuth(开放授权协议)插件接入了MiniMax的模型服务,M2.5发布后开发者可以零配置切换,在Telegram、WhatsApp上跑起自己的AI助手,每小时成本仅1美元。 1月9日才以165港元发行价登陆港交所的MiniMax,在M2.5发布前后股价一度大涨超过20%,到春节前最后一个交易日(2月16日)收于847港元,上市仅39天累计涨幅超过413%,市值突破2656亿港元。回头再听这场对话,会发现Olive在访谈中提到的几乎每一个技术难题,都精准预言了M2.5最终要解决的方向:环境适配、长程任务、Agent对齐、推理效率。 她当时把即将发布的版本称为“2.2”,说“大约1个月到1个半月发一个版本”。从2025年10月底的M2到2026年2月中旬的M2.5,108天三个主要版本,MiniMax的迭代速度比她自己的预期还快。 Olive用了一个MiniMax内部流行的段子来形容她的日常。“一天之内不会全是好日子或全是坏日子。我们开玩笑说,早上ICU,晚上KTV——有时候反过来也行。”意思是早上可能还在抢救崩掉的实验(ICU,重症监护室),晚上就拿到好结果开始庆祝了(KTV,卡拉OK);也可能早上结果很好,晚上又塌了。结果在一天之内剧烈摆动,是这个工作的常态。 她做的是强化学习(reinforcement learning,简称RL,一种让模型通过试错和奖励信号来改进自身行为的训练方法)和模型评估,这两个领域是模型开发中最不留情面的环节。她也比大多数美国大型AI实验室面临更多资源约束。 强化学习训练中,模型会想尽一切办法“hack”(黑掉)系统来获取高分。“它会疯狂调用bash命令(操作系统的命令行指令),有时候做出非常不安全的行为。”Olive说。专家开发者对模型行为有自己的预期,但不加约束的模型完全不按套路出牌。 这种发现“新行为”的过程,在她看来反而是最兴奋的时刻。“即使这些行为可能不安全,可能不符合预期,发现它们本身就很刺激。”至于坏消息?“看到糟糕结果的那一瞬间确实不好受,但一旦开始拆解问题、定位原因,又变成了好时光。” MiniMax的研发节奏要求团队随时在线。有人通宵工作白天睡觉,有人跟着实验周期走。“实验跑一整天,中间可以休息,但如果我们对结果很好奇,根本等不了。我们对结果充满热情。”Olive说。这种弹性制度听起来自由,实际上靠的是对结果的高度投入。2、逐层排查:FP32精度的故事 当时强化学习训练的准确率怎么都上不去。团队逐层检查log probabilities(对数概率,模型对每个词的预测置信度的数学表示),发现理论上应该收敛的算法存在一个隐蔽的偏差,最终定位到问题根源是LM head(语言模型头,模型最后一层,负责将内部表示转换为对每个词的概率预测)的数值精度。把它从低精度切换到FP32(32位浮点数,一种更高精度的数值格式)之后,训练恢复正常。 “理论上算法必须work,那一定是实现层面有什么gap。”Olive说。她的思路是:先确认理论算法的正确性,然后分析理论与实现之间的差距,逐层排查。她把这叫做追求“理论极限”——每一个实现细节都要尽可能逼近理论算法的最优状态。“我们发现精度问题是阻止我们接近那个极限的因素之一,然后我们解决了它。” 她拒绝透露正在进行的类似发现。“我们希望公开发表的结论是经过深度验证的,不是半成品。如果有突破,我们一定会发表。”后来M2.5发布时,MiniMax在技术博客中写道,M2系列进步的关键驱动力之一正是“强化学习的规模化”,配合自研的RL框架Forge、算法优化、奖励信号设计和基础设施工程。Olive访谈中反复强调的“工程极其重要”,在这里得到了最直接的验证。 “模型必须在高效和安全之间取得平衡。它不能为了达成最终目标就自行生长、做出危险行为。”她说。对齐的核心在于三件事:如何定义人类对齐,如何定义专家的期望,以及如何实际训练模型来满足这些期望。 这里的“专家”是指和研究员坐在一起工作的开发者。MiniMax的组织方式是研究员和不同领域的开发者混合办公,每天分享实验结果。“我们坐在一起看模型的行为,开发者能立刻发现问题,然后我们一起想出修复方案或者构建新的训练数据。” 发布前一到两周,团队会进行大规模评估和对齐调优。内部有多维度的安全基准,涵盖敏感性安全(sensitive safety)和对齐安全(alignment safety)等不同方面。但Olive也坦承,一旦模型以开放权重(open weights,公开模型参数,允许用户自行部署和微调)发布,用户可以做的事情超出了他们的控制范围。“说实话,我不知道我们怎么处理这个问题。法律和法规在那里,人们也认同某些道德标准。” 访谈中,主持人提到了MiniMax Her的发布——这款角色扮演产物在Twitter上引发了广泛讨论。Olive坦言自己不是这方面的专家,MiniMax有一个专门团队负责角色扮演相关工作。 但她补充了团队的共识:“我们确实相信,角色扮演,或者说AI陪伴人类、与人互动,在未来AI融入社会生活的过程中非常重要。这代表了一种非常卓越的能力,因为这是humanlike的——它有情感,它理解你的情感,而不只是解几道考试题。这是AI能力的另一面。” MiniMax的理念口号是“Intelligence with Everyone”(智能与每个人)。对Olive个人而言,这意味着AI如何切实改变了她的生活。“以前有很多非常专业的问题我无法理解,比如专业的编程问题或优化问题,现在借助AI我能做到了。这样我就能和更多人交流,交换更多想法。”另一方面,AI也帮助了她的日常生活,工作、日常事务、自我管理。“它改变了我的生活,我希望它也能改变每个人的生活——当然是往好的方向。” 主持人问到了一个实际问题:有没有在基准测试中没有暴露、但在真实Agent使用中才显现的强化学习失败模式?MiniMax如何收集反馈来改进下一代模型? Olive描述了一个两阶段的流程。第一阶段是内部,开发者使用模型并指出问题,团队据此修复,但这还不够。第二阶段在模型正式发布之后,来自外部的大量反馈会涌入。“我们系统地收集这些反馈,分析每一个问题。有些是基础性的,有些只是我们遗漏的小问题,可以很快修复。” MiniMax的团队按能力模块分工。收集到需要改进的问题后,不同的人认领各自负责的部分。“他们会说‘我觉得我能解决这个问题,我会在下一代模型中解决它’,这就是我们收集反馈并改进模型的方式。” 随后,主持人问了一个尖锐的问题:开放模型在真实生产环境中,最先出问题的地方是什么?推理、工具调用、状态追踪、评估——哪个环节最先崩溃? “比如很多人用Claude在不同的编码环境里工作,他们以为模型在所有环境里都表现一样好。但我不觉得当前的开放模型能达到那种准确度,或者说对不同环境、不同工具定义的理解深度。” 她承认这是一个可以解决的问题,MiniMax正在为此努力。“我们在2.2里改进了这个问题,但还没有达到Opus的水平。2.5的时候可能可以。我们确实有一些系统性的研究正在进行,已经展现了一些成果,但还不是最终结论,所以我不会说出来。” 这段话在M2.5发布后得到了印证。MiniMax在M2.5的技术文档中强调,模型在“完全没见过的环境”甚至“完全超出分布的环境”(out of distribution,训练时从未接触过的场景)中都展现出了比M2.1更高的得分。他们把“数十万个真实复杂环境中的大规模强化学习训练”列为核心技术路径。 被问到是不是算力差距造成的,Olive的回答很有分寸:“算力是一个方面,但我们怎么构建问题、怎么接近问题,是另一个方面。我们对后者更有信心,相信我们能解决这个问题。” MiniMax的M2系列主打编码能力,但这并不意味着他们放弃了通用模型的方向。Olive澄清说,他们正在走向通用化,只是在编码上投入了更多精力。“我们的模型也可以放进任何通用Agent scaffold(Agent框架/脚手架,为AI提供工具调用、记忆管理等基础能力的软件架构)里,包括我们自己的Agent产物,那是通用目的的。我们也在做研究、报告写作、PPT之类的通用任务。” 她给出了一个很个人化的理由来解释为什么编码如此重要:“我觉得通过编码,你可以结构化整个世界,用工程的方式建模很多东西。对我来说,它背后是对人类能力的放大(scaled up humanity)。它本身蕴含了大量的智能和大量的工作。” 长程任务(long horizon,指需要模型在很多步骤中持续规划和执行的复杂任务)是Agent模型的核心挑战。Olive把Agentic RL(面向智能体场景的强化学习)与传统RL的区别拆成了三个层面。 第一,定义。“首先你需要定义Agent是什么,定义Agent模型的工作方式。你需要定义任务,定义模型的目标。尤其在长程任务中,目标必须足够困难和多样。” 第三,基础设施。“你需要卓越的RL基础设施,让模型真正能在很长的horizon上rollout(在RL中指模型在环境中执行一系列完整动作的过程),同时保证GPU使用效率、训练与rollout之间的高效衔接、训练稳定性。” MiniMax有一个专门的团队负责计算效率优化。“他们的目标是最小化计算使用量,同时训练更多。”但被问到这是一个独立的团队还是她自己需要参与的工作时,Olive笑了:“我们其实是同一个团队,因为我们就是强化学习团队。我们从不同视角看同一个问题——可以从实现角度看,可以从数据角度看,但目标是一样的。” 她还透露,团队正在做一些”新的Agentic RL工作“,不会随当前版本发布。”这取决于我们的时间,我还不是很有信心,但我们在专注地做这件事。“ “我们研究团队从第一天就想做开源。开源社区太棒了,我入职第一天就学到了这一点。”但她也坦言公司层面有不同考虑。“作为公司,大家会关心这能不能赚钱,这是不是一门生意。开源权重的话,用API的人可能会减少。” MiniMax自己也大量使用开源工具。推理框架方面,他们和vLLM、SGLang(两个主流的大模型推理和服务框架,专注于高效部署和推理加速)深度合作。Olive说团队会研究各种开源Agent框架的代码和设计逻辑,“看他们的代码,看他们如何设计scaffold和引擎,然后反思我们自己对问题的思考方式,看是不是在同一个方向上。我们互相学习。” M2.5发布时,MiniMax选择在Hugging Face(全球最大的开源模型托管平台)上以修改版MIT协议开源全部权重。OpenClaw在1月30日的更新中就已经加入了MiniMax OAuth插件,让开发者零配置接入MiniMax模型。此后,OpenClaw社区开始涌现大量基于M2.5的Agent应用,从Telegram机器人到全自动化办公流程。有博主实测,三个M2.5 Agent通过Telegram全天候运行,成本仅为使用闭源前沿模型的5%。 主持人追问了一个开发者关心的问题:团队是否低估了开放模型相比闭源API所需要的工程投入?毕竟使用开放模型意味着自行部署、管理算力、调试兼容性,这需要完全不同的工程能力。 Olive说她个人没有这个困扰。“如果有其他开源模型发布,我就下载下来部署到我们的机器上使用。”但她理解外部个人开发者的处境:“尤其是当他们没有自己的算力时,通过OpenRouter(一个聚合多个AI模型API的服务平台)之类的服务连接到模型会更容易。” “从专业评估的角度,五个问题远远不够。”她说。要做公正的模型对比,需要在每个领域有足够数量的测试题,而且通常需要多次测试,因为“模型本身不够稳定”。 她指出了评估中的多个隐患:有些问题本身不正确,有些问题的答案不唯一,有些测试环境不固定,比如gold pattern(标准答案/参考模式)本身就通不过。“如果做专业评估,必须确保评估集是正确的、多样的、达到一定数量阈值的,这样测试才有置信度。” 不过如果只是为了好玩,她建议用那些你个人感兴趣的问题就好。她自己保持着一套私人测试集。“我从入职以来一直在收集各种问题,涵盖逻辑推理、数学证明、报告写作、Agent任务等等,很多很多。每出一个新模型我就拿这些问题跑一遍,看不同模型怎么接近这些问题,怎么反应。不同的模型有不同的个性。” “一个通用模型应该拥有所有性格,或者说应该能扮演所有角色。它可能有一个默认性格,但如果用户想让它变成不同的角色,它应该做到。如果通过system prompt(系统提示词,预先设定模型行为和身份的指令)注入新角色,它应该能切换。” 她认为不同模型性格差异的原因很可能是“训练数据的不同模式,以及不同团队可能有自己的constitution(行为准则/宪法式规范,定义模型默认行为的内部规则集)”。 “每天都有大量新文章、博客、论文发布。我们的处理方式是,我们有一个内部Agent,它追踪所有新的文章、博客和论文,然后按主题分发,做摘要,做分析。”她管它叫“内部研究员”(internal researcher)。这个Agent先做第一轮过滤,把筛选后的结果推送给人类研究员。“如果我们觉得它过滤得不好,我们还可以改进它。” 在这之后,团队会用编程Agent来快速上手新的代码仓库,“这样我们可以更快地理解新东西、更快地实验。我们用Agent和我们自己的模型来加速跟进所有的进展。” “加入公司工作几个月后,你就已经站在这个领域的最前沿了,或者说站在行业的顶端。你必须想出真正新的东西,或者面对根本不知道怎么解决的问题。这不是读一堆论文然后在论文基础上积累思考就行的。你需要从最基础的层面理解问题,从最基础的层面去思考,才能找到正确的解决方案。” 另一个巨大的落差是工程。“Engineering is very, very, very important。我在学校不知道这一点。”学校和实验室里的实验更像是toys(玩具),规模有限。但一旦真正scale up数据、算力和人员,就会遇到必须漂亮地解决的工程问题。“这是和我想象中不同的第二点。基本上就这两点。” MiniMax在公司层面有一个meta goal(元目标):“比如我们想提升AI在改善生产力方面的能力,因为这是人们看重的价值。”在这个公司使命下,每个研究员设定自己的目标。 Olive的个人目标是什么?“对于下一代模型,我真的想让模型能够和专家优雅地协作,更好地与专家和开发者合作。”她估计这个目标大约需要两个版本的迭代,也就是三个月左右。 Olive在AI Engineer峰会上谈到过一个概念:模型不是执行单一动作,而是持续在循环中提问和尝试。主持人问她这是否属于持续学习(continual learning,指模型在部署后仍能从新经验中不断学习和改进)。 她具体描述了她在峰会上分享的内容:“比如模型在一个新环境中接收到环境反馈,它需要知道该探索什么,该查看哪些环境信息,因为这是一个部分可观测的环境(partially observed environment,指Agent无法一次看到所有信息,需要主动探索才能获取全貌)。它需要知道采取什么行动来获得更好的信息,然后做出更好的反应,然后在环境中执行更困难、更复杂的任务。”这是第一阶段,“基本上现在所有Agent模型在某种程度上都能做到,也许不完美,但能做到一些。” 之后的阶段涉及模型自己定义目标。“那会是一个不同的定义,和我刚才说的不同。模型本身会定义自己的目标。”她说团队在这个方向上已经看到了一些不同形式的模型自我改进,但还没有最终结论。“也许在2.5的时候我们会有。” “我说,人们讨论AGI,也讨论ASI(超级人工智能),每天都在讨论。人们有不同的定义,而且定义每天都在变,进展太快了,人们有不同的看法。但我认为更重要的是,我们实际去朝着自己的定义努力。当我们搞清楚的时候,它就成真了。” 她提到了一本对于创造力的书,是她在本科时读的。她记不清确切的书名了,大概叫“The Art of Creativity”之类的。“它打开了我对自己思维的认识,改变了我看待世界和看待问题解决的方式。”

y31成色.232.1.232
y31成色.232.1.232里亚布科夫提到了2021年12月、也就是袭击乌克兰两个月前的一份备忘录。在这份备忘录中,莫斯科要求北约停止扩张,并撤出自1997年以来驻扎在北约新成员国的军队。里亚布科夫说,这一要求仍然有效。它是抽取式的,一包里面很多副。手套身做了加长的设计,整体都有防滑颗粒,刷碗、拿东西的时候不会打滑。还是食品级材质的,洗菜洗水果、揉面用都很方便。y31成色.232.1.232《《大叔乖乖宠我》动漫 》姆巴佩还向巴黎圣日耳曼追讨2023-24赛季未支付的工资和奖金,总计达5500万欧元。这笔款项是在他拒绝激活自动续约条款后被俱乐部扣留的。此次刑事控诉进一步加剧了双方之间的经济纠纷,也反映了姆巴佩与巴黎圣日耳曼管理层之间的紧张关系,尤其是在他加盟皇家马德里之后。此案可能为反制足球界胁迫手段树立先例。巴黎检察官办公室将调查俱乐部高管是否存在违法行为。目前,巴黎圣日耳曼仅在私下为其立场辩护。本赛季,克莱顿的接球三分命中率为39.8%,运球后的三分命中率是36.9%,转换三分命中率为42.9%,定点三分命中率是43.5%,而且他很多出手都是在关键时刻;
20260408 ? y31成色.232.1.232谈及此事,许俊杰心中十分感动。他对新京报记者说,从老板态度的转变中感受到了家乡人民对镇江队的归属感,作为镇江队的一员,这份荣耀让他倍感珍惜。《14岁女生第一次高潮后多久能恢复》经过这一系列系统的实验探索,我们证明了μP是科学扩展diffusion Transformers的有效手段,我们也相信μP会是未来基础模型扩展的必备利器。通过本工作的大量努力,我们希望让社区了解μP理论,拥抱μP实践,思考理论上最优的智能扩展范式(模型大小,数据量,推理时间)。我们也相信,放眼人工智能的长远未来,类似μP的底层理论的发展仍然是必不可少的,也必将会在未来的大规模实践中有着不可或缺的一席之地。
y31成色.232.1.232
? 郑文蕊记者 高英英 摄
20260408 ? y31成色.232.1.232由此不难猜测,作为07年龄段新国青队主帅头号人选,久尔杰维奇已经在有意识地考察适龄球员。毕竟在此之前,他还曾担任1999年龄段原中国男足亚运队主帅,朱辰杰、蒋圣龙、陶强龙等人都是其麾下爱将。此外,目前担任国足正、副领队的童杰、杨楠亦曾分别在中国男足亚运队、U20国足与久尔杰维奇合作过。《金瓶梅电视剧全集电视剧在线看高清》IT之家 6 月 24 日消息,据新浪科技报道,在今日开幕的 2025 年夏季达沃斯论坛上,浙江强脑科技有限公司合伙人何熙昱锦出席并致辞。
y31成色.232.1.232
? 段少喜记者 张秀伶 摄
? 拜仁甚至考虑向尼科提出一份新的、更有吸引力的报价,以表明拜仁对他的渴望,并在万一他转会巴萨失败时提供备选方案。三亚imax影院特色
扫一扫在手机打开当前页