继发布新旗舰模型Claude Opus 4.6后不到两周,OpenAI的劲敌Anthropic于再次推出重磅产物Claude Sonnet 4.6,以中端的价格提供接近旗舰级模型的智能水平,这对AI行业构成了一次重大的定价格局重塑。 美东时间2月17日周三,Anthropic官宣发布Claude Sonnet 4.6,新模型在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级,定价与前代Sonnet 4.5相同,仍为每百万token输入3美元、输出15美元,但据称性能已接近定价为每百万token输入15美元、输出75美元的旗舰Opus模型,且定价却只有后者的五分之一。 对于每天进行数百万次API调用的公司部署AI智能体而言,这一成本性能比的改变具有变革意义。在操作电脑能力方面,Sonnet 4.6在标准基准测试OSWorld上得分达72.5%,不到一年半时间提升到接近人类水平。在早期测试中,开发者在约七成情况下更偏好Sonnet 4.6而非前代,甚至在近六成的情况下更偏好它,而非去年11月发布的Anthropic旗舰模型Opus 4.5。 此次发布正值Anthropic加速进军公司市场。据报道,Anthropic上周五刚以3800亿美元估值完成300亿美元的新融资,估值较去年9月翻倍。同在本周三,印度IT巨头Infosys宣布与Anthropic合作,将Claude模型整合至其Topaz AI平台,用于银行、电信和制造业。Anthropic还在班加罗尔开设了首个印度办事处。 2024年10月首次推出这一功能时,Anthropic曾坦承“仍处于实验阶段——有时笨拙且容易出错”。此后的数据显示,该司的模型进步速度惊人:Sonnet 3.5在2024年10月的OSWorld基准测试中得分14.9%,Sonnet 3.7在2025年2月达到28.0%,Sonnet 4在同年6月达到42.2%,Sonnet 4.5在同年10月攀升至61.4%,本周三发布的Sonnet 4.6已达到72.5%。 OSWorld基准测试在模拟计算机上呈现数百项跨越Chrome、LibreOffice、VS Code等真实软件的任务,没有特殊API或专用连接器,模型像人类一样通过点击虚拟鼠标和虚拟键盘与计算机交互。Anthropic表示,该模型能够处理导航复杂电子表格或填写多步骤网页表单等任务,然后在多个浏览器标签页间整合信息。 这一能力对公司应用至关重要。几乎每个组织都有难以自动化的遗留软件——保险门户网站、政府数据库、公司资源规划系统、医院排班工具——这些都是在API出现之前构建的。一个能够像人一样查看屏幕并与之交互的模型,无需构建定制连接器就能实现这些系统的自动化。 Pace的CEO Jamie Cuffe表示,Sonnet 4.6在该公司复杂的保险计算机使用基准测试中达到94%的准确率,是所有Claude模型中表现最好的。Cuffe说:“它以我们从未见过的方式进行故障推理和自我纠正。” Anthropic还指出,计算机操作存在提示注入攻击风险——恶意行为者在网站上隐藏指令以劫持模型。该公司的评估显示,Sonnet 4.6在抵御此类攻击方面较Sonnet 4.5有重大改进。 在Claude Code中,Anthropic的早期测试发现,开发者在约70%的情况下更偏好Sonnet 4.6而非Sonnet 4.5。用户报告称,新模型在修改代码前更有效地读取上下文,合并共享逻辑而非重复,这使得它在长时间使用时比早期模型更不令人沮丧。 用户甚至在59%的情况下更偏好Sonnet 4.6而非去年11月的旗舰模型Opus 4.5。他们评价Sonnet 4.6显著降低了过度工程化和"懒惰"倾向,在指令遵循方面明显更好。他们报告称虚假成功声明更少,幻觉更少,多步骤任务的持续执行更一致。 早期客户反馈突出了前端代码和金融分析方面的改进。多位测试者独立描述称,Sonnet 4.6的视觉输出明显更精致,布局、动画和设计感都优于以前的模型。客户达到生产质量结果所需的迭代轮数也更少。 GitHub产物副总裁Joe Binder证实,该模型“已经在复杂代码修复方面表现出色,尤其是在跨大型代码库搜索至关重要时。对于大规模运行智能体编程的团队,我们看到了强劲的解决率和开发者所需的一致性。” Factory AI的Leo Tchourakov表示团队“正在将Sonnet流量转移到这个模型”。Hercules创始人兼CEO Brendan Falk更直言:“Claude Sonnet 4.6是我们迄今见过的最好模型。它具有Opus 4.6级别的准确性、指令遵循和用户界面,而成本显著更低。” Sonnet 4.6的定价策略是此次发布最重要的看点。定价维持在每百万token输入3美元、输出15美元,与前代Sonnet 4.5相同。而Anthropic的旗舰Opus模型定价为每百万token输入15美元、输出75美元——是Sonnet价格的五倍。 Anthropic称,以前需要使用Opus级模型才能达到的性能——包括在实际具有经济价值的办公任务上——现在通过Sonnet 4.6即可获得。对于目前部署每天进行数百万次API调用的AI智能体的数千家公司而言,这一成本计算改变了一切。 据报道,在许多公司最关心的类别中,Sonnet 4.6的表现匹配甚至超越了运行成本高出五倍的模型。一家运行每天处理1000万token的AI智能体的公司,以前被迫在较低成本的劣质结果和快速扩大支出的优质结果之间选择。Sonnet 4.6在很大程度上消除了这种权衡。 Hex Technologies首席技术官Caitlin Colgrove表示,该公司正将大部分流量转移到Sonnet 4.6,指出“除了最困难的分析任务外,我们在所有任务上都看到了Opus级别的性能,且具有更高效和灵活的配置。在Sonnet定价下,这对我们的工作负载是显而易见的选择。” 智能内容管理平台Box的首席技术官Ben Kus表示,该模型在真实公司文档的重度推理问答中比Sonnet 4.5高出15个百分点。Replit的总裁Michele Catasta称性能成本比“非凡”。 金融科技公司Mercury的产物副总裁Ryan Wiggins更直白地说:“Claude Sonnet 4.6更快、更便宜,而且更有可能第一次就搞定。这种改进组合令人惊讶,我们没想到会在这个价位看到它。” Sonnet 4.6配备100万token的上下文窗口(测试版),足以在单个请求中容纳整个代码库、冗长合同或数十篇研究论文。更重要的是,Anthropic称该模型能够有效地跨所有上下文进行推理。 该公司通过一项不寻常的评估展示了这一能力。Vending-Bench Arena测试模型长期运营模拟业务的能力,不同AI模型相互竞争以获得最大利润。在没有人工提示的情况下,Sonnet 4.6开发出一种新颖策略:它在前十个模拟月中大量投资产能,支出显著高于竞争对手,然后在最后阶段急剧转向专注盈利。该模型在365天模拟结束时约有5700美元余额,而Sonnet 4.5约为2100美元。 这种自主执行的多月战略规划代表着一种质的不同能力,超越了回答问题或生成代码片段。这是使AI智能体适用于实际业务运营的长期推理类型。 Sonnet 4.6的发布正值AI行业激烈竞争时期。这是Anthropic在不到两周内的第二次重大AI模型发布,体现了在行业中保持竞争力所需的快节奏开发。Anthropic在12天前刚刚推出了Claude Opus 4.6。 Anthropic的快速进展也加速了软件股近期的大规模抛售。投资者越来越担心AI可能颠覆这些业务,iShares扩展科技软件行业ETF今年以来已暴跌逾20%。Sonnet 4.6不太可能缓解这些担忧,因为Anthropic表示该模型将为更多用户带来"大幅改进的编程技能"。 Anthropic近期推出的新工具进展引发华尔街担忧,投资者尤其担心一批软件公司最终可能被AI淘汰。Anthropic发布的新版Opus模型旨在更好地进行财务研究后,金融服务类股也大幅下跌。这些反应反映了人们对哪些公司和服务最终将被AI颠覆的广泛担忧。 Anthropic CEO Dario Amodei本周三表示,“在演示中有效的AI模型与在受监管行业中有效的模型之间存在巨大差距”,其公司AI解决方案的合作方Infosys帮助弥合了这一差距。报道称,印度目前约占全球Claude使用量的6%,仅次于美国。 GPT-5.2和Sonnet 4.6在智能体计算机使用、智能体搜索和智能体金融分析方面的测试结果对比分别为:38.2%对72.5%、77.9%对74.7%、59.0%对63.3%。其中,逊于GPT-5.2的一项采用的是Sonnet 4.6非Pro 版本的得分。
韩剧《楼上楼下》直播吧06月14日讯 新版世俱杯将在明日开赛,揭幕战非洲冠军开罗国民vs迈阿密国际,32家俱乐部争夺创纪录的10亿美元奖金,冠军奖金最高可达1.25亿美元!尤文首发:29-迪格雷戈里奥、6-凯利、37-萨沃纳、15-卡卢卢、16-麦肯尼、18-科斯蒂奇、5-洛卡特利、2-阿尔贝托-科斯塔、8-库普梅纳斯、11-冈萨雷斯、9-弗拉霍维奇韩剧《楼上楼下》《办公室加班视频40分钟》其二是发布了《台州宣言》,将战略聚焦和战略整合放在核心位置。在车市竞争逐渐激烈的当下,车企更应该集中资源干大事。她也在做一些创新。比如,用更鲜亮的颜色—正如年青一代习惯了拍照要加滤镜,谭靖榆对色彩的理解也与家中长辈并不相同。尽管这种创新的尝试,有时候看起来会有些“过头”。
20260304 ? 韩剧《楼上楼下》需要注意的是,相应视频上传功能目前正在逐步上线中,不同设备和账号可能开放时间略有差异。现阶段相应功能支持Gemini 2.5 Flash / 2.5 Pro 模型,如果用户在上传文件时可看到“文件类型不受支持”的提示,这说明该功能尚未在其账号上开放,需要等待一段时间。韩剧《女仆的秘密》全集所谓端原生,即抖音、快手等平台的端原生短剧账号,如抖音上的各种剧场号。和小程序一样,观众可以直接在这些账号上付费观看短剧;但和小程序不同的是,无需跳转,主页即播放平台,端原生账号可以在完成粉丝积累的同时进行私域运营。目前,快手小程序短剧的体量已经不大,主要短剧已转向端原生链路。
? 徐刚记者 刘四清 摄
20260304 ? 韩剧《楼上楼下》记者了解到,在“新高考”落地背景下,内蒙古自治区自2006年开始实行的实时动态志愿填报也画上句号,今年起开始实行平行志愿投档录取模式,且采用院校专业组平行志愿。聊斋3风月宝鉴 “这些年来海峡论坛内容越来越丰富,充分展现出两岸民间交流的韧性与活力,也体现了民众对于两岸持续交流合作的期待。”台湾商业总会荣誉理事长赖正镒说,对两岸企业界来说,海峡论坛不仅是凝聚共识、拓展商机的契机,更是稳定互信、创造双赢的关键桥梁。他认为,两岸应持续推动文化与青年交流、产业对接互动,尤其在AI产业方面,两岸青年可以多交流互动。
? 刘玉库记者 王玉山 摄
? 【甲骨文创始人埃里森跃居全球第二大富豪,超过贝佐斯和扎克伯格】据福布斯,甲骨文公司联合创始人兼董事长拉里·埃里森已超过杰夫·贝佐斯和马克·扎克伯格,成为全球第二富有的人。周四,埃里森的净资产飙升260亿美元,达到2430亿美元,是亿万富翁中单日增幅最大的。(金融界)成品网站1688入口网页版怎样打开




