今天凌晨,Anthropic 发布了 Claude 3.7 Sonnet,号称是迄今为止最智能的模型,也是市场上首个混合推理模型。该模型不仅能实现近乎即时的响应,还能以逐步可见的方式展示思考过程。同时,API 用户可以精细控制模型思考的时长。
Claude 3.7 Sonnet 在代码编写和前端开发方面有着显著提升。Anthropic 同时推出了命令行工具 Claude Code,该工具目前以限量研究预览形式开放,帮助开发者直接从终端委托 Claude 完成大量工程任务。
在标准模式和扩展思考模式下,Claude 3.7 Sonnet 的定价均与前代产品保持一致:输入Token每百万3美金,输出Token(包括思考Token)每百万15美金。
Claude 3.7 Sonnet:将前沿推理变为实用
团队采用了与市面上其他推理模型不同的理念,开发了 Claude 3.7 Sonnet。正如人类既能快速反应又能深入反思,推理应当是前沿模型内在的综合能力,而非单独构建一个专门的推理模型。这种统一的方法也为用户带来了更加无缝的体验。
Claude 3.7 Sonnet 在多个方面体现了这一理念:
内嵌普通 LLM 与推理功能
Claude 3.7 Sonnet 同时具备普通 LLM 和推理模型的双重功能:您可以选择模型直接回答问题,也可以让模型在回答前进行更长时间的思考。在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版;而在扩展思考模式下,模型会先自我反思,从而在数学、物理、指令遵循、编程等任务上表现更佳。在两种模式下,模型的提示方式基本一致。API 思考预算控制
当通过 API 使用 Claude 3.7 Sonnet 时,用户还可以控制模型“思考”的预算:开发者可以指定 Claude 的思考令牌数不超过任意 N 值(最高可达 128K 输出令牌)。这使开发者能够在回答质量与响应速度(及成本)之间灵活权衡。聚焦真实应用场景
在开发推理模型时,减少了对数学及计算机竞赛问题的优化,而将重心转移至更贴近企业实际应用场景的真实任务。
早期测试
Claude 在编程能力方面依然处于行业领先水平(合作伙伴夸夸群):
Cursor 指出,Claude 再次成为实际编程任务中的最佳选择,在处理复杂代码库和高级工具使用方面均有显著提升; Cognition 发现,Claude 在规划代码变更和全栈更新方面远超其他模型; Vercel 强调了 Claude 在复杂代理工作流中的卓越精准度; Replit 成功部署 Claude 构建复杂 Web 应用和仪表盘,而其他模型在此方面往往止步不前; Canva 的评估中,Claude 始终能生成具备生产级水准、设计品味出众且错误大幅减少的代码。
Claude 的扩展思考
有些问题几乎能立刻回答:“今天星期几?”而有些问题则需要耗费更多脑力,比如解密式填字游戏或调试复杂代码。可以根据任务的不同选择投入更多或更少的认知努力。
全新 Claude 3.7 Sonnet,用户可以随时开启或关闭“扩展思考模式”,引导模型对更棘手的问题进行更深入的思考。同时,开发者还可以设置“思考预算”,精确控制 Claude 在一个问题上所花费的令牌数。
扩展思考模式并非切换到一个采用全新策略的不同模型,而是让同一模型拥有更多时间与精力来得出答案。
可视化思考过程
除了赋予 Claude 更长时间的思考以解答更棘手的问题外,团队还决定将其思考过程以原始形式呈现。这一做法带来了多方面的好处:
信任
通过观察 Claude 的思考方式,用户可以更直观地理解和验证它的答案,这有助于提升输出质量。对齐
在之前的对齐科学研究中,团队发现模型内在思考与外在表达之间的矛盾能够帮助识别诸如欺骗等潜在问题。趣味性
观察 Claude 的思考过程十分有趣。部分数学和物理背景的研究人员注意到,Claude 的思路与他们解决难题时的探索过程惊人地相似——既会从多个角度出发,又会反复核查答案。
Claude 思考新测试 —— Claude 作为代理
Claude 3.7 Sonnet 受益于“行动扩展”的改进能力,使其能够迭代调用函数、响应环境变化,并持续执行直至完成一个开放式任务。例如,在使用电脑这一任务中,Claude 能够模拟鼠标点击和键盘输入,替用户完成操作。与前一版本相比,Claude 3.7 Sonnet 在电脑操作任务上可以分配更多回合、更长时间和更多计算资源,其成果通常更加出色。
这一优势在 OSWorld 评估中得到了验证——该评估旨在衡量多模态 AI 代理的能力。虽然 Claude 3.7 Sonnet 起初略胜一筹,但随着模型与虚拟电脑的持续交互,其性能优势会越来越明显。
扩展思考与代理训练的协同效应
结合扩展思考和代理训练,Claude 在诸如 OSWorld 这类标准评测中的表现显著提升。同时,这种能力的整合也使其在一些意想不到的任务上取得了突破。
以经典的 Game Boy 版《宝可梦红》为例,为 Claude 配备了基础记忆、屏幕像素输入以及模拟按键和屏幕导航的函数调用,使其能在超出常规上下文限制的情况下持续进行游戏,实现了数万次交互。
下图展示了 Claude 3.7 Sonnet 与之前未具备扩展思考功能的 Claude Sonnet 版本在宝可梦游戏中的进展对比。可以明显看出,早期版本很快便陷入僵局,Claude 3.0 Sonnet 连宝可梦小镇起始房屋都无法离开。
而得益于代理能力的提升,Claude 3.7 Sonnet 能够大幅推进游戏进程,成功挑战了三个道馆馆主,并赢得了徽章。它善于尝试多种策略、质疑之前的假设,从而在不断前进的过程中提升自身能力。
虽然玩《宝可梦》是一种有趣的方式来欣赏 Claude 3.7 Sonnet 的能力,但团队预期这些能力将在现实世界中产生远超游戏领域的影响。该模型在保持专注和完成开放式目标方面的卓越表现,将帮助开发者构建各类先进的 AI 代理系统。
串行与并行测试时计算扩展
当 Claude 3.7 Sonnet 启用扩展思考能力时,可以说它受益于“串行测试时计算”。这意味着模型在生成最终输出前,会经过多个连续的推理步骤,并在过程中逐步增加计算资源。总体来看,这种方式能够以可预测的方式提升性能:例如,在数学题目的解答上,允许采样的“思考令牌”数量越多,其准确率便会以对数关系显著提高。
Anthropic 还在尝试通过并行测试时计算来进一步提升模型性能。他们的方法是采样多个独立的思考过程,并在不预先知晓真实答案的情况下,选出其中最优的一个。一种实现方式是采用多数投票或共识投票法,即选出出现次数最多的答案;另一种方式则是利用另一个语言模型(比如第二份 Claude)来检查和评分,从而选出最佳答案。类似的策略以及相关工作也在其他 AI 模型的评估结果中有所体现。
在 GPQA 评估中(这是一组常用于测试生物、化学和物理等领域挑战性问题的评测数据),通过并行测试时计算扩展取得了显著改进。利用相当于 256 个独立样本的计算资源、一个训练得到的评分模型,以及最高 64K 令牌的思考预算,Claude 3.7 Sonnet 在 GPQA 上的得分达到了 84.8%(其中物理子项得分高达 96.5%),并且在超出多数投票限制后,性能依然持续提升。下面,将分别报告使用评分模型方法和多数投票方法的评测结果。
这些方法提高了 Claude 回答问题的质量,通常无需等待其完成全部思考过程。Claude 可以同时进行多个不同的扩展思考过程,从而探索更多的解决方案,并最终更频繁地给出正确答案。虽然并行测试时计算扩展目前尚未应用于新发布的模型,但团队正在持续研究这些方法,以期在未来实现应用。
应用场景
Claude 3.7 Sonnet 能够理解细微的指令和上下文,识别并纠正自身错误,同时从复杂数据中生成精细的分析和见解。结合其先进的编码、视觉和写作能力,该模型适用于多种应用场景。
它既能生成近乎即时的响应,也能进行逐步展开的思考过程,并将这一过程直观展示给用户。API 用户还可精细控制模型思考的时长。
常见应用场景包括:
代码生成
Claude 3.7 Sonnet 在代理式编码方面处于行业领先地位,能够完成从初步规划到漏洞修复、维护乃至大规模重构的整个软件开发生命周期任务。它在规划和解决复杂编码问题方面表现卓越,是驱动端到端软件开发流程的理想选择。
此外,Claude 3.7 Sonnet 支持最高 128K 的输出令牌(测试版),比之前长 15 倍以上,这对于丰富的代码生成和规划尤为重要。
电脑使用
通过 API 集成,开发者可以指挥 Claude 像人类一样使用电脑——观察屏幕、移动光标、点击按钮以及输入文本。Claude 3.5 Sonnet 已是首个具备此能力的前沿 AI 模型,而 Claude 3.7 Sonnet 则在这方面更加准确可靠(目前处于公开测试阶段),且预期这一能力将随着时间不断提升。
高级聊天机器人
凭借增强的推理能力和温暖、类人的语调,Claude 3.7 Sonnet 非常适合构建能够跨系统和工具连接数据、执行操作的智能聊天机器人。
知识问答
Claude 3.7 Sonnet 拥有大上下文窗口和低幻觉率,非常适合回答涉及大型知识库、文档和代码库的问题,确保答案既全面又准确。
视觉数据提取
该模型能够轻松提取图表、图形和复杂图示中的信息,是数据分析和数据科学任务的理想 AI 工具。
面向客户的代理
Claude 3.7 Sonnet 提供卓越的指令遵循、工具选择、错误纠正和高级推理能力,非常适用于构建面向客户的代理及复杂 AI 工作流程。
内容生成与分析
在写作方面,Claude 3.7 Sonnet 擅长理解细微语气和语境,能够生成更具吸引力的内容,并进行深入的内容分析。
机器人流程自动化
利用 Claude 3.7 Sonnet,您可以自动化重复性任务或流程。它在指令执行方面处于行业领先水平,并能应对复杂的流程和操作,极大提升工作效率。
基准测试
Claude 3.7 Sonnet 在编码、视觉和推理等多项任务中均展现出行业领先的性能。
前沿推理模型基准对比
Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力以及代理编码方面均表现卓越,且其扩展思考能力在数学和科学任务上提供了显著提升。除传统基准测试外,它在宝可梦游戏测试中也超越了所有以往模型。
信任与安全
对 Claude 3.7 Sonnet 进行了广泛的测试与评估,并与外部专家合作,确保其在安全、可靠性及保密性方面均达到标准。在本次发布的安全说明中,团队讨论了多个安全类别的新测试结果,包括电脑使用中出现的新风险以及推理模型可能带来的安全益处。
试用
选择Claude 3.7 Sonnet,打开Think Mode。

图片理解 - 理解的还可以

画独角兽 - 差强人意

写代码 - 还是有些bug

