李春城姐妹花 OpenAI最强竞对Claude再次出牌

栏目分类

热点资讯

情侣偷拍你的位置：聚色 > 情侣偷拍 >

李春城姐妹花 OpenAI最强竞对Claude再次出牌

发布日期：2024-10-26 16:56 点击次数：179

李春城姐妹花 OpenAI最强竞对Claude再次出牌

出品｜虎嗅科技组李春城姐妹花

作家｜余杨

裁剪｜苗正卿

头图｜视觉中国

av收藏

10月22日，由Anthropic拓荒的Claude 3.5迎来重磅升级，发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模子也被称为“十四行诗”（Sonnet），Anthropic公司在为其模子定名时，模仿了体裁艺术作品中的术语，其中包括“俳句”（Haiku）、“十四行诗”（Sonnet）和“宏构”（Opus），这些称号不仅代表了模子的不同版块，也响应了它们在功能和性能上的特色。

Claude 3.5 Sonnet 有着更强的编程才能，全新功能的computer use（估量机使用），因循像东说念主类相同操作估量机，可以奉命用户的高歌在估量机屏幕上出动光标，点击干系位置，并通过诬捏键盘输入信息，模拟东说念主们与我方估量机的交互形状。

当今，Claude 3.5 Sonnet 已进入使用。

Claude系列谣言语模子，一直被平庸以为是OpenAI的ChatGPT和谷歌的Gemini的主要竞争敌手。Anthropic在X中发布了模子基准测试效果，与GPT和Gemini在多个界限进行横向对比。

这些界限包括计划生水平的推理才能（GPQA Diamond）、本科生水平的学问掌捏（MMLUPro）、代码编写才能（Code HumanEval）、数学问题惩处才能（MATH）、视觉问答才能（MMMU）以及代理编码（SWE-bench Verified）和代理器具使用（TAU-bench）。

在计划生水平推理测试（GPQA Diamond）中李春城姐妹花，Claude 3.5 Sonnet以65.0%的准确率拔得头筹，Claude 3.5 Haiku则以41.6%的准确率则稍显逊色。而Gemini 1.5 Pro 的准确率为59.1%，居于第二。在本科生水平学问测试（MMLUPro）中，Claude 3.5 Sonnet再次以78.0%的准确率朝上，而Gemini 1.5 Pro 则以75.8%的准确率紧随后来。

在这次主打的代码编写才能测试（Code HumanEval）中，Claude 3.5 Sonnet以93.7%的准确率得到了最好得益，GPT-4o系列模子在这一测试中也展现了可以的性能，准确率为90.2%和87.2%。

固然在数学问题惩处测试（MATH）中，Claude 3.5系列稍显逊色，Gemini 1.5 Pro 仍然碾压全场，但关于视觉问答测试（MMMU）和代理编码测试（SWE-bench Verified），Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的进展。

而TO B的代理器具使用测试（TAU-bench），则平直关系到大模子的左右才能，这次主要测试了零卖和航空界限。Claude 3.5 Sonnet在零卖和航空界限的准确率分手为69.2%和46.0%，而Claude 3.5 Haiku在零卖和航空界限的准确率分手为51.0%和22.8%。

需要堤防的是，OpenAI的o1模子家眷由于其依赖于平庸的预响应估量时辰，与典型模子存在压根互异，这使得性能比拟变得梗阻，因此在本次评估中被排斥在外。

这可能不够具像化。

Anthropic提供了一个演示，在2分钟的视频中，计划员给Claude建议了一个指示：

我的一又友要来旧金山，我念念未来早上和他一都在金门大桥看日出。咱们将从太平洋高地开赴。你能帮咱们找到一个绝佳的不雅赏处所，稽查一下开车时辰和日出时辰，然后安排一个日期算作，让咱们有有余的时辰到达那儿吗？

Claude的报告领先是，“让我搜索谷歌寻找最好日出不雅赏处所”，并自行灵通了Google开动搜索。

Claude以用户的居住地为起点，在舆图中check了驾驶时辰，随后，Claude不仅灵通了一个新的网页阐发未来的日出时辰，还在日期中竖立了行程提醒，并附上了Notes，URL和附件。

拓荒者展示出Claude怎样操控了我方的札记本电脑，丝滑地完成了一个任务。

Anthropic示意，“咱们并莫得制作特定器具来匡助 Claude 完成单个任务，而是教它通用的估量机技巧——允许它使用为东说念主类贪图的多样范例器具和软件要领。咱们构建了一个 API，使 Claude 大致感知估量机界面并与之交互。该 API 使 Claude 大致将指示翻译成估量机高歌。拓荒东说念主员可以使用它来自动实施重迭性任务、进行测试和 QA 以及进行开放式计划”。

在其他的demo中，拓荒者还让Claude填写了一份来自蚂蚁成就公司的供应商肯求表，需要填写的数据散播在电脑的各个旯旮，Claude跨左右进行了搜索，切换到CRM系统中，转动页面，查找填表所需的悉数信息，然后提交了表格。

AI操作电脑的才能代表了一种全新的东说念主工智能拓荒行动，国内拓荒者也认知出在该界限深远的英勇。

10月23日，在荣耀MagicOS 9.0发布会上，新升级的YOYO智能体也展现出 AI 手机端操作才能的肖似特质，不仅帮演示者提交了咖啡订单，还填写了博物馆场馆预约信息。

一部分温顺者对此满怀期待，以为这意味着责任中好多不得不作念的繁琐事项，都可以交由AI 代劳了。

不外，固然Claude如故得到了一些得益，但咱们普通使用电脑时的好多操作，如拖拽、缩放等，Claude都还无法作念到。

况且，它的操作仍然相对冉冉，且像东说念主类相同会出错。在一次演示中，Claude不小心点击罢手了一个万古辰运行的屏幕录制，导致悉数摄像都付诸东流。而在另一次编码演示中，Claude则一刹“跑神”，开动兴趣兴趣勃勃地浏览起黄石国度公园的像片。

但白壁微瑕，这并不妨碍咱们像莎士比亚相同，将Claude的新期间比作“夏令”。

上一篇：情色调教麦加芯彩：公司的光伏边框涂料还在测试之中

下一篇：杉原杏璃作品山西吕梁发现一处新石器期间文化遗存

李春城 姐妹花 OpenAI最强竞对Claude再次出牌

李春城姐妹花 OpenAI最强竞对Claude再次出牌