Fork me on GitHub

GPT4最大的对手出现了,能否保持不败之地呢?

以下文章来源于 https://zhuanlan.zhihu.com/p/685523579

OpenAI的对头公司Anthropic连夜发布Claude 3模型,在诸多排行榜上超越了gpt4存在。

Anthropic宣布推出Claude 3模型系列,该系列在广泛的认知任务方面树立了新的行业标准。该系列包括三种按能力递增的先进模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每个连续模型都提供越来越强大的性能,使用户能够为他们的特定应用选择最佳的智能、速度和成本平衡。

Opus和Sonnet现在可在claude.ai和Claude API中使用,后者现在已在全球159个国家/地区普遍可用。Haiku将很快推出。

Opus是Anthropic最智能的模型,在大多数常见的AI系统评估基准方面,它的表现优于其同类模型,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等。它在复杂任务上展现出接近人类的理解能力和流畅性,引领通用智能的前沿。

所有Claude 3模型在分析、预测、微妙的内容创作、代码生成以及用西班牙语、日语和法语等非英语语言进行交流方面,都显示出增强的能力。

Claude 3跟同类闭源大模型比较

以下是Claude 3模型与同类模型在多个能力基准上的比较:


近乎实时的响应

Claude 3模型可以为实时客户聊天、自动完成和数据提取任务提供支持,这些任务需要立即且实时地做出响应。

Haiku是市场上其智能类别中最快、最经济高效的模型。它可以在不到三秒钟的时间内阅读一篇信息密集、数据密集的研究论文(来自arXiv,约10,000个标记),其中还包括图表和图形。发布后,我们期待进一步提高性能。

对于绝大多数工作负载,Sonnet的速度比Claude 2和Claude 2.1快两倍,同时智能水平更高。它擅长需要快速响应的任务,如知识检索或销售自动化。Opus的速度与Claude 2和2.1相似,但智能水平更高。


强大的视觉能力

Claude 3模型具有与其他领先模型相当的复杂视觉能力。它们可以处理各种视觉格式,包括照片、图表、技术图表和草图。


更好的识别无害指令执行

之前的Claude模型经常做出不必要的拒绝,这表明缺乏上下文理解。在这方面取得了有意义的进展:Opus、Sonnet和Haiku与之前的模型相比,不太可能拒绝回答接近系统警戒线的提示。如下图所示,Claude 3模型对请求的理解更加微妙,能够识别真正的危害,并且更少拒绝回答无害的提示。

提高回答的准确率(减少幻觉)

各种规模的企业都依赖Anthropic的模型来服务他们的客户,这使得Anthropic的模型输出在规模上保持高准确率至关重要。为了评估这一点,使用了一组复杂且针对性强的问题集,这些问题针对当前模型的已知弱点。将答复分为正确答案、错误答案(或幻觉)和不确定性承认,其中模型表示不知道答案,而不是提供错误信息。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题上的准确率(或正确答案)提高了两倍,同时错误答案的数量也有所减少。

除了产生更可信的答复外,Anthropic很快将在Claude 3模型中启用引用功能,以便它们可以指向参考资料中的精确句子来验证其答案。


长上下文能力和超高的召回率

Claude 3模型系列在发布时将首先提供200K的上下文窗口。然而,这三种模型都能够接受超过100万个标记的输入,我们可能会向需要增强处理能力的选定客户提供此功能。

为了有效地处理长上下文提示,模型需要具备强大的召回能力。"Needle In A Haystack"(NIAH)评估标准衡量模型从庞大的数据集中准确召回信息的能力。通过为每个提示使用30个随机needle/问题对之一并在多样化的众包文档语料库上进行测试,增强了这一基准的稳健性。Claude 3 Opus不仅实现了近乎完美的召回率,超过了99%的准确率,而且在某些情况下,它甚至通过识别"needle"句子似乎是人为插入到原始文本中的,来识别评估本身的局限性。


API价格

API价格确实是比较高的存在,比谷歌Gemini高很多。

  • 三个版本能力大小:Haiku < Sonnet < Opus
  • Claude 3 Opus 宣称能力全面超越了 GPT-4
  • 多模态能力:支持输入图片
  • 三个模型均默认支持 200K 的 Context Window,可定制到 1 百万 Context Window
  • API 价格(每百万 Token 的输入/输出)
  • Opus:15 / 75 USD
  • Sonnet:3 / 15 USD
  • Haiku:0.25 / 1.25 USD

本文地址:https://www.6aiq.com/article/1709692830926
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出