体验完Claude 3.5,这些方面GPT-4o更胜一筹

技术

今天,Anthropic发布了“Claude 3.5 Sonnet”,其性能超越了包括Anthropic之前的旗舰Claude 3 Opus在内的行业领先型号。它比Claude 3 Opus快2倍,价格便宜5倍。

picture.image

为了比较Claude 3.5 Sonnet和GPT-4o在特定任务上的表现,进行了一些简单的实验:

  • GPT-4o比Claude 3.5 Sonnet在RAG生成、分类、推理任务上更胜一筹

  • 在Agent工具选择、信息抽取任务上持平

RAG生成测试

示例输入:


          
阅读提供的参考资料并回答相应的问题
          
question1:随着年龄的增长,为什么头发会变灰。
          
references1:
          
[1]头发为什么随着年龄增长变灰。头发变灰的平均年龄差异很大,20多岁变灰的主要原因之一是基因。人的头发变灰的年龄受IRF4基因的影响,其中一种特定变体(rs12203592)是早期变灰的标志。
          
[2]虽然社交媒体上的银灰色头发很受欢迎,但当它在你20多岁时出现时,就不那么酷了。压力、DNA和特定的健康状况都可能导致过早变灰。虽然无法逆转灰发,但可以通过一些改变来减缓变灰过程。
          
[3]黑色素细胞将黑色素注入头发毛干,赋予其独特的颜色。随着人体年龄的增长,头发变灰是因为黑色素细胞减少,黑色素的产生也会减少。空气袋取代了毛干中的黑色素,导致银灰色的头发,以及灰色的阴毛。
          
[4]除了年龄因素,其他引起头发变灰的原因包括基因、压力、营养不足和健康问题。这些因素影响黑色素细胞的功能,并通过降低色素的产生导致过早变灰。
          
[5]灰发是衰老过程中不可避免的一部分,但为什么有些人比其他人更早生长出天然灰发呢?在本文中找到答案。
          
answer1:灰色头发是随着我们年龄增长自然发生的过程,其原因是随着年龄的增长,头皮毛囊中黑素细胞和黑色素产生的减少[3]。遗传也起到了作用,因为IRF4基因和一个特定的变体(rs***)是早白发的标记[1]。压力、营养不足和健康问题也可以影响黑素细胞的功能并导致早白发[4]。此外,有些人可能会比其他人更早地自然地长出灰色头发,这是因为遗传[5]。
          
question2:贵州茅台发展趋势怎么样?
          
references2:
          
[1]新电商平台上线标志贵州茅台(600519)改革进程加速,目前该平台处于试运行阶段,贵州茅台(600519)有望进入快车道。茅台换帅新举措,优化调整是重要看点20218月底茅台换帅,丁雄军担任贵州茅台(600519)董事长,提出贵州茅台(600519)改革的方向:市场化和法制化,释放积极信号。十四五期间,茅台的优化调整是重要看点,主要分为调价格、调产品结构和调渠道结构。价格方面,贵州茅台(600519)已取消拆箱政策,回归市场化,整茅和散茅批价有望继续收窄,我们预计十四五期间茅台至少提价一次。产品结构方面,我们认为贵州茅台(600519)将继续调非标产品占比带动吨价提升,今年以来对非标产品进行提价亦证实这一点;系列酒产品结构将持续优化,内部实施“大单品”战略,以茅台王子酒为核心的“1+N”大单品群,汉酱和贵州大曲已成10亿级大单品。渠道结构调整是十四五期间又一重要看点,未来经销商配额将保持不变,贵州茅台(600519)将重点开拓直营渠道(包括自营、电商、商超及企业团购等渠道)。
          
[2]报告期内,贵州茅台(600519)推出i茅台作为电商新平台,亦是贵州茅台(600519)C端渠道改革的一项重要举措,为后续茅台系列产品的量价稳定和消费者培育有积极意义。此外,截至2022Q1贵州茅台(600519)国内经销商数量为2086家,环比变化不大,经销体系趋于稳定。全方位改革加速落地,高质量提速可期。20218月新任董事长上任后,产品和渠道端动作频频。产品端,理清茅台全产品线,聚焦“拳头”产品,并推出茅台1935和珍品茅台补位;渠道端,持续落实茅台价格市场化,多措并举稳定批价,降低成箱/散瓶价差,近期上线电商新渠道,补充茅台C端渠道短板,让我们看到了一个全新的茅台,一个持续向上的茅台。2022年贵州茅台(600519)营收目标增速15%左右,一季度顺利实现开门红,随着贵州茅台(600519)全方位改革的效果显现,全新的茅台值得期待。
          
[3]在基酒产能释放、渠道改革显效、产品结构优化、新电商平台布局的有效作用下,贵州茅台(600519)22年有望实现量价齐升。我们看好贵州茅台(600519)长期发展能力,维持2022-2024年EPS预测为48.9456. 5365.78元,当前股价对应PE35. 4X、30.6X、26.3X,维持“推荐”评级。风险提示:1)宏观经济疲软的风险。经济增速下滑,消费升级不达预期,导致消费端增速放缓。2)政策风险。白酒行业需求、税率受政策影响较大,如相关政策出现变动,可能会对企业营收、利润有较大影响。3)白酒行业景气度下行风险。白酒行业景气度与价格走势相关度很高,如果白酒价格下降,可能导致企业营收增速大幅放缓。4)疫情加剧风险。疫情加剧下白酒消费场景减少,可能对白酒行业景气度造成冲击。
          
answer2:
      

Claude-3.5-sonnet给出了答案:示例中无溯源

picture.image GPT-4o答案更优:示例中有溯源

picture.image

Agent工具调用测试

示例输入:


          
You are an agent capable of using a variety of TOOLS to answer a data analytics question.
          
Always use MEMORY to help select the TOOLS to be used.
          

          
MEMORY
          
Previous Question: How much excess inventory do we have for 'Google Pixel 6'?
          
SQL Query:
          

          
SELECT
          
inventory.id,
          
inventory.product_id,
          
inventory.quantity,
          
inventory.min_required,
          
products.name
          
FROM
          
inventory
          
JOIN
          
products ON inventory.product_id = products.id
          
WHERE
          
products.name = 'Google Pixel 6';
          
Retrieved Information: [(7, 7, 100, 20, 'Google Pixel 6')]
          

          
TOOLS
          

          
Generate Final Answer: Use if answer to User's question can be given with MEMORY
          
Calculator: Use this tool to solve mathematical problems.
          
Query_Database: Write an SQL Query to query the Database.
          
ANSWER FORMAT
          

          
{
          
"tool_name": "Calculator"
          
}
          
[/INST]
          
User: How much excess inventory do we have for 'Google Pixel 6'?
          

          
Assistant: ```json
          
{
          
"tool_name":
      

Claude-3.5-sonnet持平:示例给出了答案

picture.image

GPT-4o持平:示例给出了答案

picture.image

除了Agent、RAG方面的对比,vellum.ai也在数据抽取、文本分类、推理等方面也做了一些对比,可以统一做一个参考,GPT-4o整体比Claude-3.5-sonnet效果要好

picture.image

https://www.vellum.ai/blog/claude-3-5-sonnet-vs-gpt4o

数据提取测试

比较Claude 3.5 Sonnet和GPT-4o从法律合同中提取关键信息的能力, 提取总共12个字段,例如合同标题、客户名称、供应商名称、终止条款的详细信息、是否存在不可抗力等等。


          
You're a contract reviewer who is working to help review contracts following an Merger & Acquisition deal. Your goal is to analyze the text provided and return key data points, focusing on contract terms, risk, and other characteristics that would be important. You should only use the text provided to return the data.
          

          
From the provided text, create valid JSON with the schema:
          
{
          
contract_title: string, // the name of the agreement
          
customer: string, // this is the customer signing the agreement
          
vendor: string, // this is the vendor who is supplying the services
          
effective_date: date, // format as m/d/yyyy
          
initial_term: string, // the length of the agreement (ex. 1 year, 5 years, 18 months, etc.)
          
extension_renewal_options: string, // are there extension or renewal options in the contract? 
          
automatic_renewal: string, // is this agreement set to automatically renew? 
          
termination_clause: string, // the full text in the contract containing information about how to terminate the agreement
          
termination_notice: string, // the number of days that must be given notice before the agreement can be terminated. only include the number. 
          
force_majeure: string, // is there a clause for force majeure present in the agreement? 
          
force_majeure_pandemic: string, // does force majeure include reference to viral outbreaks, pandemics or epidemic events? 
          
assignment_allowed: string, // is there language specifying whether assignment is allowed? answer in only one sentence.
          
jurisdiction: string, // the jurisdiction or governing law for the agreement (ex. Montana, Georgia, New York). if this is a state, only answer with the name of the state.
          
}
          

          
Contract:
          
"""
          
{{ contract }}
          
"""
      

GPT-4o表现更佳,但两个模型都未能完成这项数据提取任务。 GPT-4o在14个领域中的 5 个领域上的表现优于 Claude 3.5 Sonnet,在7个领域上保持了相似的性能,在2个领域上性能下降。

picture.image

分类测试

让 Claude 3.5 Sonnet 和 GPT-4o判断客户支持单是否已解决, 测试模型的输出是否与100个标记测试用例的真实数据相匹配。

GPT-4o的准确率最高,为 86.21%,表明它在避免误报方面表现最佳

picture.image

推理测试

选择了16个文字推理问题来比较两者,数据来源:

https://testbook.com/reasoning/verbal-reasoning


          
💡  Verbal reasoning question:
          

          
1. Choose the word that best completes the analogy: Feather is to Bird as Scale is to _______.
          

          
A) Reptile
          

          
B) Dog
          

          
C) Fish
          

          
D) Plant
          

          
Answer: Reptile
      

GPT-4o的准确率高于Claude 3.5 Sonnet,准确率分别为 69% 和 44%

picture.image


          
高级RAG之36技试看私信获取:RAG专栏 
          
高级RAG之36技试看:https://docs.qq.com/aio/DR0dBWm9WYlJNckxw?p=dIxns4m9ounpDQ9pRCV7zu   
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论