最强大模型Claude 3全面碾压GPT-4?《科创板日报》记者实测报告来了

据《科创板日报》3月5日讯(记者 朱凌)一款被认为碾压GPT-4的模型火了!近日,Anthropic发布Claude 3系列模型,该公司称这是迄今为止速度最快、功能最强大的人工智能模型。

据了解,Claude 3模型系列包括三个模型,按能力升序排列依次是:Claude 3 Haiku(中杯)、Claude 3 Sonnet(大杯)、 Claude 3 Opus(超大杯)。

同时,Claude 3是多模态大模型,具有强大的“视觉能力”,用户可以上传照片、图表、文档和其他类型的数据,对其进行分析和提问。

该公司表示,新模型中能力最强的Claude 3 Opus在部分行业基准测试中的表现优于OpenAI的GPT-4和谷歌的Gemini Ultra,如本科生水平的知识、研究生水平的推理和基础数学。

image

image© 由 财联社 提供

▍Claude 3 Opus VS GPT-4:未具备明显优势

《科创板日报》记者第一时间对Claude 3 Opus进行测试,并与GPT-4进行对比。

首先,对于Claude 3宣称的视觉能力,《科创板日报》记者注意到,相比于GPT-4,Claude 3 Opus确实在图片识别上会有更多细节表现,但在准确率上表现仍不佳。

为验证视觉水平,《科创板日报》记者上传华为Mate50的手机宣传图,并分别对Claude 3 Opus和GPT-4进行提问:这是什么手机?

其中,Claude 3 Opus以肯定的回答这是华为Mate系列的产品,并分别对图中三个手机进行描写,但均将其错认成“Mate40”。

image

image© 由 财联社 提供

而GPT-4则表示无法识别出具体型号,不过,其提到“华为Mate系列在过去曾使用过类似的设计布局”。

image

image© 由 财联社 提供

而对于该公司声称的本科生的知识水平,《科创板日报》记者上传2023年新高考Ⅰ卷数学试题解答题的第1题,发现Claude 3 Opus和GPT-4均未回答正确。

image

image© 由 财联社 提供

image

image© 由 财联社 提供

在考验常识与信息确认能力方面,《科创板日报》记者以“父母婚礼为何不邀请我参加”为题目,分别测试Claude 3 Opus和GPT-4,对比两者的回答,Claude 3 Opus尽管分点回答,条理清晰,但并未考虑“父母婚礼通常发生在孩子出生前”这一现实考量,相比之下GPT-4似乎显得更契合生活常识。

image

image© 由 财联社 提供

image

image© 由 财联社 提供

《科创板日报》记者以“鲁迅为什么打周树人”为题目,分别测试Claude 3 Opus和GPT-4,两者都能做出正确回答。

image

image© 由 财联社 提供

image

image© 由 财联社 提供

最后,《科创板日报》记者以“只切一刀,如何把四个橘子分给四个小朋友?”为问题,分别测试Claude 3 Opus和GPT-4。

image

image© 由 财联社 提供

Claude的回答混淆了分数和小数的概念,而且逻辑上也有问题。

image

image© 由 财联社 提供

其实这道题是一个小陷阱,考验模型的常识和推理能力,GPT-4虽然没有犯下如Claude一样的严重错误,但也没有绕过题目本身的推理陷阱。这道题的正确答案很简单:只要每个小朋友分到一个完整的橘子就可以了,根本不需要切开。

综上,记者的实测结果显示,Claude 3并未超越GPT4。

▍Anthropic是谁?

实际上,这家与ChatGPT-4媲美的大模型公司仅成立不到3年,值得一提的是,该公司核心成员的老东家正是ChatGPT-4的开发商OpenAI。

其中,Anthropic的两位创始人Dario Amodei和Daniela Amodei兄妹,离任前分别在OpenAI担任研究部门副总裁和安全与策略部门副总监。同时,Dario Amodei离任时还带走了OpenAI十多名心腹,其中就包括GPT-3首席工程师Tom Brown。

强大的团队阵容让Claude一路狂飙。据了解,在ChatGPT推出不久后的2023年3月,Anthropic就发布了首款名为“Claude”的AI助手。 彼时,这款类似于ChatGPT的产品让该公司一度被认为是Open AI的最大竞争对手。

光环之下,Anthropic受到资本追捧。据了解,仅2023年一年这家初创公司就完成了五笔不同的融资交易,总计约73亿美元,投资方包括谷歌、亚马逊、Salesforce以及韩国SK Telecom。其中,亚马逊和谷歌分别向其投资高达40亿美元和20亿美元。

公司规模来看,Anthropic联合创始人丹妮拉-阿莫迪(Daniela Amodei)在接受采访时说,目前该公司有60到80人从事核心人工智能模型的开发,总共有120到150人从事技术方面的工作。

据Anthropic公司称,Claude 3 Sonnet和Opus从下周一开始在159个国家上市,而Haiku将很快上市。

有业内人士向《科创板日报》记者表示,随着此轮Claude 3的热度,预计大模型行业会进入一轮新的厮杀。不过,其提醒,Claude3是与OpenAI一年前的模型的比较,而GPT-5预计今年发布,其的性能或将上新台阶。

根据PitchBook的数据,在过去一年里,生成式人工智能领域出现了爆炸式增长,2023年近700笔交易的投资额达到了创纪录的291亿美元,交易额同比增长超过260%。

其中,OpenAI曾在去年4月完成103亿美元的大额融资。近期亦有消息称OpenAI正在寻求新的融资,如果有竞争对手能力超过OpenAI,或对OpenAI的融资产生影响。

此外,主张开源策略的Meta在今年1月宣布,Meta AI已经开始训练Llama 3,预计将在今年7月正式发布。业内人士预计,在Llama 3发布并开源后,AI行业将受到很大影响,或将会有非常多GPT4级别的产品涌现。

大模型的未来将如何发展?《科创板日报》记者将持续保持关注。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注