最强大模型Claude 3全面碾压GPT-4？《科创板日报》记者实测报告来了

据《科创板日报》3月5日讯（记者朱凌）一款被认为碾压GPT-4的模型火了！近日，Anthropic发布Claude 3系列模型，该公司称这是迄今为止速度最快、功能最强大的人工智能模型。

据了解，Claude 3模型系列包括三个模型，按能力升序排列依次是：Claude 3 Haiku（中杯）、Claude 3 Sonnet（大杯）、 Claude 3 Opus（超大杯）。

同时，Claude 3是多模态大模型，具有强大的“视觉能力”，用户可以上传照片、图表、文档和其他类型的数据，对其进行分析和提问。

该公司表示，新模型中能力最强的Claude 3 Opus在部分行业基准测试中的表现优于OpenAI的GPT-4和谷歌的Gemini Ultra，如本科生水平的知识、研究生水平的推理和基础数学。

image© 由财联社提供

▍Claude 3 Opus VS GPT-4：未具备明显优势

《科创板日报》记者第一时间对Claude 3 Opus进行测试，并与GPT-4进行对比。

首先，对于Claude 3宣称的视觉能力，《科创板日报》记者注意到，相比于GPT-4，Claude 3 Opus确实在图片识别上会有更多细节表现，但在准确率上表现仍不佳。

为验证视觉水平，《科创板日报》记者上传华为Mate50的手机宣传图，并分别对Claude 3 Opus和GPT-4进行提问：这是什么手机？

其中，Claude 3 Opus以肯定的回答这是华为Mate系列的产品，并分别对图中三个手机进行描写，但均将其错认成“Mate40”。

image© 由财联社提供

而GPT-4则表示无法识别出具体型号，不过，其提到“华为Mate系列在过去曾使用过类似的设计布局”。

image© 由财联社提供

而对于该公司声称的本科生的知识水平，《科创板日报》记者上传2023年新高考Ⅰ卷数学试题解答题的第1题，发现Claude 3 Opus和GPT-4均未回答正确。

image© 由财联社提供

在考验常识与信息确认能力方面，《科创板日报》记者以“父母婚礼为何不邀请我参加”为题目，分别测试Claude 3 Opus和GPT-4，对比两者的回答，Claude 3 Opus尽管分点回答，条理清晰，但并未考虑“父母婚礼通常发生在孩子出生前”这一现实考量，相比之下GPT-4似乎显得更契合生活常识。

image© 由财联社提供

《科创板日报》记者以“鲁迅为什么打周树人”为题目，分别测试Claude 3 Opus和GPT-4，两者都能做出正确回答。

image© 由财联社提供

最后，《科创板日报》记者以“只切一刀，如何把四个橘子分给四个小朋友?”为问题，分别测试Claude 3 Opus和GPT-4。

image© 由财联社提供

Claude的回答混淆了分数和小数的概念,而且逻辑上也有问题。

image© 由财联社提供

其实这道题是一个小陷阱，考验模型的常识和推理能力，GPT-4虽然没有犯下如Claude一样的严重错误，但也没有绕过题目本身的推理陷阱。这道题的正确答案很简单：只要每个小朋友分到一个完整的橘子就可以了，根本不需要切开。

综上，记者的实测结果显示，Claude 3并未超越GPT4。

▍Anthropic是谁？

实际上，这家与ChatGPT-4媲美的大模型公司仅成立不到3年，值得一提的是，该公司核心成员的老东家正是ChatGPT-4的开发商OpenAI。

其中，Anthropic的两位创始人Dario Amodei和Daniela Amodei兄妹，离任前分别在OpenAI担任研究部门副总裁和安全与策略部门副总监。同时，Dario Amodei离任时还带走了OpenAI十多名心腹，其中就包括GPT-3首席工程师Tom Brown。

强大的团队阵容让Claude一路狂飙。据了解，在ChatGPT推出不久后的2023年3月，Anthropic就发布了首款名为“Claude”的AI助手。彼时，这款类似于ChatGPT的产品让该公司一度被认为是Open AI的最大竞争对手。

光环之下，Anthropic受到资本追捧。据了解，仅2023年一年这家初创公司就完成了五笔不同的融资交易，总计约73亿美元，投资方包括谷歌、亚马逊、Salesforce以及韩国SK Telecom。其中，亚马逊和谷歌分别向其投资高达40亿美元和20亿美元。

公司规模来看，Anthropic联合创始人丹妮拉-阿莫迪（Daniela Amodei）在接受采访时说，目前该公司有60到80人从事核心人工智能模型的开发，总共有120到150人从事技术方面的工作。

据Anthropic公司称，Claude 3 Sonnet和Opus从下周一开始在159个国家上市，而Haiku将很快上市。

有业内人士向《科创板日报》记者表示，随着此轮Claude 3的热度，预计大模型行业会进入一轮新的厮杀。不过，其提醒，Claude3是与OpenAI一年前的模型的比较，而GPT-5预计今年发布，其的性能或将上新台阶。

根据PitchBook的数据，在过去一年里，生成式人工智能领域出现了爆炸式增长，2023年近700笔交易的投资额达到了创纪录的291亿美元，交易额同比增长超过260%。

其中，OpenAI曾在去年4月完成103亿美元的大额融资。近期亦有消息称OpenAI正在寻求新的融资，如果有竞争对手能力超过OpenAI，或对OpenAI的融资产生影响。

此外，主张开源策略的Meta在今年1月宣布，Meta AI已经开始训练Llama 3，预计将在今年7月正式发布。业内人士预计，在Llama 3发布并开源后，AI行业将受到很大影响，或将会有非常多GPT4级别的产品涌现。

大模型的未来将如何发展？《科创板日报》记者将持续保持关注。

评论