新开传奇私服

传奇私服发布网

当前位置：首页 > 互联网 IT业界 > 超越GPT-4，Claude 3超大杯成新王！

超越GPT-4，Claude 3超大杯成新王！

admin 5个月前互联网 IT业界 46热度

　　新智元报道

　　编辑：alan

　　太疯狂了！Claude 3 Opus 竟然干掉了 GPT-4。在 Chatbot Arena 最新的聊天机器人对战排行榜中，Claude 3 的超大杯成功登顶，就连最小的 Claude 3 HaiKu 都达到了 GPT-4 水平！

　　太疯狂了！Claude 3 Opus 超越了 GPT-4，成为新的国王！

　　今天，Chatbot Arena 更新了聊天机器人对战的排行榜，在经过了时间的洗礼和群众的检验之后，之前略逊于 GPT-4 的 Claude 3 竟然反超了！

　　而且不仅仅是 Claude 3 的超大杯 Opus 成功登顶，藐视众生，Claude 3 家族的整体表现都非常亮眼。

　　大杯 Claude 3 Sonnet 排到了第4，就连最小的 Claude 3 HaiKu 都达到了 GPT-4 水平！

　　那么相比于基准测试跑分，这个榜单的权威性如何？

　　Chatbot Arena（聊天机器人竞技场），由伯克利团队开发，每个模型在榜单上的得分，完全取决于真实人类用户的使用体验。

　　我们来看一下打分规则：

用户同时向两个匿名模型（比如 ChatGPT、Claude、Llama）提出任何相同的问题，然后根据回答投票给表现更好的模型；如果一次回答不能确定，用户可以继续聊天，直到确定获胜者；如果在对话中透露了模型的身份，则不会计算投票。

　　Chatbot Arena 平台收集了超过 40 万人的投票，来计算出这个大模型的等级分排行榜，最终找出谁是冠军。

　　显然，这回 Claude 3 赢麻了。

　　我们来看一下真实的战况：

　　在所有非平局对战中， A 对B获胜的比例：

　　模型之间的对战次数（无平局）：

　　GPT-4 终于被干掉了，对此，有网友开始恶搞：

刚在当地超市看到 Sam Altman，他一脸震惊地看着手机。几秒钟后，他真的倒下了，开始剧烈颤抖。经过 2 分钟的摇晃和尖叫，一群人围绕着他试图帮助他。但令人惊讶的是，他在 2 分钟后停止了颤抖和尖叫，站起来，拿起手机开始拨打一个号码。 “准备释放......”

　　咱也不知道 Altman 要放的是不是 GPT-5。

　　网友表示，Claude 确实要比 GPT 勤奋得多：

GPT-4-Turbo 非常懒惰。在任何编码任务中，它都会跳过部分代码，并表示“你自己知道要放什么”，而 Opus 可以毫无遗漏地输出整个代码。

　　就连 Claude-2 也通过自己的勤奋和耐心感动了这位网友。

　　更有比较务实的网友指出，Haiku 的排名更为重要，因为它是第一个可以以极低成本即时运行的 LLM，并且具有足够高的智能来提供实时客户服务。

　　盲生你发现了华点！Claude 3 Haiku 不仅与原始版本的 GPT-4 表现一样好，关键是相当便宜，在一些平台你甚至可以免费使用。

　　大家于是纷纷夸起了 Claude 3 Haiku：

　　智能相当于 GPT-4，价格比 GPT-3.5 便宜，而且据说模型可能只有 20B 大小。

　　有网友表示，OpenAI 不行啦，现在 Anthropic 才是老大，一时间，平台内外充满了快活的空气。

　　ChatGPT 一年零增长

　　回过头来再看 ChatGPT 这边，从最初的高光、王者，到现在不能说泯然众人吧，反正多少有点寒酸了。

　　最近，有关统计平台曝出：ChatGPT 在过去一年中居然零增长！

　　最近一段时间，ChatGPT 一直被指责懒惰、系统提示臃肿，而另一方面竞争也愈演愈烈——Claude 3 和 Gemini Pro 1.5 现在都提供了比 GPT-4 多 8 倍的上下文长度和更好的 recall 能力。

　　对于几乎每个 ChatGPT 用例，现在都有大量垂直化的 AI 初创公司，致力于满足用户的需求，而不是满足于现有的 ChatGPT 界面和捆绑工具

　　它们有更好的 UI 选项（例如 IDE 和图像/文档编辑器）、更好的原生集成（例如用于 cron 重复操作）、更好的隐私/企业保护（例如用于医疗保健和金融），更细粒度的控制（GPT 的默认 RAG 是幼稚且不可配置的）。

　　以下是一些网友列举了相关垂直领域的产品，以及公司的融资情况：

　　从某种意义上说，OpenAI 的 B2B 和 B2C 部分相互竞争，这在某种程度上是良性竞争——OpenAI 可以使用来自 ChatGPT 的 RLHF 数据进行训练。

　　而新的 GPT 商店可以看作是，OpenAI 为了抓住这些垂直化需求的尝试。

　　——与其离开平台，到处支付 20 美元/月，为什么不留在 ChatGPT 内部而只需要支付一次，让 OpenAI 将理论上的收入分配给 GPT 创作者？

　　对此，大部分创作者也很明智，一般只向 ChatGPT 发布精简版的应用，作为自己主要平台的一个渠道。

　　在游戏机业务中，众所周知，购买决策往往是由平台独占游戏驱动的。从某种意义上说，ChatGPT 的未来会以平台专属模型为特色。

　　所以，当 Sora 甚至是 GPT-5 公开发布时，一定会率先登陆自家的平台，也许那将是下一轮 ChatGPT 的增长点。

　　参考资料：

　　https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

更新时间 2024-05-02 08:33:18