DeepSeek 性能测试：与其他 AI 工具的性能比较

中国新推出的DeepSeek大型语言模型（LLM）颠覆了美国主导的市场，以更低的成本提供了相对高性能的聊天机器人模型。

与美国人工智能工具相比，DeepSeek 的开发成本更低，订阅价格也更低，这导致美国芯片制造商英伟达 (Nvidia) 的市值在一天之内蒸发了 6000 亿美元（4800 亿英镑）。英伟达生产的计算机芯片用于训练大多数 LLM（逻辑逻辑模型），而 LLM 是 ChatGPT 和其他人工智能聊天机器人所使用的底层技术。DeepSeek 使用的是价格更低的英伟达 H800 芯片，而不是价格更高的先进版本。

据报道，ChatGPT 的开发商 OpenAI 在其最新版本产品 o1 的开发上花费了 1 亿至 10 亿美元。相比之下，DeepSeek 利用一系列巧妙的创新，仅用了两个月时间就完成了训练，成本为 560 万美元。.

但DeepSeek的AI聊天机器人R1在性能上与其他类似的AI工具相比究竟如何呢？

DeepSeek 声称其模型性能与 OpenAI 的产品相当，甚至在某些基准测试中超越了 o1 模型。然而，使用大规模多任务语言理解 (MMLU) 测试的基准测试通过多项选择题来评估跨多个学科的知识。许多语言学习模型 (LLM) 都是针对此类测试进行训练和优化的，因此这些测试结果并不能可靠地反映实际应用场景下的性能。

另一种客观评估语言学习模型（LLM）的方法是使用由卡迪夫城市大学、布里斯托大学和卡迪夫大学的研究人员（统称为知识观察小组，KOG）开发的一系列测试。这些测试通过需要人类隐性理解才能回答的问题，来探究语言学习模型模仿人类语言和知识的能力。核心测试内容保密，以防止语言学习模型公司为了迎合这些测试而训练其模型。.

Meta 数据科学家 Colin Fraser的研究启发，开展了公开测试，以评估 DeepSeek 与其他 LLM 的性能。观察到以下结果：

用于生成此表的测试本质上是“对抗性”的。换句话说，这些测试旨在“提高难度”，并以与模型设计初衷不符的方式测试其性能。这意味着这些模型在此测试中的表现可能与它们在主流基准测试中的表现有所不同。.

DeepSeek 的得分为 5.5 分（满分 6 分），优于 OpenAI 的 o1（其高级推理模型，被称为“思维链”）以及 ChatGPT 的免费版本 ChatGPT-4o。但 DeepSeek 略逊于 Anthropic 的 ClaudeAI 和 OpenAI 的 o1 mini，后两者均获得满分 6 分。值得注意的是，o1 的表现甚至不如其“小型”版本 o1 mini。.

DeepThink R1 是 DeepSeek 开发的一款思维导图人工智能工具，其得分为 3.5 分，与 DeepSeek 相比表现不佳。.

这一结果表明，DeepSeek的聊天机器人已经具备很强的竞争力，甚至超越了OpenAI的旗舰模型。这很可能推动DeepSeek的进一步发展，使其拥有坚实的基础。然而，这家中国科技公司也面临着其他LLM模型所没有的一个严重问题：审查制度。.

审查制度的挑战

尽管DeepSeek表现出色且广受欢迎，但它对中国政治敏感话题的回应却饱受诟病。例如，当用户询问与天安门广场、台湾、维吾尔族穆斯林和民主运动相关的问题时，DeepSeek的回复是：“抱歉，这超出了我目前的能力范围。”

但这个问题并非DeepSeek独有，低层内存（LLM）领域普遍存在的政治影响和审查问题日益令人担忧。唐纳德·特朗普宣布的耗资5000亿美元的“星际之门”（Stargate）低层内存项目，涉及OpenAI、英伟达、甲骨文、微软和Arm等公司，也引发了人们对政治干预的担忧。

此外，Meta 最近决定在 Facebook 和 Instagram 上进行事实核查，

DeepSeek的出现对LLM市场造成了严重冲击。OpenAI和Anthropic等美国公司将被迫对其产品进行创新，以保持竞争力，并在性能和成本方面与其匹敌。.

DeepSeek 的成功已经挑战了现状，证明无需数十亿美元的预算也能开发出高性能的 LLM 模型。这也凸显了 LLM 审查、虚假信息传播的风险，以及独立评估的重要性。.

随着法学硕士（LLM）越来越深入地融入全球政治和商业，透明度和问责制对于确保法学硕士的未来安全、有用和值得信赖至关重要。.

卡迪夫城市大学

计算机与信息系统高级讲师。经知识共享许可协议转载自The Conversation 原文。

SODP

SODP媒体

DeepSeek 性能测试：与其他 AI 工具的性能比较

创建者

事实核查

编辑

目录

作者： Vahe Arabian

审查制度的挑战

关于

实用链接

专题文章

SODP

DeepSeek 性能测试：与其他 AI 工具的性能比较

创建者

事实核查

编辑

目录

订阅人工智能洞察

作者： Vahe Arabian

审查制度的挑战

相关文章

实用链接

专题文章