中国人工智能(AI)公司DeepSeek发布了极其高效的AI模型,可以与OpenAI和Anthropic等美国公司的尖端产品相媲美,这在科技界引起了巨大震动
DeepSeek成立于2023年,仅用竞争对手一小部分的资金和计算能力取得了如此成就
DeepSeek上周发布的“推理”R1模型引发了研究人员的兴奋、投资者的震惊以及人工智能领域巨头的关注。该公司于1月28日发布了能够处理图像和文本的模型
DeepSeek 的 R1 是一款令人印象深刻的型号,尤其是考虑到它的价格。
— Sam Altman (@sama) 2025年1月28日
我们当然会推出更好的型号,而且有新的竞争对手出现也确实令人振奋!我们会陆续发布一些新品。
那么DeepSeek做了什么,又是如何做到的呢?
DeepSeek做了什么
去年12月,DeepSeek发布了其V3模型。这是一个非常强大的“标准”大型语言模型,其性能与OpenAI的GPT-4o和Anthropic的Claude 3.5相当。
虽然这些模型容易出错,有时甚至会捏造事实,但它们可以完成诸如回答问题、撰写文章和生成计算机代码等任务。在一些问题解决和数学推理测试中,它们的得分甚至高于普通人。
报道,V3 的训练约为 558 万美元。这比 GPT-4 便宜得多,例如,GPT-4 的开发超过 1 亿美元
NVIDIA 生产的 H800 GPU)来训练 V3 模型。这远少于其他公司,其他公司可能使用了多达 16000 个功能更强大的 H100 芯片。
1月20日,DeepSeek发布了另一款模型,名为R1 。这是一款所谓的“推理”模型,它尝试逐步解决复杂问题。这类模型似乎更擅长处理许多需要上下文信息且包含多个相互关联部分的任务,例如阅读理解和战略规划。
的性能似乎与 OpenAI去年发布的模型相当
DeepSeek 也采用了相同的技术,制作了可以在家用电脑上运行的小型开源模型的“推理”版本。.
此次发布引发了人们对DeepSeek的极大兴趣,推动了其基于V3引擎的聊天机器人应用,并引发了暴跌,因为投资者重新评估了人工智能行业。截至发稿时,芯片制造商英伟达的市值已蒸发约6000亿美元
DeepSeek是如何做到的
DeepSeek 的突破在于提高了效率:用更少的资源获得良好的结果。尤其值得一提的是,DeepSeek 的开发者率先开发了两项技术,这两项技术或许能被更广泛的人工智能研究人员所采用。.
第一个问题与一个名为“稀疏性”的数学概念有关。人工智能模型有很多参数决定它们对输入的响应(V3 版本大约有 6710 亿个参数),但对于任何给定的输入,只有一小部分参数会被用到。.
然而,预测需要哪些参数并非易事。DeepSeek 采用了一种新技术来预测参数,然后仅训练这些参数。因此,其模型所需的训练量远少于传统方法。.
另一个诀窍与V3在计算机内存中存储信息的方式有关。DeepSeek找到了一种巧妙的方法来压缩相关数据,使其更容易存储和快速访问。.

它的含义
MIT 许可证免费发布,这意味着任何人都可以下载和修改它们。
虽然这对某些人工智能公司来说可能是坏消息——因为免费且强大的模型的存在可能会侵蚀它们的利润——但对更广泛的人工智能研究界来说却是好消息。.
目前,许多人工智能研究需要大量的计算资源。像我这样在大学(或除大型科技公司以外的任何地方)工作的研究人员,开展测试和实验的能力一直很有限。.
更高效的模型和技术改变了现状。现在,我们的实验和研发工作可能会变得更加容易。.
对消费者而言,获取人工智能的成本也可能降低。更多的人工智能模型可以在用户自己的设备(例如笔记本电脑或手机)上运行,而无需像以前那样支付订阅费“在云端”运行。.
对于已经拥有大量资源的科研人员来说,提高效率可能收效甚微。目前尚不清楚DeepSeek的方法究竟是能帮助构建整体性能更佳的模型,还是仅仅能提升模型的效率。.
悉尼大学
机器学习副教授兼悉尼人工智能中心主任。经知识共享许可协议转载自The Conversation 原文。








