选举季的出版商增长策略网络研讨会

了解更多

SODP

SODP Media

  • Education
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Opinion
    • Podcast
    • Events
      • All Events
  • Top Tools & Reviews
  • Research & Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
    搜索
    关闭此搜索框。
    登录
    • 教育
      • 播客
      • 文章
        • 观众发展
        • 内容策略
        • 数字出版
        • 货币化
        • 搜索引擎优化
        • 数字平台和工具
        • 文章
        • 观点
        • 播客
        • 活动
        • 观众发展
        • 内容策略
        • 数字出版
        • 货币化
        • 搜索引擎优化
        • 数字平台和工具
        • 查看全部
    • 热门工具和评论
        • 无头 CMS 平台
        • 数字出版平台
        • 编辑日历软件
        • 杂志应用程序
        • 电子邮件通讯平台
        • 更多最佳工具列表
        • 评论
    • 研究与资源
    • 社区
      • 松弛通道
      • 办公时间
      • 通讯
        • 松弛通道
        • 通讯
    • 关于
      • 关于我们
      • 联系我们
      • 编辑政策
        • 关于我们
        • 联系我们
        • 编辑政策
    占位符
    SODP logo
    成为品牌合作伙伴

    主页▸数字平台和工具▸将DeepSeek投入测试:其性能如何与其他AI工具进行比较

    将DeepSeek进行测试:其性能如何与其他AI工具进行比较

    西蒙·索恩(Simon Thorne)Simon Thorne
    2025年2月5日
    事实核查者 The Conversation
    对话
    对话

    The Conversation 是学者和记者之间的独特合作,十年来已成为世界领先的研究型新闻和分析出版商。您在这些页面上读到的所有内容都是……阅读更多

    编辑者 Simon Thorne
    西蒙·索恩(Simon Thorne)
    西蒙·索恩(Simon Thorne)

    我的研究主要基于计算机科学,并在信息系统中应用。我认为自己更像是一位自然科学家,在进行研究时更喜欢科学探究。我的博士学位……阅读更多

    DeepSeek

    中国新的DeepSeek大语言模型(LLM)破坏了美国统治的市场,以相对较高的聊天机器人模型的成本明显降低。

    与美国AI工具相比,开发成本和降低的订阅价格降低了,有助于美国芯片制造商在一天内损失了6000亿美元 NVIDIA使计算机芯片用于训练大多数LLM,这是Chatgpt和其他AI聊天机器人中使用的基础技术。 DeepSeek在更昂贵的最新版本上使用了便宜的NVIDIA H800芯片。

    据报道,Chatgpt开发人员Openai花费了1亿至10亿美元,开发了其最新版本的产品O1。相比之下,DeepSeek在短短两个月内完成了培训,使用了一系列巧妙的创新,耗资560万美元。

    但是,DeepSeek的AI聊天机器人R1的表现如何与其他类似的AI工具相比?

    DeepSeek声称其模型与OpenAI的产品相当,甚至超过了某些基准测试中的O1模型。但是,使用大量多任务语言理解(MMLU)测试的基准测试使用多项选择问题评估多个受试者的知识。许多LLM经过培训和优化此类测试,使其成为现实性能的真实指标。

    对LLM的客观评估的替代方法使用了加的夫大都会,布里斯托尔和卡迪夫大学的研究人员开发的一组测试 - 统称为知识观察小组(KOG)。这些测试通过需要隐含的人类理解来回答的问题来探究LLMS模仿人类语言和知识的能力。核心测试是秘密的,以避免LLM公司培训其模型进行这些测试。

    Meta的数据科学家Colin Fraser启发的公共测试,以评估针对其他LLM的DeepSeek。观察到以下结果:

    LLM性能测试。
    LLM性能测试。

    用于生产此表的测试本质上是“对抗性的”。换句话说,它们被设计为“硬”,并以对其设计方式不同情的方式测试LLM。这意味着在此测试中这些模型的性能可能与它们在主流基准测试中的性能不同。

    DeepSeek在6分中得分5.5,表现优于Openai的O1(其先进的推理(称为“经营链”)模型,以及Chatgpt-4O(免费版本的Chatgpt)。但是DeepSeek的表现略高于Anthropic的Claudeai和Openai的O1 Mini,两者均得分为6/6。有趣的是,O1的表现不佳与其“较小”的O1 Mini相对。

    DeepThink R1(DeepSeek制造的经过深思熟虑的AI工具)的表现与DeepSeek的表现不佳,得分为3.5。

    该结果表明了DeepSeek的聊天机器人已经有多多,击败了Openai的旗舰车型。对于DeepSeek来说,这可能会促进进一步的发展,而DeepSeek现在有一个坚实的基础可以建立。但是,中国科技公司确实有一个严重的问题:另一个LLMS没有:审查制度。

    审查挑战

    尽管表现出色和受欢迎程度,DeepSeek仍在对中国对政治敏感话题的反应中面临批评。例如,与天安门广场,台湾,穆斯林和民主运动有关的提示得到了回应:“对不起,这超出了我目前的范围。”

    但是,这个问题不一定是DeepSeek独有的,而在LLMS中,政治影响力和审查的潜力通常是日益关注的问题。唐纳德·特朗普(Donald Trump)宣布了5000亿美元的星际之门LLM项目,包括Openai,Nvidia,Oracle,Microsoft和Arm,也引起了人们对政治影响的担忧。

    此外,梅塔(Meta)最近决定放弃在Facebook和Instagram上进行事实核对的表明,越来越多的趋势朝着民粹主义而来。

    来自我们合作伙伴的内容

    建立广告网络指南

    如何构建自己的广告网络:逐步指南

    人工智能,双刃剑的创造力,以及为什么出版商必须拥抱它

    人工智能,双刃剑的创造力,以及为什么出版商必须拥抱它

    为什么在线发布者需要VPN:保护数据,来源和收入

    为什么在线发布者需要VPN:保护数据,来源和收入

    DeepSeek的到来对LLM市场造成了严重破坏。 OpenAI和Anthropic等美国公司将被迫创新其产品,以保持相关性并符合其性能和成本。

    DeepSeek的成功已经在挑战现状,表明可以在没有数十亿美元预算的情况下开发高性能的LLM模型。它还强调了LLM审查制度的风险,错误信息的传播以及独立评估的原因。

    随着LLM越来越深入的全球政治和商业,透明度和问责制对于确保LLM的未来是安全,有用和值得信赖至关重要的。

    加的夫大都会大学

    计算和信息系统高级讲师Simon Thorne本文根据创意共享许可证对话阅读原始文章。

    编辑精选
    什么是内容创作者 创作者经济的内容、原因和方式
    内容策略

    什么是内容创作者?

    适合出版商的最佳电子邮件通讯平台
    数字平台和工具

    2024 年出版商的 8 个最佳电子邮件通讯平台

    谷歌新闻搜索引擎优化
    搜索引擎优化

    2024 年 Google 新闻 SEO 指南:新闻发布商的最佳实践

    相关帖子

    • 最佳人工智能写作工具
      10 个最佳人工智能写作工具
    • 最佳人工智能转录工具
      2024 年 11 款最佳人工智能转录工具
    • 用于内容创建的人工智能工具
      12 个最佳内容创作人工智能工具
    • 2023 年 17 个最佳媒体监控工具
      2025年的13个最佳媒体监控工具
    SODP logo

    State of Digital Publishing 正在为新媒体和技术领域的数字媒体和出版专业人士创建一个新的出版物和社区。

    • 顶级工具
    • 出版商的搜索引擎优化
    • 隐私政策
    • 编辑政策
    • 网站地图
    • 按公司搜索
    Facebook X-推特 松弛 领英

    数字出版现状 – 版权所有 2025