上周,亿万富翁、X公司的所有者埃隆·马斯克声称,用于训练人工智能(AI)模型(如ChatGPT)的人类生成数据池已经耗尽。
马斯克并未提供证据支持这一说法。但近几个月来,类似的观点早前的研究表明,人类生成的数据将在两到八年内耗尽。
这主要是因为人类无法以足够快的速度创建新数据,例如文本、视频和图像,以满足人工智能模型快速且庞大的需求。当真实数据耗尽时,这将给人工智能的开发者和用户都带来重大问题。.
这将迫使科技公司更加依赖人工智能生成的数据,即所谓的“合成数据”。而这反过来又可能导致目前数亿人使用的AI系统变得不那么准确可靠,因而也不那么实用。
但这并非必然的结果。事实上,如果使用和管理得当,合成数据可以改进人工智能模型。.

真实数据的问题
科技公司依赖数据(无论是真实数据还是合成数据)来构建、训练和改进生成式人工智能模型,例如 ChatGPT。数据的质量至关重要。劣质数据会导致劣质输出,就像烹饪时使用劣质食材会做出劣质菜肴一样。
真实数据指的是由人类创建的文本、视频和图像。公司通过调查、实验、观察或挖掘网站和社交媒体等方法收集这些数据。
真实数据通常被认为很有价值,因为它包含真实事件,并涵盖了广泛的场景和背景。然而,它并非完美无缺。.
例如,它可能包含拼写错误和不一致或无关的内容。它也可能存在严重的偏见,例如,这可能导致生成式人工智能模型创建的图像只显示男性或白人从事某些职业。
这类数据的准备工作也需要耗费大量时间和精力。首先,人们需要收集数据集,然后对其进行标注,使其对人工智能模型有意义。之后,他们会审查和清理这些数据,解决任何不一致之处,最后由计算机进行过滤、整理和验证。
这个过程可能需要占用人工智能系统开发总时间的 80%
但正如上文所述,真实数据也日益短缺,因为人类无法快速产生足够的数据来满足不断增长的人工智能需求。
合成数据的兴起
合成数据是由算法人工创建或生成的,例如ChatGPTDALL-E生成的图像。
理论上,合成数据为训练人工智能模型提供了一种经济高效且速度更快的解决方案。.
它还涉及隐私问题和伦理问题,特别是涉及健康数据等敏感个人信息的问题。.
重要的是,与真实数据不同,它并不短缺。事实上,它是无限的。.
从此以后,它将只使用合成数据。
— 罗汉·保罗 (@rohanpaul_ai) 2025年1月9日
“人类知识的累积总和已经耗尽在人工智能训练中。基本上,这种情况去年就发生了。”
——埃隆·马斯克pic.twitter.com/rdPzCbvdLv
合成数据的挑战
鉴于这些原因,科技公司越来越多地转向使用合成数据来训练其人工智能系统。研究公司 Gartner估计,到 2030 年,合成数据将成为人工智能领域使用的主要数据形式。
虽然合成数据提供了很有前景的解决方案,但它也并非没有挑战。.
主要担忧在于,过度依赖合成数据时可能会“崩溃”
例如,人工智能模型已经存在困难。如果用这些错误百出的数据来训练其他模型,那么这些模型也必然会重现这些错误。
过于简单化的风险。它可能缺乏真实数据集中存在的细微差别和多样性,这可能导致基于它训练的人工智能模型的输出也过于简单,实用性降低。
创建强大的系统,确保人工智能的准确性和可信度
国际标准化组织或联合国国际电信联盟等国际机构和组织必须引入强大的系统来跟踪和验证人工智能训练数据,并确保这些系统能够在全球范围内实施。
人工智能系统可以配备元数据追踪功能,使用户或系统能够追溯其训练所用合成数据的来源和质量。这将完善全球标准的追踪和验证系统。.
在人工智能模型训练过程中,人类必须对合成数据进行全程监督,以确保其高质量。这种监督应包括设定目标、验证数据质量、确保符合伦理标准以及监控人工智能模型的性能。.
颇具讽刺意味的是,人工智能算法还可以用于数据审计和验证,确保其他模型生成的人工智能输出结果的准确性。例如,这些算法可以将合成数据与真实数据进行比较,识别任何错误或差异,从而确保数据的一致性和准确性。因此,从这个意义上讲,合成数据可以帮助构建更好的人工智能模型。.
人工智能的未来取决于高质量的数据。合成数据将在克服数据短缺方面发挥越来越重要的作用。
但是,必须谨慎管理其使用,以保持透明度、减少错误和保护隐私——确保合成数据能够作为真实数据的可靠补充,保持人工智能系统的准确性和可信度。.
RMIT越南大学计算机科学高级讲师。
本文经知识共享许可协议The Conversation 原文。





