ادعى الملياردير ومالك شركة X، إيلون ماسك، أن مجموعة البيانات التي ينتجها البشر والتي تستخدم لتدريب نماذج الذكاء الاصطناعي مثل ChatGPT قد نفدت.
لم يُقدّم ماسك أي دليل يدعم هذا الادعاء. لكن شخصيات بارزة أخرى في قطاع التكنولوجيا أدلت بتصريحات مماثلة في الأشهر الأخيرة. كما دراسات سابقة إلى أن البيانات التي يُنتجها البشر ستنفد في غضون سنتين إلى ثماني سنوات.
يعود ذلك في الغالب إلى عجز البشر عن توليد بيانات جديدة، كالنصوص والفيديوهات والصور، بالسرعة الكافية لمواكبة المتطلبات الهائلة والسريعة لنماذج الذكاء الاصطناعي. وعندما تنفد البيانات الحقيقية، سيُشكّل ذلك مشكلةً كبيرةً لكلٍّ من مطوّري الذكاء الاصطناعي ومستخدميه.
سيُجبر ذلك شركات التكنولوجيا على الاعتماد بشكل أكبر على البيانات المُولّدة بواسطة الذكاء الاصطناعي، والمعروفة باسم "البيانات الاصطناعية". وهذا بدوره قد يؤدي إلى أن تصبح أنظمة الذكاء الاصطناعي التي يستخدمها حاليًا مئات الملايين من الأشخاص أقل دقة وموثوقية، وبالتالي أقل فائدة.
لكن هذه ليست نتيجة حتمية. في الواقع، إذا تم استخدام البيانات الاصطناعية وإدارتها بعناية، فقد تُحسّن نماذج الذكاء الاصطناعي.

مشاكل البيانات الحقيقية
تعتمد شركات التكنولوجيا على البيانات، سواءً كانت حقيقية أو اصطناعية، لبناء وتدريب وتحسين نماذج الذكاء الاصطناعي التوليدية مثل ChatGPT. جودة هذه البيانات بالغة الأهمية، فالبيانات الرديئة تؤدي إلى نتائج رديئة، تمامًا كما أن استخدام مكونات رديئة الجودة في الطبخ قد ينتج عنه وجبات رديئة الجودة.
البيانات الحقيقية إلى النصوص والفيديوهات والصور التي ينشئها البشر. وتجمعها الشركات من خلال أساليب مثل الاستبيانات والتجارب والملاحظات أو استخراج البيانات من مواقع الويب ووسائل التواصل الاجتماعي.
تُعتبر البيانات الحقيقية قيّمة بشكل عام لأنها تشمل أحداثًا واقعية وتغطي نطاقًا واسعًا من السيناريوهات والسياقات. ومع ذلك، فهي ليست مثالية.
فعلى سبيل المثال، قد تحتوي على أخطاء إملائية ومحتوى غير متسق أو غير ذي صلة . كما قد تكون متحيزة بشدة ، مما قد يؤدي، على سبيل المثال، إلى قيام نماذج الذكاء الاصطناعي التوليدية بإنشاء صور تُظهر الرجال فقط أو البيض في وظائف معينة.
يتطلب هذا النوع من البيانات الكثير من الوقت والجهد لإعداده. في البداية، يقوم الباحثون بجمع مجموعات البيانات، ثم تصنيفها لجعلها ذات معنى لنموذج الذكاء الاصطناعي. بعد ذلك، يقومون بمراجعة هذه البيانات وتنظيفها لحل أي تناقضات، قبل أن تقوم الحواسيب بفرزها وتنظيمها والتحقق من صحتها.
قد تستغرق هذه العملية ما يصل إلى 80% من إجمالي الوقت المستثمر في تطوير نظام الذكاء الاصطناعي.
ولكن كما ذكر أعلاه، فإن البيانات الحقيقية تعاني أيضاً من نقص متزايد لأن البشر لا يستطيعون إنتاجها بالسرعة الكافية لتلبية الطلب المتزايد على الذكاء الاصطناعي.
صعود البيانات الاصطناعية
يتم إنشاء البيانات الاصطناعية أو توليدها بشكل مصطنع بواسطة خوارزميات ، مثل النص الذي تم إنشاؤه بواسطة ChatGPT أو الصورة التي تم إنشاؤها بواسطة DALL-E .
من الناحية النظرية، توفر البيانات الاصطناعية حلاً فعالاً من حيث التكلفة وأسرع لتدريب نماذج الذكاء الاصطناعي.
كما أنها تتناول مخاوف الخصوصية والقضايا الأخلاقية، لا سيما فيما يتعلق بالمعلومات الشخصية الحساسة مثل البيانات الصحية.
والأهم من ذلك، على عكس البيانات الحقيقية، فهي ليست شحيحة. في الواقع، إنها غير محدودة.
من الآن فصاعدًا، ستكون البيانات اصطناعية فقط.
– روهان بول (@ rohanpaul_ai) 9 يناير 2025
"لقد استُنفدت حصيلة المعرفة البشرية في تدريب الذكاء الاصطناعي. حدث ذلك، بشكل أساسي، العام الماضي."
– إيلون pic.twitter.com/rdPzCbvdLv
تحديات البيانات الاصطناعية
لهذه الأسباب، تتجه شركات التكنولوجيا بشكل متزايد إلى البيانات الاصطناعية لتدريب أنظمة الذكاء الاصطناعي الخاصة بها. وتشير تقديرات إلى أنه بحلول عام 2030، ستصبح البيانات الاصطناعية الشكل الرئيسي للبيانات المستخدمة في الذكاء الاصطناعي.
لكن على الرغم من أن البيانات الاصطناعية تقدم حلولاً واعدة، إلا أنها لا تخلو من التحديات.
من أهم المخاوف أن نماذج الذكاء الاصطناعي قد "تنهار" عندما تعتمد بشكل مفرط على البيانات الاصطناعية. وهذا يعني أنها تبدأ في توليد الكثير من "الأوهام" - أي استجابات تحتوي على معلومات خاطئة - وتتراجع جودتها وأداؤها بشكل كبير لدرجة أنها تصبح غير قابلة للاستخدام.
تواجه نماذج الذكاء الاصطناعي في تهجئة بعض الكلمات بشكل صحيح. وإذا استُخدمت هذه البيانات المليئة بالأخطاء لتدريب نماذج أخرى، فمن المؤكد أنها ستكرر هذه الأخطاء أيضاً.
كما أن البيانات الاصطناعية تنطوي على خطر التبسيط المفرط . فقد تفتقر إلى التفاصيل الدقيقة والتنوع الموجود في مجموعات البيانات الحقيقية، مما قد يؤدي إلى أن تكون مخرجات نماذج الذكاء الاصطناعي المدربة عليها مبسطة للغاية وأقل فائدة.
إنشاء أنظمة قوية للحفاظ على دقة وموثوقية الذكاء الاصطناعي
ولمعالجة هذه القضايا، من الضروري أن تقوم الهيئات والمنظمات الدولية مثل المنظمة الدولية للتوحيد القياسي الاتحاد الدولي للاتصالات التابع للأمم المتحدة بوضع أنظمة قوية لتتبع بيانات تدريب الذكاء الاصطناعي والتحقق من صحتها، وضمان إمكانية تطبيق هذه الأنظمة على مستوى العالم.
يمكن تزويد أنظمة الذكاء الاصطناعي بخاصية تتبع البيانات الوصفية، مما يسمح للمستخدمين أو الأنظمة بتتبع أصول وجودة أي بيانات اصطناعية تم تدريبها عليها. وهذا من شأنه أن يكمل نظام التتبع والتحقق الموحد عالميًا.
يجب على البشر أيضاً الإشراف على البيانات الاصطناعية طوال عملية تدريب نموذج الذكاء الاصطناعي لضمان جودتها العالية. ويشمل هذا الإشراف تحديد الأهداف، والتحقق من جودة البيانات، وضمان الامتثال للمعايير الأخلاقية، ومراقبة أداء نموذج الذكاء الاصطناعي.
ومن المفارقات، أن خوارزميات الذكاء الاصطناعي قد تُسهم أيضاً في تدقيق البيانات والتحقق منها، ما يضمن دقة مخرجات الذكاء الاصطناعي من النماذج الأخرى. فعلى سبيل المثال، تستطيع هذه الخوارزميات مقارنة البيانات الاصطناعية بالبيانات الحقيقية لتحديد أي أخطاء أو اختلافات، وبالتالي ضمان اتساق البيانات ودقتها. ومن ثم، قد تُسهم البيانات الاصطناعية في تطوير نماذج ذكاء اصطناعي أفضل.
يعتمد مستقبل الذكاء الاصطناعي على البيانات عالية الجودة . وستلعب البيانات الاصطناعية دوراً متزايد الأهمية في التغلب على نقص البيانات.
ومع ذلك، يجب إدارة استخدامها بعناية للحفاظ على الشفافية وتقليل الأخطاء والحفاظ على الخصوصية - مما يضمن أن البيانات الاصطناعية بمثابة مكمل موثوق للبيانات الحقيقية، والحفاظ على دقة أنظمة الذكاء الاصطناعي وجدارتها بالثقة.
جيمس جين كانغ، محاضر أول في علوم الحاسوب، جامعة RMIT في فيتنام .
نُشرت هذه المقالة مُجددًا من موقع The Conversation بموجب ترخيص Creative Commons. اقرأ المقالة الأصلية .





