أحدثت شركة الذكاء الاصطناعي الصينية DeepSeek صدمة في أوساط مجتمع التكنولوجيا ، وذلك بإصدارها نماذج ذكاء اصطناعي فعالة للغاية يمكنها منافسة المنتجات المتطورة من الشركات الأمريكية مثل OpenAI و Anthropic.
تأسست شركة DeepSeek في عام 2023، وقد حققت نتائجها بجزء بسيط من الأموال وقوة الحوسبة التي يمتلكها منافسوها.
أثار نموذج "الاستدلال" R1 من شركة DeepSeek، الذي تم إصداره الأسبوع الماضي، حماسًا بين الباحثين، وصدمة بين المستثمرين، وردود فعل من كبار خبراء الذكاء الاصطناعي. وفي 28 يناير، أطلقت الشركة نموذجًا قادرًا على التعامل مع الصور والنصوص على حد سواء.
يُعدّ جهاز R1 من DeepSeek نموذجًا رائعًا، لا سيما بالنظر إلى ما يُقدّمه مقابل سعره.
— سام ألتمان (@sama) 28 يناير 2025
سنُقدّم بالتأكيد نماذج أفضل بكثير، ومن المُثير حقًا وجود مُنافس جديد! سنُعلن عن بعض الإصدارات قريبًا.
إذن، ما الذي فعله برنامج DeepSeek، وكيف فعل ذلك؟
ما فعله ديب سيك
في ديسمبر، أصدرت شركة DeepSeek نموذجها V3 . وهو نموذج لغوي "قياسي" قوي للغاية وذو أداء مماثل لنموذج GPT-4o من OpenAI ونموذج Claude 3.5 من Anthropic.
على الرغم من أن هذه النماذج عرضة للأخطاء، وقد تختلق أحيانًا حقائق من عندها ، إلا أنها قادرة على أداء مهام مثل الإجابة على الأسئلة، وكتابة المقالات، وإنشاء برامج حاسوبية. وفي بعض اختبارات حل المشكلات والاستدلال الرياضي، تتفوق على متوسط أداء الإنسان.
تم تدريب النموذج V3 بتكلفة بلغت حوالي 5.58 مليون دولار أمريكي. وهذا أقل بكثير من تكلفة تطوير نموذج GPT-4، على سبيل المثال، الذي تجاوزت تطويره 100 مليون دولار أمريكي.
تزعم شركة DeepSeek أيضاً أنها درّبت نموذج V3 باستخدام حوالي 2000 شريحة حاسوب متخصصة، وتحديداً وحدات معالجة الرسومات H800 من إنتاج NVIDIA . وهذا أقل بكثير مما استخدمته شركات أخرى، والتي ربما استخدمت ما يصل إلى 16000 شريحة من وحدات H100 الأكثر قوة.
في 20 يناير، أطلقت شركة DeepSeek نموذجًا جديدًا يُدعى R1 . وهو نموذج "استدلالي" يسعى إلى حل المشكلات المعقدة خطوة بخطوة. ويبدو أن هذه النماذج أكثر كفاءة في العديد من المهام التي تتطلب سياقًا وتتضمن أجزاءً متعددة مترابطة، مثل فهم المقروء والتخطيط الاستراتيجي.
يُعدّ نموذج R1 نسخةً مُحسّنة من V3، مُعدّلة بتقنية تُسمى التعلّم المعزز. ويبدو أن R1 يعمل بمستوى مماثل لنموذج o1 من OpenAI ، الذي أُطلق العام الماضي.
كما استخدمت DeepSeek نفس التقنية لإنشاء نسخ "استدلالية" من نماذج صغيرة مفتوحة المصدر يمكن تشغيلها على أجهزة الكمبيوتر المنزلية.
أثار هذا الإصدار اهتمامًا هائلًا بشركة DeepSeek، مما رفع من شعبية تطبيق الدردشة الآلي المدعوم بمعالج V3 ، وتسبب في انهيار حاد في أسعار أسهم شركات التكنولوجيا مع إعادة المستثمرين تقييمهم لقطاع الذكاء الاصطناعي. وحتى وقت كتابة هذا التقرير، خسرت شركة NVIDIA، المتخصصة في صناعة الرقائق الإلكترونية، حوالي 600 مليار دولار أمريكي من قيمتها السوقية.
كيف فعلها ديب سيك؟
تكمن إنجازات DeepSeek في تحقيق كفاءة أعلى: الحصول على نتائج جيدة بموارد أقل. وعلى وجه الخصوص، ابتكر مطورو DeepSeek تقنيتين رائدتين يمكن أن يتبناهما باحثو الذكاء الاصطناعي على نطاق أوسع.
يتعلق الأمر الأول بفكرة رياضية تسمى "التباعد". تحتوي نماذج الذكاء الاصطناعي على الكثير من المعلمات التي تحدد استجاباتها للمدخلات (يحتوي الإصدار الثالث على حوالي 671 مليار معلمة)، ولكن يتم استخدام جزء صغير فقط من هذه المعلمات لأي مدخل معين.
مع ذلك، فإن التنبؤ بالمعايير المطلوبة ليس بالأمر السهل. استخدم DeepSeek تقنية جديدة لتحقيق ذلك، ثم قام بتدريب تلك المعايير فقط. ونتيجة لذلك، احتاجت نماذجه إلى تدريب أقل بكثير من الأساليب التقليدية.
أما الحيلة الأخرى فتتعلق بكيفية تخزين V3 للمعلومات في ذاكرة الحاسوب. فقد توصلت DeepSeek إلى طريقة ذكية لضغط البيانات ذات الصلة، مما يسهل تخزينها والوصول إليها بسرعة.

ماذا يعني ذلك؟
تم إصدار نماذج وتقنيات DeepSeek بموجب ترخيص MIT ، مما يعني أنه يمكن لأي شخص تنزيلها وتعديلها.
المحتوى من شركائنا
في حين أن هذا قد يكون خبراً سيئاً لبعض شركات الذكاء الاصطناعي - التي قد تتآكل أرباحها بسبب وجود نماذج قوية متاحة مجاناً - إلا أنه خبر رائع لمجتمع أبحاث الذكاء الاصطناعي الأوسع.
في الوقت الراهن، يتطلب الكثير من أبحاث الذكاء الاصطناعي الوصول إلى كميات هائلة من موارد الحوسبة. وقد واجه باحثون مثلي، ممن يعملون في الجامعات (أو في أي مكان آخر باستثناء شركات التكنولوجيا الكبرى)، صعوبة في إجراء الاختبارات والتجارب.
تُغيّر النماذج والتقنيات الأكثر كفاءة الوضع. وقد أصبح التجريب والتطوير أسهل بكثير بالنسبة لنا الآن.
بالنسبة للمستهلكين، قد يصبح الوصول إلى الذكاء الاصطناعي أرخص أيضاً. إذ يمكن تشغيل المزيد من نماذج الذكاء الاصطناعي على أجهزة المستخدمين الشخصية، مثل أجهزة الكمبيوتر المحمولة أو الهواتف، بدلاً من تشغيلها "في السحابة" مقابل رسوم اشتراك.
بالنسبة للباحثين الذين يمتلكون بالفعل موارد وفيرة، قد لا يكون لزيادة الكفاءة تأثير كبير. من غير الواضح ما إذا كان نهج DeepSeek سيساعد في بناء نماذج ذات أداء أفضل بشكل عام، أم مجرد نماذج أكثر كفاءة.
تونغليانغ ليو، أستاذ مشارك في مجال تعلم الآلة ومدير مركز سيدني للذكاء الاصطناعي، جامعة سيدني.
نُشرت هذه المقالة مُجددًا من موقع "ذا كونفرسيشن" بموجب ترخيص "كرييتف كومنز". اقرأ المقالة الأصلية .








