DeepSeek: bagaimana sebuah syarikat AI kecil China menggegarkan syarikat teknologi tinggi AS

Syarikat kecerdasan buatan (AI) China, DeepSeek, telah mengejutkan komuniti teknologi, dengan pelancaran model AI yang sangat cekap yang dapat bersaing dengan produk canggih daripada syarikat AS seperti OpenAI dan Anthropic.

Ditubuhkan pada tahun 2023, DeepSeek telah mencapai hasilnya dengan sebahagian kecil daripada wang tunai dan kuasa pengkomputeran pesaingnya.

Model "penaakulan" R1 DeepSeek, yang dikeluarkan minggu lalu, telah menimbulkan keterujaan dalam kalangan penyelidik, kejutan dalam kalangan pelabur dan respons daripada syarikat-syarikat besar AI. Syarikat itu telah menindaklanjutinya pada 28 Januari dengan model yang boleh berfungsi dengan imej serta teks.

R1 Deepseek merupakan model yang mengagumkan, terutamanya berdasarkan apa yang mereka mampu berikan pada harga tersebut.

Sudah tentu kami akan memberikan model yang jauh lebih baik dan ia juga sangat menyegarkan untuk mempunyai pesaing baharu! Kami akan mengeluarkan beberapa keluaran.
— Sam Altman (@sama) 28 Januari 2025

Jadi, apakah yang telah dilakukan oleh DeepSeek, dan bagaimana ia melakukannya?

Apa yang DeepSeek lakukan

Pada bulan Disember, DeepSeek mengeluarkan model V3nya. Ini merupakan model bahasa besar "standard" yang sangat berkuasa yang berfungsi pada tahap yang serupa dengan GPT-4o OpenAI dan Claude 3.5 Anthropic.

Walaupun model ini terdedah kepada ralat dan kadangkala mereka-reka fakta sendiri, ia boleh menjalankan tugas seperti menjawab soalan, menulis esei dan menjana kod komputer. Dalam beberapa ujian penyelesaian masalah dan penaakulan matematik, ia mendapat markah yang lebih baik daripada manusia biasa.

V3 telah dilatih dengan kos yang dilaporkan kira-kira AS$5.58 juta. Ini jauh lebih murah daripada GPT-4, sebagai contoh, yang menelan belanja lebih daripada AS$100 juta untuk dibangunkan.

DeepSeek juga mendakwa telah melatih V3 menggunakan sekitar 2,000 cip komputer khusus, khususnya GPU H800 yang dibuat oleh NVIDIA. Ini sekali lagi jauh lebih sedikit daripada syarikat lain, yang mungkin telah menggunakan sehingga 16,000 cip H100 yang lebih berkuasa.

Pada 20 Januari, DeepSeek mengeluarkan satu lagi model, yang dipanggil R1. Ini adalah model "penaakulan", yang cuba menyelesaikan masalah kompleks langkah demi langkah. Model-model ini nampaknya lebih baik dalam banyak tugasan yang memerlukan konteks dan mempunyai pelbagai bahagian yang saling berkaitan, seperti pemahaman bacaan dan perancangan strategik.

Model R1 ialah versi V3 yang diubah suai, diubah suai dengan teknik yang dipanggil pembelajaran peneguhan. R1 nampaknya berfungsi pada tahap yang serupa dengan OpenAI o1, yang dikeluarkan tahun lepas.

DeepSeek juga menggunakan teknik yang sama untuk membuat versi "penaakulan" model sumber terbuka kecil yang boleh dijalankan pada komputer rumah.

Siaran ini telah mencetuskan lonjakan minat yang besar terhadap DeepSeek, meningkatkan populariti aplikasi chatbot berkuasa V3 dan mencetuskan kejatuhan harga yang besar dalam saham teknologi apabila pelabur menilai semula industri AI. Pada masa penulisan ini, pembuat cip NVIDIA telah kehilangan nilai sekitar AS$600 bilion

Bagaimana DeepSeek melakukannya

Penemuan DeepSeek adalah dalam mencapai kecekapan yang lebih tinggi: mendapatkan hasil yang baik dengan sumber yang lebih sedikit. Khususnya, pembangun DeepSeek telah mempelopori dua teknik yang mungkin diguna pakai oleh penyelidik AI secara lebih meluas.

Yang pertama berkaitan dengan idea matematik yang dipanggil "sparsity". Model AI mempunyai banyak parameter yang menentukan tindak balasnya terhadap input (V3 mempunyai sekitar 671 bilion), tetapi hanya sebahagian kecil daripada parameter ini digunakan untuk sebarang input yang diberikan.

Walau bagaimanapun, meramalkan parameter yang diperlukan bukanlah mudah. DeepSeek menggunakan teknik baharu untuk melakukan ini, dan kemudian hanya melatih parameter tersebut. Akibatnya, modelnya memerlukan latihan yang jauh lebih sedikit berbanding pendekatan konvensional.

Satu lagi helah berkaitan dengan cara V3 menyimpan maklumat dalam memori komputer. DeepSeek telah menemui cara pintar untuk memampatkan data yang berkaitan, jadi ia lebih mudah disimpan dan diakses dengan cepat.

DeepSeek telah menggegarkan industri AI bernilai berbilion dolar. Robert Way/Shutterstock

Apa maksudnya

Model dan teknik DeepSeek telah dikeluarkan di bawah Lesen MIT, yang bermaksud sesiapa sahaja boleh memuat turun dan mengubah suainya.

Walaupun ini mungkin berita buruk bagi sesetengah syarikat AI – yang keuntungannya mungkin terhakis oleh kewujudan model yang berkuasa dan tersedia secara percuma – ia merupakan berita baik untuk komuniti penyelidikan AI yang lebih luas.

Pada masa ini, banyak penyelidikan AI memerlukan akses kepada sejumlah besar sumber pengkomputeran. Penyelidik seperti saya yang menetap di universiti (atau di mana-mana sahaja kecuali syarikat teknologi besar) mempunyai keupayaan terhad untuk menjalankan ujian dan eksperimen.

Model dan teknik yang lebih cekap mengubah situasi. Pengujian dan pembangunan kini mungkin jauh lebih mudah untuk kita.

Bagi pengguna, akses kepada AI juga mungkin menjadi lebih murah. Lebih banyak model AI mungkin dijalankan pada peranti pengguna sendiri, seperti komputer riba atau telefon, dan bukannya berjalan "di awan" dengan yuran langganan.

Bagi penyelidik yang sudah mempunyai banyak sumber, kecekapan yang lebih tinggi mungkin kurang memberi kesan. Tidak jelas sama ada pendekatan DeepSeek akan membantu menghasilkan model dengan prestasi yang lebih baik secara keseluruhan, atau sekadar model yang lebih cekap.

Tongliang Liu, Profesor Madya Pembelajaran Mesin dan Pengarah Pusat AI Sydney, Universiti Sydney

Artikel ini diterbitkan semula daripada The Conversation di bawah lesen Creative Commons. Baca artikel asal.