Minggu lalu, jutawan dan pemilik X, Elon Musk, mendakwa kumpulan data yang dihasilkan oleh manusia yang digunakan untuk melatih model kecerdasan buatan (AI) seperti ChatGPT telah kehabisan.
Musk tidak memetik bukti untuk menyokong perkara ini. Tetapi tokoh industri teknologi terkemuka lain telah membuat dakwaan serupa dalam beberapa bulan kebelakangan ini. Dan kajian terdahulu menunjukkan data yang dihasilkan oleh manusia akan habis dalam tempoh dua hingga lapan tahun.
Ini sebahagian besarnya kerana manusia tidak dapat mencipta data baharu seperti teks, video dan imej dengan cukup pantas untuk memenuhi permintaan model AI yang pantas dan besar. Apabila data tulen kehabisan, ia akan menimbulkan masalah besar bagi pembangun dan pengguna AI.
Ia akan memaksa syarikat teknologi untuk lebih bergantung pada data yang dihasilkan oleh AI, yang dikenali sebagai "data sintetik". Dan ini seterusnya boleh menyebabkan sistem AI yang kini digunakan oleh ratusan juta orang menjadi kurang tepat dan boleh dipercayai – dan oleh itu, berguna.
Tetapi ini bukanlah hasil yang tidak dapat dielakkan. Malah, jika digunakan dan diuruskan dengan teliti, data sintetik boleh menambah baik model AI.

Masalah dengan data sebenar
Syarikat teknologi bergantung pada data – nyata atau sintetik – untuk membina, melatih dan memperhalusi model AI generatif seperti ChatGPT. Kualiti data ini adalah penting. Data yang lemah membawa kepada output yang lemah, begitu juga penggunaan bahan-bahan berkualiti rendah dalam masakan boleh menghasilkan hidangan yang berkualiti rendah.
Data sebenar merujuk kepada teks, video dan imej yang dihasilkan oleh manusia. Syarikat mengumpulnya melalui kaedah seperti tinjauan, eksperimen, pemerhatian atau perlombongan laman web dan media sosial.
Data sebenar pada amnya dianggap berharga kerana ia merangkumi peristiwa sebenar dan merangkumi pelbagai senario dan konteks. Walau bagaimanapun, ia tidak sempurna.
Contohnya, ia boleh mengandungi kesalahan ejaan dan kandungan yang tidak konsisten atau tidak relevan . Ia juga boleh menjadi sangat berat sebelah , yang boleh, sebagai contoh, membawa kepada model AI generatif yang menghasilkan imej yang hanya menunjukkan lelaki atau orang kulit putih dalam pekerjaan tertentu.
Data jenis ini juga memerlukan banyak masa dan usaha untuk disediakan. Pertama, orang ramai mengumpul set data, sebelum melabelkannya untuk menjadikannya bermakna bagi model AI. Mereka kemudian akan menyemak dan membersihkan data ini untuk menyelesaikan sebarang ketidakkonsistenan, sebelum komputer menapis, menyusun dan mengesahkannya.
Proses ini boleh mengambil sehingga 80% daripada jumlah pelaburan masa dalam pembangunan sistem AI.
Tetapi seperti yang dinyatakan di atas, data sebenar juga semakin berkurangan kerana manusia tidak dapat menghasilkannya dengan cukup cepat untuk memenuhi permintaan AI yang semakin meningkat.
Kebangkitan data sintetik
Data sintetik dicipta atau dijana secara buatan oleh algoritma , seperti teks yang dijana oleh ChatGPT atau imej yang dijana oleh DALL-E .
Secara teorinya, data sintetik menawarkan penyelesaian yang kos efektif dan pantas untuk melatih model AI.
Ia juga menangani kebimbangan privasi dan isu etika, terutamanya dengan maklumat peribadi sensitif seperti data kesihatan.
Yang penting, tidak seperti data sebenar, ia tidak berkurangan. Malah, ia tidak terhad.
Dari sini, ia hanyalah data Sintetik.
— Rohan Paul (@rohanpaul_ai) 9 Januari 2025
"Jumlah kumulatif pengetahuan manusia telah habis digunakan dalam latihan AI. Itu berlaku, pada dasarnya, tahun lepas.”
– Elon pic.twitter.com/rdPzCbvdLv
Cabaran data sintetik
Atas sebab-sebab ini, syarikat teknologi semakin beralih kepada data sintetik untuk melatih sistem AI mereka. Firma penyelidikan Gartner menganggarkan bahawa menjelang 2030, data sintetik akan menjadi bentuk data utama yang digunakan dalam AI.
Tetapi walaupun data sintetik menawarkan penyelesaian yang menjanjikan, ia bukan tanpa cabarannya.
Kebimbangan utama ialah model AI boleh "runtuh" apabila terlalu bergantung pada data sintetik. Ini bermakna ia mula menghasilkan begitu banyak "halusinasi" – satu tindak balas yang mengandungi maklumat palsu – dan merosot begitu banyak dari segi kualiti dan prestasi sehingga tidak dapat digunakan.
Contohnya, model AI sudah menghadapi masalah untuk mengeja beberapa perkataan dengan betul. Jika data yang penuh dengan kesilapan ini digunakan untuk melatih model lain, maka data tersebut juga pasti akan meniru ralat tersebut.
Kandungan daripada rakan kongsi kami
Data sintetik juga membawa risiko menjadi terlalu ringkas . Ia mungkin tidak mempunyai butiran terperinci dan kepelbagaian yang terdapat dalam set data sebenar, yang boleh mengakibatkan output model AI yang dilatih padanya juga menjadi terlalu ringkas dan kurang berguna.
Mewujudkan sistem yang mantap untuk memastikan AI tepat dan boleh dipercayai
Bagi menangani isu-isu ini, adalah penting bagi badan dan organisasi antarabangsa seperti Organisasi Antarabangsa untuk Standardisasi Kesatuan Telekomunikasi Antarabangsa Pertubuhan Bangsa-Bangsa Bersatu untuk memperkenalkan sistem yang mantap untuk menjejaki dan mengesahkan data latihan AI, dan memastikan sistem tersebut dapat dilaksanakan di peringkat global.
Sistem AI boleh dilengkapi untuk menjejaki metadata, membolehkan pengguna atau sistem mengesan asal usul dan kualiti sebarang data sintetik yang telah dilatih. Ini akan melengkapi sistem penjejakan dan pengesahan standard global.
Manusia juga mesti mengawasi data sintetik sepanjang proses latihan model AI bagi memastikan ia berkualiti tinggi. Pengawasan ini harus merangkumi penentuan objektif, pengesahan kualiti data, memastikan pematuhan terhadap piawaian etika dan pemantauan prestasi model AI.
Agak ironinya, algoritma AI juga boleh memainkan peranan dalam mengaudit dan mengesahkan data, memastikan ketepatan output yang dijana AI daripada model lain. Contohnya, algoritma ini boleh membandingkan data sintetik dengan data sebenar untuk mengenal pasti sebarang ralat atau percanggahan bagi memastikan data tersebut konsisten dan tepat. Jadi dengan cara ini, data sintetik boleh membawa kepada model AI yang lebih baik.
Masa depan AI bergantung pada data berkualiti tinggi . Data sintetik akan memainkan peranan yang semakin penting dalam mengatasi kekurangan data.
Walau bagaimanapun, penggunaannya mesti diuruskan dengan teliti untuk mengekalkan ketelusan, mengurangkan ralat dan memelihara privasi – memastikan data sintetik berfungsi sebagai tambahan yang boleh dipercayai kepada data sebenar, memastikan sistem AI tepat dan boleh dipercayai.
James Jin Kang, Pensyarah Kanan Sains Komputer, Universiti RMIT Vietnam .
Artikel ini diterbitkan semula daripada The Conversation di bawah lesen Creative Commons. Baca artikel asal .








