Taktik pertumbuhan penerbit untuk musim pilihan raya | WEBINAR

Ketahui Lebih Lanjut

SODP

SODP Media

  • Education
    • Articles
      • Audience Development
      • Content Strategy
      • Digital Publishing
      • Monetization
      • SEO
      • Digital Platforms & Tools
    • Opinion
    • Podcast
    • Events
      • SODP Dinner Event London 2025
      • SODP Dinner Event Dubai 2025
      • SODP Dinner Event California 2025
      • All Events
  • Top Tools & Reviews
  • Research & Resources
  • Community
    • Slack Channel
    • Newsletter
  • About
    • About Us
    • Contact Us
    • Editorial Policy
  • English
sodp logo
SODP logo
Cari
Tutup kotak carian ini.
Log masuk
  • Pendidikan
    • Podcast
    • Artikel
      • Pembangunan Khalayak
      • Strategi Kandungan
      • Penerbitan Digital
      • Pengewangan
      • SEO
      • Platform & Alat Digital
      • Artikel
      • Pendapat
      • Podcast
      • Peristiwa
      • Pembangunan Khalayak
      • Strategi Kandungan
      • Penerbitan Digital
      • Pengewangan
      • SEO
      • Platform & Alat Digital
      • Lihat Semua
  • Alat & Ulasan Terbaik
      • Platform CMS Tanpa Kepala
      • Platform Penerbitan Digital
      • Perisian Kalendar Editorial
      • Apl Majalah
      • Platform Surat Berita E-mel
      • Lagi Senarai Alat Terbaik
      • Ulasan
  • Penyelidikan & Sumber
  • Komuniti
    • Saluran Slack
    • Waktu Pejabat
    • Surat berita
      • Saluran Slack
      • Surat berita
  • Tentang
    • Tentang Kami
    • Hubungi Kami
    • Dasar Editorial
      • Tentang Kami
      • Hubungi Kami
      • Dasar Editorial
pemegang tempat
SODP logo
Menjadi Rakan Kongsi Jenama

Laman Utama ▸ Platform & Alat Digital ▸ DeepSeek: Bagaimana Syarikat AI Cina kecil

DeepSeek: Bagaimana Syarikat AI Cina Kecil Menggoncang Heavyweight Tech AS

Tongliang LiuTongliang Liu
28 Januari 2025
Fakta disemak oleh The Conversation
Perbualan
Perbualan

The Conversation ialah kerjasama unik antara ahli akademik dan wartawan yang dalam sedekad telah menjadi penerbit berita dan analisis berasaskan penyelidikan terkemuka di dunia. Semua yang anda baca di halaman ini adalah … Baca lebih lanjut

Disunting oleh Tongliang Liu
Tongliang Liu
Tongliang Liu

Tongliang Liu adalah profesor bersekutu dalam pembelajaran mesin dengan Sekolah Sains Komputer dan Pengarah Pusat Sydney AI di University of Sydney. Dia sangat berminat dengan bidang yang boleh dipercayai ... Baca lebih lanjut

DeepSeek Bagaimana Syarikat AI Cina Kecil Menggoda Heavyweight Tech AS

Syarikat kecerdasan buatan Cina (AI) DeepSeek telah menghantar gelombang kejutan melalui komuniti teknologi , dengan pembebasan model AI yang sangat cekap yang dapat bersaing dengan produk canggih dari syarikat AS seperti OpenAI dan Antropik.

Ditubuhkan pada tahun 2023, DeepSeek telah mencapai keputusannya dengan sebahagian kecil daripada wang tunai dan kuasa pengkomputeran pesaingnya.

Model R1 "pemikiran" Deepseek, yang dikeluarkan minggu lalu, menimbulkan kegembiraan di kalangan penyelidik, kejutan di kalangan pelabur, dan tanggapan dari kelas berat AI. Syarikat itu diikuti pada 28 Januari dengan model yang boleh berfungsi dengan imej serta teks.

R1 Deepseek adalah model yang mengagumkan, terutamanya di sekitar apa yang mereka dapat menyampaikan untuk harga.

Kami jelas akan menyampaikan model yang lebih baik dan juga legit yang menyegarkan untuk mempunyai pesaing baru! Kami akan menarik beberapa siaran.

- Sam Altman (@Sama) 28 Januari 2025

Jadi apa yang telah dilakukan Deepseek, dan bagaimana ia melakukannya?

Apa yang Deepseek lakukan

Pada bulan Disember, DeepSeek mengeluarkan model V3nya . Ini adalah model bahasa besar "standard" yang sangat kuat yang dilakukan pada tahap yang sama dengan GPT-4O OpenAI dan Anthropic's Claude 3.5.

Walaupun model -model ini terdedah kepada kesilapan dan kadang -kadang membentuk fakta mereka sendiri , mereka boleh menjalankan tugas seperti menjawab soalan, menulis esei dan menghasilkan kod komputer. Mengenai beberapa ujian penyelesaian masalah dan matematik, mereka menjaringkan lebih baik daripada purata manusia.

V3 dilatih dengan kos yang dilaporkan kira -kira AS $ 5.58 juta. Ini secara dramatik lebih murah daripada GPT-4, contohnya, yang lebih mahal daripada AS $ 100 juta untuk berkembang.

DeepSeek juga mendakwa telah melatih V3 menggunakan sekitar 2,000 cip komputer khusus, khususnya H800 GPU yang dibuat oleh Nvidia . Ini sekali lagi lebih sedikit daripada syarikat lain, yang mungkin telah menggunakan sehingga 16,000 cip H100 yang lebih kuat.

Pada 20 Januari, DeepSeek mengeluarkan model lain, yang dipanggil R1 . Ini adalah model yang dipanggil "penalaran", yang cuba untuk bekerja melalui masalah kompleks langkah demi langkah. Model -model ini kelihatan lebih baik pada banyak tugas yang memerlukan konteks dan mempunyai banyak bahagian yang saling berkaitan, seperti pemahaman membaca dan perancangan strategik.

Model R1 adalah versi tweak V3, diubahsuai dengan teknik yang dipanggil pembelajaran tetulang. R1 nampaknya berfungsi pada tahap yang sama dengan Openai's O1 , yang dikeluarkan tahun lepas.

DeepSeek juga menggunakan teknik yang sama untuk membuat versi "pemikiran" model sumber terbuka kecil yang boleh dijalankan di komputer rumah.

Siaran ini telah mencetuskan peningkatan minat yang besar di Deepseek, memacu populariti aplikasi chatbot berkuasa V3 dan mencetuskan kemalangan harga besar-besaran dalam stok teknologi sebagai pelabur menilai semula industri AI. Pada masa penulisan, pembuat Chip Nvidia telah kehilangan sekitar nilai AS $ 600 bilion.

Betapa Deepseek melakukannya

Terobosan Deepseek telah mencapai kecekapan yang lebih besar: Mendapatkan hasil yang baik dengan sumber yang lebih sedikit. Khususnya, pemaju DeepSeek telah mempelopori dua teknik yang boleh diterima pakai oleh penyelidik AI lebih luas.

Yang pertama mempunyai kaitan dengan idea matematik yang disebut "sparsity". Model AI mempunyai banyak parameter yang menentukan respons mereka terhadap input (V3 mempunyai sekitar 671 bilion), tetapi hanya sebahagian kecil daripada parameter ini digunakan untuk sebarang input yang diberikan.

Walau bagaimanapun, meramalkan parameter mana yang diperlukan tidak mudah. DeepSeek menggunakan teknik baru untuk melakukan ini, dan kemudian melatih hanya parameter tersebut. Akibatnya, modelnya memerlukan latihan yang jauh lebih rendah daripada pendekatan konvensional.

Trik lain mempunyai kaitan dengan bagaimana V3 menyimpan maklumat dalam memori komputer. DeepSeek telah menemui cara pintar untuk memampatkan data yang berkaitan, jadi lebih mudah untuk menyimpan dan mengakses dengan cepat.

Deepseek telah menggoncang industri AI berjuta-juta dolar. Robert Way/Shutterstock
Deepseek telah menggoncang industri AI berjuta-juta dolar. Robert Way/Shutterstock

Apa maksudnya

Model dan teknik DeepSeek telah dikeluarkan di bawah lesen MIT , yang bermaksud sesiapa sahaja boleh memuat turun dan mengubahnya.

Kandungan daripada rakan kongsi kami

public_dashboard

Semakan Publilitik untuk 2025

Ulasan Video Terbuka Ezoic

Ulasan Video Terbuka Ezoic untuk 2025

Kajian AlphaMetricx

Semakan AlphaMetricx untuk 2025

Walaupun ini mungkin berita buruk bagi sesetengah syarikat AI - yang keuntungannya mungkin terhakis oleh kewujudan model yang tersedia secara bebas dan kuat - berita baik untuk komuniti penyelidikan AI yang lebih luas.

Pada masa ini, banyak penyelidikan AI memerlukan akses kepada sejumlah besar sumber pengkomputeran. Penyelidik seperti saya yang berpusat di universiti (atau di mana sahaja kecuali syarikat teknologi besar) mempunyai keupayaan terhad untuk menjalankan ujian dan eksperimen.

Model dan teknik yang lebih cekap mengubah keadaan. Eksperimen dan pembangunan kini mungkin lebih mudah bagi kami.

Bagi pengguna, akses kepada AI juga boleh menjadi lebih murah. Lebih banyak model AI boleh dijalankan pada peranti pengguna sendiri, seperti komputer riba atau telefon, dan bukannya menjalankan "di awan" untuk yuran langganan.

Bagi penyelidik yang sudah mempunyai banyak sumber, lebih banyak kecekapan mungkin kurang memberi kesan. Tidak jelas sama ada pendekatan DeepSeek akan membantu membuat model dengan prestasi yang lebih baik secara keseluruhan, atau hanya model yang lebih cekap.

Tongliang Liu, Profesor Madya Pembelajaran Mesin dan Pengarah Pusat Sydney AI, University of Sydney

Artikel ini diterbitkan semula dari perbualan di bawah lesen Creative Commons. Baca artikel asal .

Pilihan Editor
Platform Surat Berita E-mel Terbaik untuk Penerbit
Platform & Alat Digital

8 Platform Surat Berita E-mel Terbaik untuk Penerbit pada 2025

Apakah Pencipta Kandungan Apa, Mengapa dan Bagaimana Ekonomi Pencipta
Strategi Kandungan

Apakah Pencipta Kandungan?

SEO Berita Google
SEO

Panduan SEO Berita Google 2024: Amalan Terbaik untuk Penerbit Berita

Catatan Berkaitan

  • Deepseek
    Meletakkan Deepseek ke Ujian: Bagaimana Prestasinya Membandingkan Dengan Alat AI Lain
  • Soal Jawab Clara Soteras: Peluang & Pertempuran SEO untuk Penerbit Digital
    Soal Jawab Clara Soteras: Peluang & Pertempuran SEO untuk Penerbit Digital
  • Jan Thoresen
    Soal Jawab CMS Labrador: Melangkaui CMS Tanpa Kepala untuk Fleksibiliti dan Kepantasan Penerbit yang Lebih Hebat
  • Alat Transkripsi AI Terbaik
    11 Alat Transkripsi AI Terbaik pada 2024
SODP logo

State of Digital Publishing sedang mencipta penerbitan dan komuniti baharu untuk media digital dan profesional penerbitan, dalam media dan teknologi baharu.

  • Alat teratas
  • SEO untuk penerbit
  • Dasar privasi
  • Dasar editorial
  • Peta laman
  • Cari mengikut syarikat
Facebook X-twitter Kendur Linkedin

NEGERI PENERBITAN DIGITAL – HAK CIPTA 2025