SODP logo

    DeepSeek: come una piccola azienda cinese di intelligenza artificiale sta rivoluzionando i colossi tecnologici statunitensi

    L'azienda cinese di intelligenza artificiale (IA) DeepSeek ha sconvolto la comunità tecnologica con il rilascio di modelli di IA estremamente efficienti, in grado di competere con i prodotti all'avanguardia di aziende statunitensi come..
    Aggiornato il: 1 dicembre 2025
    Tongliang Liu

    Creato da

    Tongliang Liu

    La conversazione

    Verificato da

    La conversazione

    Tongliang Liu

    Modificato da

    Tongliang Liu

    L'azienda cinese di intelligenza artificiale (IA) DeepSeek ha sconvolto la comunità tecnologica con il rilascio di modelli di IA estremamente efficienti, in grado di competere con i prodotti all'avanguardia di aziende statunitensi come OpenAI e Anthropic.

    Fondata nel 2023, DeepSeek ha raggiunto i suoi risultati con una frazione del denaro e della potenza di calcolo dei suoi concorrenti.

    Il modello "ragionante" R1 di DeepSeek, pubblicato la scorsa settimana, ha suscitato entusiasmo tra i ricercatori, sorpresa tra gli investitori e reazioni da parte dei pesi massimi dell'intelligenza artificiale. Il 28 gennaio, l'azienda ha presentato un modello in grado di gestire sia immagini che testo.

    Quindi cosa ha fatto DeepSeek e come lo ha fatto?

    Cosa ha fatto DeepSeek

    A dicembre, DeepSeek ha rilasciato il suo modello V3 . Si tratta di un modello "standard" per grandi linguaggi molto potente, con prestazioni simili a quelle di GPT-4o di OpenAI e Claude 3.5 di Anthropic.

    Sebbene questi modelli siano soggetti a errori e a volte inventino dati propri , possono svolgere compiti come rispondere a domande, scrivere saggi e generare codice informatico. In alcuni test di problem-solving e ragionamento matematico, ottengono punteggi migliori della media umana.

    Il costo di addestramento di V3 è stato stimato in circa 5,58 milioni di dollari. Si tratta di un costo notevolmente inferiore a quello di GPT-4, ad esempio, il cui sviluppo più di 100 milioni di dollari

    DeepSeek afferma inoltre di aver addestrato V3 utilizzando circa 2.000 chip specializzati, in particolare GPU H800 prodotte da NVIDIA . Anche in questo caso, si tratta di un numero molto inferiore rispetto ad altre aziende, che potrebbero aver utilizzato fino a 16.000 dei più potenti chip H100.

    Il 20 gennaio, DeepSeek ha rilasciato un altro modello, denominato R1 . Si tratta di un cosiddetto modello di "ragionamento", che cerca di risolvere problemi complessi passo dopo passo. Questi modelli sembrano essere più efficaci in molti compiti che richiedono contesto e presentano più componenti interconnesse, come la comprensione del testo e la pianificazione strategica.

    Il modello R1 è una versione ottimizzata di V3, modificata con una tecnica chiamata apprendimento per rinforzo. R1 sembra funzionare a un livello simile a o1 di OpenAI , rilasciato lo scorso anno.

    DeepSeek ha utilizzato la stessa tecnica anche per realizzare versioni "ragionate" di piccoli modelli open source che possono essere eseguiti sui computer domestici.

    Questa release ha suscitato un enorme interesse per DeepSeek, incrementando la popolarità della sua app chatbot basata su V3 e innescando un crollo dei prezzi dei titoli tecnologici, mentre gli investitori rivalutano il settore dell'intelligenza artificiale. Al momento in cui scriviamo, il produttore di chip NVIDIA ha perso circa 600 miliardi di dollari di valore.

    Come ha fatto DeepSeek

    Le innovazioni di DeepSeek hanno riguardato il raggiungimento di una maggiore efficienza: ottenere buoni risultati con meno risorse. In particolare, gli sviluppatori di DeepSeek hanno sperimentato due tecniche che potrebbero essere adottate più ampiamente dai ricercatori di intelligenza artificiale.

    Il primo ha a che fare con un concetto matematico chiamato "sparsità". I modelli di intelligenza artificiale hanno molti parametri che determinano le loro risposte agli input (V3 ne ha circa 671 miliardi), ma solo una piccola frazione di questi parametri viene utilizzata per ogni input.

    Tuttavia, prevedere quali parametri saranno necessari non è facile. DeepSeek ha utilizzato una nuova tecnica per farlo, addestrando solo quei parametri. Di conseguenza, i suoi modelli hanno richiesto un addestramento molto inferiore rispetto a un approccio convenzionale.

    L'altro trucco riguarda il modo in cui V3 memorizza le informazioni nella memoria del computer. DeepSeek ha trovato un modo intelligente per comprimere i dati rilevanti, rendendoli più facili da archiviare e da accedere rapidamente.

    DeepSeek ha rivoluzionato il settore multimiliardario dell'intelligenza artificiale. Robert Way/Shutterstock
    DeepSeek ha rivoluzionato il settore multimiliardario dell'intelligenza artificiale. Robert Way/Shutterstock

    Cosa significa

    I modelli e le tecniche di DeepSeek sono stati rilasciati con licenza gratuita MIT , il che significa che chiunque può scaricarli e modificarli.

    Sebbene questa possa essere una cattiva notizia per alcune aziende di intelligenza artificiale, i cui profitti potrebbero essere erosi dall'esistenza di modelli potenti e liberamente disponibili, è un'ottima notizia per la più ampia comunità di ricerca sull'intelligenza artificiale.

    Attualmente, gran parte della ricerca sull'intelligenza artificiale richiede l'accesso a enormi quantità di risorse di calcolo. I ricercatori come me, che lavorano nelle università (o in qualsiasi altro luogo, ad eccezione delle grandi aziende tecnologiche), hanno avuto capacità limitate di condurre test ed esperimenti.

    Modelli e tecniche più efficienti cambiano la situazione. Sperimentazione e sviluppo potrebbero ora essere notevolmente più semplici per noi.

    Per i consumatori, l'accesso all'intelligenza artificiale potrebbe anche diventare più economico. Un numero maggiore di modelli di intelligenza artificiale potrebbe essere eseguito sui dispositivi personali degli utenti, come laptop o telefoni, anziché essere eseguito "nel cloud" a fronte di un abbonamento.

    Per i ricercatori che dispongono già di molte risorse, una maggiore efficienza potrebbe avere un impatto minore. Non è chiaro se l'approccio di DeepSeek contribuirà a creare modelli con prestazioni complessivamente migliori o semplicemente modelli più efficienti.

    Tongliang Liu, Professore Associato di Machine Learning e Direttore del Sydney AI Centre, Università di Sydney.

    Questo articolo è ripubblicato da The Conversation con licenza Creative Commons. Leggi l' articolo originale .