L'azienda cinese di intelligenza artificiale (IA) DeepSeek ha sconvolto la comunità tecnologicacon il rilascio di modelli di IA estremamente efficienti, in grado di competere con i prodotti all'avanguardia di aziende statunitensi come OpenAI e Anthropic.
Fondata nel 2023, DeepSeek ha raggiunto i suoi risultati con una frazione del denaro e della potenza di calcolo dei suoi concorrenti.
Il modello R1 di "ragionamento" di DeepSeek, rilasciato la scorsa settimana, ha suscitato entusiasmo tra i ricercatori, stupore tra gli investitori e reazioni da parte dei colossi dell'IA. Il 28 gennaio l'azienda ha poi presentato un modello in grado di elaborare sia immagini che testo.
Il Deepseek R1 è un modello impressionante, soprattutto considerando il rapporto qualità-prezzo.
— Sam Altman (@sama) 28 gennaio 2025
Ovviamente offriremo modelli ancora migliori ed è davvero stimolante avere un nuovo concorrente! Presto pubblicheremo alcuni nuovi prodotti.
Quindi cosa ha fatto DeepSeek e come lo ha fatto?
Cosa ha fatto DeepSeek
A dicembre, DeepSeek ha rilasciato il suo modello V3. Si tratta di un modello linguistico "standard" molto potente, in grado di elaborare grandi quantità di dati, con prestazioni simili a quelle di GPT-40 di OpenAI e Claude 3.5 di Anthropic.
Sebbene questi modelli siano soggetti a errori e a volte inventino dati propri, possono svolgere compiti come rispondere a domande, scrivere saggi e generare codice informatico. In alcuni test di problem-solving e ragionamento matematico, ottengono punteggi migliori della media umana.
di addestramento di V3 è stato stimato Il costo in circa 5,58 milioni di dollari. Si tratta di un costo notevolmente inferiore a quello di GPT-4, ad esempio, il cui più di 100 milioni di dollari sviluppo
DeepSeek afferma inoltre di aver addestrato V3 utilizzando circa 2.000 chip specializzati, in particolare GPU H800 prodotte da NVIDIA. Anche in questo caso, si tratta di un numero molto inferiore rispetto ad altre aziende, che potrebbero aver utilizzato fino a 16.000 dei più potenti chip H100.
Il 20 gennaio, DeepSeek ha rilasciato un altro modello, chiamato R1. Si tratta di un cosiddetto modello di "ragionamento", che cerca di risolvere problemi complessi passo dopo passo. Questi modelli sembrano essere più efficaci in molti compiti che richiedono contesto e presentano più parti interconnesse, come la comprensione della lettura e la pianificazione strategica.
Il modello R1 è una versione modificata del V3, arricchita da una tecnica chiamata apprendimento per rinforzo. R1 sembra funzionare a un livello simile a quello di o1 di OpenAI, rilasciato lo scorso anno.
DeepSeek ha utilizzato la stessa tecnica anche per realizzare versioni "ragionate" di piccoli modelli open source che possono essere eseguiti sui computer domestici.
Questa release ha suscitato un enorme interesse per DeepSeek, incrementando la popolarità della sua app chatbot basata su V3 e innescando un crollo dei prezzi dei titoli tecnologici, mentre gli investitori rivalutano il settore dell'intelligenza artificiale. Al momento in cui scriviamo, il produttore di chip NVIDIA ha perso circa 600 miliardi di dollari di valore.
Come ha fatto DeepSeek
Le innovazioni di DeepSeek hanno riguardato il raggiungimento di una maggiore efficienza: ottenere buoni risultati con meno risorse. In particolare, gli sviluppatori di DeepSeek hanno sperimentato due tecniche che potrebbero essere adottate più ampiamente dai ricercatori di intelligenza artificiale.
Il primo ha a che fare con un concetto matematico chiamato "sparsità". I modelli di intelligenza artificiale hanno molti parametri che determinano le loro risposte agli input (V3 ne ha circa 671 miliardi), ma solo una piccola frazione di questi parametri viene utilizzata per ogni input.
Tuttavia, prevedere quali parametri saranno necessari non è facile. DeepSeek ha utilizzato una nuova tecnica per farlo, addestrando solo quei parametri. Di conseguenza, i suoi modelli hanno richiesto un addestramento molto inferiore rispetto a un approccio convenzionale.
L'altro trucco riguarda il modo in cui V3 memorizza le informazioni nella memoria del computer. DeepSeek ha trovato un modo intelligente per comprimere i dati rilevanti, rendendoli più facili da archiviare e da accedere rapidamente.

Cosa significa
I modelli e le tecniche di DeepSeek sono stati rilasciati sotto la licenza libera MIT, il che significa che chiunque può scaricarli e modificarli.
Sebbene questa possa essere una cattiva notizia per alcune aziende di intelligenza artificiale, i cui profitti potrebbero essere erosi dall'esistenza di modelli potenti e liberamente disponibili, è un'ottima notizia per la più ampia comunità di ricerca sull'intelligenza artificiale.
Attualmente, gran parte della ricerca sull'intelligenza artificiale richiede l'accesso a enormi quantità di risorse di calcolo. I ricercatori come me, che lavorano nelle università (o in qualsiasi altro luogo, ad eccezione delle grandi aziende tecnologiche), hanno avuto capacità limitate di condurre test ed esperimenti.
Modelli e tecniche più efficienti cambiano la situazione. Sperimentazione e sviluppo potrebbero ora essere notevolmente più semplici per noi.
Per i consumatori, l'accesso all'intelligenza artificiale potrebbe anche diventare più economico. Un numero maggiore di modelli di intelligenza artificiale potrebbe essere eseguito sui dispositivi personali degli utenti, come laptop o telefoni, anziché essere eseguito "nel cloud" a fronte di un abbonamento.
Per i ricercatori che dispongono già di molte risorse, una maggiore efficienza potrebbe avere un impatto minore. Non è chiaro se l'approccio di DeepSeek contribuirà a creare modelli con prestazioni complessivamente migliori o semplicemente modelli più efficienti.
Tongliang Liu, Professore Associato di Machine Learning e Direttore del Sydney AI Centre, Università di Sydney.
Questo articolo è ripubblicato da The Conversation con licenza Creative Commons. Leggi l' articolo originale.





