DeepSeek: Wie ein kleines chinesisches KI-Unternehmen die US-amerikanischen Technologiegiganten aufmischt

Das chinesische Unternehmen DeepSeek, spezialisiert auf künstliche Intelligenz (KI), hat mit der Veröffentlichung extrem effizienter KI-Modelle, die mit Spitzenprodukten von US-Unternehmen wie OpenAI und Anthropic konkurrieren können, für Aufsehen in der Tech-Community

DeepSeek wurde 2023 gegründet und hat seine Ergebnisse mit einem Bruchteil des Kapitals und der Rechenleistung seiner Konkurrenten erzielt.

DeepSeeks „Reasoning“-Modell R1, das letzte Woche veröffentlicht wurde, sorgte bei Forschern für Begeisterung, bei Investoren für Bestürzung und bei KI-Größen für Reaktionen. Am 28. Januar legte das Unternehmen mit einem Modell , das sowohl mit Bildern als auch mit Texten arbeiten kann.

Die Deepseek R1 ist ein beeindruckendes Modell, insbesondere angesichts des Preis-Leistungs-Verhältnisses.

Wir werden natürlich deutlich bessere Modelle anbieten, und es ist wirklich anregend, einen neuen Konkurrenten zu haben! Wir werden einige Neuheiten präsentieren.
— Sam Altman (@sama) 28. Januar 2025

Was also hat DeepSeek geleistet, und wie ist das Unternehmen vorgegangen?

Was DeepSeek getan hat

Im Dezember veröffentlichte DeepSeek sein V3-Modell . Es handelt sich dabei um ein sehr leistungsstarkes, standardmäßiges großes Sprachmodell, das eine ähnliche Leistung wie OpenAIs GPT-40 und Anthropics Claude 3.5 erbringt.

Obwohl diese Modelle fehleranfällig sind und manchmal eigene Fakten erfinden , können sie Aufgaben wie das Beantworten von Fragen, das Schreiben von Aufsätzen und das Generieren von Computercode ausführen. In einigen Tests zum Problemlösen und mathematischen Denken erzielen sie bessere Ergebnisse als der durchschnittliche Mensch.

Die Entwicklung von V3 kostete Berichten zufolge etwa 5,58 Millionen US-Dollar. Das ist deutlich günstiger als beispielsweise die Entwicklung mehr als 100 Millionen US-Dollar

DeepSeek gibt außerdem an, V3 mit rund 2.000 spezialisierten Computerchips trainiert zu haben, genauer gesagt mit H800-GPUs von NVIDIA . Dies ist deutlich weniger als bei anderen Unternehmen, die bis zu 16.000 der leistungsstärkeren H100-Chips eingesetzt haben.

Am 20. Januar veröffentlichte DeepSeek ein weiteres Modell namens R1 . Dieses sogenannte „logische“ Modell versucht, komplexe Probleme schrittweise zu lösen. Solche Modelle scheinen bei vielen Aufgaben, die Kontext erfordern und aus mehreren miteinander verbundenen Teilen bestehen, wie beispielsweise Leseverständnis und strategische Planung, besser zu funktionieren.

Das R1-Modell ist eine optimierte Version von V3, die mit einer Technik namens Reinforcement Learning modifiziert wurde. R1 scheint ähnlich leistungsfähig zu sein wie das o1-Modell von OpenAI .

DeepSeek nutzte dieselbe Technik auch, um „logische“ Versionen kleiner Open-Source-Modelle zu erstellen, die auf Heimcomputern laufen können.

Diese Veröffentlichung hat ein enormes Interesse an DeepSeek ausgelöst, die Popularität der V3-basierten Chatbot-App und einen massiven Kurssturz bei Technologieaktien verursacht, da Investoren die KI-Branche neu bewerten. Zum Zeitpunkt der Veröffentlichung dieses Artikels hat der Chiphersteller NVIDIA an Wert verloren

Wie DeepSeek es gemacht hat

Die bahnbrechenden Erfolge von DeepSeek liegen in der Steigerung der Effizienz: gute Ergebnisse mit weniger Ressourcen erzielen. Insbesondere haben die Entwickler von DeepSeek zwei Techniken entwickelt, die von KI-Forschern breitere Anwendung finden könnten.

Der erste Aspekt betrifft ein mathematisches Konzept namens „Sparsity“. KI-Modelle verfügen über eine Vielzahl von Parametern, die ihre Reaktionen auf Eingaben bestimmen (V3 hat etwa 671 Milliarden), aber nur ein kleiner Teil dieser Parameter wird für eine bestimmte Eingabe verwendet.

Die Vorhersage der benötigten Parameter ist jedoch nicht einfach. DeepSeek nutzte hierfür eine neue Technik und trainierte anschließend nur diese Parameter. Dadurch benötigten die Modelle deutlich weniger Trainingszeit als herkömmliche Ansätze.

Der zweite Trick liegt in der Art und Weise, wie V3 Informationen im Computerspeicher speichert. DeepSeek hat eine clevere Methode entwickelt, die relevanten Daten zu komprimieren, sodass sie leichter gespeichert und schnell abgerufen werden können.

DeepSeek hat die milliardenschwere KI-Branche aufgerüttelt. Robert Way/Shutterstock

Was es bedeutet

Die Modelle und Techniken von DeepSeek wurden unter der freien MIT-Lizenz , was bedeutet, dass jeder sie herunterladen und modifizieren kann.

Während dies für einige KI-Unternehmen schlechte Nachrichten sein mögen – deren Gewinne durch die Existenz frei verfügbarer, leistungsstarker Modelle geschmälert werden könnten – sind es großartige Neuigkeiten für die breitere KI-Forschungsgemeinschaft.

Aktuell benötigt ein Großteil der KI-Forschung Zugriff auf enorme Rechenressourcen. Forscher wie ich, die an Universitäten (oder anderswo außer in großen Technologieunternehmen) tätig sind, hatten bisher nur begrenzte Möglichkeiten, Tests und Experimente durchzuführen.

Effizientere Modelle und Techniken verändern die Situation. Experimente und Entwicklungen könnten für uns nun deutlich einfacher werden.

Für Verbraucher könnte der Zugang zu KI ebenfalls günstiger werden. Immer mehr KI-Modelle könnten auf den eigenen Geräten der Nutzer, wie Laptops oder Smartphones, laufen, anstatt gegen eine Abonnementgebühr „in der Cloud“ zu funktionieren.

Für Forscher mit bereits umfangreichen Ressourcen dürfte eine höhere Effizienz weniger Bedeutung haben. Es ist unklar, ob der Ansatz von DeepSeek zu insgesamt leistungsfähigeren Modellen führt oder lediglich zu effizienteren Modellen.

Tongliang Liu, außerordentlicher Professor für Maschinelles Lernen und Direktor des Sydney AI Centre an der Universität Sydney

Dieser Artikel wurde mit freundlicher Genehmigung von The Conversation unter einer Creative-Commons-Lizenz erneut veröffentlicht. Lesen Sie den Originalartikel .

SODP

SODP Media

DeepSeek: Wie ein kleines chinesisches KI-Unternehmen die US-amerikanischen Technologiegiganten aufmischt

Erstellt von

Faktencheck durch

Herausgegeben von

Inhaltsverzeichnis

Von Vahe Arabian

Was DeepSeek getan hat

Wie DeepSeek es gemacht hat

Was es bedeutet

Um

Nützliche Links

Ausgewählte Artikel

SODP

DeepSeek: Wie ein kleines chinesisches KI-Unternehmen die US-amerikanischen Technologiegiganten aufmischt

Erstellt von

Faktencheck durch

Herausgegeben von

Inhaltsverzeichnis

Abonnieren Sie KI-Einblicke

Von Vahe Arabian

Was DeepSeek getan hat

Wie DeepSeek es gemacht hat

Was es bedeutet

Ähnliche Beiträge

Nützliche Links

Ausgewählte Artikel