SODP logo

    DeepSeek: Wie ein kleines chinesisches KI-Unternehmen die US-amerikanischen Technologiegiganten aufmischt

    Das chinesische Unternehmen DeepSeek, spezialisiert auf künstliche Intelligenz (KI), hat mit der Veröffentlichung extrem effizienter KI-Modelle, die mit Spitzenprodukten US-amerikanischer Unternehmen konkurrieren können, in der Tech-Welt für Aufsehen gesorgt
    Aktualisiert am: 1. Dezember 2025
    Tongliang Liu

    Erstellt von

    Tongliang Liu

    Das Gespräch

    Faktencheck durch

    Das Gespräch

    Tongliang Liu

    Herausgegeben von

    Tongliang Liu

    Das chinesische Unternehmen DeepSeek, spezialisiert auf künstliche Intelligenz (KI), hat mit der Veröffentlichung extrem effizienter KI-Modelle, die mit Spitzenprodukten von US-Unternehmen wie OpenAI und Anthropic konkurrieren können, für Aufsehen in der Tech-Community

    DeepSeek wurde 2023 gegründet und hat seine Ergebnisse mit einem Bruchteil des Kapitals und der Rechenleistung seiner Konkurrenten erzielt.

    DeepSeeks „Reasoning“-Modell R1, das letzte Woche veröffentlicht wurde, sorgte bei Forschern für Begeisterung, bei Investoren für Bestürzung und bei KI-Größen für Reaktionen. Am 28. Januar legte das Unternehmen mit einem Modell , das sowohl mit Bildern als auch mit Texten arbeiten kann.

    Was also hat DeepSeek geleistet, und wie ist das Unternehmen vorgegangen?

    Was DeepSeek getan hat

    Im Dezember veröffentlichte DeepSeek sein V3-Modell . Es handelt sich dabei um ein sehr leistungsstarkes, standardmäßiges großes Sprachmodell, das eine ähnliche Leistung wie OpenAIs GPT-40 und Anthropics Claude 3.5 erbringt.

    Obwohl diese Modelle fehleranfällig sind und manchmal eigene Fakten erfinden , können sie Aufgaben wie das Beantworten von Fragen, das Schreiben von Aufsätzen und das Generieren von Computercode ausführen. In einigen Tests zum Problemlösen und mathematischen Denken erzielen sie bessere Ergebnisse als der durchschnittliche Mensch.

    Die Entwicklung von V3 kostete Berichten zufolge etwa 5,58 Millionen US-Dollar. Das ist deutlich günstiger als beispielsweise die Entwicklung mehr als 100 Millionen US-Dollar

    DeepSeek gibt außerdem an, V3 mit rund 2.000 spezialisierten Computerchips trainiert zu haben, genauer gesagt mit H800-GPUs von NVIDIA . Dies ist deutlich weniger als bei anderen Unternehmen, die bis zu 16.000 der leistungsstärkeren H100-Chips eingesetzt haben.

    Am 20. Januar veröffentlichte DeepSeek ein weiteres Modell namens R1 . Dieses sogenannte „logische“ Modell versucht, komplexe Probleme schrittweise zu lösen. Solche Modelle scheinen bei vielen Aufgaben, die Kontext erfordern und aus mehreren miteinander verbundenen Teilen bestehen, wie beispielsweise Leseverständnis und strategische Planung, besser zu funktionieren.

    Das R1-Modell ist eine optimierte Version von V3, die mit einer Technik namens Reinforcement Learning modifiziert wurde. R1 scheint ähnlich leistungsfähig zu sein wie das o1-Modell von OpenAI .

    DeepSeek nutzte dieselbe Technik auch, um „logische“ Versionen kleiner Open-Source-Modelle zu erstellen, die auf Heimcomputern laufen können.

    Diese Veröffentlichung hat ein enormes Interesse an DeepSeek ausgelöst, die Popularität der V3-basierten Chatbot-App und einen massiven Kurssturz bei Technologieaktien verursacht, da Investoren die KI-Branche neu bewerten. Zum Zeitpunkt der Veröffentlichung dieses Artikels hat der Chiphersteller NVIDIA an Wert verloren

    Wie DeepSeek es gemacht hat

    Die bahnbrechenden Erfolge von DeepSeek liegen in der Steigerung der Effizienz: gute Ergebnisse mit weniger Ressourcen erzielen. Insbesondere haben die Entwickler von DeepSeek zwei Techniken entwickelt, die von KI-Forschern breitere Anwendung finden könnten.

    Der erste Aspekt betrifft ein mathematisches Konzept namens „Sparsity“. KI-Modelle verfügen über eine Vielzahl von Parametern, die ihre Reaktionen auf Eingaben bestimmen (V3 hat etwa 671 Milliarden), aber nur ein kleiner Teil dieser Parameter wird für eine bestimmte Eingabe verwendet.

    Die Vorhersage der benötigten Parameter ist jedoch nicht einfach. DeepSeek nutzte hierfür eine neue Technik und trainierte anschließend nur diese Parameter. Dadurch benötigten die Modelle deutlich weniger Trainingszeit als herkömmliche Ansätze.

    Der zweite Trick liegt in der Art und Weise, wie V3 Informationen im Computerspeicher speichert. DeepSeek hat eine clevere Methode entwickelt, die relevanten Daten zu komprimieren, sodass sie leichter gespeichert und schnell abgerufen werden können.

    DeepSeek hat die milliardenschwere KI-Branche aufgerüttelt. Robert Way/Shutterstock
    DeepSeek hat die milliardenschwere KI-Branche aufgerüttelt. Robert Way/Shutterstock

    Was es bedeutet

    Die Modelle und Techniken von DeepSeek wurden unter der freien MIT-Lizenz , was bedeutet, dass jeder sie herunterladen und modifizieren kann.

    Während dies für einige KI-Unternehmen schlechte Nachrichten sein mögen – deren Gewinne durch die Existenz frei verfügbarer, leistungsstarker Modelle geschmälert werden könnten – sind es großartige Neuigkeiten für die breitere KI-Forschungsgemeinschaft.

    Aktuell benötigt ein Großteil der KI-Forschung Zugriff auf enorme Rechenressourcen. Forscher wie ich, die an Universitäten (oder anderswo außer in großen Technologieunternehmen) tätig sind, hatten bisher nur begrenzte Möglichkeiten, Tests und Experimente durchzuführen.

    Effizientere Modelle und Techniken verändern die Situation. Experimente und Entwicklungen könnten für uns nun deutlich einfacher werden.

    Für Verbraucher könnte der Zugang zu KI ebenfalls günstiger werden. Immer mehr KI-Modelle könnten auf den eigenen Geräten der Nutzer, wie Laptops oder Smartphones, laufen, anstatt gegen eine Abonnementgebühr „in der Cloud“ zu funktionieren.

    Für Forscher mit bereits umfangreichen Ressourcen dürfte eine höhere Effizienz weniger Bedeutung haben. Es ist unklar, ob der Ansatz von DeepSeek zu insgesamt leistungsfähigeren Modellen führt oder lediglich zu effizienteren Modellen.

    Tongliang Liu, außerordentlicher Professor für Maschinelles Lernen und Direktor des Sydney AI Centre an der Universität Sydney

    Dieser Artikel wurde mit freundlicher Genehmigung von The Conversation unter einer Creative-Commons-Lizenz erneut veröffentlicht. Lesen Sie den Originalartikel .