Wie gut ist Deepseek eigentlich?

14:12 29 Januar 2025 Gelesen: 644

Das neue KI-Modell R1 der Firma Deepseek aus China sorgt derzeit für Aufsehen: Es ist nicht nur deutlich günstiger als vergleichbare Modelle, sondern auch erstaunlich leistungsfähig. Bei vielen Intelligenztests soll es bereits die Nase vorn haben. Doch es gibt auch Schattenseiten.

Deepseek schockt die Welt - das neue KI-Modell der chinesischen Firma ist ähnlich leistungsfähig wie die neueste ChatGPT-Version und gleichzeitig (noch) spottbillig. An den Börsen löste dies ein Beben aus. US-Präsident Donald Trump sprach von einem "Weckruf" für die USA. Zu der Furcht mischt sich auch Bewunderung: Die seit Montag erhältliche Deepseek-App stand bei Apple zeitweise an der Spitze der Download-Charts für das iPhone. Mit dem neuesten Modell R1 können Nutzer chatten, das Internet durchsuchen und Dokumente analysieren lassen. Aber wie gut ist das Sprachmodell eigentlich?

Noch vor einigen Monaten wurde geunkt, große Sprachmodelle hätten ihr Limit erreicht. Die damaligen Marktführer ChatGPT und Googles Gemini hatten zwar immer blitzschnell eine Antwort parat, doch an vielen, teils trivialen Aufgaben (wie das Zählen aller Rs in dem Wort "Strawberry") scheiterten sie. Wie sich herausstellte, gibt es einen Trick, um Modelle leistungsfähiger zu machen: Man lässt sie "nachdenken". Dabei durchlaufen sie vor ihrer Antwort monologisierend einen Prozess des Abwägens. OpenAI hatte mit seinem Modell o1 bereits vorgelegt - Deepseek setzt mit R1 auf dieselbe Vorgehensweise.

Minutenlanges Grübeln

Bei R1 (das R steht für "Reasoning", also Schlussfolgerung) sieht der Nutzer auch zum ersten Mal, was einem Sprachmodell durch den Kopf geht, bevor es antwortet: Es versucht etwa eine Strategie zu entwerfen, wie es die vorgegebene Anfrage am besten lösen kann (siehe Beispiel in der Infobox), macht Vorschläge, hinterfragt diese und kommt dabei oft zu einem brauchbaren Ergebnis. Diese Reflexion dauert in manchen Fällen sogar einige Minuten. Doch es zahlt sich aus: Nachdenkende Sprachmodelle sind in Bereichen wie Physik, Naturwissenschaften und Mathematik ihren Vorgängern nachweislich überlegen. Auch die Anzahl der Rs in "Strawberry" wird richtig angegeben.

OpenAI hat bereits drei verschiedene Versionen seiner denkenden o1-Modelle herausgebracht, eine Weiterentwicklung namens o3 soll kurz vor der Veröffentlichung stehen. Auch Google hat bereits eine experimentelle, denkende Gemini-Flash-Version veröffentlicht.

Angeblich Klassenbester

Deepseek erweckt den Anschein, dass China nicht nur den Anschluss an die Modelle der US-Firmen findet, sondern sogar ein in mancher Hinsicht überlegenes Modell entwickelt hat. Um die Fähigkeiten von Modellen vergleichen zu können, werden ihnen standardisierte Tests vorgelegt. Das sind etwa Multiple-Choice-Fragen, die von Fachleuten aus den Bereichen Biologie, Physik und Chemie entwickelt wurden und von Nicht-Experten selbst mit Google nicht schnell beantwortet werden können. Aber auch Mathematik- und Coding-Aufgaben zählen zu diesen Benchmark-Tests.

Anhand der bekannten korrekten Ergebnisse kann schnell ermittelt werden, wie gut ein Sprachmodell bei den Tests abschneidet. Laut seinen Entwicklern liefert Deepseeks R1 bei den meisten dieser Benchmarks die besten Ergebnisse, auch wenn die Unterschiede zum o1-Modell von OpenAI oft nur gering sind. Und während R1 etwa bei den Mathetests die Nase leicht vorn hat, schneidet o1 beim Coding öfter etwas besser ab.

"Sehr vorsichtig" sein

Aber es gibt natürlich Schattenseiten: Deepseek ist eine chinesische Firma und damit den in China geltenden Auflagen unterworfen. Das zeigt sich, wenn man R1 etwa Fragen zu den Massenprotesten auf dem Tian'anmen-Platz 1989 oder dem Status von Taiwan stellt, welche ausweichend beantwortet werden: "Entschuldigung, ich weiß noch nicht genau, wie ich diese Art von Frage angehen soll. Lass uns stattdessen über Mathematik, Programmierung und Logikprobleme sprechen!" (Allerdings kann man durch trickreiches Fragen die Beschränkungen umgehen und dem Modell doch eine Aussage entlocken.)

Und da ist auch noch das Thema Datenschutz. Der australische Wissenschaftsminister Ed Husic war der erste westliche Politiker, der Datenschutzbedenken bezüglich Deepseek geäußert hat: "Es gibt viele Fragen, die zu Qualität, Verbraucherpräferenzen, Datenmanagement und Privatsphäre beantwortet werden müssen", sagte er dem Fernsehsender ABC. Er riet Nutzern, "sehr vorsichtig" mit der App zu sein. Auch bei anderen chinesischen Produkten wie Huawei und der Social-Media-Plattform Tiktok gab es immer wieder Vorbehalte hinsichtlich des Datenschutzes.

Preise auf Ramschniveau

Allerdings muss unterschieden werden: Bei Nutzung der App und der Webseite von Deepseek werden"personenbezogene Daten" laut der Datenschutzrichtlinie des Unternehmens auf "sicheren Servern in der Volksrepublik China" gespeichert. Jedoch gibt es auch Open-Source-Versionen von Deepseek, die auf Plattformen wie Hugging Face angeboten und in abgespeckten Varianten auf den eigenen Rechner heruntergeladen werden können. In diesen Fällen bleibt die Kontrolle über die eigenen Daten erhalten.

Bislang ist die Nutzung der Deepseek-App und -Webseite mit Zugriff auf das leistungsstarke R1-Modell kostenlos. Wenn Unternehmen und andere professionelle Nutzer das Modell für sich nutzen wollen, müssen sie für die Abrufe über eine Schnittstelle jedoch zahlen. Hier ist Deepseek bislang 10 bis 20 Mal so günstig wie die ähnlich leistungsfähigen Modelle der Mitbewerber von OpenAI, Google und Anthropic.

Quelle: ntv.de

Tags: