Zurück zum Blog
KILLMTechnologieHalluzination

Wissenslücken bei KI-Modellen – nur vier schaffen positive Bewertung

Von 40 getesteten Modellen erreichen nur vier einen positiven Score. Gemini 3 Pro führt, aber auch hier liegt die Fehlerquote bei bis zu 47%.

01. Dezember 2025KnowledgePilot Team5 Min. Lesezeit

Die Probleme mit der Zuverlässigkeit der Antworten von KI-Modellen sind inzwischen weithin bekannt.

Antworten werden erfunden und sehr überzeugend verkauft. Nicht alles ist offensichtlich. Oft kann man auch darauf hereinfallen. Ernsthaft arbeiten kann man damit nicht.

Das ist für uns der Hauptgrund gewesen, aus dem internen Tool MyAI unser Produkt KnowledgePilot zu entwickeln.

Die Hersteller der KI-Modelle geben regelmäßig neue Versionen ihrer Modelle heraus. Sie übertrumpfen sich gegenseitig mit Erfolgsmeldungen.

Wie sieht es in der Realität aus?

Der AA-Omniscience Benchmark

Ein neuer Benchmark von Artificial Analysis zeigt, dass KI-Modelle teils erschreckende Schwächen bei der Zuverlässigkeit ihrer Aussagen haben. Von über 40 getesteten Modellen erreichen nur vier einen positiven Score.

Der AA-Omniscience Benchmark unterscheidet sich fundamental von bisherigen Tests: Statt nur richtige Antworten zu belohnen, wird hier falsches Raten bestraft. Das Scoring-System ist einfach, aber gnadenlos:

  • +1 Punkt für eine korrekte Antwort
  • −1 Punkt für eine falsche Antwort (Halluzination)
  • 0 Punkte für Enthaltung ("Ich weiß es nicht")

Ein Score von 0 bedeutet: Das Modell antwortet genauso oft richtig wie falsch. Alles im negativen Bereich bedeutet: Das Modell erfindet häufiger Antworten, als dass es korrekt antwortet.

Was wird getestet?

Der Benchmark umfasst 6.000 Fragen über 42 Themen in sechs wirtschaftlich relevanten Bereichen:

  • Business
  • Rechtswissenschaften
  • Gesundheitswesen
  • Software Engineering
  • Geistes- und Sozialwissenschaften
  • Naturwissenschaften, Ingenieurwesen und Mathematik

Die Fragen stammen aus autoritativen akademischen und Industriequellen und sind bewusst so schwierig gestaltet, dass nur Experten im jeweiligen Feld sie beantworten könnten.

Die Ergebnisse

Die Top 4 (positive Scores)

  1. Gemini 3 Pro: Führt mit deutlichem Abstand (14 Prozentpunkte über Grok 4)
  2. Claude 4.1 Opus: Zweitplatziert (36% Genauigkeit, niedrigste Hallucination Rate)
  3. GPT-5.1: Dritter Platz
  4. Grok 4: Vierter Platz

Alle anderen Modelle liegen im negativen Bereich – sie erfinden häufiger Antworten, als dass sie korrekt sind.

Das Hallucinations-Problem

Die Hallucination Rates (Anteil falscher Antworten bei Nicht-Wissen) sind alarmierend hoch:

  • GPT-5.1: 81% Hallucination Rate (höchste Genauigkeit 39%, aber massive Fehlerquote)
  • Grok 4: 64% Hallucination Rate (39% Genauigkeit)
  • Gemini 3 Pro: Über 50% Hallucination Rate trotz Spitzenposition

Im Kontrast dazu die Claude-Modelle von Anthropic:

  • Claude 4.5 Haiku: 26-28% Hallucination Rate (niedrigste im gesamten Test)
  • Claude 4.5 Sonnet: 48% Hallucination Rate
  • Claude 4.1 Opus: 48% Hallucination Rate

Die überraschende Erkenntnis

Hohe Genauigkeit garantiert keine Zuverlässigkeit. Modelle wie Grok 4 und GPT-5.1 erreichen Spitzenwerte bei der Genauigkeit (39%), aber ihre Neigung, lieber zu raten als zuzugeben, dass sie etwas nicht wissen, führt zu katastrophalen Hallucination Rates.

Claude 4.1 Opus erreicht "nur" 36% Genauigkeit, aber durch die außergewöhnlich niedrige Hallucination Rate wurde es zum Spitzenreiter – bis Gemini 3 Pro kam und durch noch höhere Genauigkeit die Führung übernahm, allerdings bei gleichzeitig hoher Hallucination Rate.

Domain-spezifische Unterschiede

Kein Modell dominiert über alle Bereiche hinweg:

  • Claude 4.1 Opus: Führend in Rechtswissenschaften, Software Engineering und Geistes-/Sozialwissenschaften
  • GPT-5.1: Am zuverlässigsten bei Business-Fragen
  • Grok 4: Beste Performance in Gesundheit sowie Naturwissenschaften/Mathematik

Die Modellwahl sollte sich am konkreten Anwendungsfall orientieren, nicht am Gesamtsieger.

Was bedeutet das für die Praxis?

Die Ergebnisse zeigen: Aktuelle LLMs sind für faktenbasierte Anwendungen ohne zusätzliche Absicherung ungeeignet. Selbst die besten Modelle erfinden in über der Hälfte der Fälle Antworten, wenn sie etwas nicht wissen.

Genau hier setzt KnowledgePilot an: Durch Retrieval Augmented Generation (RAG) werden die Modelle mit verifizierten, aktuellen Unternehmensdaten versorgt. Das Modell muss nicht mehr aus dem Gedächtnis antworten – es arbeitet mit den konkreten Dokumenten, die Sie bereitstellen.

Übrigens optimieren wir auch, welche Modelle für welchen Einsatzfall optimal sind. Freie Modellwahl durch Kunden ist schick, aber kontraproduktiv.

Das Ergebnis: Deutlich niedrigere Hallucination Rates und nachvollziehbare Antworten mit Quellenangaben.

Der AA-Omniscience Benchmark macht deutlich: Ohne zusätzliche Absicherung durch RAG-Systeme wie KnowledgePilot sind LLMs für geschäftskritische Anwendungen zu unzuverlässig.

Kritische Einordnung: Was misst dieser Benchmark wirklich?

Bevor wir Schlussfolgerungen ziehen, lohnt sich ein kritischer Blick auf den Benchmark selbst.

Wer steckt dahinter?

Artificial Analysis ist ein AI-Research-Unternehmen, das sich auf unabhängige Benchmarks und Vergleiche von LLMs spezialisiert hat. Ihre Plattform artificialanalysis.ai wird in der Branche als Referenz genutzt. Der AA-Omniscience Benchmark wurde als wissenschaftliches Paper veröffentlicht und 10% der Testfragen sind open-source auf Hugging Face verfügbar – das schafft Transparenz.

Was wird NICHT gemessen?

Der Benchmark fokussiert sich ausschließlich auf eingebettetes Faktenwissen ohne externe Tools. Das bedeutet:

  • Keine Retrieval-Systeme: Modelle dürfen nicht auf Web-Suche oder Datenbanken zugreifen
  • Kein Reasoning: Komplexes Schlussfolgern oder mehrstufiges Denken wird nicht getestet
  • Keine praktische Anwendung: Wie gut Modelle in realen Workflows funktionieren, bleibt offen

Der Test misst also eine spezifische Schwäche: Wie zuverlässig ist das "auswendig gelernte" Wissen eines Modells?

Was sind die Ziele des Benchmarks?

Artificial Analysis argumentiert, dass bisherige Benchmarks ein falsches Anreizsystem geschaffen haben: Sie belohnen das Raten, statt Ehrlichkeit bei Unsicherheit. Der AA-Omniscience Benchmark will:

  1. Hallucination sichtbar machen und bestrafen
  2. Kalibrierung fördern: Modelle sollten wissen, was sie nicht wissen
  3. Realistische Erwartungen setzen für faktenbasierte Anwendungen

Warum ist der Benchmark trotzdem wertvoll?

Auch wenn er nur einen Ausschnitt misst: Dieser Ausschnitt ist hochrelevant. Viele Anwendungsfälle benötigen genau diese Fähigkeit – verlässliches Faktenwissen ohne externe Absicherung. Der Benchmark zeigt:

  • Die Tendenz ist eindeutig: Selbst Top-Modelle haben massive Zuverlässigkeitsprobleme
  • Unterschiede zwischen Modellen: Manche sind ehrlicher als andere
  • Domain-Abhängigkeit: Kein Modell ist überall gut

Die konkreten Zahlen sollte man nicht überbewerten, aber die grundsätzliche Aussage ist wertvoll: Ohne zusätzliche Absicherung (wie RAG-Systeme) sind LLMs für faktenbasierte Aufgaben unzuverlässig.


Quellen

Wissen aktivieren statt verlieren

Erfahren Sie, wie KnowledgePilot Ihrem Unternehmen hilft, Wissen zu bewahren und produktiv zu nutzen.

Kontakt aufnehmen