Halluzinationen sind das größte Hindernis für KI-Technologien. Hier erfahren Sie, wie Branchenakteure damit umgehen.

Große Sprachmodelle (LLMs) wie ChatGPT, Claude oder Bard haben mit ihrer Fähigkeit, eine Vielzahl von Fragen zu beantworten, weltweit Aufsehen erregt. Doch sie zeigen auch eine beunruhigende Neigung, frei erfundene Informationen zu produzieren.

Sie wurden beschuldigt, Verschwörungen zu erfinden und fiktive wissenschaftliche Studien zu erstellen. Diese Phänomene, als Halluzinationen bekannt, haben so viel Interesse geweckt, dass sie zum Wort des Jahres 2023 von Dictionary.com erklärt wurden.

Die Tendenz von LLMs, Informationen zu erfinden, könnte das größte Hindernis für eine breitere Akzeptanz dieser Technologie sein. Für Tausende von Unternehmen, die ihre Produkte auf LLMs wie ChatGPT aufbauen, stellt dies ein erhebliches rechtliches und reputatives Risiko dar. Daher gibt es nun eine Welle von Unternehmen, die versuchen, den Schaden durch Halluzinationen zu minimieren.

Vectara, ein Startup, das 2022 gestartet wurde, veröffentlichte im November das LLM Hallucination Leaderboard, um das Problem zu quantifizieren. Die Genauigkeit variierte erheblich. Die genauesten LLMs waren GPT-4 und GPT-4 Turbo, die laut Vectara 3% der Zeit halluzinieren, wenn sie gebeten werden, einen Textabschnitt zusammenzufassen.

Der schlechteste Performer war Googles PALM 2 Chat mit einer Halluzinationsrate von 27%.Nick Turley, der Produktleiter von ChatGPT, sagt, OpenAI habe kontinuierliche Fortschritte bei der Reduzierung von Halluzinationen gemacht. Die neuesten Versionen von ChatGPT sind beispielsweise offener darüber, was sie nicht wissen, und verweigern mehr Antworten. Dennoch könnte das Problem grundlegend für die Funktionsweise von LLMs sein.

Das Messen von Halluzinationen ist schwierig. Vectaras Halluzinationsindex ist nicht definitiv; ein anderes Ranking des Startups Galileo verwendet eine andere Methodik, findet aber auch, dass ChatGPT-4 die wenigsten Halluzinationen hat. LLMs sind mächtige Werkzeuge, aber letztlich basieren sie auf Vorhersagen – sie verwenden probabilistische Berechnungen, um das nächste Wort, die nächste Phrase oder den nächsten Absatz nach einem gegebenen Prompt vorherzusagen. Im Gegensatz zu traditioneller Software, die immer das tut, was man ihr sagt, sind LLMs “nicht-deterministisch”. Sie sind Rateverfahren, keine Antwortmaschinen.

LLMs denken nicht eigenständig und können Schwierigkeiten haben, zwischen hoch- und minderwertigen Informationsquellen zu unterscheiden. Da sie mit einem breiten Spektrum des Internets trainiert werden, sind sie oft in vielen schlechten Informationen eingetaucht.

Um Halluzinationen zu messen, bat Vectara LLMs, eine sehr spezifische Aufgabe auszuführen: eine Nachrichtengeschichte zusammenzufassen. Anschließend wurde untersucht, wie oft die Systeme Fakten in ihren Zusammenfassungen erfanden. Dies ist zwar keine perfekte Messung für jeden LLM-Anwendungsfall, aber Vectara glaubt, dass sie eine Annäherung daran bietet, wie sie Informationen aufnehmen und zuverlässig umformatieren können. Es gibt zwei Hauptansätze zur Minderung von Halluzinationen.

Erstens können Sie versuchen, Ihr Modell zu optimieren, was jedoch oft teuer und zeitaufwendig ist. Die gängigere Technik wird als Retrieval Augmented Generation (RAG) bezeichnet, und Vectara ist eines der vielen Unternehmen, das nun eine Version davon seinen Kunden anbietet. RAG funktioniert im einfachsten Sinne wie ein Faktenchecker für KI. Es vergleicht die Antwort eines LLMs auf eine Frage mit den Daten Ihres Unternehmens oder beispielsweise mit Ihren internen Richtlinien oder einem Satz von Fakten. Das kombinierte LLM- und RAG-System passt dann die Antwort des LLMs an, um sicherzustellen, dass sie diesen vorgegebenen Einschränkungen entspricht. Ahmad, der Mitbegründer und CTO von Vectara, glaubt, dass Halluzinationen in etwa 12-18 Monaten weitgehend gelöst sein werden. „Wenn ich sage gelöst, meine ich, dass diese Modelle weniger halluzinieren werden als ein Mensch“, fügt Ahmad hinzu. „Ich meine nicht null.“

Auch wenn die aktuelle Welle von LLMs selbst sich nicht massiv verbessert, glaubt Ahmad, dass ihre Auswirkungen dennoch monumental sein werden, teilweise weil wir besser darin werden, sie zu nutzen. „Die Tatsache ist, dass die heutigen transformer-basierten neuronalen Netzwerke die Art und Weise, wie Geschäfte global abgewickelt werden, komplett verändern werden“, sagt Ahmad. „Ich habe das Unternehmen gegründet, weil ich glaube, dass diese Technologie sehr breite Anwendungen hat und dass fast jede Organisation, groß oder klein, sie nutzen und davon profitieren könnte.“

Zurück zum Blog

0 Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert