Chatbots tendieren zu Selbstüberschätzung

In mindestens einem Punkt ähneln sich Menschen und KI-Chatbots nachweislich: Sie überschätzen ihre Fähigkeit, Fragen korrekt zu beantworten. Allerdings können Menschen nach einer Quizrunde tendenziell besser einschätzen, wie viele ihrer Antworten richtig waren. Das zeigen Tests mit verschiedenen KI-Chatbots, die eine Forschungsgruppe um Trent Cash von der Carnegie Mellon University in Pittsburgh durchführte.

In ihrer Studie , die im Fachjournal »Memory & Cognition« veröffentlicht  wurde, wollten Cash und Kollegen herausfinden, ob die Programme selbst einschätzen können, wie vertrauenswürdig ihre Antworten sind. Dazu gaben sie menschlichen Probanden und vier KI-Chatbots dieselben Aufgaben und forderten sie auf, jeweils die Anzahl ihrer korrekten Antworten abzuschätzen. Zu den Chatbots zählten ChatGPT, Google Gemini samt Vorgänger Bard sowie Claude Sonnet und Claude Haiku – in den während der einzelnen Untersuchungszeiträume jeweils neuesten verfügbaren Versionen. Die aktuellsten wurden 2024 veröffentlicht.

Zunächst ging es um Einschätzungen zukünftiger Ereignisse, wie die Ergebnisse in der National Football League (gewonnen, unentschieden, verloren) oder die Verteilung der Oscars auf Basis der Nominierungen. Die menschlichen Testpersonen und die vier Chatbots erhielten weitere Informationen, gaben dann Tipps ab und bewerteten anschließend, mit welcher Wahrscheinlichkeit sie richtig lagen.

»Ein bisschen wie der Freund, der schwört, gut im Billard zu sein, aber nie trifft«

ChatGPT und die menschlichen Studienteilnehmer schätzten die Anzahl ihrer richtigen Voraussagen der Football-Ergebnisse realistisch ein. Die Software Bard überschätzte seine Fähigkeit hingegen deutlich. Bards Nachfolger Gemini hingegen sagte die Anzahl richtiger Tipps bei den Oscargewinnern treffend voraus, während ChatGPT und die rund 100 menschlichen Teilnehmer zu optimistisch waren.

Ein weiterer Versuch erinnerte an das Spiel »Pictionary«: Dabei sollten Dinge anhand einfacher Zeichnungen erraten werden. Gemini nannte dabei in mehreren Durchgängen weniger als eine richtige Antwort pro 20 Zeichnungen. Schon vor den Durchgängen aber schätzte die KI-Software, dass sie etwa zehn richtige Antworten geben würde.

Die Selbstüberschätzung steigerte sich sogar noch: Nach der Präsentation aller Bilder schätzte der Bot rückblickend, durchschnittlich 14,4 richtige Antworten gegeben zu haben. »Gemini wusste nicht, dass er schlecht in ›Pictionary‹ war«, wird Cash in einer Mitteilung seiner Universität zitiert. »Es ist ein bisschen wie der Freund, der schwört, gut im Billard zu sein, aber nie trifft.«

In zwei weiteren Versuchen erweiterten die Forscher die Runde der KI-Chatbots um Claude Sonnet und Claude Haiku. Sie stellten Quizfragen, deren Antworten nur schwer oder gar nicht im Internet zu finden waren. Gemini und ChatGPT tendierten in dem Test dazu, die Anzahl ihrer korrekten Antworten deutlich zu überschätzen. Etwas maßvoller schätzte Claude Haiku die eigenen Fähigkeiten ein.

Nur Claude Sonnet und die rund 100 befragten Menschen beurteilten die eigenen Fähigkeiten vor und nach der Quizrunde tendenziell recht realistisch. »Wir wissen noch nicht genau, wie KI ihr Vertrauen einschätzt, aber sie scheint keine Selbstbeobachtung zu betreiben, zumindest nicht gekonnt«, schlussfolgert Co-Autor David Oppenheimer dementsprechend.

Möglicherweise können die heutigen Versionen der Bots das schon besser. Forschung wie die der Carnegie Mellon University ist zum Zeitpunkt ihrer Veröffentlichung naturgemäß ein Stück weit veraltet.

Anmerkung der Redaktion: Wir haben Informationen zu den untersuchten Versionen der Chatbots ergänzt.

Das könnte Ihnen auch gefallen