Skip to main content

Eine neue Studie der der University of California hat ergeben, dass ChatGPT bei bestimmten Denkaufgaben vergleichbare Leistungen wie Bachelor-Studenten erbringt und teils übertrifft.

Die Forscher stellten dem KI-Modell verschiedene Aufgaben, darunter zum Beispiel:

  • Vorhersage des nächsten Bildes in einer komplexen Anordnung,
  • Beantwortung von SAT-Analogiefragen
  • Vergleichen von Textpassagen.

Während das KI-Modell in vielen der Aufgaben bemerkenswerte Fähigkeiten zeigte, deckte es auch Bereiche auf, in denen Verbesserungen möglich sind.

ChatGPT-UCLA-Studie-Bachelor-Studenten

ChatGPT im Vergleich zu Bachelor-Studenten

In einem experimentellen Setup testeten die Forscher die Fähigkeit von GPT-3, das nächste Bild in einer komplexen Anordnung von Formen vorherzusagen. Hierbei wurden die Bilder in ein Textformat konvertiert, welches das Modell verstehen konnte. Es wurde sichergestellt, dass das Modell die Fragen zuvor noch nicht gesehen hatte. Parallel dazu wurden dieselben Probleme einer Gruppe von 40 Bachelor-Studenten der UCLA gestellt. Die Forscher stellten fest, dass GPT-3 80% der Probleme korrekt löste. Damit schnitt die künstlicher Intelligenz deutlich höher ab als die menschlichen Probanden. Deren Durchschnitt lag bei knapp unter 60%.

Vergleich mit SAT-Ergebnissen

Das Team stellte das KI-Modell auch mit SAT-“Analogie”-Fragen auf die Probe, bei denen Paare von Wörtern ausgewählt wurden, die eine Verbindung teilen, die sie sicherstellten, dass sie noch nicht online veröffentlicht wurden und daher nicht Teil der Trainingsdaten des Modells waren. Als die Leistung des Modells mit den durchschnittlichen SAT-Ergebnissen von Hochschul-Bewerbern gemessen wurde, übertraf die KI die menschlichen Durchschnittswerte.

Leistung beim Textverständnis

Allerdings schnitt das Modell in einer anderen Art von Test weniger gut ab, bei dem es zusammen mit Studentenfreiwilligen die Aufgabe hatte, eine Prosapassage mit einer anderen Kurzgeschichte zu vergleichen, die die gleiche Bedeutung vermittelt. Bei diesem Test schnitt GPT-3 schlechter ab als die Studenten, obwohl sein Nachfolger, GPT-4, laut der in der Zeitschrift Nature Human Behaviour veröffentlichten Studie eine Verbesserung gegenüber dem Vorgängermodell zeigte.

Beobachtungen und Einschränkungen

Trotz dieser Erfolge wies der Hauptautor der Studie, Taylor Webb, darauf hin, dass ChatGPT nicht dem Standard der allgemeinen künstlichen Intelligenz oder der menschlichen Intelligenz entspricht. Das Modell zeigte Schwächen bei Aufgaben, die soziale Interaktionen, mathematisches Denken und räumliches Verständnis erfordern. Das Forschungsteam räumte auch ein, dass sie aufgrund ihres fehlenden Zugangs zu den inneren Abläufen von GPT-3 nur begrenzt verstehen, wie die Denkfähigkeiten des Modells funktionieren.


Der Artikel entstand in Zusammenarbeit mit AI NewsTime. Zum englischsprachigen Artikel geht es hier entlang.