Dossier

Asymmetrie zwischen Lob und Tadel

Wer ist schuld, wenn ein autonomes Fahrzeug eine Fussgängerin nicht erkennt oder wenn ein Chatbot rassistische Äusserungen tätigt? Ganz klar: der Mensch. Aber wie steht es, wenn eine KI etwas Tolles hervorbringt?

Auch wenn die gewisse Eigenständigkeit von KI-Systemen die Verantwortungszuschreibung verkompliziert, lautet die gängige Ansicht, dass dennoch menschliche Akteure – meist nachlässige Nutzer_innen – zur Verantwortung gezogen werden können, wenn eine künstliche Intelligenz versagt oder Fehler macht.

Erst seit Kurzem wird auch über die positive Seite der Verantwortung diskutiert: Wer verdient Lob und Anerkennung für Leistungen, die mithilfe von KI erzielt wurden? Generell scheint eine Asymmetrie zwischen Lob und Tadel in unserer moralischen Praxis vorzuliegen. Wir neigen dazu, Menschen schnell für schlechtes Verhalten verantwortlich zu machen, selbst bei kleineren moralischen Fehltritten oder Nachlässigkeiten. Hingegen reicht eine geringfügig positive Handlung oft nicht aus, um Anerkennung zu erhalten. Stattdessen braucht es besondere Leistung, Talent oder Anstrengung. Angewandt auf den Kontext von KI, bedeutet das, dass wir zwar menschliche Nutzer_innen für die Fehler von KI-Systemen zur Verantwortung ziehen, diesen jedoch keine oder nur geringfügige Anerkennung zukommen lassen, wenn jemand etwa mithilfe von ChatGPT ein hervorragendes Essay geschrieben hat.

Im universitären Kontext, in dem schriftliche Arbeiten nach wie vor eine zentrale Rolle in der Leistungsbeurteilung spielen, stellt uns das vor die Frage, wie wir mit mithilfe von Large Language Models – kurz LLMs – verfassten Arbeiten umgehen sollten. Eine mögliche Antwort wäre, Studierende weiterhin als verantwortlich zu betrachten, da sie aufgrund der Limitationen von LLMs immer noch eine hinreichend bedeutsame Aufgabe im Schreibprozess übernehmen. LLMs werden auf riesigen Textkorpora trainiert, mit dem Ziel, dass sie Muster in der Sprache erkennen und als Antwort auf einen Prompt des Nutzers eine passende Textausgabe produzieren können, indem sie die wahrscheinlichsten Wörter in einem Kontext vorhersagen. Das bedeutet, dass LLMs vielleicht praktikabel sind, um auf Emails zu antworten oder um der Grossmutter eine Dankeskarte zu verfassen, aber sie beim wissenschaftlichen Schreiben an gewisse Grenzen stossen. Denn, da sie Texte auf Basis der Häufigkeit von Wörtern in einem Kontext generieren, besteht die Gefahr, dass sie zwar glaubwürdig erscheinende, jedoch inkorrekte Informationen liefern. (Wer schon mal ChatGPT nach Literaturvorschlägen oder Quellenangaben gefragt hat, kennt die Problematik.) Spezifisches Fachwissen oder neuere Geschehnisse, die nicht in den Trainingsdaten enthalten sind, stellen ebenfalls Limitationen dar, genauso wie die Entwicklung neuartiger Argumente und Positionen. Nutzer_innen müssen daher immer noch die ausgegebenen Informationen überprüfen, fachspezifische Debatten selbst recherchieren, und eigene Position entwickeln.

© stablediffusionweb.com

Ist die Lob-Tadel Asymmetrie beim Einsatz von LLMs also gar nicht relevant, da der Nutzer immer noch die zentrale Arbeit leistet? Man kann hier zurecht einwenden, dass sich diese Darstellung nur auf die Funktionen jetziger Sprachmodelle bezieht. Ein Grossteil der erwähnten Limitationen wird hingegen bereits mit der Veröffentlichung von GPT-4 wegfallen. Dieses wird Plugins haben, das unter anderem auch Internetsuchen erlaubt, wodurch der Chatbot auf aktuelle Informationen zugreifen kann, ohne dass sie in den Trainingsdaten enthalten sein müssen.

Ausserdem kann es zwar sein, dass ChatGPT in Zukunft noch nicht die Kernaufgaben beim wissenschaftlichen Schreiben übernehmen wird, jedoch sagt uns das nichts über die Verantwortung für studentische Arbeiten. Vor allem zu Studienbeginn haben schriftliche Arbeiten oft das Ziel, zu demonstrieren, dass die Seminarinhalte und die wichtigsten Positionen in der Literatur verstanden wurden. Und hierfür kann ChatGPT hervorragend geeignet sein. Mit einem präzise formulierten Prompt kann es eine passende Fragestellung mit möglicher Gliederung vorschlagen sowie einen ersten Textentwurf generieren. Nutzer_innen haben nur noch die Aufgabe, passende Prompts zu formulieren und den generierten Text zu überprüfen.

Genügt das, um Anerkennung für eine gute Seminararbeit zu verdienen? Hierfür sollten wir uns klar machen, was es an einer guten Arbeit ist, das wir durch Lob, respektive einer guten Note, honorieren. Zum einen bezieht sich das Lob auf die Schreibfähigkeiten im engeren Sinn, deren Erwerb viel Zeit und Übung erfordert und die es erlauben, den eigenen Gedankengang für den Leser verständlich und leicht nachvollziehbar zu präsentieren. Zum anderen bezieht sich das Lob auf die tatsächlichen Aussagen des Autors. Diese sollten eigenständiges Denken sowie Kreativität und die Fähigkeit, selbst Stellung zu beziehen, zeigen. Zur Illustration bietet sich der Vergleich zu einem Kunstwerk an: Was wir an einem grossartigen Gemälde loben, sind einerseits die künstlerischen Fähigkeiten, die für die Schaffung nötig waren – im Sinn vom griechischen ‹technê› – und andererseits die kommunikative Dimension des Kunstwerks. Der Künstler konstruiert das Gemälde nach seinen Vorstellungen, um eine Idee oder ein Gefühl zu vermitteln oder die Betrachterin zum Nachdenken anzuregen. Wie der Künstler jeden Pinselstrich bewusst setzt, wählt auch die Autorin oder der Autor jedes Wort bewusst aus, um seine Gedanken der Leserschaft möglichst akkurat zu vermitteln. Aber es ist nicht nur so, dass wir das Schreiben rein als kommunikatives Mittel nutzen, sondern das Schreiben hilft uns, unsere Gedanken zu ordnen. Schreiben ist Denken – was der Begriff ‹logos› passend bezeichnet, der nicht nur ‹Wort› und ‹Sprache›, sondern auch ‹Überlegung› und ‹Vernunft› heissen kann.

Gewusst wie

Wir benötigen also mit ChatGPT nicht nur geringere Schreibfertigkeiten, sondern auch intellektuelle Fähigkeiten wie kritisches, eigenständiges Denken werden nicht mehr (in dem Umfang) kultiviert, wenn wir Text generieren lassen. Wir sollten uns auch klar sein, dass, da LLMs Sätze basierend auf der Häufigkeit von Wörtern generieren, es keine Intentionalität und keinen Gedanken gibt, der durch den Text vermittelt werden soll. Wenn bei schriftlichen Arbeiten zuvor der Gedankengang des Autors und dessen präzise Darstellung evaluiert wurde, wird jetzt bewertet, wie gut der durch KI generierte Text überprüft wurde. Verständlich, dass wir meinen, ein durch KI generierter Essay verdiene weniger Anerkennung.

Doch nicht nur die Leser_innen, sondern die Verfasserin oder der Verfasser selbst kann das Gefühl haben, dass die Arbeit weniger wert ist und kein Lob verdient. Es entsteht eine «achievement gap»: Die Arbeit verliert an Sinn für das Individuum, wenn die Automatisierung ihm die Möglichkeit nimmt, besondere Leistungen zu erreichen. Hier könnte man einwenden, dass es zweifelhaft ist, ob Studierende schriftliche Arbeiten als sonderlich sinnstiftend wahrnehmen. Was ihnen jedoch durch das Nutzen von ChatGPT verwehrt bleibt, ist die Erfahrung, wie sich die eigenen Fähigkeiten beim wissenschaftlichen Schreiben verbessern. Die Unsicherheiten, die die ersten Arbeiten im Studium begleiten können, zu überwinden und zu erfahren, wie sich mit der Zeit die eigenen Fähigkeiten verbessern, kann durchaus als wertvoll wahrgenommen werden.

Wenn wir also tatsächlich weniger Anerkennung für mit KI generierte Texte verdienen, bleibt die Frage: Was heisst das für die Praxis? Komplett auf schriftliche Arbeiten zu verzichten, scheint zumindest für manche Fächer kaum vorstellbar. Hingegen sollten wir Arbeiten inhaltlich und formal so anpassen, dass ChatGPT wenig sinnvoll genutzt werden kann. Das kann heissen, dass sich die Aufgabenstellung stärker auf die im Seminar geführten Diskussionen bezieht und mehr Wert auf kritische Reflexion gelegt wird, statt auf die Wiedergabe von Inhalten. Ausserdem könnten schriftliche Arbeiten mit mündlichen Prüfungen kombiniert werden, wie der Vorstellung der Arbeit im Seminar. Das hätte nicht nur für die Dozierenden den Vorteil, dass erkennbar wird, ob die Arbeit selbst verfasst wurde, sondern fördert auch Präsentationsfähigkeiten und den gegenseitigen Austausch der Studierenden über ihre Arbeiten.

Unsere Expertin Sarah Köglsperger ist Diplomassistentin am Departement für Philosophie.

sarah.koeglsperger@unifr.ch

Literatur

  • Danaher, J., Nyholm, S. «Automation, work and the achievement gap,» AI Ethics 1 (2021), 227–237.
  • Eshleman, A. S. «Worthy of Praise: Responsibility and Better-­ than-Minimally-Decent Agency,» in Shoemaker, D. and Tognazzini, N. (Hg.), Oxford Studies in Agency and Responsibility, Volume 2, (Oxford: Oxford University Press 2014), 216–242.   
  • Porsdam Mann, S. et al. «Generative AI entails a credit–blame asymmetry,» Nat Mach Intell 5 (2023), 472–475.