2 Grundbegriffe

2.1 Definition einiger Grundbegriffe

In diesem Abschnitt definieren wir anfangs sehr kurz einige Grundbegriffe. Dies kratzt bewusst nur an der Oberfläche eines komplexen technischen Themas: Unser Fokus liegt auf der didaktischen Nutzung.

Neu in der Praxis (2026): Wie oben kurz angesprochen, ist es in der neuen agentischen Art der Arbeit mit GenAI noch wichtiger geworden, einen hochwertigen Setup zu haben, also eine Mischung aus einem schlauen Modell, praktischer Oberfläche und sinnvollen Tools (mollick2026?). Grobe Regel: Wenn das Ergebnis wichtig ist, nie ein kostenfreies Modell wählen.

Daumenregel: Für wichtige Fragen immer eine stärkere Kombination aus Modell und Setup wählen Wenn Sie neugierig geworden sind, gibt es jenseits dieses Buches gute Quellen, um tiefer einzusteigen: Als visuelle Begleitung empfehle ich das sehr schöne Einführungsvideo des Mathematik-Didaktikers Grant Sanderson (7 Minuten, https://youtu.be/LPZh9BOjkQs). Tiefer in die mathematischen Details geht die grafische und interaktive Einführung als Animation von Brendan Bycroft (https://bbycroft.net/llm). Wer sich auch die technischen Hintergründe genauer erschließen will, dem sei das Lehrbuch-Standardwerk von Jurafsky & Martin (2025) empfohlen, das online frei verfügbar ist.

Welche der Fachbegriffe kennen Sie schon? Von Prompt bis Token, über Temperatur und RAG: Testen Sie sich selbst mit dem folgenden kleinen Spiel.

Lernspiel: Welche Grundbegriffe kennen Sie schon?

Ordnen Sie die Begriffe den korrekten Definitionen zu!

(am besten auf dem Computer spielen). Hier auch Online abrufbar (so etwas nennt sich „Artifact“ beim Sprachmodell „Claude“): https://claude.site/artifacts/d8e3cee4-ea47-48e3-a84c-a774d408aac8

Vorweg: Was heißt hier ‘künstliche Intelligenz’? In diesem Buch folgen wir weitgehend dem alltäglichen Sprachgebrauch, indem wir die Begriffe KI, generative KI (GenAI) und Sprachmodell (Large Language Model, LLM) weitgehend synonym verwenden. Eigentlich ist generative künstliche Intelligenz - wie der Name es schon andeutet - ein Teilgebiet der KI, also des Versuches, menschliches Denken und Verhalten nachzubilden (Russell & Norvig, 2021). Für die meisten Nutzer sind die Feinheiten von KI, maschinellem Lernen und neuronalen Netzen allerdings in unserem Kontext eine Unterscheidung, die praktisch keinen Unterschied macht: Die meisten Lehrenden nutzen aktiv erst KI, seit es die modernen Sprachmodelle gibt. In der Nutzung für die Lehre gilt für fast alle von uns: KI = GenAI, auch wenn im Hintergrund schon seit Jahrzehnten mit KI die Routen von Lieferdiensten oder die Lagerhaltung in Supermärkten vorhergesagt wird.

KI vor 2022 und KI nach 2022 meint meist etwas anderes. Was oft auch Studierende verwirrt: Ältere Fachartikel vor 2022 mit Titeln wie “KI-Anwendungen in XY” meinen aus Anwendersicht mit ‘KI’ etwas ganz anderes als die aktuellen Publikationen zu den verschiedenen Anwendungsformen von menschenähnlich schreibenden, sprechenden und analysierenden Chatbots. Früher ging es aus Anwendersicht grob gesagt meist um bessere statistische Prognosemodelle zur Nutzung durch Expertinnen und Experten (etwa für optimale Routen oder Personalauswahl) (Russell & Norvig, 2021). Seit ChatGPT sprechen wir von viel breiteren Formen der Nutzung, Milliarden von Usern und extremer KI-Hype.

Ein Large Language Model (LLM) ist ein maschinelles Lernmodell, das darauf trainiert ist, menschliche Sprache zu verstehen und Texte zu erzeugen, die natürlich erscheinen. Ein Sprachmodell ist ein Rechensystem, das das nächste Wort in einer Wortkette vorhersagt, basierend auf den vorher genannten Wörtern in dieser Kette (Jurafsky & Martin, 2025, Kap.7, S.2). Die Modelle können riesige Mengen von Textdaten verarbeiten, um vielseitige Sprachanwendungen zu ermöglichen.

Die generative Künstliche Intelligenz (GenAI) bezieht sich auf Systeme, die fähig sind, neue Inhalte zu erzeugen, wie etwa Texte, die noch nicht existierten. LLMs sind ein zentraler Teil dieser generativen KI und können eigenständig Texte zu einem breiten Spektrum von Themen generieren.

Tipp: Mini-Interaktionen einfach als HTML erstellen

Können Sie in HTML programmieren? Jetzt schon. Die Lernspiele in diesem Abschnitt wurden mit Hilfe von Sprachmodellen erstellt (Gemini, ChatGPT, Claude). Meist mit einer Variation des einfachen Prompts: „Erstelle mir ein browser-basiertes Lernspiel zum Thema / zur Illustration von …“. Oft hat man nach 5–10 Minuten eine gute erste Version. In der Lehre mache ich das oft auch als Übung mit Studierenden. Sie sollen dann erst mit Hilfe der KI ein Lernspiel erstellen und dann begründet bewerten, welcher Spiel-Prototyp das Konzept am besten darstellt. Bei etwas mehr Zeit kann man sie gegenseitig bewerten lassen, selbst Kriterien erstellen oder stärkere Gamification hinzufügen. Im Ergebnis beschäftigen sich idealerweise die Teilnehmer intensiv mit einem theoretischen Konzept (Bei komplexeren Themen hilft es, einen Fachtext als Hintergrund zum Konzept hochzuladen.)

Das Sprachmodell zerlegt dazu grob gesagt Inputs wie Texte in kleine Bausteine (Tokens), verwandelt diese in Zahlen (Embeddings), erkennt mithilfe komplexer Muster (Transformer und Attention) deren Zusammenhänge, und erzeugt auf diese Weise selbstständig basierend auf kontextbezogen berechneten Wahrscheinlichkeiten neue Texte (generative Sprachproduktion).

Damit Sprachmodelle wie ChatGPT Sprache verstehen und erzeugen können, zerlegen sie Text in sogenannte Tokens – kleine Bausteine wie Wörter, Wortteile oder Satzzeichen (s. etwa Jurafsky & Martin, 2025, Kap.2). Jedes dieser Tokens wird in einen Vektor umgewandelt – eine Zahlenreihe, die das Wort mathematisch beschreibt. Dieser Vorgang nennt sich Embedding. Dabei wird darauf geachtet, dass ähnliche Wörter ähnliche Vektoren erhalten, beispielsweise „Hund“ und „Katze“.

Hier kann man das selbst einfach ausprobieren: Das interaktive Widget simuliert eine GPT-2-ähnliche Tokenisierung.

Geben Sie eigenen Text ein, unten wird er dann in Tokens und Zahlen umgewandelt

Die Simulation vermittelt ein Gefühl für den Prozess. Wie die Umwandlung eines bestimmten Textes genau in verschiedenen Sprachmodellen aussieht, können Sie interaktiv auf Webseiten wie Tiktokenizer ausprobieren: https://tiktokenizer.vercel.app/.

Ein Prompt ist eine Eingabeaufforderung, die an ein LLM gesendet wird, um eine spezifische Antwort zu erhalten. Wie der Prompt formuliert wird, kann entscheidend für die Qualität der generierten Antworten sein. Die Kunst, solche Befehle zu schmieden nennt sich neuerdings Prompt Engineering (Berryman & Ziegler, 2025).

Eine neuere Analyse unterscheidet drei Effekte der Prompt-Gestaltung (Vallverdú et al., 2025): User steuern über Prompts den Inhalt der Aufgabe (operativ), die ‘Aufmerksamkeit’ des Sprachmodells (epistemisch) und die Risiken des Ergebnisses (sozio-ethisch). Stärkere Sprachmodelle übernehmen einen Teil dieser Steuerung, die Komplexität rückt aber damit nur auf eine höhere Ebene: In den neueren Workflows arbeiten mehrere Agenten zusammen, für deren Steuerung wir wiederum operative, epistemische und sozio-ethische Effekte berücksichtigen müssen (s. etwa Gottweis et al., 2025 für ein Beispiel).

2.1.1 Was heißt hier GPT?

GPT steht für Generative Pre-trained Transformer. Wir schauen zunächst, was diese drei Begriffe bedeuten.

‘Generative’: Der Begriff „generativ“ bedeutet in diesem Zusammenhang, dass GPT eigenständig Texte erzeugt, indem es gelernte Muster neu kombiniert.

‘Pretrained’: GPT wurde mit riesigen Textmengen vortrainiert (Pretraining), ohne konkrete Aufgaben lösen zu müssen – dieser Vorgang erfolgt unüberwacht (unsupervised learning). Beim ‘Bau’ solcher Sprachmodelle bewerten menschliche Expertinnen und Experten den ersten Output („Reinforcement Learning with Human Feedback“ (RLHF)), um so ein genaueres Modell dafür zu erstellen, was für User nützlich ist und was nicht. Dabei erzeugt das LLM zunächst verschiedene Textversionen, die von menschlichen Bewertern beurteilt werden.Durch diesen Prozess „lernt“ das LLM, Texte zu bevorzugen, die nicht nur sprachlich richtig, sondern für Menschen besonders verständlich und nützlich sind. Das macht es möglich, dass GPT später aus wenigen Stichworten neue Texte generieren kann – also kreativ Sprache produziert, ohne bloß zu kopieren (generativ).

‘Transformer’: Das Herzstück des GPT ist der sogenannte Transformer – ein Rechenmodell, das durch ein spezielles Aufmerksamkeitsverfahren (Attention) erkennt, welche Wörter im Zusammenhang wichtig sind. Dadurch kann GPT die Bedeutung von Wörtern im Kontext richtig einschätzen. Im Transformer bedeutet „Attention“: Jedes Wort (genauer: jedes Token) entscheidet dynamisch, auf welche anderen Tokens es beim Verstehen oder Generieren am stärksten „hören“ sollte. Technisch ist das eine gewichtete Mischung von Informationen: Das Modell bildet eine Art Relevanzscore zwischen einem „aktuellen Interesse“ und möglichen „Informationsquellen“ und erstellt daraus Gewichte, die sich zu 1 aufsummieren. Die Ausgabe ist dann eine gewichtete Summe der Informationsinhalte. Das ist wie bei einer Literaturrecherche: Eine Fragestellung (Query) wird mit Titeln/Abstracts als „Hinweis-Schilder“ (Keys) abgeglichen; die eigentlichen Inhalte (Values) aus den passenden Quellen fließen dann stärker in das Gesamtverständnis ein. Beispielsweise erkennt GPT so in einem Satz wie „Die Bank steht unter einem Baum“ anhand des Kontextes, ob „Bank“ ein Möbelstück oder eine Institution meint. Der zentrale Fachartikel von 2017, ein zentraler Auslöser der aktuellen KI-Welle, hatte den knackigen Titel “Attention is all you need” Vaswani et al. (2017) – der Artikel wurde mittlerweile mehr als 200.000-fach zitiert.

Was behält das Sprachmodell von unserer Unterhaltung? Wie viel Text kann ich – auch als PDF – hochladen? Neuere LLMs können schon ganze Bücher schnell aufsaugen und dann zusammenfassen (z. B. Claude, ChatGPT oder Gemini). Das Kontext-Fenster eines LLM beschreibt die Menge an vorherigem Text, die das Modell bei der Verarbeitung neuer Informationen berücksichtigt, um den Kontext und die Zusammenhänge zu verstehen.

Ein Agent im Kontext von Automation und künstlicher Intelligenz meint zunächst allgemein etwas, das seine Umwelt wahrnimmt (durch Sensoren) und auf sie einwirkt (durch Aktoren) (Russell & Norvig, 2021, S.54). Agenten bestehen aus einer Architektur, die bestimmt, was möglich ist und einem Programm, das vorgibt, wie der Agent handeln soll (Russell & Norvig, 2021, S.65ff.). Ersteres meint bildlich gesprochen die Augen und Hände des Agenten: Die Agenten-Architektur beschreibt den spezifischen Setup von Sensoren und Aktoren, die bestimmen, was für den Agenten wahrnehmbar und handelbar ist. Für GenAI Agenten fragt das etwa: Hat er Web-Anbindung? Kann er programmieren? Das Agenten-Programm ist das Regelbuch: es bestimmt, wie der Agent reagiert. Von einfachen Wenn-Dann-Regeln bis hin zu komplexen Weltmodellen (z. B. Physik-Modelle, die die Schwerkraft berücksichtigen oder Kosten-Gewinn Rechnungen für eine Wirtschaftssimulation).

GPT-basierte Agenten können Text analysieren, generieren und verschiedene Aufgaben automatisieren, indem sie vorab definierte Muster und Regeln befolgen. Durch die Erstellung solcher Agenten können Lehrende interaktive und personalisierte Lerninhalte einfacher gestalten (E. R. Mollick & Mollick, 2024).

Schlau sein allein reicht nicht: Ein Sprachmodell muss zwar einerseits ‘intelligent’ genug sein, um eine gestellte Aufgabe zu lösen. Aber auch der schlauste helfende Geist kann uns nur helfen, wenn er auch versteht, was wir eigentlich wollen und brauchen - er muss den Kontext unserer Aufgabe kennen.

Einen solchen Kontext können wir der KI auf zwei Arten bereitstellen: Bildlich gesprochen geben wir ihr ein paar Bücher oder einen Werkzeugkoffer. Präziser ausgedrückt geht es um die Methoden “RAG” und “Agenten” (Huyen, 2025, Kap.6):

"Two dominating patterns for context construction are RAG, 
or retrieval-augmented generation, and agents. 
The RAG pattern allows the model to retrieve relevant information
from external data sources. 
The agentic pattern allows the model to use tools
such as web search and news APIs to gather information."

RAG (Retrieval-Augmented Generation) beschreibt insofern die Möglichkeit, zusätzliche Daten wie Fachtexte, Statistiken oder Gesetzesbücher in Kombination mit einem KI Modell zu verwenden (Huyen, 2025, Kap.6). Die KI ist das Gehirn, die zusätzliche Wissensdatenbank quasi das Bücherregal, das zu Rate gezogen werden kann.Je nach Kontextfenster stehen dort mehr oder weniger Bücher.Insofern umschreibt RAG ein KI-Modell, das die Fähigkeiten von Textgenerierungsmodellen (wie GPT) mit einer Wissensdatenbank kombiniert. So wird etwa der Prompt-Agent (s. u.) mit einer Reihe von Fachtexten „gefüttert“, in denen Best Practices des Prompting erklärt werden.

Einige Unterschiede zwischen einem einfachen Sprachmodell (LLM) und dem Setup mit Zusatzmaterial (RAG) und erlaubter Werkzeugnutzung (Tool Use, Agenten) sehen wir an der folgenden Interaktion. Wählen Sie hier jeweils die passende Antwort (die Übung ist nicht schwer - überlegen Sie sich zusätzlich ein Beispiel dafür aus Ihrem Berufsalltag!).

Lernspiel: LLM, RAG oder Agent, was sind mögliche Probleme und Anwendungsfelder?

Runter scrollen und “Los gehts!” auswählen, dann nacheinander die Interaktionen für LLM, RAG und Agent auswählen und die Fragen beantworten.

In der Lehre kann RAG verwendet werden, um den Studierenden Fachtexte oder besonders aktuelle Informationen zur Verfügung zu stellen. Beispielsweise könnten Studierende in einem Geschichtsseminar eine KI befragen, die externe Quellen durchforstet, um aktuelle Erkenntnisse zu historischen Ereignissen zu präsentieren (Huffman & Hutson, 2024). Unternehmen nutzen diese Technik, um etwa riesige Gebrauchsanweisungen mit KI durchsuchbar zu machen (Brynjolfsson et al., 2025), oder Chatbots zu trainieren, die typische, repetitive Kundenanfragen beantworten (Handa et al., 2025-04-08, 2025). Insofern ermöglicht RAG eine dynamische und zeitgemäße Wissensvermittlung, die nicht auf das festgelegte Wissen des KI-Modells beschränkt ist.

2.1.2 Was nutzen - LLM, RAG oder Agent?

Wie unterscheiden sich die verschiedenen Nutzungs-Muster, die wir bis jetzt kennengelernt haben? Frage ich nur das Sprachmodell? Oder lieber das Sprachmodell mit Zusatz-Material (RAG)? Oder vielleicht das Sprachmodell mit Tools (Agenten)? Prüfen Sie Ihr Verständnis: Welche der links gezeigten Antworten passen zu welchem der rechts gezeigten Muster? Nutzt das Sprachmodell nur sein “Standard-Wissen” (LLM only), oder werden “Werkzeuge” wie Internet-Nutzung erlaubt?

2026 kommt in der Praxis eine vierte Entscheidungsfrage hinzu (mollick2026?): Hat mein Agent ein Harness? Ohne Harness bleibt „Agent“ oft ein Etikett; mit Harness kann das Modell tatsächlich recherchieren, rechnen, Dateien erzeugen und Zwischenschritte nachvollziehbar machen. Für Lehraufgaben bewährt sich daher ein Workflow, der erst eigenes Material als Kontext nutzt (RAG/Notebook-Ansatz), dann für belastbare Quellen ein Research-Harness (z. B. „Deep Research“) einsetzt und die Ergebnisse als Artefakte exportiert (Quiz, Aufgabenblatt, Folien) – bevor Sie didaktisch zuspitzen.

Lernspiel: Welche Art des LLM-Setups passt zu den links gezeigten Antworten oder Denkprozessen?

Das beendet unsere kurze Begriffsbestimmung. Ein etwas breiteres Glossar für Anwender finden Sie etwa bei der populärwissenschaftlichen Zeitschrift CIO (Chief Intelligence Officer): https://www.cio.de/article/3700849/die-wichtigsten-begriffe-im-genai-umfeld.html.

2.2 Wie denken Sprachmodelle und warum halluzinieren sie?

Eine Studie des KI-Labors Anthropic hat mit neuen Methoden den Denkprozess eines Sprachmodells im Detail nachgezeichnet (Lindsey et al., 2025), was uns erstmals etwas genauer verstehen lässt, wie Sprachmodelle mit verschiedenen Sprachen umgehen, wie sie den Schreibprozess „planen“, wie sie bei Kalkulationen vorgehen, wie weit ihre Selbsterkenntnis reicht und warum sie manchmal Antworten erfinden („halluzinieren“).

Abbildung 2.1: Visualisierte Gedanken eines Sprachmodells [@lindsey2025]

Sprachübergreifend gleich: Das Modell nutzt einen gemeinsamen sprachübergreifenden Bedeutungsraum.
Textplanung: Bei der Texterstellung plant das Modell mehrere Wörter im Voraus.
Paralleles Rechnen: Für Kalkulationen nutzt das Modell parallele Rechenpfade, die am Ende verbunden werden.
Man traue nicht der Selbstkenntnis: Das Modell erfindet manchmal Argumentationsketten (motivated reasoning).
Bekanntheit führt zu Halluzinationen: Wenn das Modell eine genannte Entität „kennt“ (hier: den Namen des Forschers, Karpathy), aber nicht die Antwort auf die Frage (Titel des Fachartikels) führt das zu erfundenen Antworten (die „can’t answer“-Funktion wird unterdrückt).

Claude nutzt einen gemeinsamen Bedeutungsraum für verschiedene Sprachen – ein Hinweis auf eine Art „universelle Denksprache“. Claude verarbeitet Informationen in einem sprachunabhängigen, abstrakten Bedeutungsraum. Bei der Frage nach dem „Gegenteil von klein“ in verschiedenen Sprachen (z. B. Englisch, Französisch, Chinesisch) aktivieren sich im Modell dieselben internen Merkmale für „Kleinheit“ und „Gegenteil“, unabhängig von der Eingabesprache. Erst in einem späteren Schritt wird die Antwort in die jeweilige Zielsprache übersetzt. Diese Erkenntnis legt nahe, dass Claude Wissen und Konzepte sprachübergreifend anwenden kann.

Plant das Sprachmodell die Textgeneration? Entgegen der Annahme, dass Sprachmodelle Texte strikt Wort für Wort basierend auf dem unmittelbaren Kontext generieren, zeigt Claude die Fähigkeit, mehrere Wörter im Voraus zu planen. In Aufgaben zur Gedichtgenerierung identifiziert Claude beispielsweise Reimwörter, bevor es die vorhergehenden Zeilen formuliert. Ein Beispiel: Soll ein Gedicht mit dem Wort „Kaninchen“ enden, wählt Claude dieses Zielwort frühzeitig aus und gestaltet die Zeile so, dass sie darauf hinführt. Diese Fähigkeit zur Vorausplanung deutet darauf hin, dass Claude in der Lage ist, komplexe Textstrukturen zu erstellen, die über einfache Wortassoziationen hinausgehen.

Wie kalkulieren Sprachmodelle? Anthropic hat in seiner Studie zu Claude 3.5 Haiku detailliert untersucht, wie das Modell mathematische Berechnungen intern verarbeitet. Dabei wurde festgestellt, dass Claude bei Aufgaben wie der Addition von Zahlen parallele Rechenpfade nutzt, um zu einem Ergebnis zu gelangen. Claude verwendet zwei Hauptpfade, um Additionen durchzuführen: 1. Grobabschätzung: Ein Pfad schätzt das Ergebnis basierend auf den Größenordnungen der Zahlen. 2. Präzise Berechnung: Ein anderer Pfad fokussiert sich auf die genaue Berechnung, insbesondere auf die Bestimmung der letzten Ziffer der Summe.

Diese beiden Pfade arbeiten zusammen, um das finale Ergebnis zu erzeugen. Wenn beispielsweise der Pfad für die letzte Ziffer deaktiviert wird, liefert Claude nur eine grobe Schätzung, ohne die genaue Endziffer korrekt zu bestimmen.

Können wir das Modell fragen, wie es zu einem Ergebnis gekommen ist? Eher nicht. Anthropics Studie zeigt, dass das Modell bei komplexen Aufgaben manchmal überzeugende, aber erfundene Argumentationsketten präsentiert. Bei einfachen Berechnungen, wie der Quadratwurzel von 0,64, lassen sich klare interne Rechenschritte nachweisen. Bei schwierigeren Aufgaben, etwa der Berechnung des Kosinus einer großen Zahl, gibt Claude jedoch vor, Berechnungen durchgeführt zu haben, obwohl keine entsprechenden internen Prozesse erkennbar sind. In solchen Fällen konstruiert das Modell plausible, aber unbegründete Erklärungen – ein Verhalten, das als „motiviertes Denken“ bezeichnet wird. Diese Fähigkeit, überzeugend zu argumentieren, ohne tatsächlich die zugrunde liegende Logik zu befolgen, kann für Nutzer irreführend sein. Die von Anthropic entwickelten Interpretationswerkzeuge ermöglichen es, solche untreuen Denkprozesse zu identifizieren, indem sie die tatsächlichen internen Abläufe des Modells sichtbar machen. Dies ist ein wichtiger Schritt, um die Zuverlässigkeit und Transparenz von KI-Systemen zu verbessern.

Was kann zu Halluzinationen führen? Wie wir im oben gezeigten Beispiel sehen, ist den Antworten des Sprachmodells nicht immer zu trauen. Das LLM verfügt über einen standardmäßig aktiven „Refusal Circuit“, der das Modell dazu bringt, keine Antwort zu geben, wenn es keine ausreichenden Informationen hat. Wenn eine bekannte Entität erfasst wird, aktiviert sich ein konkurrierender „Known Entity“-Mechanismus, der den Refusal Circuit hemmt und eine Antwort ermöglicht. Problematisch wird es, wenn Claude einen Namen erkennt, aber keine spezifischen Informationen dazu hat. In solchen Fällen kann der „Known Entity“-Mechanismus fälschlicherweise den Refusal Circuit unterdrücken, was zu einer Halluzination führt. Ein Beispiel: Bei der Frage nach einem Fachartikel des bekannten Forschers Karpathy gibt Claude einen erfundenen Titel an, da das Modell zwar den Namen kennt, in diesem Fall aber keine Informationen über den Artikel hat. Bei weniger bekannten Namen gibt das Modell an, die Antwort nicht zu kennen (Lindsey et al., 2025).

2.3 Welches Modell wählen?

Was für LLMs gibt es aktuell? Die großen Anbieter mit den jeweils stärksten Modellen (s. Abbildung 2.2) sind OpenAI (Chat GPT-5.2), Google (Gemini 3) und Anthropic (Claude Opus 4.6 / Sonnet 4.6). Je nach Anwendung werden günstigere Modelle angeboten, die weniger Rechenaufwand benötigen, meist mit dem Zusatz „Mini“. Starke Reasoning Modelle (die komplexe Fragestellungen bearbeiten können) von OpenAI sind GPT 5.2 oder Gemini 3 Pro sowie Claude Opus 4.6 (Stand 02/2026). Kostenfrei nutzbare Open Source Alternativen sind z.B. Mistral (eines der wenigen europäischen Modelle) und Llama (von Meta/Facebook) sowie die chinesische Konkurrenz DeepSeek (E. R. Mollick, 2025a; sowie Vellum, 2024). Wer noch ein paar Monate in die Zukunft schauen will, dem sei empfohlen, einen Monat Claude Cowork zu nutzen (aktuell ca. 90 EUR). Hier lassen sich sehr komplexe Workflows delegieren und z.B. 10 Excel-Dateien für komplexe Fallstudien mit den dazugehörigen Anweisungen, Visualisierungen und Präsentationen in einem Rutsch erstellen (Rogers, 2026).

Welches Sprachmodell sollte man aktuell nutzen? Die kurze Antwort ist, dass aktuell GPT-5.2 eine gute Wahl ist. Das Modell Claude ist ebenfalls aktuell sehr performant (s. Claude Cowork, Claude Code (mollick2026?)).

Für Lehrende kostenfrei nutzbar gibt es aktuell (Februar 2026) den zentralen Dienst „Chat-AI“ / Academic Cloud der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG) (https://chat-ai.academiccloud.de/), über den neben einer Reihe von quelloffenen Modellen mittlerweile auch Chat GPT-5 nutzbar ist. Hier kann man sich einfach mit einer Hochschuladresse registrieren und den Dienst nutzen. Hochschulen bieten teils einen eigenen KI-Zugang an, die TH-Köln etwa einen begrenzten Zugang zu ChatGPT und einzelnen quelloffenen Modellen über das THKI-Lab (https://ki.th-koeln.de/login.php). Im September 2025 wurde an der TH Köln und weiteren NRW-Hochschulen die Lösung KI:connect ausgerollt, die ähnliche Funktionalitäten bereitstellt (https://kiconnect.pages.rwth-aachen.de/pages/), jedoch nur mit deutlich älteren Modellen (z.B. GPT 4.1). Diese Modelle und der dazugehörige Setup sind allerdings für die meisten Fragen viel zu schwach, weshalb ich hier aktuell von der Nutzung abraten muss. Man bekommt sonst ein ganz falsches Bild von den aktuellen Fähigkeiten der Modelle. So kann man dann auch nicht sinnvoll in der praktischen Nutzung von KI ausbilden.

Weiterhin können Lehrende über die Hochschullizenz Microsoft 365 Copilot herunterladen und dann einen KI-Chat als Desktop-Anwendung nutzen, eine Anwendung, unter deren Haube auch wieder verschiedene Versionen von ChatGPT stecken (hier einloggen und einfach herunterladen: https://www.office.com/). Hier kann man auch GPT 5 nutzen, Chats speichern und komplexere Anweisungen als „Agenten“ entwerfen und teilen.

Diese kostenfreien Lösungen sind in den letzten Monaten stark ausgebaut worden und mittlerweile schon sehr nützlich geworden. Sie stellen allerdings i. d. R. nicht den aktuellen Stand der Performanz der KI-Modelle dar. Lehrende sollten daher unbedingt 1 bis 2 Monate die 20 Euro investieren und auch die stärksten Bezahlmodelle ausprobieren (also ChatGPT oder Gemini in der Bezahlversion). Nur so erhält man ein Gefühl dafür, was aktuell technisch möglich ist und wie „sicher“ die eigenen Prüfungsleistungen sind (z. B. „im Gespräch“ mit der KI, über das Voice Modell, was bei den kostenfreien Zugängen aktuell meist abgeklemmt ist).

Abbildung 2.2: Je nach Ziel ein anderer Platz in der Bestenliste

Quelle: Vellum (2024), Stand 08/2025.

Hier kann man vergleichen: In der LM-Arena kann man verschiedene Modelle ausprobieren und ihre Antwort auf eine bestimmte Frage gegenüberstellen: https://lmarena.ai/de?mode=side-by-side (Untermenü: „Arena (side-by-side)“).

2.4 Was können die Modelle – und was nicht?

Was für Aufgaben LLMs beherrschen ist sehr uneinheitlich und verändert sich dynamisch. Es gibt Bereiche, in denen heutige KI auf menschlichem Niveau oder besser agiert, und andere, oft nur geringfügig andersartige Aufgaben, an denen die KI (noch) scheitert (Dell’Acqua et al., 2023). Mollick und Kollegen prägen hierfür den Begriff einer „Jagged Technological Frontier“ (zerklüftete Technik-Grenze) (Dell’Acqua et al., 2023). Zwei Aufgaben von ähnlicher Schwierigkeit für Menschen können mit sehr unterschiedlicher Qualität durch ein LLM gelöst werden – eine liegt innerhalb der KI-Frontier (d. h. die KI kann sie lösen), die andere außerhalb (KI liefert unbrauchbare oder falsche Resultate) (Dell’Acqua et al., 2023).

In einem Experiment mit Consultants wurden 18 verschiedene Beratungsaufgaben gestellt. Für die meisten („inside the frontier“) brachte KI enorme Vorteile, doch bei einer gezielt außerhalb der Frontier gewählten Aufgabe schnitt die KI-Gruppe deutlich schlechter ab: Hier waren die Consultants in der Gruppe mit KI 19 Prozentpunkte weniger häufig korrekt als die ohne KI (Dell’Acqua et al., 2023). Dieses Ergebnis unterstreicht die Gefahr, LLMs unkritisch auf Probleme anzuwenden, die ihre aktuellen Fähigkeiten übersteigen – die Leistung fällt dann hinter menschliches Niveau zurück. Praktisch bedeutet die Jagged Frontier, dass Organisationen und Individuen lernen müssen, die Grenze der KI-Fähigkeiten zu erkennen und entsprechend zu navigieren (Dell’Acqua et al., 2023).

Für folgende Anwendungsfälle sind LLMs mittlerweile gut nutzbar (Handa et al., 2025-04-08, 2025; Korinek, 2024; Schwarcz et al., 2025):

Zusammenfassung von Fachartikeln
Fortgeschrittene mathematische Ableitungen
Anspruchsvolle Codierungsaufgaben
Erstellen eines Podcasts zu einer Forschungsarbeit
Erstellen von Präsentationsfolien
Verfassen von Blogbeiträgen
Simulieren von Interviews mit der Sprachausgabe von ChatGPT oder Gemini
KI-gestützte Suche (mit kritischer Prüfung natürlich)

Die Fähigkeiten der Modelle wuchsen in den letzten Monaten rasant und damit werden die Aufgaben, die man an sie delegieren kann komplexer. Die Länge der Aufgaben, die KI Sprachmodelle relativ genau erledigen können, verdoppelt sich seit 2019 etwa alle 7 Monate (Kwa et al., 2025). Auch die Bewertung von Forschungsarbeiten im Rahmen des Peer-Reviews wird zunehmend teil-automatisiert, etwa durch die automatische Prüfung von Quellen oder Code und Teilbewertungen durch Dienste wie Veracity oder Paper Wizard (Lovely, 2025; Naddaf, 2025).

Ist das ein Mensch, oder ein Bot? Eine neuere Studie zeigt, dass neue Sprachmodelle uns bei dieser Frage mittlerweile erfolgreich täuschen können und so den Turing Test bestehen, da sie in einer sozialen Interaktion Menschen erfolgreich imitieren können (Jones & Bergen, 2025). In einem randomisierten Drei-Parteien-Turing-Test mit über 1.000 Spielen wurde ein mit speziellen Eingabe-Anweisungen (Persona-Prompt) versehenes Sprachmodell (GPT-4.5) von den Respondenten zu 73 % für den Menschen gehalten, häufiger als echte Menschen in der Vergleichsgruppe. Weniger komplexe Modelle (wie Llama 3.1) schritten schlechter ab. Die Autoren diskutieren daraus resultierende Risiken von sozialer Manipulation oder Arbeitsplatzsubstitution, sowie die Notwendigkeit robusterer menschlicher Erkennungsstrategien.

Auch durch diesen Fähigkeitsschub ist der Einsatz von Sprachmodellen in Support-Funktionen wie Call Centern stark gestiegen, empirische Studien belegen hier einen starken Produktivitätszuwachs (Brynjolfsson et al., 2025).

Die Gründe für die Produktivitätssteigerung von KI-Modellen lassen sich durch Scaling Laws (Training Scaling Law, Inference Scaling Law, (E. R. Mollick, 2025a)) beschreiben: KI-Modelle werden einerseits exponentiell besser, je mehr Daten, Rechenleistung und Parameter genutzt werden und andererseits, wenn sie mehr Zeit zum „nachdenken“ erhalten. (Für eine schöne visuelle Beschreibung, s. Grootendorst (2025))

Der erste Zusammenhang (Training Scaling Law) besagt, dass größere KI-Modelle mit mehr Parametern und Trainingsdaten systematisch leistungsfähiger werden. Allerdings sind solche Ertragszuwächse mit hohen Kosten verbunden: Eine 10-fache Steigerung an Rechenaufwand führt etwa zu einer Erhöhung der Leistungsmetriken um einen festen Betrag, was abnehmende Grenzerträge andeutet.

Neben dem positiven Effekt der Modellgröße wurde in den letzten Monaten ein zweiter Scaling-Effekt (Inference Scaling Law) auf der Anwenderseite deutlich: LLMs liefern bessere Lösungen, wenn man ihnen mehr „Denkzeit“ gibt. OpenAI fand heraus, dass ein Modell mit längerer Schritt-für-Schritt-Reasoning-Phase merklich bessere Ergebnisse erzielt, analog zu einem Menschen, dem man mehr Zeit für eine schwierige Aufgabe gibt. Dieser Inference Scaling Law führte zur Entwicklung von Reasonern – KI-Systemen, die bei Bedarf intern zusätzliche Rechenschritte durchführen, um schwierige Probleme genauer zu lösen (Gottweis et al., 2025; OpenAI, 2024; Schwarcz et al., 2025).

Zusammengenommen bedeuten diese Skalierungsgesetze, dass KI-Systeme durch höheren Ressourceneinsatz (beim Training und bei der Nutzung) immer leistungsfähiger und vielseitiger werden, wenn auch zu steigenden Kosten. Ökonomisch relevant ist hier vor allem, dass die Grenzkosten der KI-Nutzung sehr niedrig bleiben, sobald ein großes Modell einmal trainiert ist: Ist das Modell erstellt, kann es millionenfach eingesetzt werden, was Skaleneffekte in der Verbreitung ermöglicht. Somit schafft das Scaling Law die Grundlage dafür, dass hochleistungsfähige KI als allgemein verfügbares Gut in Wirtschaft und Bildung eingesetzt werden kann. Durch diese Eigenschaft ermöglicht KI eine schnelle und kosteneffiziente Skalierung personalisierter und adaptiver Lernangebote (E. R. Mollick, 2025a). Dieses exponentielle Wachstum unterscheidet KI grundlegend von bisherigen technologischen Entwicklungen, bei denen Verbesserungen oft linear verliefen.

OpenAI hat allein in den ersten Monaten von 2025 mehrere neue Funktionen eingeführt, die den Einsatz von KI in der Hochschullehre deutlich erweitern könnten: Mit der Bildgenerierungsfunktion in GPT4o lassen sich nun auch fotorealistische Visualisierungen erstellen, was z. B. in der technischen Bildung oder bei Designprojekten didaktisch genutzt werden kann (März 2025). Die neuen Audio-Modelle ermöglichen eine präzise Steuerung von Sprachstil und Tonfall – hilfreich etwa für simulierte Rollenspiele, interaktive Lernbegleiter oder barrierefreie Lerninhalte (März 2025). Das im Februar eingeführte deep research-Modul erlaubt KI-gestützte Rechercheprozesse, die Studierende bei komplexen Projektarbeiten oder der Literatursichtung unterstützen könnten (Februar 2025). Zusätzlich wurde mit o3-mini ein kostengünstigeres Modell vorgestellt, das den Zugang zu leistungsfähigen KI-Anwendungen auch in Bildungseinrichtungen erleichtert (Januar 2025).

Die Länge der Aufgaben, die KI relativ genau erledigen kann, verdoppelt sich seit 2019 etwa alle 7 Monate. . Quelle: Kwa et al. (2025)

Es lassen sich nach dieser Studie zwei Kooperationsmodelle zwischen Mensch und LLM unterscheiden, um die Technologiegrenze optimal auszunutzen (Dell’Acqua et al., 2023): Der Centaur-Ansatz teilt die Aufgabe, indem der Mensch der KI die Teilprobleme überlässt, die innerhalb der Frontier liegen, und sich selbst auf den Rest konzentriert. Der Cyborg-Ansatz integriert die KI tiefer, indem der Mensch kontinuierlich mit der KI interagiert und Feedback-Schleifen nutzt. Beide setzen implizit voraus, dass der Nutzer um die Stärken und Schwächen des LLM weiß.

Eine spätere Studie des weitgehend selben Teams mit 776 Praktikern bei Procter & Gamble zeigt, dass Individuen mit LLM Unterstützung deutlich produktiver Probleme lösen oder neue Ideen generieren konnten. Das Sprachmodell scheint einen deutlichen Mehrwert als „Cybernetic Teammate“ zu bringen und Einzelne teils auf das Leistungsniveau von ganzen Teams zu bringen (Dell’Acqua et al., 2025).

Wenn man ältere oder weniger starke (offene) Modelle nutzt, fährt man mit dem Fahrrad auf der Autobahn. Vergleiche zeigen starke Performanzunterschiede zwischen GPT-3.5 und den folgenden Updates zu GPT-4 und GPT-4o. Auch die frei verfügbaren Modelle wie Llama sind teils deutlich weniger „schlau“! Hier muss man insofern aufpassen, dass die einfache Verfügbarkeit solcher Modelle über Plattformen wie Academic Cloud nicht zu einem falschen Bild führt.

2.5 Wo und wie spreche ich mit der KI?

2.5.1 Wo sprechen? Verschiedene Zugänge zu Sprachmodellen

Wo sprechen wir mit dem Sprachmodell? Welche Zugänge zur KI gibt es? Es gibt grob gesagt drei Ansätze:

Die einfache Eingabe in das Chat-Interface (z. B. bei Chat GPT oder Claude), ist am leichtesten umzusetzen. Um verschiedene Modelle zu nutzen, muss man sich aber neu einloggen und evtl. ein weiteres Abonnement bezahlen. Die meisten Modelle erlauben aber auch recht umfangreiche kostenlose Nutzung, was meist zum Kennenlernen ausreicht. Für Hochschulen werden zentral nach und nach verschiedene Dienste mit solchen Oberflächen aufgesetzt, die meist aber aus Gründen des Datenschutzes einige Funktionen abklemmen (z. B. meist die direkte Sprachinteraktion und das Speichern von Benutzerprofilen).
Nutzung einer Bedienoberfläche wie Witsy oder Typingmind, die Prompts speichert und Agenten erstellen lässt, die mit verschiedenen Modellen funktionieren (Schwarze, 2025). Hier muss man einmalig das System aufsetzen (Witsy) und für den höheren Komfort teils eine Lizenz kaufen (TypingMind, ca. 40 $ für Hochschulangehörige), dafür kann man dann einfacher Modelle wechseln und über einen sogenannten API Key nur die tatsächliche Nutzung abrechnen (was sich bei einfacher Nutzung auf ein paar Cent beläuft, siehe die oben gezeigte Übersicht der Preise pro Millionen Token).
Wenn man sich nicht vor etwas Code scheut, kann man auch einfach selbst programmieren (mit KI-Unterstützung in Tools wie Google Colab) und kleine Sprachagenten aufsetzen. (Evtl. dann in Verbindung mit Replit für die Online-Bereitstellung und Diensten wie Voiceflow für die Oberfläche.) Auch hierfür braucht man eigentlich nur API Keys zur Identifizierung. Fragen Sie Chat GPT, wie das geht und lassen sich den Code schreiben, es ist überraschend einfach! Es gibt bei Youtube auch eine Vielzahl von kurzen Erläuterungen.

2.5.2 Wie sprechen? Prompt-Befehle

Wie spreche ich mit dem LLM? In einem modernen Märchen von N.K. Jemisin gibt es gefangene Götter. Sie erfüllen ihren Wächtern jeden Wunsch, sind ihnen aber nicht wohlgesonnen: Eine falsche Formulierung kann so katastrophale Folgen haben. Den Baum, der im Weg liegt, kann man schließlich auch durch einen Vulkanausbruch beseitigen. In dieser neuen Midas-Erzählung wird Präzision zentral. Diesen Tenor finden wir auch in den wichtigsten Empfehlungen zum Prompting: Präzise Anweisungen geben.

Wie das geht, zeigen wir zuerst an einem einfachen Schema. Dann schauen wir uns an, welche Prompting-Strategien die drei großen KI-Labore Ende 2025 empfehlen.

2.5.3 Zentrale Bausteine: Rolle, Aufgabe, Format und Beispiele

Wie beschreibe ich genau, was ich will? Einfache Daumenregeln für Prompts gliedern das in vier Schritte: dem Sprachmodell eine Rolle zuzuweisen („Du bist Verhandlungsexpertin“), ein klares Ziel zu definieren („Du hilfst mir dabei, mich auf Geschäftsverhandlungen vorzubereiten“), es zu bitten, sein Vorgehen (den Gedankengang / „chain of thought“) offenzulegen und Schritt-für-Schritt vorzugehen („Erstelle zunächst einen Plan und frag mich nach Feedback. Warte meine Antwort ab und passe den Plan eventuell an. Wenn ich zufrieden bin, beginne mit dem ersten Schritt in deinem Plan.“) sowie Beispiele („few shot“) für eine gewünschte Struktur oder Analyse mitzuliefern („Formatiere die Dateinamen in dieser Form [Autor]-[Jahr]-[Kurztitel]“, oder „Gib mir 5 Handlungsoptionen und nenne jeweils Vor- und Nachteile“). Dabei veranlasst die Chain of Thought-Methode das LLM, seine Gedankengänge offen zu legen. Das Modell zeigt seine Überlegungen Schritt für Schritt, was die Nachvollziehbarkeit seiner Antworten verbessert. So können wir auch besser nachsteuern und das Ergebnis an unsere Ziele anpassen.

Strukturierten Prompt einfach erstellen lassen

Wollen Sie sich interaktiv einen ausführlichen, strukturierten Prompt erstellen lassen? Hier finden Sie einen Beispiel-Bot, dem man Prompts füttern kann, die er dann in ein kurzes oder detaillierteres Schema packt: https://chatgpt.com/g/g-695a8a7c9c888191a683135100f623d0-prompt-strukturierer-rtf-oder-create-format.

2.5.4 Wie Prompten? Was Ende 2025 die größten KI-Labore empfehlen.

Vor detaillierten Tipps hilft ein Bild (E. Mollick, 2024): Behandeln Sie das Sprachmodell wie eine junge Hilfskraft. Sie wird am Anfang nicht alles richtig machen, sondern muss klar angeleitet werden, so dass die Ergebnisse nach und nach besser werden. Junge Mitarbeiter sind keine Taschenrechner, die sofort perfekt und immer gleich funktionieren. GenAI Chatbots auch nicht. Iterieren und erläutern Sie. Das Ergebnis nähert sich dann Schritt für Schritt dem Wunschbild an. Der Vorteil hier ist, dass die Ergebnisse schon nach wenigen Sekunden vorliegen.

Abbildung 2.3: Empfehlung: Das KI-Modell wie eine junge Hilfskraft behandeln - nach und nach anlernen, klar anweisen

Quelle: Erstellt mit Gemini3, basierend auf E. Mollick (2024).

Was empfehlen Prompt-Profis im Detail? Ende 2025 geben die drei führenden KI-Labs uns ausführliche Tipps, wie wir mit ihren Geschöpfen GPT, Gemini und Claude reden sollen (Anthropic, 2025; Google, 2025; Kotha et al., 2025). Die Empfehlungen sind recht ähnlich und es lohnt sich, sie hier kurz zu referieren.

Die drei führenden Anbieter betonen die Bedeutung von Präzision der Anweisungen - wenig überraschend, aber im Detail nicht einfach zu bewerkstelligen: Vorab die vielleicht wichtigste, wenn auch banale Empfehlung: Es hilft, genau zu sagen, was man eigentlich will. Wie bei einem Bauprojekt, muss man sich bei vagen Anweisungen nicht wundern, wenn das Haus nachher anders aussieht als gewünscht.

Aufgaben präzise beschreiben: Man sollte nicht auf den Hiwi schimpfen, wenn man sich nicht die Zeit genommen hat, zu sagen, was eigentlich die Aufgabe ist! Die immer schlaueren Bots brauchen klare Anweisungen ohne innere Ungereimtheiten oder vage Formulierungen.
Beispiele helfen der KI, nicht nur Einzelwünsche sondern den breiteren Kontext zu berücksichtigen - genau wie man das von einem guten Butler gerne hätte. Positiv-Beispiele sind dabei besser als Negativbeispiele („gib mir…“/„bemühe dich um…“ ist besser als „gib mir nicht“ / „vermeide…“) (Google, 2025). Man sollte nicht zu viele Beispiele geben, sonst kann es passieren, dass sich das LLM zu stark an diesen orientiert und den Suchraum einengt.
Ordnung macht hier Meisterschaft: durch klare Strukturierung des Textflusses durch sogenannte [Tags]. Ob solche ‘Post-it-Notizen’ für die Bots in eckigen Klammern oder mit größer/kleiner Zeichen als markiert sind, ist dabei nicht wichtig, es muss nur einheitlich sein.
Zunehmend wird bei einer interaktiven Form der Zusammenarbeit mit dem Sprachmodell der Weg zum Ziel. Prompten wird hier zum iterativen Prozess, in dem die Interaktion den eigentlichen Mehrwert bietet, da nach und nach mit dem Sprachmodell ein Lösungsweg erarbeitet wird. Dies verlangt eine deutlich andere Herangehensweise als Werkzeuge wie Taschenrechner, von denen wir erwarten, dass sie sofort eine Lösung ausspucken.
Agenten erfordern neue Verhaltensweisen. Da die Zeitspanne des autonomen Handelns immer breiter wird, in denen Sprachmodelle selbstständig suchen, bewerten und zusammenfassen können, müssen wir sie auch anders steuern. Zweitens gewinnt die Frage an Bedeutung, wieviel Eigenständigkeit wir uns von dem Bot denn wünschen. Bei GPT kann man dies z.
1. als ‘Eagerness-Kalibrierung’ einstellen (Kotha et al., 2025). Bei solchen mehrstufigen, längeren Prozessen müssen wir auch über das ‘Gedächtnis’ des Agenten-Bots nachdenken. Im Detail wird hier etwa empfohlen, den Agenten seine Zwischenergebnisse (‘states’) in hoch strukturierter Form ablegen zu lassen (im JSON-Format etwa, das sozusagen markierte Schubladen für die Daten bereitstellt) und kurze nummerierte Zwischennotizen im Fließtext zu erfragen („Im letzten Schritt habe ich folgende Updates an dem Text vorgenommen…“) (Anthropic, 2025). Wir sehen, dass hier die Empfehlungen schon stärker in Richtung der Führung von Mitarbeitern gehen, eine Konsequenz der wachsenden Selbstständigkeit dieser ‘cybernetic teammates’ (Dell’Acqua et al., 2025).
Bots help bots: Die Sprachmodelle können uns dabei helfen, mit ihnen zu sprechen. So können wir mit dem Tool das Tool bedienen. Das kann man schon mit einfachen Prompts tun (s. den folgenden Einschub-Kasten), oder mit eingebauten Tools der Sprachmodelle, wie dem GPT Prompt Optimierer (Kotha et al., 2025) oder mit einem eigenen Prompt, der das Sprachmodell anweist, eine Anweisung in ein bestimmtes Muster zu packen.

Unzufrieden mit dem Ergebnis? Was, wenn der ‘Lieferant’ Sprachmodell mal nicht wie gewünscht liefert? Kotha et al. (2025) empfiehlt: Gleich reklamieren (s. der folgende Kasten)!

Meta-Prompts: Den Bot den Prompt verbessern lassen

Probleme mit dem Prompt? OpenAI (Kotha et al., 2025) schlägt vor, man soll mit einer klaren Problembeschreibung wie folgt prompten:

Hier ist ein Prompt: [PROMPT EINFÜGEN] Das gewünschte Verhalten dieses Prompts ist, dass der Agent [GEWÜNSCHTES VERHALTEN BESCHREIBEN] ausführt, stattdessen führt er jedoch [UNERWÜNSCHTES VERHALTEN BESCHREIBEN] aus. Wie würdest Du die Eingabeaufforderung möglichst unverändert lassen und dennoch minimale Änderungen/Ergänzungen vornehmen, um den Agenten dazu zu bewegen, diese Mängel konsequenter zu beheben?

2.5.5 Es könnt’ alles so einfach sein! Es bringt nichts, Bots zu bedrohen oder zu bestechen.

Die Bots zu bedrohen, bringt nichts. Empirische Untersuchungen haben mehrere anekdotische Geheimtipps des Promptings systematisch geprüft und meist widerlegt. Prompts funktionieren nicht immer gleich und so kommt es schnell zu anekdotischer Evidenz, dass eine Formulierung „besser geklappt“ hätte.

Die wenigsten der folgenden Hausrezepte helfen zuverlässig (Meincke et al., 2025b, 2025a, 2025c): Hilft es, höflich zu sein (nein), zu drohen (nein), Geld anzubieten (nein), oder den Hiwi-Bot Schritt für Schritt vorgehen zu lassen (ja, aber das machen die neueren Reasoning-Sprachmodelle auch selbst)?

Auch hier sehen wir, dass die stärkeren neueren Modelle auch etwas andere Bedienung erfordern. Wie ein neuer Sportwagen kommen mit den größeren Fähigkeiten auch neue Anfälligkeiten: Die neuen Modelle können selbst iterativ vorgehen, das muss man ihnen nicht mehr empfehlen. Tut man es doch, sinkt teils die Performanz (Meincke et al., 2025a), etwa wenn man so verhindert, dass ein starkes Modell eine Frage aus seinem Vorwissen beantwortet und es stattdessen zu mehreren - eigentlich unnötigen - Denkschritten mit entsprechendem Token-Verbrauch zwingt). Da sie schlauer sind, werden sie durch unpräzise Anweisungen teils schneller aus der Bahn geworfen. Die Modelle halten sich genauer an Anweisungen - aber eben auch an falsche (Anthropic, 2025; Google, 2025).

2.5.6 Was heißt das für Prompts in der Lehre?

Didaktische Prompts sollen den Studierenden das Leben gezielt schwer machen. Für die Lehre wollen wir den Prompts speziell didaktische Elemente hinzufügen, also etwa verhindern, dass den Studierenden sofort eine Lösung ausgegeben wird, da das eigene Nachdenken in Form von Fragen und sokratischem Dialog ihnen dabei hilft, die Ergebnisse auch zu behalten (Roediger & Pyc, 2012). Hier müssen wir also teils bewusst Hürden einführen, die die Studierenden zum Nachdenken, diskutieren und überlegen anregen. Wie das geht, sehen wir in den nächsten zwei Hauptkapiteln. Eine Vielzahl konkreter Beispiele von Prompts und didaktischer Aufgabenstellungen mit GenAI Tools finden Sie im Appendix (s. ?sec-prompts).

2.6 Wie steht es mit dem Ressourcenverbrauch der Modelle?

Durch das starke Wachstum der neuen Technologie, werden wir verstärkt mit den möglichen Effekten von KI auf Ressourcenverbrauch und Umweltbelastung konfrontiert (Spencer & Singh, 2025). Auch bei der Nutzung in der Lehre wird dies regelmäßig von Studierenden angesprochen. Angesichts von Hype und Desinformation in beiden Richtungen (von „Weltuntergang durch KI-Energiehunger!“ zu „keinerlei Problem“), lohnt ein Blick auf seriöse Studien. Der folgende Abriss gibt einen Überblick über die Hauptargumente und gibt ein Gefühl für die Komplexität der Modellierung.

Über welche Größenordnung von Energie reden wir etwa? Wieviel Energie kostet es also, GenAI zu nutzen? Das Problem dabei ist, dass wir uns ‘Energie’ nur schlecht vorstellen können. Wir brauchen Analogien: Ein typischer Prompt verbraucht aktuell etwa soviel Energie wie ca. 10 Sekunden Netflix-Streaming oder eine typische Google Suche im Jahre 2008 (Elsworth et al., 2025; E. R. Mollick, 2025b).

Die gute Nachricht ist, dass die Modelle effizienter werden und der Energieverbrauch pro Output-Token rasant sinkt und dass die Anreize für die großen Anbieter stark darauf ausgerichtet sind, den Energieverbrauch weiter zu senken (Spencer & Singh, 2025). Gegenläufig und problematisch ist die stark steigende Nutzung, die z. B. zur Ausweitung gerade umweltbelastender Energieformen wie Gasturbinen führt (Wittenberg, 2025).

Solche Vergleiche sind nicht trivial, da etwa bei der Nutzung in Unternehmen auch die Umweltfolgen der aktuellen Alternativen „bepreist“ werden müssen, um einen sinnvollen Vergleich zu erzielen. Wie belastet die Lieferkette eines physischen Buchs die Umwelt im Vergleich zu einem E-Book? Ein aktueller Mitarbeiter im physischen Callcenter mit seinem Arbeitsweg, Schreibtisch und Heizbedarf im Vergleich zum KI-Chatbot? Unabhängig davon, wie diese Rechnungen ausgehen, sind sie sichtlich komplex.

Im Folgenden sollen dazu einige Kernaussagen aus Untersuchungen der International Energy Agency (IEA), dem World Economic Forum und des MIT Technology Reviews zusammengefasst werden. Basierend auf der aktuellen Untersuchung des MIT Technology Survey (O’Donnell & Crownhart, 2025) gliedere ich diesen kurzen Abriss zum Energieverbrauch in vier Teile: Die Modellbildung, die Anfrage (query), die Emissionen und Prognosen für das weitere Wachstum.

Modellbildung. Daten-Zentren und KI-Nutzung machen aktuell nur wenige Prozent der globalen Energienutzung aus. Schätzungen der Energieagentur IEA liegen etwa bei 3–5 %. Deutlich höhere Anteile liegen in den Bereichen Gebäude, Industrie und Fahrzeuge (Ritchie, 2024a; Spencer & Singh, 2024). Mit Blick auf die Zukunft ist der rasant wachsende Energiebedarf durch Bevölkerungswachstum und wachsenden Wohlstand ärmerer Bevölkerungsgruppen bei weitem ein stärkerer Treiber für Emissionswachstum und Klimawandel (Spencer & Singh, 2024). Einige Klimaaktivisten warnen sogar vor „distraction“ - davor, sich durch Modethemen wie den KI Energieverbrauch vom Fokus auf die großen Hebel der Emissionsvermeidung abbringen zu lassen (Masley, 2025; Ritchie, 2024b). Während der einmalige Aufwand für das Training der Modelle erheblich ist, hat das schnelle Wachsen der Nutzerzahlen sie mittlerweile in den Schatten gestellt. Die Energieaufwände für Anfragen (Inferenz) bedingen nunmehr einen größeren Energieverbrauch als das Training der Modelle (O’Donnell & Crownhart, 2025; Spencer & Singh, 2025).

Anfrage. Der Energieverbrauch einer einzelnen KI-Textanfrage ist relativ gering. Er liegt unter dem Energieverbrauch von wenigen Minuten für eine kleine LED-Lampe. Konkret liegen die Schätzungen hier aktuell zwischen 0,3 Wattstunden (Wh) für GPT-4o und 0,03 Wh für kleine Modelle (O’Donnell & Crownhart, 2025; You, 2025).

Im Vergleich zu anderen Energieverbrauchen ist das nicht viel. Vergleicht man den höheren Wert von 0,3 Wh mit den 12.000 Wattstunden, die ein durchschnittlicher britischer Haushalt pro Tag verbraucht (für US-Haushalte wird die deutlich höhere Zahl von 28.000 Wattstunden pro Tag genannt!), wird schnell klar, dass weniger KI-Nutzung zumindest aktuell kein großer Hebel für Energiesparen oder Klimaschutz ist. Die oft zitierte Statistik, nach der eine Anfrage bei ChatGPT 10x mehr verbraucht als eine Google Suche vergisst meist zu erwähnen, dass die Basisrate dieser Internetnutzung im Vergleich zu anderen Dingen, in die unser Energieverbrauch fließt, extrem niedrig ist (Ritchie, 2024b).

Modellgröße ist allerdings ein zentraler Faktor für den Energiebedarf pro Anfrage und hieraus speisen sich plausiblere Sorgen. Zwar ist Bildgenerierung i. d. R. weniger energieintensiv als Textgenerierung, da Modelle zur Bildgenerierung oft mit weniger Parametern arbeiten als Textmodelle. Aber komplexere Anfragen (etwa mehrstufige lange Reasoning Aufträge) und speziell Video-Generierung benötigen deutlich mehr Energie: Ein hochqualitatives Video von 5 Sekunden kann bis zu 1.000 Wattstunden verbrauchen (0,94 kWh), was etwas mehr als einer Stunde Mikrowellennutzung entspricht – ein deutlicher Unterschied (O’Donnell & Crownhart, 2025).

Der Anteil größerer Modelle und komplexerer Anfragen wird voraussichtlich deutlich zunehmen, wenn die Modellgrößen weiter ansteigen und komplexere Anfragen, wie Video-Generierung zunehmen. Gegenläufig wirkt der starke Anreiz für die Anbieter (und speziell für die kleineren Konkurrenten von OpenAI, die über geringere finanzielle Mittel verfügen), den Energieverbrauch pro Inferenz durch effizientere Chip-Konstruktionen und neue Trainingsansätze zu senken. Wie die Analysten der IEA zusammenfassen: „The efficiency of AI-related computer chips has doubled roughly every two-and-a-half to three years, and a modern AI-related computer chip uses 99% less power to perform the same calculations as a model from 2008” (Spencer & Singh, 2024).

Insgesamt wird perspektivisch die punktuelle Einzelnutzung durch einzelne Anfragen weniger wichtig werden, als die strukturell bedingte Integration der KI-Technologien in immer mehr digitale Anwendungen, die als Folge des rasanten technologischen Wandels und der hohen Investitionen absehbar ist (O’Donnell & Crownhart, 2025).

Emissionen. In diesem Zusammenhang wird der ungünstige Energiemix der aktuell entstehenden Datenzentren kritisiert: Da KI-Rechenzentren rund um die Uhr laufen und meist in Regionen mit fossilen Energieträgern stehen, ist der durchschnittliche CO₂-Ausstoß ihrer Stromversorgung etwa 48 % höher als der US-Durchschnitt (O’Donnell & Crownhart, 2025). Dem gegenüber stehen gegenläufige Effekte wie höhere Effizienz der Steuerung, etwa von Energienetzen (Greene-Dewasmes & Tladi, 2025) und dem Ersatz von manuellen menschlichen Aufwänden durch Digitalisierung, etwa durch Reisen für einen Film-Dreh (ohne KI) oder dem Energiebedarf eines menschlichen Call-Centers. Das starke Wachstum der Nutzung muss insofern mit politischer Anreizsetzung für emissionslose Energiegewinnung verbunden sein, wenn eine starke Zunahme an Emissionen vermieden werden soll. Hierfür gibt etwa die IEA klare Empfehlungen und technische Lösungen sind bekannt. Besorgt stimmt die Analysten die Prognose eines starken Wachstums von Datencentern im asiatischen Raum, die meist nicht mit emissionsfreier Energie betrieben werden (Spencer & Singh, 2025).

Prognose. In der Summe sehen viele der Untersuchungen Probleme eher in der prognostizierten zukünftigen Entwicklung als in den aktuellen Energieaufwänden. Das starke prognostizierte Wachstum könnte etwa dazu führen, dass KI-Anwendungen bis 2028 mehr als 12 % des US-Strombedarfs ausmachen (O’Donnell & Crownhart, 2025).

2.7 Energieverbrauch und politische Steuerung

Die IEA prognostiziert ebenfalls eine Verdreifachung des Energieverbrauchs von Rechenzentren bis 2030, getrieben durch KI. Maßnahmen wie Effizienzgewinne und nachhaltige Architektur können diese Entwicklung abbremsen (Spencer & Singh, 2025).

Wie der MIT-Bericht hervorhebt, sollte vor diesem Hintergrund der starke und kurzfristig induzierte Ausbau der Infrastruktur politisch durch Anreize zur Emissionsvermeidung gesteuert werden, sodass ein starkes Wachstum der Emissionen durch diesen – wahrscheinlich im Kern unvermeidlichen – technologischen Wandel vermieden wird (O’Donnell & Crownhart, 2025).

So besteht die Hoffnung, dass positive Effekte auf Emissionen in den Hauptbereichen von CO₂-Emissionen (Gebäude, Industrie, Transport sowie die verbundenen Energienetze) durch höhere Effizienz in Planung und Nutzung genutzt werden können, ohne dass sie durch die wachsenden Kosten von immer komplexeren Inferenz-Anfragen überlagert werden (Greene-Dewasmes & Tladi, 2025; Spencer & Singh, 2025).

Die Politik muss diesen Wandel steuern, damit die Ziele der Gesellschaft - und nicht nur der Hersteller der Sprachmodelle - berücksichtigt werden. Dazu müssen die Fakten klar sein: Um Kosten und Effekte abschätzen, abfedern und verteilen zu können, fordern die Forscher eine deutlich höhere Transparenz der Energiebedarfe durch die Modellanbieter (O’Donnell & Crownhart, 2025).

Spenden & dieses Open-Access Projekt unterstützen

Literaturverzeichnis

Anthropic (2025). Prompting Best Practices.

Berryman, J., & Ziegler, A. (2025). Prompt engineering for LLMs: the art and science of building large language model-based applications. O’Reilly Media.

Brynjolfsson, E., Li, D., & Raymond, L. (2025). Generative AI at work. The Quarterly Journal of Economics, qjae044.

Dell’Acqua, F., Ayoubi, C., Lifshitz-Assaf, H., Sadun, R., Mollick, E. R., Mollick, L., Han, Y., Goldman, J., Nair, H., & Taub, S. (2025). The Cybernetic Teammate: A Field Experiment on Generative AI Reshaping Teamwork and Expertise.

Dell’Acqua, F., McFowland, E., Mollick, E. R., Lifshitz-Assaf, H., Kellogg, K., Rajendran, S., Krayer, L., Candelon, F., & Lakhani, K. R. (2023). Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality. https://doi.org/10.2139/ssrn.4573321.

Elsworth, C., Huang, K., Patterson, D., Schneider, I., Sedivy, R., Goodman, S., Townsend, B., Ranganathan, P., Dean, J., & Vahdat, A. (2025). Measuring the environmental impact of delivering AI at Google Scale. arXiv preprint arXiv:2508.15734.

Google (2025). Strategien für Prompt-Design. Google.

Gottweis, J., Weng, W.-H., Daryin, A., Tu, T., Palepu, A., Sirkovic, P., Myaskovsky, A., Weissenberger, F., Rong, K., Tanno, R., Saab, K., Popovici, D., Blum, J., Zhang, F., Chou, K., Hassidim, A., Gokturk, B., Vahdat, A., Kohli, P., … Natarajan, V. (2025). Towards an AI co-scientist. arXiv. https://doi.org/10.48550/arXiv.2502.18864.

Greene-Dewasmes, G., & Tladi, T. (2025, Januar 21). AI’s energy dilemma: Challenges, opportunities, and a path forward. https://www.weforum.org/stories/2025/01/ai-energy-dilemma-challenges-opportunities-and-path-forward/.

Grootendorst, M. (2025, Februar 3). A Visual Guide to Reasoning LLMs. https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-reasoning-llms.

Handa, K., Bent, D., Tamkin, A., McCain, M., Durmus, E., Stern, M., Schiraldi, M., Huang, S., Ritchie, S., Syverud, S., Jagadish, K., Vo, M., Bell, M., & Ganguli, D. (2025-04-08, 2025). Anthropic education report: How university students use claude.

Huffman, P., & Hutson, J. (2024). Enhancing History Education with Google NotebookLM: Case Study of Mary Easton Sibley’s Diary for Multimedia Content and Podcast Creation. ISRG Journal of Arts, Humanities and Social Sciences, 2(5).

Huyen, C. (2025). AI engineering: building applications with foundation models. O’Reilly.

Jones, C. R., & Bergen, B. K. (2025). Large Language Models Pass the Turing Test. arXiv. https://doi.org/10.48550/arXiv.2503.23674.

Jurafsky, D., & Martin, J. H. (2025). Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition with language models.

Korinek, A. (2024). Large language models learn to collaborate and reason: December 2024 update on generative AI.

Kotha, A., Lee, J., Zakariasson, E., et al. (2025). GPT-5 Prompting Guide. OpenAI.

Kwa, T., West, B., Becker, J., Deng, A., Garcia, K., Hasin, M., Jawhar, S., Kinniment, M., Rush, N., Arx, S. V., Bloom, R., Broadley, T., Du, H., Goodrich, B., Jurkovic, N., Miles, L. H., Nix, S., Lin, T., Parikh, N., … Chan, L. (2025). Measuring AI Ability to Complete Long Tasks. arXiv. https://doi.org/10.48550/arXiv.2503.14499.

Lindsey, J., Gurnee, W., Ameisen, E., Chen, B., Pearce, A., Turner, N. L., Citro, C., Abrahams, D., Carter, S., Hosmer, B., Marcus, J., Sklar, M., Templeton, A., Bricken, T., McDougall, C., Cunningham, H., Henighan, T., Jermyn, A., Jones, A., … Batson, J. (2025). On the biology of a large language model. Transformer Circuits Thread.

Lovely, G. (2025). AI could soon tackle projects that take humans weeks. Nature. https://doi.org/10.1038/d41586-025-00831-8.

Masley, A. (2025, April 28). A cheat sheet for why using ChatGPT is not bad for the environment. https://andymasley.substack.com/p/a-cheat-sheet-for-conversations-about.

Meincke, L., Mollick, E. R., Mollick, L., & Shapiro, D. (2025a). Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting. arXiv. https://doi.org/10.48550/arXiv.2506.07142.

Meincke, L., Mollick, E., Mollick, L., & Shapiro, D. (2025b). Prompting Science Report 1: Prompt Engineering is Complicated and Contingent. arXiv. https://doi.org/10.48550/arXiv.2503.04818.

Meincke, L., Mollick, E., Mollick, L., & Shapiro, D. (2025c). Prompting Science Report 3: I’ll pay you or I’ll kill you -- but will you care? arXiv. https://doi.org/10.48550/arXiv.2508.00614.

Mollick, E. (2024). Co-intelligence: living and working with AI. Portfolio/Penguin.

Mollick, E. R. (2025a, Januar 26). A new generation of AIs: Claude 3.7 and Grok 3. https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37.

Mollick, E. R. (2025b, August 7). The Shape of AI: Jaggedness, Bottlenecks and Salients. https://www.oneusefulthing.org/p/the-shape-of-ai-jaggedness-bottlenecks.

Mollick, E. R., & Mollick, L. (2024). Instructors as Innovators: a Future-focused Approach to New AI Learning Opportunities, With Prompts. https://doi.org/10.2139/ssrn.4802463.

Naddaf, M. (2025). How are researchers using AI? Survey reveals pros and cons for science. Nature. https://doi.org/10.1038/d41586-025-00343-5.

O’Donnell, J., & Crownhart, C. (2025, Mai 20). We did the math on AI’s energy footprint. Here’s the story you haven’t heard. MIT Technology Review.

OpenAI (2024). Learning to reason with LLMs.

Ritchie, H. (2024a, September 19). What’s the impact of artificial intelligence on energy demand? https://www.sustainabilitybynumbers.com/p/ai-energy-demand.

Ritchie, H. (2024b, November 18). What’s the carbon footprint of using ChatGPT? https://www.sustainabilitybynumbers.com/p/carbon-footprint-chatgpt.

Roediger, H. L., & Pyc, M. A. (2012). Inexpensive techniques to improve education: Applying cognitive psychology to enhance educational practice. Journal of Applied Research in Memory and Cognition, 1(4), 242–248. https://doi.org/10.1016/j.jarmac.2012.09.002.

Rogers, R. (2026, Januar 15). Anthropic’s Claude Cowork Is an AI Agent That Actually Works. Wired.

Russell, S. J., & Norvig, P. (2021). Artificial intelligence: a modern approach. Pearson.

Schwarcz, D., Manning, S., Barry, P. J., Cleveland, D. R., Prescott, J. J., & Rich, B. (2025). AI-Powered Lawyering: AI Reasoning Models, Retrieval Augmented Generation, and the Future of Legal Practice. https://doi.org/10.2139/ssrn.5162111.

Schwarze, M. (2025, Juli 16). KI-Assistent Witsy kann kostenlos das ChatGPT-Monatsabo ersetzen. Frankfurter Allgemeine Zeitung (FAZ).

Spencer, T., & Singh, S. (2024, Oktober 18). What the data centre and AI boom could mean for the energy sector – Analysis. https://www.iea.org/commentaries/what-the-data-centre-and-ai-boom-could-mean-for-the-energy-sector.

Spencer, T., & Singh, S. (2025). Energy and AI (World Energy Outlook Special Report). International Energy Agency.

Vallverdú, J., Rzepka, R., & Sans Pinillos, A. (2025). Editorial: Prompts: the double-edged sword using AI. Frontiers in Artificial Intelligence, 8. https://doi.org/10.3389/frai.2025.1756343.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.

Vellum (2024, September 4). LLM Leaderboard 2024. https://www.vellum.ai/llm-leaderboard.

Wittenberg, A. (2025, Mai 6). „How come I can’t breathe?“: Musk’s data company draws a backlash in Memphis - POLITICO. Politico.

You, J. (2025, Februar 7). How much energy does ChatGPT use? Epoch AI. https://epoch.ai/gradient-updates/how-much-energy-does-chatgpt-use.