MH | Falsch gefragt, falsch beantwortet:

Falsch gefragt, falsch beantwortet:

Warum LLMs oft besser sind als ihr Ruf.

Gedanken vom 22.02.2026

Die Frage ist nicht, ob LLMs gut genug sind.
Die Frage ist, ob wir bereit sind, gut genug mit ihnen zu arbeiten.

Eine Person stellt eine Frage, während eine Bibliothekarin hinter einem überhäuften Bücherstapel sitzt – Metapher für die Herausforderung, aus großen Informationsmengen die richtige Antwort zu finden.

Seit ich mich mit Large Language Models (LLMs) im Allgemeinen und im Bezug auf die Technische Dokumentation im Besonderen auseinandersetze, begegnen mir immer wieder die gleichen Vorbehalte: unbrauchbare Ergebnisse, falsche Informationen, generischer Schreibstil.

Was dabei übersehen wird: Diese Erfahrungen beschreiben Ergebnisse, nicht Ursachen. Large Language Models funktionieren nach einem einfachen, aber fundamentalen Prinzip – die Qualität ihrer Ausgabe hängt direkt von der Qualität der Eingabe ab. Wer vage Anweisungen gibt, bekommt vage Ergebnisse. Wer Kontext weglässt, bekommt Antworten ohne Kontext.

Die folgenden Mythen begegnen mir besonders häufig. Sie alle basieren auf realen Problemen – aber die Lösung liegt nicht in besserer Technologie, sondern in besserer Nutzung.

LLMs machen meine Arbeit überflüssig.

Die Angst ist real und weit verbreitet: Wenn Large Language Models Texte schreiben, Dokumente strukturieren und Informationen aufbereiten können – wozu braucht es dann noch Technische Redakteur:innen? Die logische Konsequenz scheint klar: Automatisierung bedeutet Jobverlust. Besser, man hält Abstand zu einer Technologie, die einen ersetzen will.

Diese Rechnung geht nicht auf: LLMs ersetzen keine Technischen Redakteur:innen – aber Technische Redakteur:innen, die LLMs beherrschen, werden diejenigen ersetzen, die es nicht tun. Wer heute aus Angst vor Jobverlust die Technologie meidet, erreicht genau das Gegenteil: irrelevant zu werden.

Die Arbeit verschwindet nicht, sie verändert sich. Repetitive Aufgaben wie Formatierung, Konsistenzprüfungen oder Basisübersetzungen werden automatisiert – und schaffen Raum für das, was Menschen zumindest aktuell noch besser können als ein LLM:

LLMs präzise anweisen, ihre Ergebnisse kritisch prüfen und die Verantwortung für die Richtigkeit übernehmen – denn wer nicht weiß, wie gute Dokumentation aussieht, merkt auch nicht, wenn ein LLM schlechte produziert
Strategische Informationsarchitektur entwickeln, die aus echtem Zielgruppenverständnis entsteht, nicht aus dem, was ein Modell für plausibel hält
Implizites Wissen aus Gesprächen mit Expert:innen erschließen, das nirgendwo dokumentiert ist und das kein LLM aus sich selbst heraus kennt
Entscheiden, welche Informationen überhaupt fehlen – eine Frage, die Domänenwissen, Nutzerperspektive und organisationales Urteilsvermögen erfordert
Zwischen Produkt, Entwicklung und Nutzer vermitteln, bestehende Terminologie konsequent anwenden und auf Konsistenz prüfen – Arbeit, die kontextuelles Gespür und fachliches Urteilsvermögen erfordert, keine Textgenerierung

Der Beruf stirbt nicht. Aber die Art, ihn auszuüben, tut es. Die Frage ist nicht, ob LLMs die Arbeit verändern – sondern ob man zu denen gehört, die diese Veränderung gestalten, oder zu denen, die sie über sich ergehen lassen.

LLMs halluzinieren manchmal – deshalb kann man ihnen nicht vertrauen.

Wer mit Large Language Models arbeitet, macht früher oder später diese Erfahrung: Eine Aussage klingt plausibel und überzeugend, stellt sich aber als falsch heraus. Der verbreitete Schluss daraus: LLMs halluzinieren gelegentlich, und genau deshalb sind sie unzuverlässig. Man könne nie sicher sein, wann sie die Wahrheit sagen und wann nicht.

Diese Einschätzung dreht die Realität um: Large Language Models halluzinieren nicht manchmal – sie halluzinieren grundsätzlich. Das liegt in ihrer Funktionsweise: Sie zerlegen Texte in Tokens und fügen diese nach Wahrscheinlichkeiten zusammen. Manchmal liegt das Ergebnis nah an der Realität, manchmal nicht.

Der entscheidende Faktor ist Kontext: Je mehr relevante Informationen ein LLM erhält – Hintergrundinformationen, klare Vorgaben, Referenzmaterial – desto wahrscheinlicher wird ein korrektes Ergebnis. Technische Ansätze wie Retrieval-Augmented Generation (RAG), die das Modell mit externen Dokumenten und Wissensquellen verknüpfen, nutzen genau dieses Prinzip: Sie erhöhen die Wahrscheinlichkeit, dass die Ausgabe der Realität entspricht – indem sie gezielt Kontext liefern.

Ein LLM ist kein Nachschlagewerk. Es ist ein Werkzeug, das mit den Informationen arbeitet, die man ihm gibt. Wer das versteht, behandelt jede Ausgabe als Entwurf, der Prüfung erfordert – und kommt zu verlässlicheren Ergebnissen als jemand, der blind vertraut oder blind ablehnt.

Man erkennt sofort, wenn etwas von einer KI kommt.

“Das ist doch offensichtlich von einer KI geschrieben” – diese Aussage fällt erstaunlich oft und meist mit großer Überzeugung. Em-Dashes, bestimmte Formulierungsmuster, eine gewisse Glätte: Die vermeintlichen Erkennungsmerkmale sind schnell aufgezählt. Der Eindruck verfestigt sich: Man kann KI-Texte problemlos identifizieren und sie von menschlich verfassten Texten unterscheiden.

Diese Sicherheit beruht auf einem klassischen Confirmation Bias: Was man tatsächlich erkennt, sind schlecht gepromptete Texte – generisch, ohne klare Stilanweisungen, mit den statistisch häufigsten Mustern aus den Trainingsdaten. Diese Texte fallen auf, weil sie die Anforderungen an gute Texte nicht erfüllen.

Aufschlussreich ist das Beispiel der Em-Dashes, die oft als Erkennungszeichen für KI-Texte gelten. Tatsächlich sind sie kein Indiz für maschinelle Herkunft, sondern für gehobenen Sprachstil – sie finden sich in wissenschaftlichen Publikationen, anspruchsvoller Literatur und professionellen Texten. LLMs verwenden sie, weil sie in hochwertigen Texten häufig vorkommen.

Die vermeintliche Treffsicherheit beim Erkennen von KI-Texten ist ein Wahrnehmungsfehler: Man bewertet die Technologie anhand ihrer schlechtesten Beispiele. Wer behauptet, KI-Texte sofort zu identifizieren, übersieht vermutlich die Hälfte davon – nämlich die guten.

Der Schreibstil von LLMs ist immer gleich und klingt künstlich.

“Ich habe alles versucht – trotzdem klingt es immer nach KI.” Diese Erfahrung kennen viele, die zum ersten Mal mit LLMs schreiben. Egal welche Aufgabe, egal welches Thema: Der Text wirkt generisch, förmlich, austauschbar. Der Schluss liegt nahe: LLMs haben einen festen Stil, den man nicht kontrollieren kann.

Tatsächlich schreiben LLMs in dem Stil, den man von ihnen verlangt: Sie können Gedichte verfassen, Predigten formulieren oder den Tonfall bestimmter Publikationen nachahmen. Sie folgen Regeln – und je klarer und präziser diese formuliert sind, desto besser passt das Ergebnis.

Was als “typischer KI-Stil” wahrgenommen wird, ist das Ergebnis unspezifischer Anweisungen. Ohne klare Vorgaben greifen LLMs auf die statistisch häufigsten Muster ihrer Trainingsdaten zurück – und das sind gehobene, formale Strukturen aus wissenschaftlichen Texten und hochwertiger Literatur. Wer hingegen konkrete Stilanweisungen gibt – Tonalität, Zielgruppe, Satzlänge, Beispieltexte oder sogar Auszüge aus einem bestehenden Styleguide –, bekommt entsprechend angepasste Ergebnisse. Ein LLM, das einen informellen Blogbeitrag verfassen soll, verhält sich grundlegend anders als eines, das eine technische Spezifikation erstellt. Wer das versteht, hat keinen unveränderlichen KI-Stil mehr – sondern ein Werkzeug, das sich dem eigenen Stil anpasst.

LLMs halten sich nicht an Terminologien und produzieren inkonsistente Begriffe.

Wer mit festgelegten Fachbegriffen arbeitet, stößt schnell auf dieses Problem: Das LLM verwendet mal “Benutzer”, mal “Nutzer”, mal “User” – obwohl klar sein sollte, welcher Begriff verwendet werden muss. Die Texte wirken dadurch unprofessionell und inkonsistent. Der Schluss liegt nahe: LLMs können mit Terminologievorgaben nicht umgehen.

Die Realität sieht anders aus: Ohne explizite Vorgabe greift ein LLM auf die Wahrscheinlichkeiten in seinen Trainingsdaten zurück, und dort kommen verschiedene Varianten vor. Das Problem ist nicht mangelnde Fähigkeit, sondern fehlende Information. Mit einer klaren Terminologieliste oder konkreten Beispielen im Kontext wird ein LLM diese Begriffe wahrscheinlich konsistenter verwenden als ein Mensch, der zwischen verschiedenen Dokumenten hin- und herwechselt. LLMs halten sich sehr konsequent an Vorgaben – wenn man sie ihnen gibt.

LLMs verstehen den Kontext nicht und liefern irrelevante Antworten.

Eine leuchtende Hand hält Text-Tokens, die von einer Verarbeitungsrolle in strukturierten Output umgewandelt werden – Illustration des Tokenisierungsprinzips von LLMs.

Wer ein bestehendes Dokument überarbeiten lassen möchte, erlebt oft Enttäuschung: Das LLM liefert eine generische Zusammenfassung, die am eigentlichen Ziel vorbeigeht. Oder es strukturiert einen Text um, ignoriert dabei aber wichtige Zusammenhänge. Informationen, die zentral waren, verschwinden plötzlich, während Nebensächliches breit ausgeführt wird. Der Eindruck entsteht: LLMs können nicht mit bestehendem Material arbeiten und verstehen nicht, worauf es wirklich ankommt.

Auch hier liegt das Problem nicht beim LLM, sondern bei unklaren Vorgaben: LLMs können durchaus Kontext verarbeiten – aber sie priorisieren nicht automatisch nach menschlichem Ermessen, sondern nach den Kriterien, die man ihnen konkret vorgibt. “Fasse dieses Dokument zusammen” überlässt dem LLM die Entscheidung, was wichtig ist – und es greift dabei auf statistische Muster zurück, die nicht zwingend zum gewünschten Ergebnis führen. “Fasse dieses Dokument in drei Absätzen zusammen, wobei der Fokus auf den technischen Anforderungen für die Zielgruppe Entwickler:innen liegen soll. Lasse dabei Marketing-Aussagen weg und priorisiere Informationen zur API-Integration” gibt klare Bewertungskriterien vor.

Je präziser die Anweisung, je expliziter das Ziel und die Relevanzhierarchie definiert sind, desto zielgerichteter wird das Ergebnis. LLMs können Dokumente umstrukturieren, umschreiben, kürzen oder erweitern – sie können sogar verschiedene Versionen für unterschiedliche Zielgruppen erstellen. Aber sie brauchen klare Vorgaben darüber, nach welchen Kriterien Relevanz bemessen wird und welche Aspekte im Vordergrund stehen sollen.

LLMs merken sich nichts und wiederholen dieselben Fehler.

Wer wiederholt mit demselben LLM arbeitet, macht irgendwann diese Erfahrung: Stilanweisungen, die bereits gegeben wurden, werden ignoriert. Fehler, die einmal korrigiert wurden, tauchen wieder auf. Der Schluss liegt nahe: LLMs haben kein Gedächtnis – und sind deshalb für kontinuierliche oder komplexe Aufgaben kaum geeignet.

Das stimmt – aber es ist kein Defekt, sondern ein Funktionsprinzip: LLMs haben von Haus aus kein persistentes Gedächtnis zwischen Sitzungen. Was nicht im verfügbaren Kontext liegt, existiert für sie nicht. Doch dieser Kontext lässt sich gezielt aufbauen – automatisch oder manuell:

Projektumgebungen mit dauerhaft hinterlegten Dokumenten und Richtlinien
Gedächtnisfunktionen, die Vorlieben und Arbeitsweisen automatisch über Sitzungen hinweg berücksichtigen
Instruktionsdateien, die bei jeder Sitzung automatisch geladen werden
Prompt-Templates mit fest hinterlegten Stilanweisungen
Sitzungszusammenfassungen als Kontext für die nächste Sitzung

Ein “Ich habe dir das doch schon gesagt” funktioniert nur, wenn diese Information im verfügbaren Kontext liegt. Wer das bewusst gestaltet, arbeitet effizienter als jemand, der jedes Mal von vorne beginnt.

Die eigentliche Herausforderung.

Alle diese Mythen haben eine gemeinsame Wurzel: Sie beschreiben Symptome schlechter Nutzung und interpretieren sie als Grenzen der Technologie.

LLMs halluzinieren nicht zu viel – sie bekommen zu wenig Kontext.
Sie halten sich an keine Terminologievorgaben – weil sie keine bekommen.
Sie schreiben nicht in einem erkennbaren Stil – weil sie keine Stilanweisungen erhalten.
Sie verstehen keinen Kontext – weil niemand definiert, was relevant ist.
Sie merken sich nichts – weil man ihnen kein Gedächtnis aufbaut.

Die Qualität der Ausgabe ist das direkte Spiegelbild der Qualität der Eingabe.

Diese Erkenntnis ist unbequem, weil sie die Verantwortung verschiebt. Es ist einfacher, die Technologie als unzureichend abzutun, als die eigene Arbeitsweise zu hinterfragen. Aber genau darin liegt die Chance: LLMs mögen in ihrem Inneren nicht vollständig durchschaubar sein – was hinter dem Prompt passiert, bleibt in weiten Teilen verborgen. Was sich beeinflussen lässt, ist der Input. Wer lernt, klare Vorgaben zu formulieren, vollständigen Kontext bereitzustellen und konkrete Erwartungen zu definieren, wird Ergebnisse bekommen, die nicht nach “KI” aussehen – sondern nach guter Arbeit.

Dabei entwickelt sich die Technologie schneller als jede Debatte darüber. Was LLMs heute noch nicht können, werden sie morgen können – und wer wartet, bis sich alles gefestigt hat, wartet auf einen Moment, der nicht kommen wird.

Wer das verstanden hat, stellt bessere Fragen – und bekommt bessere Antworten.

Bilder wurden erstellt mit Nano Banana (Google Gemini) mit freundlicher Prompt-Unterstützung von Claude Opus 4.6