Warum ChatGPT an Ihren Insolvenzakten scheitert
Halluzinierte BGH-Urteile, vergessene Buchungszeilen, veraltetes Recht — drei Gründe, warum ChatGPT für Anwälte und Insolvenzverwalter zum Haftungsrisiko werden kann.
Das Experiment
Jeder hat es schon gemacht. ChatGPT öffnen, eine Rechtsfrage eingeben, schauen was passiert.
“Prüfe, ob eine Zahlung von 45.000 € an einen Lieferanten drei Wochen vor Insolvenzantrag nach § 130 InsO anfechtbar ist. Der Schuldner war zu diesem Zeitpunkt zahlungsunfähig.”
Die Antwort kommt in Sekunden. Gut strukturiert, sprachlich einwandfrei, mit Paragraphen und Tatbestandsmerkmalen. ChatGPT prüft die Voraussetzungen des § 130 InsO — Rechtshandlung, Gläubigerbenachteiligung, Dreimonatszeitraum, Kenntnis des Gläubigers — und verweist auf eine BGH-Entscheidung zur Konkretisierung der Kenntnisvoraussetzung.
Das Problem: Die BGH-Entscheidung existiert nicht. Aktenzeichen, Datum, Leitsatz — alles erfunden. Aber so überzeugend formuliert, dass es erst bei der Recherche in juris auffällt.
Das ist kein Einzelfall und kein Bedienfehler. Es ist ein strukturelles Problem. Und es ist nur eines von dreien.
Problem 1: Halluzinationen — plausible Falschantworten
Sprachmodelle wie ChatGPT generieren Text, der statistisch wahrscheinlich klingt. Sie können Sprache verarbeiten und erstaunlich gute Zusammenfassungen liefern — aber sie haben kein verlässliches Faktenwissen. Wenn das Modell keine passende Quelle hat, erfindet es eine, die plausibel aussieht.
In der allgemeinen Rechtsberatung ist das ärgerlich. In der Insolvenzpraxis ist es gefährlich — weil die Fehler nicht offensichtlich sind.
Ein paar Beispiele aus der Praxis:
- Erfundene Rechtsprechung. ChatGPT zitiert BGH-Urteile mit korrektem Aktenzeichen-Format (IX ZR …), die nicht existieren. Ein Sachbearbeiter ohne Spezialisierung erkennt das nicht.
- Falsche Fristberechnung. Die Dreiwochenfrist des § 15a Abs. 1 InsO, die Sechswochenfrist bei Überschuldung, die Anfechtungszeiträume der §§ 130–134 InsO — ChatGPT rechnet regelmäßig falsch, besonders bei der Rückrechnung vom Antragszeitpunkt.
- Veraltete Rechtslage. Seit dem SanInsFoG (2021) gelten erhöhte Anforderungen an die Vorsatzanfechtung bei kongruenter Deckung (§ 133 Abs. 2 InsO). ChatGPT wendet oft die alte Rechtslage an — ohne darauf hinzuweisen.
Eine offensichtlich falsche Antwort ist harmlos — man verwirft sie. Gefährlich wird es, wenn die Antwort zu 90 % stimmt und die restlichen 10 % erfunden sind. Genau das ist das Muster bei Halluzinationen: Der Rahmen ist korrekt, die Details sind falsch. Ein erfahrener Insolvenzrechtler erkennt das. Ein Sachbearbeiter, der die Vorprüfung macht, möglicherweise nicht.
Problem 2: KI-Dokumentenanalyse an der Kapazitätsgrenze
Das zweite Problem ist weniger bekannt, aber für die Insolvenzpraxis noch gravierender.
Sprachmodelle arbeiten mit einem begrenzten Textfenster. Man kann sich das vorstellen wie einen Schreibtisch: Alles, was darauf liegt, kann das Modell sehen und verarbeiten. Was nicht draufpasst, existiert nicht.
Bei einer einfachen Rechtsfrage ist das kein Problem. Bei einer Insolvenzakte schon.
Ein typisches Verfahren: drei Konten, drei Jahre Geschäftstätigkeit, 8.000 Buchungszeilen. Dazu Verträge, Korrespondenz, Forderungsanmeldungen. Selbst die größten Sprachmodelle mit ihren erweiterten Textfenstern stoßen hier an Grenzen — nicht unbedingt beim Einlesen, aber bei der Verarbeitung.
Denn selbst wenn die Daten theoretisch auf den Schreibtisch passen, gibt es ein zweites Problem: Die Aufmerksamkeit ist nicht gleichmäßig verteilt. Informationen am Anfang und am Ende werden stärker gewichtet als Informationen in der Mitte. In der KI-Forschung ist das als “Lost in the Middle”-Effekt dokumentiert. Neuere Modelle werden besser darin — aber das Grundproblem bleibt: Ein Sprachmodell ist nicht dafür gebaut, tausende strukturierte Datensätze zuverlässig zu durchsuchen.
Für eine forensische Analyse ist das fatal. Wenn Buchung 4.237 eine verdeckte Gewinnausschüttung an einen Nahestehenden ist — und das Modell sie übersieht, weil sie im mittleren Drittel der Eingabe steht — dann fehlt ein potenziell sechsstelliger Anfechtungsanspruch. Und niemand merkt es, weil das Modell nicht meldet, was es übersehen hat.
Eine Anfechtungsprüfung erfordert Vollständigkeit — es geht darum, keine Buchung zu übersehen. Spezialisierte Systeme zur KI-Dokumentenanalyse lösen das anders als Sprachmodelle: Jede Buchung wird einzeln extrahiert, strukturiert und geprüft, statt als Fließtext in ein Textfenster geschoben zu werden. Die Kontenanalyse arbeitet mit Datenpunkten, nicht mit Zusammenfassungen.
Problem 3: Veraltetes Wissen — und kein Hinweis darauf
Sprachmodelle haben ein Verfallsdatum. Sie werden mit Texten trainiert, die zu einem bestimmten Zeitpunkt eingefroren werden. Alles, was danach passiert, existiert für das Modell nicht.
Ja, ChatGPT kann inzwischen im Internet suchen. Aber das ändert wenig: Die Websuche liefert Treffer, keine Rechtsanalyse. Ob ein Suchergebnis aktuell, einschlägig und korrekt zitiert ist, prüft das Modell nicht zuverlässig — es wählt aus, was plausibel aussieht.
Konkret bedeutet das:
- Gesetzesänderungen. Das SanInsFoG hat 2021 die Vorsatzanfechtung grundlegend verändert — verkürzte Fristen, erhöhte Anforderungen an den Kenntnisnachweis. Je nach Trainingsstand wendet ChatGPT die alte oder neue Fassung an — ohne zu kennzeichnen, welche.
- Neue BGH-Rechtsprechung. Der BGH präzisiert regelmäßig die Anforderungen an Zahlungseinstellung, Gläubigerkenntnis und Bargeschäft. Ein Sprachmodell, das mit Daten bis 2024 trainiert wurde, kennt die Entscheidungen von 2025 und 2026 nicht — und die Websuche hilft nur, wenn man bereits weiß, wonach man suchen muss.
- Geänderte Verwaltungspraxis. Schwellenwerte, Berechnungsmethoden, IDW-Standards — was sich in der Praxis verschiebt, erreicht das Modell nicht.
Das Problem ist nicht, dass das Modell nichts weiß. Das Problem ist, dass es nicht weiß, was es nicht weiß. Es gibt veraltetes Recht mit derselben Überzeugung aus wie aktuelles.
Für eine Haftungsanalyse nach § 15a/b InsO ist das inakzeptabel. Wer mit veralteten Fristen rechnet, verschleppt im schlimmsten Fall eine Anfechtungsklage.
Richtiges Werkzeug, falscher Einsatz
Die drei Probleme haben eine gemeinsame Ursache: ChatGPT ist ein Werkzeug zur Textgenerierung — kein Werkzeug zur Datenanalyse. Für eine schnelle Recherche am Schreibtisch, eine Zusammenfassung oder einen Formulierungsentwurf kann es nützlich sein — solange man jede Aussage nachprüft.
Für die systematische Analyse einer Insolvenzakte braucht es etwas anderes. Der Unterschied ist nicht “besser” oder “schlechter” — sondern die Architektur:
Ein Sprachmodell bekommt eine Frage und generiert eine Antwort aus Trainingswissen. Spezialisierte Systeme arbeiten mit den konkreten Verfahrensdaten: Buchungen werden extrahiert und strukturiert statt zusammengefasst. Fristen werden berechnet statt geschätzt. Einschätzungen sind mit der Fundstelle im Originaldokument verknüpft — nicht aus dem Gedächtnis generiert. Und alle 8.000 Buchungszeilen werden einzeln verarbeitet, nicht als Fließtext in ein Textfenster geschoben.
Wer sich für die konkreten Einsatzfelder von KI in der Insolvenzverwaltung interessiert — von der Datenextraktion bis zum Berichtswesen —, findet eine ehrliche Einordnung im Artikel 5 Hebel für KI in der Insolvenzverwaltung.
Drei Fragen vor dem KI-Einsatz in der Kanzlei
Bevor Sie ein KI-Tool in der Insolvenzpraxis einsetzen — ob ChatGPT, ein Legal-Tech-Produkt oder eine spezialisierte Lösung — stellen Sie drei Fragen:
1. Zeigt das System seine Quellen? Jede Aussage, jede Einschätzung, jeder Betrag muss auf eine konkrete Stelle in Ihren Verfahrensdaten zurückführbar sein. Wenn das System “die BGH-Rechtsprechung sagt…” formuliert, ohne ein konkretes Urteil mit nachprüfbarem Aktenzeichen zu nennen — Vorsicht.
2. Arbeitet es mit meinen Daten oder mit Trainingswissen? Ein System, das Ihre Kontoauszüge strukturiert und analysiert, arbeitet mit Ihren Daten. Ein System, das Ihnen auf Basis seines Trainings erklärt, was § 130 InsO bedeutet, arbeitet mit Wahrscheinlichkeiten. Für die forensische Analyse brauchen Sie ersteres.
3. Kann ich jede Aussage im Originaldokument nachprüfen? Der Verwalter haftet nach § 60 InsO — unabhängig davon, welches Werkzeug er benutzt. Ergebnisse, die sich nicht nachprüfen lassen, sind keine Arbeitserleichterung. Sie sind ein Haftungsrisiko.
InsoHiwi ist kein Chatbot. Die Software analysiert Ihre Verfahrensdaten — quellenbasiert, nachvollziehbar und mit Fundstelle im Originaldokument.