In gefühlt jeder zweiten Konferenz für Mittelstand und Digitalisierung wird gerade dasselbe Format angeboten: ein eintägiger Workshop, an dessen Ende eine Liste von Aufgaben steht, die das Unternehmen mit KI automatisieren könnte. Es ist ein Format, das sich gut verkauft. Es liefert eine Übersicht, es lässt sich präsentieren, es erzeugt das Gefühl, dass man etwas in Bewegung gesetzt hat. Was es selten liefert, ist eine Klärung der Frage, was eigentlich passiert, wenn eine der ausgewählten Aufgaben in der Praxis schiefgeht.
Genau diese Frage aber wäre die entscheidende. Denn die Eignung einer Aufgabe für KI lässt sich nicht aus ihren Eigenschaften ableiten - nicht daran, ob sie repetitiv oder kreativ ist, regelbasiert oder urteilsabhängig. Sie lässt sich nur aus den Kosten ableiten, die durch ihre möglichen Fehler entstehen. Und diese Kosten kommen in den Standardklassifizierungen, die in Workshops und Leitfäden die Runde machen, praktisch nicht vor.
Eine Klarstellung vorab: KI im Unternehmen ist längst nicht nur Automatisierung. Wer sich umsieht, findet mehrere konzeptionell unterschiedliche Anwendungsfelder - neben der Automatisierung auch Erkenntnisgewinnung aus eigenen Daten, Entscheidungsunterstützung, Produktinnovation und kreative Generierungsarbeit. Jedes dieser Felder hat seine eigene Logik, seine eigene Erfolgsmessung, sein eigenes Risikoprofil (eine ausführlichere Übersicht habe ich in einem ergänzenden Artikel entwickelt).
Dieser Text befasst sich mit dem ersten und prominentesten Feld, der Automatisierung. Nicht weil es das wertvollste wäre - im Gegenteil, vermutlich liegt der größere Hebel anderswo - sondern weil es das ist, in dem die Risikofrage am häufigsten verdrängt wird. Wer Aufgaben automatisiert, denkt zuerst an Effizienz. Genau an diesem Gedanken setzt dieser Artikel an.
Was die üblichen Schemata leisten - und wo sie scheitern
Wer in der einschlägigen Beratungsliteratur sucht, findet im Wesentlichen vier Klassifizierungsschemata, mit denen Aufgaben für KI-Eignung sortiert werden.
Das erste ist die Unterscheidung repetitiv versus kreativ. Sie stammt aus den frühen 2010er Jahren, als Automatisierung vor allem Robotik in der Industrie meinte. Mit der heutigen Generation generativer KI-Systeme ist sie weitgehend wertlos geworden. Ausgerechnet in den Domänen, die früher als kreativ und damit unautomatisierbar galten - Texte, Bilder, Code, Argumente -, performen moderne Sprachmodelle am stärksten. Wer heute mit dieser Heuristik klassifiziert, landet bei einer Liste der falschen Aufgaben.
Das zweite Schema unterscheidet regelbasiert versus urteilsbasiert. Es ist etwas tragfähiger, aber auch hier verschwimmt die Grenze. Sprachmodelle treffen Urteile, die in klassischen Expertensystemen nicht abbildbar waren - über Tonalität, Plausibilität, Kontext. Sie tun das nicht zuverlässig, aber sie tun es. Die Trennlinie zwischen "Maschinen für Regeln, Menschen für Urteile" ist dadurch porös geworden.
Das dritte Schema fragt nach strukturierten versus unstrukturierten Daten. Das ist eine technische Eingangsfrage, keine Aufgabenklassifizierung. Es sagt etwas über den Werkzeugbedarf, aber nichts darüber, ob eine Aufgabe sinnvoll automatisiert werden kann.
Das vierte Schema schließlich sortiert nach Wert - hohe versus niedrige ROI-Erwartung. Das ist die häufigste Form in Beratungspräsentationen, weil sie sich gut visualisieren lässt. Dabei gibt es jedoch ein Problem: Sie sagt nichts darüber, warum eine Aufgabe geeignet sein soll. Sie sortiert nach Wunschdenken, nicht nach realistischen Gesichtspunkten.
Alle vier Schemata haben dasselbe blinde Element gemeinsam: Sie betrachten die Aufgabe und nicht den Fehlerfall. Sie fragen, was die KI tun kann - nicht, was passiert, wenn sie es falsch tut. Genau dort aber liegt der eigentliche Hebel.
Erste Dimension: Wer trägt den Fehler?
Die erste und wichtigste Frage bei jeder geplanten KI-Anwendung lautet: Wenn das System sich irrt, wer steht dafür gerade?
Das klingt banal, ist es aber nicht. Die meisten KI-Use-Cases lassen sich entlang dieser Achse in zwei Gruppen sortieren - und die beiden Gruppen verhalten sich fundamental unterschiedlich.
In der ersten Gruppe bleibt der Fehler im Haus. Die KI erstellt einen Vorschlag, fasst etwas zusammen, schlägt eine Klassifizierung vor - und ein Mensch prüft das Ergebnis, bevor die Informationen weiterverarbeitet werden. Wenn die KI halluziniert oder die falsche Kategorie wählt, ist das ärgerlich, aber es ist intern ärgerlich. Beispiele: interne E-Mail-Zusammenfassungen, erste Entwürfe für Texte, Vorklassifizierung von Eingangsdokumenten zur Vorbereitung menschlicher Bearbeitung, Recherche-Unterstützung bei der Erstellung von Berichten. In all diesen Fällen ist die KI ein Vorprozessor für menschliche Arbeit. Fehler werden im normalen Arbeitsgang aufgefangen.
In der zweiten Gruppe verlässt der Fehler das Haus. Die KI generiert eine Antwort, die direkt an einen Kunden geht. Sie kalkuliert einen Preis, der automatisch übernommen wird. Sie trifft eine Entscheidung, die rechtliche Konsequenzen hat. Hier wird aus einem internen Ärgernis ein externes Risiko - Reputationsschaden, öffentliche juristische Konsequenzen, finanzielle Verluste, im schlimmsten Fall Schäden für Menschen, die kein Einverständnis gegeben haben, dass die KI sie urteilt.
Was diese erste Dimension klärt, ist nicht ob eine Aufgabe automatisiert werden kann, sondern welcher Grad von menschlicher Kontrolle nötig ist. Eine Aufgabe in der ersten Gruppe lässt sich mit moderner KI relativ unproblematisch unterstützen, oft auch mit erheblicher Zeitersparnis. Eine Aufgabe in der zweiten Gruppe braucht entweder einen menschlichen Prüfschritt zwischen KI-Ausgabe und externem Empfänger - oder sie sollte nicht automatisiert werden, jedenfalls nicht jetzt.
Bemerkenswert ist, wie selten dieser Unterschied in Strategieworkshops thematisiert wird. Stattdessen dominiert die Logik der Ende-zu-Ende-Automatisierung: Je weniger Mensch im Prozess, desto erfolgreicher die Implementierung. Diese Logik blendet völlig aus, dass der Mensch im Prozess oft kein Effizienzproblem ist, sondern ein Risikomanagement-Element.
Zweite Dimension: Ist der Fehler sichtbar?
Die zweite Dimension ist subtiler - und genau deshalb gefährlicher.
Wenn eine KI einen Text generiert, in dem ein beschriebener Sachverhalt falsch ist, wird der Fehler beim Lesen sichtbar. Jemand stutzt, recherchiert, korrigiert. Der Fehler hinterlässt eine Spur, an der man ihn fassen kann.
Wenn eine KI dagegen einen Stapel von 5000 Kundenanfragen klassifiziert und 47 davon fälschlich als "nicht kritisch" markiert, ist der Fehler praktisch unsichtbar. Niemand sieht, was die KI übersehen hat. Man sieht nur, was sie bearbeitet hat. Die übersehenen Fälle werden zu Beschwerden, zu verlorenen Kunden, zu Eskalationen - aber der Zusammenhang zur KI-Entscheidung wird nicht mehr hergestellt, weil zu viel Zeit dazwischen liegt und der ursprüngliche Filtervorgang nicht mehr nachvollzogen werden kann.
Das ist das eigentliche Problem mit Klassifizierungs-, Filter- und Priorisierungsaufgaben: Ihre Fehler sind strukturell unsichtbar. Eine KI, die täglich tausend Dokumente sortiert, sortiert auch dann scheinbar erfolgreich, wenn sie konsistent dieselbe Sorte von Fällen falsch behandelt. Solange niemand die Ablehnungen oder die Einstufungen stichprobenartig überprüft, kumuliert der Fehler still vor sich hin.
Ähnliches gilt für KI-gestützte Suche und Recherche. Wenn ein Mitarbeiter eine Frage stellt und eine zusammengefasste Antwort bekommt, sieht er, was die KI sagt. Er sieht nicht, was die KI nicht gefunden hat - nicht die relevanten Quellen, die übersehen wurden, nicht die widersprechenden Hinweise, die herausgefiltert wurden. Die Unsichtbarkeit liegt nicht im Ergebnis, sondern in der Selektion, die dem Ergebnis vorausgegangen ist.
Die Konsequenz für die Praxis ist erheblich: Prozesse, deren Output direkt geprüft werden kann (Texte, Vorschläge, Übersetzungen), sind robust gegen Fehler, weil eine Korrekturschleife existiert. Aufgaben, deren Output Teil einer größeren Pipeline ist (Klassifizierungen, Filter, Priorisierungen), sind fragil - nicht weil die Fehlerquote höher wäre, sondern weil das Korrektursystem versagt.
In den meisten Standardklassifizierungen werden beide Aufgabentypen gleich behandelt. Das ist einer der zentralen blinden Flecken der gängigen KI-Einführungsempfehlungen.
Dritte Dimension: Ist der Fehler reversibel?
Die dritte Dimension fragt nach der zeitlichen Struktur des Fehlers: Lässt sich rückgängig machen, was die KI getan hat, oder ist "alles zu spät"?
Auch hier zwei einfache Beispiele. Ein KI-Vorschlag für einen Newsletter-Betreff: vollständig reversibel. Wenn der Vorschlag schlecht ist, wird er verworfen, fertig. Ein KI-generiertes Angebot, das automatisch an einen Kunden gesendet wird: nicht reversibel. Es wurde verschickt, der Kunde hat es bereits vorliegen und gesehen. Der Eindruck hat seine Spuren bereits hinterlassen.
Reversibilität ist ein Sicherheitsnetz, das in den Standardleitfäden fast nie systematisch erwähnt wird - obwohl es bei einer Technologie, deren Fehlerquote nicht null ist und in absehbarer Zeit nicht null sein wird, das vielleicht wichtigste Auswahlkriterium darstellt. Eine KI darf Fehler machen, solange diese Fehler ohne Kollateralschaden korrigiert werden können. Sobald das nicht mehr der Fall ist, wird aus einem Effizienzwerkzeug ein Risikofaktor.
Es gibt einen weiteren Aspekt: Geschwindigkeit reduziert Reversibilität. Eine Aufgabe, die schnell entschieden werden muss, lässt weniger Spielraum für Korrektur. Genau deshalb sind echtzeit-getriebene Anwendungsfelder - Chatbots im Kundenservice, automatische Antworten, Live-Übersetzungen in Meetings - besonders heikel. Sie kombinieren oft alle drei riskanten Eigenschaften: externe Wirkung, geringe Sichtbarkeit der Fehler (weil keiner mehr nachliest, was der Bot geantwortet hat), und keine Möglichkeit zur Rückholung.
Wer ein KI-Projekt plant, sollte sich deshalb die Frage stellen: Wie lang ist der Korridor zwischen KI-Ausgabe und tatsächlicher Wirkung? Je länger dieser Korridor, desto sicherer die Anwendung. Je kürzer, desto sorgfältiger muss vorab geprüft werden, ob die Aufgabe wirklich automatisiert werden sollte.
Was sich aus den drei Dimensionen ergibt
Wenn man die drei Dimensionen - Verantwortung für den Fehler, Sichtbarkeit des Fehlers, Reversibilität des Fehlers - ernst nimmt, ergibt sich eine andere Reihenfolge der Einführung, als sie in den meisten Strategieworkshops empfohlen wird.
Die übliche Empfehlung lautet: high impact zuerst. Welche Aufgabe spart das meiste Geld, welche schafft den größten Wettbewerbsvorteil, welcher Use Case eignet sich als Leuchtturm? Diese Logik ist nachvollziehbar - sie ist im Innovationsmanagement seit Jahrzehnten Standard - aber sie ignoriert, dass high impact in der Regel auch high exposure heißt. Die spektakulärsten Anwendungsfelder sind oft genau die mit externer Wirkung, geringer Sichtbarkeit und niedriger Reversibilität.
Die Empfehlung, die sich aus den drei Dimensionen ergibt, ist umgekehrt: high reversibility zuerst. Beginne mit den Aufgaben, bei denen Fehler harmlos sind. Nicht, weil sie spektakulär wären, sondern weil sie eine reale Lernkurve ohne Kollateralschäden ermöglichen. Konkret bedeutet das:
- interne Vorprozessoren statt externe Endpunkte,
- Vorschläge an Mitarbeiter statt automatische Aktionen,
- asynchrone Aufgaben statt Echtzeit-Anwendungen,
- begrenzte Sichtbarkeit statt Massenrollout.
Das mag nach einem unspektakulären Vorgehen klingen. Denn es führt zu Pilotprojekten, die nicht im Quartalsbericht des Vorstands stehen. Es lifert keinen Stoff für Pressemeldungen und wirkt eher unambitioniert. Aber sie hat eine Eigenschaft, die in der aktuellen KI-Welle dramatisch unterschätzt wird: Sie erlaubt es einer Organisation, Erfahrung und ohne Risiko aufzubauen. Wer mit Aufgaben hoher Reversibilität beginnt, lernt das Verhalten der Technologie in der eigenen organisatorischen Realität kennen, bevor er auf Anwendungsfelder zugreift, in denen Fehler teuer werden.
Es gibt einen zweiten Effekt, der oft übersehen wird. Aufgaben in der "sicheren Zone" - interne Wirkung, sichtbare Ergebnisse, hohe Reversibilität - sind diejenigen, bei denen Mitarbeiter am ehesten bereit sind, die KI als Werkzeug zu akzeptieren. Sie erleben den Nutzen, ohne dem System ausgeliefert zu sein. Aufgaben in der "Risikozone" sind oft genau die, bei denen Widerstand entsteht: Mitarbeiter spüren, dass sie für Entscheidungen verantwortlich gemacht werden, die sie nicht selbst getroffen haben. Eine KI-Strategie, die diese psychologische Dimension ignoriert, scheitert nicht am Werkzeug, sondern an der Organisation.
Klassifizieren ist nicht Strategie
Die Frage, was eine KI im Unternehmen übernehmen kann, wird in der Praxis fast immer als technische Frage behandelt. Sie ist aber in Wahrheit eine Frage der Verantwortungsarchitektur. Wer dort Klarheit hat, kann pragmatisch implementieren - schrittweise, ohne organisatorische Verwerfungen, mit messbarem Nutzen. Wer dort keine Klarheit hat, baut Risiken auf, die sich erst Monate später zeigen und dann oft nicht mehr zur ursprünglichen Entscheidung zurückverfolgt werden können.
Die drei Dimensionen, die hier vorgeschlagen wurden, ersetzen keine sorgfältige Einzelfallprüfung. Aber sie verschieben den Fokus von der Frage was kann automatisiert werden hin zu der Frage was darf automatisiert werden, ohne dass die Organisation Risiken eingeht, die sie nicht versteht. Das ist eine andere Frage. Und es ist meines Erachtens die Frage, mit der jede KI-Strategie im Unternehmen beginnen und nicht enden sollte.
Der eigentliche Engpass bei der Einführung von KI in mittelständischen Unternehmen ist nicht die Technologie. Sie ist verfügbar, sie funktioniert, sie ist erstaunlich günstig. Der Engpass ist das Verständnis dafür, wo Fehler entstehen können, wer ihre Folgen trägt und wie sie reversibel bleiben. Diese Fragen sind nicht spektakulär, aber ihre Beantwortung entscheidet darüber, ob aus einer KI-Initiative ein dauerhafter Produktivitätsgewinn wird - oder eine teure Pause vor dem nächsten Reset.
