Das Seite-200-Problem: Warum Vergabebewertungen bei grossem Umfang scheitern

Lassen Sie mich ein Szenario beschreiben, das jeder Vergabeprofi wiedererkennen wird.

Sie bewerten eine grosse Ausschreibung. Fuenf Angebote, jedes zwischen 100 und 300 Seiten. Die Ausschreibung hat 45 Bewertungskriterien ueber 3 Lose. Ihr Team hat zwei Wochen, und diese Vergabe ist nicht die einzige auf Ihrem Schreibtisch.

Sie starten stark. Angebot eins, Kriterium eins. Sie lesen sorgfaeltig, vergleichen mit den Anforderungen, machen Notizen. Beim dritten Angebot zum zwoelften Kriterium lesen Sie schneller. Am zweiten Tag suchen Sie nach Schluesselwoertern statt Saetze zu lesen. Am Ende der Woche werden die Anhaenge nur noch angeschaut, wenn etwas im Hauptteil auffaellig war.

Das ist kein Versagen an Professionalitaet. Es ist ein Versagen der Biologie. Menschliche Aufmerksamkeit ist eine sich erschoepfende Ressource. Wir wissen das aus Jahrzehnten der Forschung zur kognitiven Ermuedung, und wir sehen es jeden einzelnen Tag in der Angebotsbewertung.

Die Rechnung, ueber die niemand reden will

Werden wir konkret. Eine typische komplexe Vergabe mit 5 Bietern und 40 Kriterien bedeutet 200 Einzelbewertungen (5 Bieter x 40 Kriterien). Jede Bewertung erfordert das Lesen des relevanten Angebotsabschnitts, das Verstaendnis der Anforderung, den Vergleich beider und die Dokumentation einer Feststellung.

Wenn jede Bewertung nur 15 Minuten dauert -- was fuer technische Kriterien grosszuegig gerechnet ist -- sind das 50 Stunden reine Bewertungsarbeit. Fuer eine einzige Vergabe.

Multiplizieren Sie das nun mit der Anzahl der Vergaben, die ein Team pro Quartal bearbeitet. Lettland fuehrte 2024 insgesamt 11.421 Vergabeverfahren durch, die zu 21.558 Auftraegen fuehrten. Und hier die Statistik, die die wahre Geschichte erzaehlt: 73 % dieser Auftraege wurden allein nach dem niedrigsten Preis vergeben. Nicht weil Qualitaet keine Rolle spielt, sondern weil eine ordentliche Qualitaetsbewertung Zeit erfordert, die es nicht gibt.

Irgendetwas muss nachgeben. Meistens ist es die Tiefe.

Was "Gruendlichkeit" wirklich kostet

Was uns stoert an der ueblichen Vermarktung von KI im Vergabewesen: der Fokus auf Geschwindigkeit. "Angebote 10x schneller bewerten!" "Bewertungszeit um 80 % reduzieren!"

Geschwindigkeit ist nicht der Punkt. Gruendlichkeit ist es.

Wenn ein Vergabespezialist 4 Stunden fuer die manuelle Bewertung eines Angebots aufwendet, ist das Problem nicht, dass 4 Stunden zu lang sind. Das Problem ist, dass 4 Stunden nicht ausreichen, um 200 Seiten sorgfaeltig zu lesen, mit 40 Anforderungen abzugleichen und jede Feststellung mit Belegen zu dokumentieren.

Was man eigentlich braucht, sind 12 Stunden gruendlicher Analyse. Man kann sich nur 12 Stunden pro Angebot nicht leisten, wenn man 5 Angebote hat und andere Vergaben dahinter warten.

Ein KI-Agent, der ein Angebot in 2 Stunden analysiert, ist nicht deshalb wertvoll, weil er 2 Stunden gespart hat. Er ist wertvoll, weil er jede Seite mit dem gleichen Mass an Aufmerksamkeit gelesen hat -- etwas, das fuer einen menschlichen Pruefer unter realen Bedingungen strukturell unmoeglich ist.

Die Art von Dingen, die sich auf Seite 200 verstecken

Wir fuehren seit Monaten KI-Bewertungen an echten Vergabedokumenten durch. Bestimmte Muster tauchen immer wieder auf bei dem, was der Agent findet und die manuelle Bewertung typischerweise nicht:

Widersprueche zwischen Abschnitten. Ein Bieter verspricht 99,9 % Verfuegbarkeit in der Zusammenfassung, definiert aber "Verfuegbarkeit" im SLA-Anhang anders, was die Zusage effektiv auf 99,5 % senkt.

Fehlende Konkretisierungen hinter allgemeinen Behauptungen. "Unser Team verfuegt ueber umfangreiche Erfahrung in aehnlichen Projekten" -- ohne ein einziges Projekt, eine Referenz oder eine relevante Qualifikation zu nennen.

Teilkonformitaet als volle Konformitaet verkleidet. Die Anforderung verlangt eine ISO-27001-Zertifizierung. Der Bieter sagt, er "folge ISO-27001-Praktiken" -- was nicht dasselbe ist wie zertifiziert zu sein.

Preisinkonsistenzen. Eine Position im Finanzangebot, die eine im technischen Angebot als enthalten beschriebene Leistung nicht beruecksichtigt. Oder Stueckpreise, die nicht korrekt zu den Gesamtsummen multipliziert werden.

Einschraenkende Formulierungen. "Vorbehaltlich..." oder "Unter der Annahme, dass..."-Klauseln, die leise einschraenken, wozu sich der Bieter tatsaechlich verpflichtet, vergraben in technischen Spezifikationen.

Nichts davon ist etwas, das Pruefer nicht erkennen koennten. Es sind Dinge, die Pruefer unter normalem Zeitdruck wahrscheinlich nicht erkennen, weil das Auffinden erfordert, mehrere Abschnitte mit perfekter Erinnerung zu lesen und Formulierungen praezise zu vergleichen.

Die unbequeme Konsequenz

Wenn wir akzeptieren, dass menschliche Pruefer strukturell nicht jeder Seite jedes Angebots die gleiche Aufmerksamkeit schenken koennen -- und das sollten wir akzeptieren, weil es einfach so ist, wie Aufmerksamkeit funktioniert -- dann muessen wir fragen, was das fuer die Integritaet von Vergabeentscheidungen bedeutet.

Nicht jedes uebersehene Problem aendert das Ergebnis. Aber manche schon. Eine versteckte Bedingung, die eine Zusage einschraenkt. Eine Konformitaetsbehauptung, die einer Pruefung nicht standhaelt. Eine Preisinkonsistenz, die die tatsaechlichen Kosten unterschaetzt.

Wenn oeffentliche Gelder auf dem Spiel stehen, ist "wir haben wahrscheinlich das Wichtige gefunden" eine schwaechere Position als "wir koennen Ihnen genau zeigen, was geprueft wurde und was gefunden wurde."

Was das in der Praxis bedeutet

Wir argumentieren nicht, dass KI Angebote bewerten soll. Wir argumentieren, dass KI Angebote lesen soll -- vollstaendig, sorgfaeltig, mit Belegen -- damit Vergabespezialisten auf Basis vollstaendiger Informationen bewerten koennen, statt nur auf Basis dessen, was sie in der verfuegbaren Zeit erfassen konnten.

Die Aufgabe des Spezialisten ist das Urteil. Ob eine Feststellung wesentlich ist. Ob eine Luecke behoben werden kann. Ob das Risiko akzeptabel ist. Das sind menschliche Entscheidungen, die Erfahrung, Kontext und professionelles Ermessen erfordern.

Die Aufgabe der KI ist sicherzustellen, dass diese Entscheidungen auf allem basieren, was in den Dokumenten steht, nicht nur auf dem, was jemand vor Fristablauf noch lesen konnte.

Es geht nicht darum, jemanden zu ersetzen. Es geht darum, ein strukturelles Problem zu loesen, von dem jeder in der Branche weiss, dass es existiert, fuer das es aber bisher keine Loesung gab. Bis vor kurzem.

Zurueck zum Blog