Wie eine Vergabeanalyse um 3 Uhr morgens aussieht (und warum das wichtig ist)

Letzten Dienstag hat einer unserer Testnutzer um 16 Uhr Vergabeunterlagen hochgeladen. Eine grosse Mehrlos-Ausschreibung -- 3 Lose, 2 Bieter pro Los, insgesamt rund 600 Seiten Dokumentation.

Um 3 Uhr morgens, waehrend alle Beteiligten schliefen, war der KI-Agent beim zweiten Bieter fuer Los drei. Methodisch verglich er die vorgeschlagenen Qualifikationen des Projektteams des Bieters mit den Ausschreibungsanforderungen fuer dieses Los. Zitate herausziehen. Eine fehlende Zertifizierung fuer einen der vorgeschlagenen Subunternehmer kennzeichnen.

Um 7 Uhr morgens war die vollstaendige Analyse fertig. Feststellungen geordnet nach Los, nach Bieter, nach Schweregrad. Jedes Problem verknuepft mit konkreten Seiten sowohl in der Ausschreibung als auch in den Angeboten. Das Vergabeteam fand bei Arbeitsbeginn ein vollstaendiges Bewertungspaket vor.

Daran ist etwas gleichermassen nuetzlich und leicht beunruhigend. Eine Analyse, die um 3 Uhr morgens laeuft, niemand schaut zu, Dokumente werden im Dunkeln durchgearbeitet. Es ist nicht romantisch. Es ist nicht das, was sich irgendjemand vorstellt, wenn er an "die Zukunft des Vergabewesens" denkt. Aber es ist wirklich nuetzlich.

Die Frage der staendigen Verfuegbarkeit

Das Konzept der KI-Verfuegbarkeit ist nicht neu. Chatbots sind seit Jahren "rund um die Uhr verfuegbar". Aber es gibt einen Unterschied zwischen einem Chatbot, der auf Ihre Frage wartet, und einem Agenten, der aktiv eine komplexe Analyse durcharbeitet, waehrend Sie nicht da sind.

Ein Vergabe-Chatbot antwortet: "Was sind die Eignungsanforderungen fuer Los 2?" Ein Agent geht jede Eignungsanforderung fuer jedes Los durch, vergleicht sie mit dem, was jeder Bieter tatsaechlich eingereicht hat, und liefert fuer jede eine Feststellung. Ohne gefragt zu werden.

Der 3-Uhr-morgens-Aspekt ist nicht der Punkt. Der Punkt ist, dass die Analyse bis zum Ende durchlaeuft, unabhaengig von Geschaeftszeiten, Teamverfuegbarkeit, Urlaubsplaenen oder konkurrierenden Prioritaeten. Das System hat keinen Freitagnachmittag-Modus, in dem die Aufmerksamkeit nachlasst.

Das ist fuer die oeffentliche Auftragsvergabe wichtiger als fuer die meisten anderen Bereiche. Oeffentliche Vergaben haben Fristen. Harte Fristen. Die Bewertungsfrist verpassen bedeutet Neuausschreibung oder Verlaengerungsantrag -- beides kostet Zeit und Glaubwuerdigkeit.

Was "unermüdlich" in der Praxis wirklich bedeutet

Wir verwenden das Wort "unermüdlich" in unserem Marketing, und ich moechte konkret erlaeutern, was das in der Praxis bedeutet, denn "unermüdliche KI" klingt wie ein Schlagwort.

Ein menschlicher Pruefer, der fokussiert Dokumente vergleicht -- die Art, bei der man Anforderung A liest, dann Angebotsabschnitt B, dann beides vergleicht -- kann etwa 3-4 Stunden durchhalten, bevor die Qualitaet messbar abnimmt. Nach 6 Stunden ueberfliegt man. Nach 8 Stunden macht man Fehler, die man erst bemerkt, wenn jemand anderes die Arbeit ueberprüeft.

Der KI-Agent hat diese Kurve nicht. Sein Vergleich von Kriterium 45 ist genauso gruendlich wie Kriterium 1. Seine Pruefung von Bieter 5 ist genauso sorgfaeltig wie Bieter 1. Es gibt keinen Ermuedungsabschlag.

Das ist keine Eigenschaft, die man bei einer einzelnen kleinen Vergabe schaetzt. Es ist eine Eigenschaft, die die Kapazitaet veraendert, wenn man eine grosse, komplexe Ausschreibung mit engen Fristen und mehreren Losen bearbeitet.

Die Verifikationsschicht (denn Vertrauen muss verdient werden)

Hier der Teil, den ich beim Bau eines solchen Systems wirklich interessant finde: Man kann nicht einfach den Agenten analysieren lassen und seinem Ergebnis vertrauen. Das waere unverantwortlich.

Also haben wir eine Verifikationsschicht gebaut. Ein separates KI-Modell -- anders als das, das die Hauptanalyse durchfuehrt -- ueberprüeft jede als kritisch gekennzeichnete Feststellung. Es prueft, ob die Belege die Feststellung tatsaechlich stuetzen. Es verifiziert, dass die Zitate korrekt sind. Es bestaetigt, dass die Schweregradeinschaetzung Sinn ergibt.

Vereinfacht gesagt: Der Analyse-Agent erledigt die Arbeit, und der Verifikations-Agent prueft die Arbeit. Zwei verschiedene Modelle, damit sie nicht die gleichen blinden Flecken teilen.

Ist das perfekt? Nein. Nichts ist perfekt. Aber es ist ein besserer Qualitaetskontrollprozess als die meisten manuellen Bewertungen haben, bei denen eine Person liest und eine andere vielleicht ueberprüeft, wenn noch Zeit ist.

Das Einzelbieter-Problem aus einem anderen Blickwinkel

Lettland hat ein gut dokumentiertes Einzelbieter-Problem. Von ueber 182.000 aktiven Unternehmen gewannen 2024 nur 4.321 Unternehmen Vergabeauftraege. Das sind 2,4 %. Der Rat Auslaendischer Investoren (FICIL) intervenierte 2025 zweimal oeffentlich -- im Juni und November -- und forderte "dringende" Reformen, wobei er Bedenken wegen Bevorzugung aeusserte.

Die Ursachen sind vielfaeltig -- Marktgroesse, Spezifikationsgestaltung, Branchenkonzentration. Aber hier ein Aspekt, der nicht genug diskutiert wird: Die Bewertungslast selbst schreckt von der Teilnahme ab.

Wenn Anbieter wissen, dass eine komplexe Ausschreibung monatelange Vorbereitung bedeutet und 73 % der Auftraege ohnehin an den billigsten Bieter gehen, bricht das Risiko-Ertrags-Verhaeltnis fuer kleinere Unternehmen zusammen. Warum Wochen in die Vorbereitung eines Qualitaetsangebots investieren, wenn die Bewertung oft nur ein Preisvergleich ist?

Transparentere, gruendlichere, evidenzbasierte Bewertung koennte dieses Gleichgewicht mit der Zeit verschieben. Wenn Bieter wissen, dass ihre technischen Staerken tatsaechlich gelesen und gewichtet werden -- alle, ordentlich -- aendert sich die Kalkulation. Qualitaetsorientierte Unternehmen bewerben sich wieder.

Das ist kein Schnellfix. Es ist ein strukturelles Argument. Aber eines, das es wert ist, gemacht zu werden.

Der Teil, den wir noch herausfinden

Ich moechte ehrlich sein ueber etwas. Diese Technologie ist neu, und wir lernen noch, was sie gut kann und wo sie strauchelt.

Mehrsprachige Dokumente -- wenn die Ausschreibung auf Lettisch und einige Begleitdokumente auf Englisch sind -- koennen Reibung erzeugen. Die KI beherrscht beide Sprachen, aber Nuancen in lettischer Rechtsterminologie erfordern manchmal menschliche Ueberpruefung.

Sehr grosse Vergaben mit 10+ Losen und Hunderten von Kriterien strapazieren die Systemkapazitaet. Die Analyse dauert laenger, und die Kosten fuer KI-Tokens steigen. Wir arbeiten an der Optimierung, aber gruendliche Analyse hat reale Rechenkosten.

Und gelegentlich kennzeichnet der Agent etwas als Problem, das sich bei Pruefung durch einen Fachexperten als unproblematisch herausstellt. Falsch-positive Ergebnisse kommen vor. Das Ziel ist, sie zu minimieren, ohne echte Probleme zu uebersehen -- und das ist ein staendiges Abwaegen.

Wir ziehen es vor, dass das System eher zu viel als zu wenig meldet. Ein menschlicher Experte kann ein falsch-positives Ergebnis schnell verwerfen. Er kann aber kein Problem finden, das nie gemeldet wurde.

Warum wir das gebaut haben

Ich werde manchmal gefragt, warum wir einen KI-Agenten ausgerechnet fuer die Vergabebewertung gebaut haben. Es ist nicht gerade ein glamouroeser Markt.

Die Antwort ist ziemlich einfach: 2 Billionen EUR an oeffentlichen Geldern fliessen jaehrlich durch die EU-Vergabe. Allein in Lettland sind es 5,45 Milliarden EUR. Wie dieses Geld ausgegeben wird, beeinflusst Infrastruktur, Gesundheitswesen, Bildung, Verteidigung -- im Grunde alles, was eine Regierung tut.

Und die Menschen, die dafuer verantwortlich sind zu bewerten, wie es ausgegeben wird, arbeiten mit PDFs und Tabellenkalkulationen, unter staendigem Zeitdruck, ohne die Moeglichkeit, jede Seite jedes Angebots zu lesen.

Das erschien uns als ein Problem, das es wert ist, geloest zu werden.

Zurueck zum Blog