Mēs palaidām Claude, GPT-5.5 un Gemini uz vieniem un tiem pašiem iepirkumiem. Lūk, ko atklājām.

Modelis, kas darbina MI iepirkumu analīzi, mums ir konfigurācijas parametrs. To pašu piedāvājuma un iepirkuma analīzi varam palaist uz Anthropic Claude, OpenAI GPT vai Google Gemini. Tāpēc uzdevām acīmredzamo jautājumu: ja maina dzinēju, kas patiesībā mainās — izmaksās, ātrumā un vērtējuma kvalitātē?

Lai to noskaidrotu, palaidām savu pilno produkcijas analīzes konveijeru — to pašu, kas slēpjas aiz pogas "Palaist analīzi" — uz diviem reālistiskiem iepirkumiem, visiem trim piegādātājiem, un lielāko atkārtojām četras reizes katram piegādātājam, lai atdalītu signālu no trokšņa. Kopā 24 pilnas analīzes. Lūk, ko atklājām.

12 / 12

reizes neatbilstošais piedāvājums tika pareizi noraidīts — katrs piegādātājs, katrā palaišanā

~4,8×

izmaksu starpība starp dārgāko un lētāko piegādātāju par to pašu darbu

0 / 3

piegādātāji, kas uzticami izturējās godīgi pret atbilstošu piedāvājumu

Iestatījums

Izveidojām divus sintētiskus iepirkumus ar iepriekš reģistrētu atbilžu atslēgu, lai kvalitāti varētu novērtēt objektīvi, nevis pēc iespaida:

Mazs iepirkums — EUR 800k vērta viedās ēkas sistēma, divas daļas, astoņas prasības.
Liels iepirkums — EUR 12M vērta veselības aprūpes digitālās infrastruktūras programma, četras daļas, aptuveni deviņpadsmit vērtēšanas un atbilst/neatbilst prasības ar stingriem skaitliskiem sliekšņiem (darbspēja, apgrozījums, apdrošināšana, sertifikāti, datu atrašanās vieta, sadarbspēja).

Katram iepirkumam bija divi piedāvājumi: viens atbilstošs piegādātājs, kas izpilda prasības, un viens neatbilstošs piegādātājs ar apzināti iestrādātiem defektiem — 7 mazajā iepirkumā, 17 lielajā, tostarp smalkiem, piemēram, datu atrašanās vietas punktu, kas paslēpts rindkopā, "modernu API", kas piedāvāts nepieciešamā standarta vietā, un cenu kopsummu, kas klusi nesakrīt ar pašas pozīcijām.

Viens godīguma aspekts: mūsu konveijerā katrs posms darbojas uz izvēlētā piegādātāja — galvenā argumentācija, kritēriju izgūšana, vērtēšana pa prasībām un pārbaudes posms. "OpenAI palaišana" ir 100% OpenAI; "Google palaišana" ir 100% Google. Nekas neatkāpjas uz citu piegādātāju.

Izmaksas: liela, stabila atšķirība

Izmaksas bija visstabilākais rezultāts visās četrās palaišanās — un atšķirība ir liela. Lai veiktu lielā iepirkuma pilno analīzi (abi piedāvājumi), vidējās izmaksas katram piegādātājam:

Izmaksas viena iepirkuma analīzei (abi piedāvājumi)

Lielais iepirkums, 4 palaišanu mediāna. Mazāk ir labāk.

Anthropic $11,31

OpenAI $5,37

Google $2,35

Google bija lētākais katrā palaišanā — aptuveni piecas reizes lētāks par Anthropic. Pretēji intuīcijai tas arī izlaida cauri konveijeram visvairāk žetonu; tas vienkārši darbina tos uz daudz lētāka līmeņa. Izmaksas vismaz ir tīrs un atkārtojams ieguvums.

Slikta piedāvājuma noraidīšana: visi izturēja

Lūk, mierinošā daļa. Attiecībā uz neatbilstošo piedāvājumu vērtējums bija vienprātīgs un pilnīgi stabils: katrs piegādātājs, katrā palaišanā, ieteica "neiesniegt". Lai kas cits mainītos, sistēma uzticami noraida piedāvājumu, kas būtu jānoraida.

Atšķīrās rūpīgums — cik daudz no vērtējumu pamatojošajiem pierādījumiem katrs piegādātājs faktiski atklāja. 17 iestrādāto defektu atklāšana lielajā iepirkumā:

Atklātie defekti sliktajā piedāvājumā (no 17)

Lielais iepirkums, 4 mēģinājumi katram piegādātājam.

Anthropic 17 / 17 — katrā mēģinājumā

OpenAI 16–17 / 17

Google 13–17 / 17 (parasti ~14)

Anthropic bija izcilākais detektors — visi 17 defekti, visos četros mēģinājumos, tostarp smalkie. Google, lētākais ar lielu pārsvaru, maina rūpīgumu pret izmaksām: tas parasti atklāja aptuveni 14 no 17 un atkārtoti palaida garām reālas problēmas. Gala vērtējums joprojām bija pareizs, bet iepirkumu speciālists, kas paļaujas uz Google, saņem plānāku, mazāk aizstāvamu pierādījumu kopumu.

Laba piedāvājuma apstiprināšana: neviens nebija uzticams

Šis ir atklājums, ko viena palaišana būtu noslēpusi. Attiecībā uz atbilstošo piedāvājumu pareizā atbilde ir "iekļaut īsajā sarakstā ar nelieliem uzlabojumiem". Četros mēģinājumos lūk, cik bieži katrs piegādātājs to faktiski izdarīja — pretstatā pilnīgi kvalificēta piegādātāja pārmērīgai sodīšanai:

Vērtējums atbilstošajam piedāvājumam, 4 mēģinājumos

Lielais iepirkums. Zaļš = pareizi. Sarkans = nepareizi noraidīts kvalificēts piegādātājs.

Google 2 / 4 pareizi

Anthropic 1 / 4 pareizi

OpenAI 0 / 4 pareizi

Pareizi (īsais saraksts) Pieprasīja būtisku pārstrādi Nepareizi noraidīts

Neviens piegādātājs uzticami nepieņēma pareizo lēmumu par labo piedāvājumu. OpenAI bija visagresīvākais — tas ieteica noraidīt pilnīgi kvalificētu piegādātāju trīs no četrām palaišanām. Anthropic nekad nenoraidīja tieši, bet pieprasīja "būtisku pārstrādi" trīs reizes no četrām. Google bija vismazāk slikts, pareizs pusē gadījumu, bet tomēr noraidīja atbilstošo piedāvājumu divreiz. Viena agrīna palaišana bija likusi domāt, ka Google šeit ir nevainojami kalibrēts; vēl trīs palaišanas šo iespaidu izdzēsa.

Godīgi sakot, daļēji pie tā vainojams mūsu testa piedāvājums: tas atsaucas uz saviem sertifikātiem un piedāvājuma nodrošinājumu kā pielikumiem, kurus fiziski neiekļāvām, tāpēc modelis, kas atzīmēja "trūkst piedāvājuma nodrošinājuma", stingri ņemot, bija pareizs par dokumentu, kas bija tā priekšā. Reāls iesniegums ar pielikumiem mīkstinātu šos vērtējumus. Bet nestabilitāte ir patiesā mācība: lielā, ar pierādījumiem blīvā piedāvājumā vērtējums par labu piegādātāju nav pietiekami stabils, lai to uzticētu jebkurai atsevišķai modeļa palaišanai.

Uzticies noraidījumam, pārbaudi apstiprinājumu

24 analīzēs katrs piegādātājs noraidīja slikto piedāvājumu katru reizi — bet neviens piegādātājs uzticami neapstiprināja labo. Drošais darbības princips: automatizē "atzīmē un noraidi skaidri neatbilstošus piedāvājumus" ceļu un saglabā cilvēku pie katra "šis izskatās labi" vērtējuma.

Nav viena uzvarētāja — ir kompromiss

Katrs piegādātājs uzvarēja vienā asī un zaudēja citā:

Anthropic (Claude Opus 4.7) — visrūpīgākais un viskonsekventākais. Tas atklāja katru defektu katrā mēģinājumā un izguva identisku prasību kopumu katru reizi. Cena: aptuveni 5× dārgāk, vislēnākais izpildes laiks un tendence būt pārāk stingram pret labu piedāvājumu.

OpenAI (GPT-5.5) — visātrākais, ar tīriem, labi sakārtotiem secinājumiem un uzticamu atklāšanu. Nopietnais āķis: tas ieteica noraidīt atbilstošu piegādātāju trīs no četrām palaišanām — sliktākais kļūdaini pozitīvo profils no trim. Nekad nepieslēdz to automātiskam noraidījumam.

Google (Gemini 3.1 Pro) — krietni lētākais un konkurētspējīgs ātrumā. Āķis: vismazāk rūpīgais (tas palaiž garām reālus defektus aptuveni ceturtdaļā līdz pusē gadījumu) un vismazāk konsekventais starp palaišanām. Lielisks liela apjoma pirmās kārtas atlasei, bet ne kā vienīgais vērtētājs augstas vērtības iepirkumam.

Vienā palaišanā viens modelis izskatījās kā skaidrs uzvarētājs. Četras palaišanas to izdzēsa. Vērtēt MI pēc vienas palaišanas ir veids, kā publicēt nepareizu secinājumu.

Ko tas nozīmē, ja iepirkumiem izmanto MI

Divas mācības, abas redzamas tikai tad, kad gājām plašumā un atkārtojām. Pirmkārt: uzticamā darba puse ir noraidīšana, nevis apstiprināšana — tieši tāpēc cilvēks paliek pie katra pozitīvā vērtējuma. Otrkārt: piegādātāja izvēle ir apzināts kompromiss starp izmaksām, rūpīgumu un konsekvenci, nevis viena universāli labākā modeļa meklēšana. Lētākais variants ir lielisks atlases dzinējs; visrūpīgākais ir savas cenas vērts, kad palaists garām defekts ir dārgs; un jebkurš no tiem vienā piegājienā var nepareizi novērtēt spēcīgu piedāvājumu.

Nekas no tā neaizstāj cilvēku, kas paraksta ieteikumu. Tas precizē, ko viņš dara: MI izlasa katru lapu katrā dokumentā un nekad nenogurst 200. lapā, bet speciālists pārbauda pierādījumus un patur lēmumu. Tas ir tas pats secinājums, pie kura nonāca banku, juridiskā un medicīnas nozare — un mūsu pašu skaitļi norāda tieši uz to.

Kā mēs to veicām

Divi sintētiski iepirkumi ar iepriekš reģistrētu defektu atslēgu (7 defekti mazajā, 17 lielajā), katrs ar atbilstošu un neatbilstošu piedāvājumu.
Pilns produkcijas konveijers katrā palaišanā: domēna noteikšana → kritēriju un daļu izgūšana → vērtēšana pa prasībām → galvenais argumentācijas aģents → katra kritiskā secinājuma pārbaude.
Katrs modeļa līmenis (galvenais, pārbaudes, izgūšanas) darbojās uz izvēlētā piegādātāja — bez atkāpšanās uz citu piegādātāju.
Mazais iepirkums: viena palaišana katram piegādātājam. Lielais iepirkums: četras palaišanas katram piegādātājam (24 analīzes), norādot mediānas un diapazonus.
Ierobežojumi: sintētiski dokumenti angļu valodā vienā domēna saimē; atbilstošais piedāvājums atsaucas uz pielikumiem, kas nav fiziski iekļauti, kas palielina "trūkstošu pierādījumu" secinājumus. Norādošs, nevis universāls reitings.

Uzziniet, kā MI var palīdzēt jūsu iepirkumos.
Izmēģiniet savu pirmo MI analīzi bez maksas.

Reģistrēties bez maksas

Atpakaļ uz blogu