MitigateTenders analīzes dzinējs ir konfigurācijas slēdzis, un šodien mēs to virzījām uz priekšu: Claude Opus 4.8 tagad ir noklusētais modelis piedāvājuma un iepirkuma analīzei lietotnē. Katra analīze, ko turpmāk palaidīsiet, izmanto to — gan argumentāciju, gan kritēriju un daļu izvilkšanu, gan prasību vērtēšanu.
Pirms slēdža pārslēgšanas mēs izdarījām acīmredzamo: palaidām visu mūsu ražošanas konveijeru — to pašu, kas slēpjas aiz pogas "Palaist analīzi" — uz viena un tā paša iepirkuma, vienreiz ar Opus 4.7 un vienreiz ar Opus 4.8, visu pārējo turot identisku. Lūk, kas patiešām mainījās un kas ne.
Pārbaude
Mēs izmantojām reālistisku iepirkumu ar iepriekš reģistrētu atbilžu atslēgu, lai salīdzinājumu varētu vērtēt pret patiesību, nevis iespaidu: EUR 12M reģionālās veselības aprūpes digitālās infrastruktūras programmu — četras daļas, aptuveni divdesmit vērtēšanas un atbilst/neatbilst prasības ar stingriem skaitliskiem sliekšņiem (pieejamība, apgrozījums, apdrošināšana, sertifikāti, datu atrašanās vieta, savietojamība). Tam bija divi piedāvājumi: viens atbilstošs piegādātājs, kas izpilda prasības, un viens neatbilstošs piegādātājs ar 17 apzināti iesētiem defektiem — tostarp sešiem smalkiem, piemēram, datu atrašanās vietas klauzulu, kas paslēpta rindkopas vidū, "modernu API", kas piedāvāts prasītā standarta vietā, un cenas kopsummu, kas klusi ir pretrunā saviem pašas posteņiem.
Viens godīguma punkts: katrs argumentācijas posms tika izpildīts uz pārbaudāmā modeļa, abos gadījumos ar augstu argumentācijas piepūli. "4.8 palaišana" izvelk kritērijus, novērtē katru prasību un uzraksta vērtējumu pilnībā uz 4.8 — nekas neatkrīt atpakaļ uz vecāko modeli.
Kas palika nemainīgs: vērtējumi
Svarīgākie lēmumi bija identiski un vienlīdz pareizi. Par neatbilstošo piedāvājumu abi modeļi atgrieza "neiesniegt." Par atbilstošo piedāvājumu abi atgrieza "iesniegt ar uzlabojumiem" — pareizi iekļaujot kvalificētu piegādātāju īsajā sarakstā, nevis to pārmērīgi sodot. Un abi noķēra visus 17 iesētos defektus, ieskaitot grūtos sešus: trūkstošo ISO 13485, datu atrašanos ārpus ES, "moderno API", kas piedāvāts prasītā FHIR standarta vietā, aizliegto veiktspējas ekstrapolāciju, paslēpto aritmētisko kļūdu un iekšējo grafika pretrunu.
Izmaksas arī noturējās. Pilnas abu piedāvājumu analīzes palaišana izmaksāja $10.26 ar 4.7 un $10.63 ar 4.8 — dažu procentu robežās. Jauninājums nav cenas pieaugums.
Kas mainījās: asāks, labāk organizēts lasījums
Ja abi modeļi nonāk pie viena un tā paša vērtējuma un noķer tos pašus defektus, ko tad jaunākais patiesībā dod? Tīrāku, noderīgāku pierādījumu kopumu aiz šī vērtējuma.
Tā labāk saprata jomu. Pirms jebkādas vērtēšanas konveijers klasificē iepirkuma jomu, lai novirzītu pareizās specializētās pārbaudes. 4.7 marķēja šo veselības aprūpes programmu vispārīgi kā "IT." 4.8 to pareizi klasificēja kā medicīnisku — kas novirza turpmākās pārbaudes uz pareizo regulatīvo ietvaru (MDR, ISO 13485, klīnisko datu atrašanās vieta), nevis vispārīgu programmatūras skatījumu.
Tā konstatējumi ir kārtīgāki un ar augstāku signālu. Par slikto piedāvājumu 4.7 sadalīja 13 atsevišķos kritiskos konstatējumos — rūpīgi, bet atkārtojoši. 4.8 apvienoja obligātās neatbilstības astoņos skaidri nosauktos pārkāpumos plus vienā tīrā sliekšņa neizpilžu apkopojumā (apgrozījums, apdrošināšana, derīgums, SLA, RPO/RTO, nodrošinājums, atbalsts) un saglabāja pilnu prasību tabulu detaļām. Tā pati rūpība, daudz mazāk trokšņa, ko izlasīt.
Tā izceļ smalkās lietas. 4.8 paaugstināja divus visgrūtāk pamanāmos defektus līdz pašiem galvenajiem kritiskajiem konstatējumiem: EUR 400 000 aritmētisko kļūdu, kur posteņi summējas līdz 9,3M, bet norādītā kopsumma ir 8,9M, un iekšējo grafika pretrunu (darbības uzsākšanas datums, norādīts kā 14. mēnesis vienā sadaļā un 20. mēnesis citā). Atbilstošajā piedāvājumā, kur 4.7 veltīja vairākus konstatējumus iekšējam pārklājuma saskaņošanas artefaktam, 4.8 nosauca vienīgo patiesi svarīgo trūkumu — piedāvājuma nodrošinājumu, kas pieminēts, bet nav apliecināts iesniegumā — un skaidri norādīja uz trūkstošajiem pielikumiem.
Un tas viss ar salīdzināmu ātrumu: abos piedāvājumos 4.8 kopumā bija, ja nu vispār, nedaudz ātrāks.
Šajā iepirkumā Opus 4.8 nemainīja nevienu vērtējumu un neizlaida nevienu defektu, ko noķēra 4.7. Tas, ko tas mainīja, bija lasījuma kvalitāte: pareizais jomas ietvars, mazāk lieku konstatējumu un smalkās kļūdas, kas izceltas virspusē. Iepirkuma speciālistam tas nozīmē mazāk, kas jāizskata, un labāk aizstāvamu pierādījumu pēdas — par tām pašām izmaksām.
Viens godīgs iebildums
Šī ir viena pilna konveijera palaišana katram modelim. Mēs jau iepriekš esam rakstījuši par to, kā viena palaišana var glaimot vai maldināt par modeli, un mēs turamies pie tā arī šeit: uztveriet precīzos skaitļus kā orientējošus, nevis galīgus. Tas, kam mēs uzticamies vairāk nekā jebkuram atsevišķam skaitlim, ir tas, ka vērtējumi un defektu atklāšana bija identiski, kamēr analīzes organizācija konsekventi bija tīrāka 4.8 — pareizā joma, ciešāki konstatējumi, izceltās smalkās kļūdas. Tieši šāda veida uzlabojums noturas dažādās palaišanās, un tieši tāpēc mēs bijām droši padarīt to par noklusējumu.
Ko tas nozīmē jums
Ja šodien palaidīsiet analīzi MitigateTenders, jūs jau esat uz Opus 4.8 — nav iestatījuma, kas jāmaina, nav cenas atšķirības. Jūs saņemat to pašu uzticamo acīmredzami neatbilstošu piedāvājumu noraidīšanu un to pašu godīgo attieksmi pret spēcīgiem piedāvājumiem, ar asāku jomas lasījumu un tīrāku, labāk organizētu konstatējumu kopumu pamatā. Kā vienmēr, modelis izlasa katru lapu katrā dokumentā un nekad nenogurst 200. lappusē; speciālists pārbauda pierādījumus un patur lēmumu. 4.8 vienkārši pasniedz viņiem asāku melnrakstu darbam.
Kā mēs to palaidām
- Viens reālistisks EUR 12M veselības aprūpes iepirkums ar iepriekš reģistrētu defektu atslēgu (17 iesēti defekti, 6 no tiem smalki), atbilstošs piedāvājums un neatbilstošs piedāvājums.
- Pilns ražošanas konveijers katrai palaišanai: jomas noteikšana → kritēriju un daļu izvilkšana → prasību pārklājuma vērtēšana → galvenais argumentācijas aģents → katra kritiskā konstatējuma verifikācija.
- Katrs argumentācijas posms tika izpildīts uz pārbaudāmā modeļa (Opus 4.7 vai Opus 4.8) ar augstu argumentācijas piepūli; atbalsta posmi tika turēti nemainīgi abos, lai salīdzinājums būtu godīgs.
- Viena pilna konveijera palaišana katram modelim (abi piedāvājumi). Vienas palaišanas rezultāti — orientējoši, nevis galīgs vērtējums.
- Izmaksas ir pilnas analīzes (sagatavošana + abi piedāvājumi) kopējās dolāru izmaksas, aprēķinātas pēc katra modeļa publicētās likmes.
Jūsu pirmā MI analīze ir bez maksas.