Dokumentu parsēšana

Kad jūs augšupielādējat PDF vai Word dokumentu, AI nevar to vienkārši "apskatīt" tā, kā to darāt jūs. Tam nepieciešams strukturēts teksts. Parsēšana ir pārveidošanas solis, kas to nodrošina.

Ko parsēšana dara

Kad sākas AI izpildījums, jūsu dokumenti tiek ielādēti izpildījuma sandbox un parsēti tur. Parsēšanas solis:

Iegūst tekstu no dokumenta formāta (PDF, Word, Excel u.c.)
Saglabā struktūru — virsrakstus, rindkopas, sarakstus, tabulas
Apstrādā tabulas — pārvērš tās formātā, ko AI var interpretēt
Lasa skenētus dokumentus — izmanto OCR (optisko rakstzīmju atpazīšanu) attēlu PDF failiem
Apstrādā EDOC arhīvus — izvelk visus failus no arhīva un parsē katru atsevišķi

Rezultāts ir tīrs teksts, ko AI aģenti var efektīvi meklēt un lasīt.

Kas ietekmē parsēšanas kvalitāti

Dokumenta tips ir svarīgs. Word dokuments vai natīvs PDF (izveidots no programmatūras, nevis skenēts) dod tīrākos rezultātus. Teksts jau ir digitāls — parsēšana to tikai pārstrukturē.

Skenēti dokumenti ir sarežģītāki. Sistēmai ir jā"izlasa" teksta attēli, un rezultāts ir atkarīgs no skenēšanas kvalitātes. Skaidrs, taisns, augstas izšķirtspējas skenējums strādā labi. Izbalējis, šķībs vai zemas izšķirtspējas skenējums var saturēt kļūdas.

Tabulas var būt sarežģītas. Vienkāršas tabulas parsējas labi. Sarežģītas tabulas ar apvienotām šūnām, ligzdotām tabulām vai neparastu formatējumu var zaudēt daļu struktūras. Ja svarīga prasība ir paslēpta sarežģītā tabulā, pārbaudiet parsēšanas rezultātu.

Formatējumam bagāti dokumenti — daudz tekstlodziņu, ūdenszīmju, vairāku kolonnu izkārtojumu, iegultu attēlu ar tekstu — parsēšanas laikā dažkārt var zaudēt saturu. Jo vienkāršāks izkārtojums, jo uzticamāks rezultāts.

Tehnoloģija

Parsēšana notiek sandbox iekšienē, izmantojot atvērtā koda bibliotēkas: PyMuPDF PDF failiem, python-docx Word dokumentiem, openpyxl Excel failiem un tesseract skenētu dokumentu OCR. Tā kā darbs notiek jūsu izpildījuma izolētajā sandbox, jūsu dokumentu saturs netiek nosūtīts atsevišķam trešās puses parsēšanas pakalpojumam.

Kad parsēšana neizdodas

Biežākie iemesli ir paroles aizsardzība, faila bojājums un ļoti slikta skenēšanas kvalitāte. Skatiet BUJ un problēmu novēršana par konkrētām problēmām.

Ja fails atkārtoti neizdodas parsēt, mēģiniet pārveidot avota failu citā formātā un augšupielādēt atkārtoti.

Kā aģenti lasa jūsu dokumentus

Kad sākas analīze vai dokumentu sagatavošana, sistēma izveido izolētu darba vietu (sandbox) konkrētajai izpildei un augšupielādē tajā jūsu oriģinālos dokumentus. Parsēšana notiek sandbox iekšienē, un AI aģents pēc tam lasa failus tieši, izmantojot parastos failu sistēmas rīkus — tieši tāpat, kā to darītu cilvēks ar savu portatīvo datoru:

Atver un izlasa konkrētu failu ("izlasi tehnisko piedāvājumu")
Meklē pēc atslēgvārda ar ripgrep ("atrast katru ISO 9001 pieminējumu")
Saraksta failus mapē
Palaiž nelielu komandu rindiņu skaitīšanai, sadaļas izvilkšanai vai formātu pārveidošanai

Iepriekš sagatavotā indeksa nav. Lasīšana notiek pēc pieprasījuma. Aģents pats izlemj, ko apskatīt, atkarībā no tā, ko pārbauda — tieši tāpat kā jūs pārskatītu dokumentu, pārlecot starp sadaļām.

Kad atslēgvārdu meklēšana nepietiek

Lielākajai daļai jautājumu atslēgvārdu meklēšana ir ātrākais veids, kā atrast atbildi — milisekundēs tā atgriež konkrētas rindiņas no konkrētiem failiem. Bet dažreiz ir jāatrod fragmenti pēc nozīmes, nevis precīziem vārdiem.

Iedomājieties, ka nolikums prasa "veselības aprūpes pieredzi". Piegādātāja piedāvājumā varētu būt teikts:

"Mēs ieviesām elektroniskās slimību vēstures trīs slimnīcās"
"Klīnisko datu pārvaldība Sv. Marijas Medicīnas centram"
"Medicīnas nozares projekti veido 60% no mūsu portfeļa"

Nevienā no šīm rindkopām nav precīzi vārdi "veselības aprūpes pieredze", bet visas ir attiecināmas. Kad atslēgvārdu meklēšana neatrod atbildi mīkstam jēdzienam, aģents izmanto semantisko meklēšanu kā rezerves variantu — mazāks AI modelis izlasa attiecīgos failus, sarindo fragmentus pēc nozīmes un atgriež labākos sakritības rezultātus. Tas ir lēnāks un dārgāks par ripgrep, tāpēc aģents to izmanto tikai tad, kad ir nepieciešams.

Kāpēc tas jums ir svarīgi

Divas praktiskas sekas:

Parsēšana notiek katrā izpildījumā, sandbox iekšienē. Jūsu oriģināli paliek S3 krātuvē; katrs izpildījums saņem svaigu sandbox, atver tajā oriģinālus un parsē pēc pieprasījuma. Ja parsēšanas kvalitāte konkrētam failam ir slikta, augšupielādējiet faila tīrāku versiju — visi nākamie izpildījumi izmantos jauno versiju.
Aģenti lasa kā cilvēki. Viņi nesarakstu atmiņā jūsu dokumentus. Viņi atver failus, meklē vajadzīgo un citē atrasto. Tāpēc katram konstatējumam ir konkrēts pierādījuma citāts — aģents jums rāda tieši to, ko izlasīja.