Kas ir ocr? »Tās definīcija un nozīme

OCR ir optisko rakstzīmju atpazīšana vai arī spāņu valodā to sauc par optisko rakstzīmju atpazīšanu. OCR ir programmatūra, kas ļauj atpazīt tekstu, izveidojot tā attēlu, lai to pārveidotu par rakstzīmju secību, un pēc tam saglabājiet tos noteiktā formātā, ko var izmantot šajās teksta rediģēšanas programmās. Citiem vārdiem sakot, pateicoties šai jaunajai tehnoloģijai, jebkura veida tekstu vai dokumentus, ieskaitot PDF failus, skenētus papīrus vai pat attēlus, kas uzņemti no digitālajām kamerām, var pārveidot par datiem, lai būtu iespēja tos rediģēt.

Šī programmatūra darbojas šādi, vispirms analizējot katru attiecīgā dokumenta attēla daļu; izplatīt lapu gabalos, piemēram, tabulās, attēlos, teksta blokos, cita starpā; tad līnijas tiek sadalītas vārdos, lai vēlāk tās kļūtu par rakstzīmēm; un tā kā rakstzīmes jau ir norādītas, programmatūra salīdzina ar modeļa attēlu grupu. Tas attīstās saskaņā ar hipotēžu virkni par to, kas ir katrs varonis; Balstoties uz šīm hipotēzēm, viņš analizē dažādos līniju sadalīšanas variantus vārdos un vārdus rakstzīmēs. Un pēc daudzu hipotēžu analīzes un apstrādes programma beidzot parāda tekstu, kas jau ir atpazīts un pārveidots ar jaunu formātu.

Jāatzīmē, ka šodien ir vairākas programmas, kuras datoru tirgus piedāvā, pamatojoties uz OCR, piemēram, OmniPage, Abbyy Fine Reader vai READiris. YY, kas spēj ne tikai analizēt un atpazīt tekstu kā tādu, bet arī atpazīt formātu un stilu, bet ar noteiktiem ierobežojumiem, tādējādi pieprasot, lai pēc analizēšanas teksts tiktu rediģēts, lai veiktu pielāgojumus, pieprasīt.