Википедија:OCR
Ovo je vodič za prepoznavanje grešaka u tekstu koji je skeniran i prebačen u elektronski tekst korišćenjem programa za optičko prepoznavanje karaktera (OCR). Takvi tekstovi skoro uvek predstavljaju kršenje autorskih prava.
OCR programi rade tako što prepoznaju oblik svakog slova pojedinačno, što dovodi do toga da se jedno slovo zameni drugim koje slično izgleda. Nasuprot tome, pri greškama u kucanju tipično se slovo zameni drugim koje je susedno na tastaturi. Prilikom kucanja se takođe dešava da se dvama slovima zamene mesta, što OCR u principu ne radi (naravno moguće je da npr. ni prepozna kao in i slično - vidi dole).
U ćiriličnim tekstovima, izuzetno često se dešava da se OCR zbuni između slova i, n, p ili o, e, s. U latiničnim, česte su zamene između I, l, 1 kao i o, e, c. Moguće su i zabune između više slova, na primer št može biti prepoznato kao ip. Izuzetno jasan znak OCR-a su tačke, zarezi, crtice, navodnici i slični sitni znaci tamo gde im mesto nije ili pak njihov nedostatak tamo gde treba da budu; u pitanju su mrljice na strani koje su prepoznate kao znaci odnosno neprepoznavanje znakova jer su oštećeni. Najzad, ukoliko je OCR bio loše podešen pa mu nije rečeno da ne prepoznaje latinična slova, u ćiriličnom tekstu sa može desiti da slova a, e, o budu zamenjena sa latiničnim a, e, o, bilo u sredini reči, bilo kad stoje samostalno.
Tipičan OCR-ovan tekst
[uredi | uredi izvor]Han Pogled, ključno neprijateljsko uporište u spoljnoj odbrani Vlasenice i veza između nje i Han Pijeska, nalazi se u sredini šume, ta.ko da je napadač mogao postići iznenađenje. dgsna kolona — 1 bataljon (Ro-maniski) i Brainački batalzon Birčanskog odreda — napadala .je na Han Pogled. Srednja kolona — 2. i 3. bataljon Grupe udarnih bataljona i ostatak Birčanskog odreda — napadala je na samo mjesto. 2 bataljon i četa Birčanskog odreda napadali su na Kik, „Visevac i Orlovaču, a ostale siage vršile su direktan napad na Vlasenicu. Leva kolona — četa 3. bataljona n Zalukovački dobrovoljački bataljon1 — napadala je na Miliće.
Pregled tipičnih grešaka OCR-a u tekstu
[uredi | uredi izvor]
Хан Поглед, кључно непријатељско упориште у спољној одбрани Власенице и веза |
|
између ње и Хан Пијеска, налази се у средини шуме, та.ко да је нападач
|
|
могао постићи изненађење. дгсна колона — 1 батаљон (Ро-маниски) и |
|
Браиначки баталзон Бирчанског одреда — нападала .је на Хан Поглед. Средња |
|
колона — 2. и 3. батаљон Групе ударних батаљона и остатак Бирчанског одреда — |
|
нападала је на само мјесто. 2 батаљон и чета Бирчанског одреда нападали су |
|
на Кик, „Висевац и Орловачу, а остале сиаге вршиле су директан напад на |
|
Власеницу. Лева колона — чета 3. батаљона н Залуковачки добровољачки
|
|
батаљон1 — нападала је на Милиће.
|
|