Википедија:ОЦР
Ово је водич за препознавање грешака у тексту који је скениран и пребачен у електронски текст коришћењем програма за оптичко препознавање карактера (ОЦР). Такви текстови скоро увек представљају кршење ауторских права.
ОЦР програми раде тако што препознају облик сваког слова појединачно, што доводи до тога да се једно слово замени другим које слично изгледа. Насупрот томе, при грешкама у куцању типично се слово замени другим које је суседно на тастатури. Приликом куцања се такође дешава да се двама словима замене места, што ОЦР у принципу не ради (наравно могуће је да нпр. ни препозна као ин и слично - види доле).
У ћириличним текстовима, изузетно често се дешава да се ОЦР збуни између слова и, н, п или о, е, с. У латиничним, честе су замене између I, l, 1 као и o, e, c. Могуће су и забуне између више слова, на пример шт може бити препознато као ип. Изузетно јасан знак ОЦР-а су тачке, зарези, цртице, наводници и слични ситни знаци тамо где им место није или пак њихов недостатак тамо где треба да буду; у питању су мрљице на страни које су препознате као знаци односно непрепознавање знакова јер су оштећени. Најзад, уколико је ОЦР био лоше подешен па му није речено да не препознаје латинична слова, у ћириличном тексту са може десити да слова а, е, о буду замењена са латиничним a, e, o, било у средини речи, било кад стоје самостално.
Типичан ОЦР-ован текст
[уреди | уреди извор]Хан Поглед, кључно непријатељско упориште у спољној одбрани Власенице и веза између ње и Хан Пијеска, налази се у средини шуме, та.ко да је нападач могао постићи изненађење. дгсна колона — 1 батаљон (Ро-маниски) и Браиначки баталзон Бирчанског одреда — нападала .је на Хан Поглед. Средња колона — 2. и 3. батаљон Групе ударних батаљона и остатак Бирчанског одреда — нападала је на само мјесто. 2 батаљон и чета Бирчанског одреда нападали су на Кик, „Висевац и Орловачу, а остале сиаге вршиле су директан напад на Власеницу. Лева колона — чета 3. батаљона н Залуковачки добровољачки батаљон1 — нападала је на Милиће.
Преглед типичних грешака ОЦР-а у тексту
[уреди | уреди извор]
Хан Поглед, кључно непријатељско упориште у спољној одбрани Власенице и веза |
|
између ње и Хан Пијеска, налази се у средини шуме, та.ко да је нападач
|
|
могао постићи изненађење. дгсна колона — 1 батаљон (Ро-маниски) и |
|
Браиначки баталзон Бирчанског одреда — нападала .је на Хан Поглед. Средња |
|
колона — 2. и 3. батаљон Групе ударних батаљона и остатак Бирчанског одреда — |
|
нападала је на само мјесто. 2 батаљон и чета Бирчанског одреда нападали су |
|
на Кик, „Висевац и Орловачу, а остале сиаге вршиле су директан напад на |
|
Власеницу. Лева колона — чета 3. батаљона н Залуковачки добровољачки
|
|
батаљон1 — нападала је на Милиће.
|
|