Mašinsko prevođenje
Deo oblasti |
Prevođenje |
---|
Tipovi |
Teorije |
Tehnologije |
Lokalizacija |
Institucije |
Povezane teme |
Mašinsko prevođenje, (u daljem tekstu MP) je potpolje računarske lingvistike koje istražuje upotrebu računarskog softvera za prevođenje teksta ili govora sa jednog prirodnog jezika na drugi. Na niskom nivou, MP vrši zamenu reči jednog prirodnog jezika rečima drugog. Koristeći tehnike korpusa, moguće je pokušati složenije prevode, što dozvoljava bolje rukovanje razlikama u ligvističkoj tipologiji, prepoznavanje fraza, prevođenje idioma, kao i izolovanje anomalija.
Trenutni softveri za mašinsko prevođenje dozvoljavaju podešavanje za određeni domen ili profesiju (kao što je vremenska prognoza), poboljšavajući izlaz ograničavanjem opsega dozvoljenih zamena. Ova tehnika je naročito efikasna u domenima gde se koristi formalni ili formulični jezik. Odatle sledi da mašinsko prevođenje pravnih ili upravnih akata daje daleko upotrebljivii izlaz nego prevod manje standardizovanog teksta ili svakodnevne konverzacije.
Bolje rezultate prevoda moguće je postići uz čovekovu pomoć. Naime, neki sistemi prevode mnogo preciznije ukoliko korisnik nedvosmisleno može da odredi koje reči u tekstu su imena. Uz pomoć ovih tehnika, MP se pokazalo kao velika ispomoć prevodiocima, u pojedinim slučajevima su tako prevedeni tekstovi korišćeni kao gotov proizvod. Ipak, aktuelni sistemi još uvek ne mogu proizvesti prevod koji je istog kvaliteta kao manualni prevod, posebno ukoliko je reč o neformalnom jeziku
Uvod
[uredi | uredi izvor]Proces prevođenja moguće je započeti:
- dekodiranjem značenja izvornog teksta
- inkodiranjem teksta u tekst jezika na koji prevodimo
Iza ovog, na prvi pogled, jednostavnog procesa, krije se vrlo složena kognitivna operacija. Da bi dešifrovao značenje izvornog teksta u celini, prevodilac mora da analizira sve pojedinosti originalnog teksta, a to je proces koji zahteva najpodrobnije poznavanje gramatike, sintakse, idioma izvornog jezika, kao i kulturu njegovih govornika. Prevodilac je takođe nužan da poseduje isto ovakvo poznavanje i jezika na koji prevodi.
Upravo tu leži izazov: kako programirati računar koji će razumeti tekst kao čovek, i koji će stvoriti novi tekst na drugom jeziku koji će izgledati kao da ga je pisao čovek?
Ovom problemu može se pristupiti na nekoliko načina.
Pristupi
[uredi | uredi izvor]MP može se koristiti metodom baziranom na primeni lingvističkih pravila, što znači da se reči prevode lingvistički, reči jezika izvora biće zamenjene najprikladnijim rečima jezika na koji prevodimo.
Da bi MP bilo uspešno neophodno je najpre rešiti problem prirodnog razumevanja jezika.
Uglavnom, metode analize teksta zasnovane na pravilima, obično stvaraju posredan simbolički prikaz između dva jezika. Prema prirodi simboličkog prikaza, pristup je opisan kao međujezičko mašinsko prevođenje ili mašinsko prevođenje bazirano na transferu. Ove metode zahtevaju otvoren leksikon koji uključuje morfološke, sintaksičke i semantičke podatke, i veliki broj uređenih pravila.
Pod uslovom da raspolažu sa dovoljno podataka, programi za MP često rade dovoljno dobro tako da prirodni govornik jednog jezika može da dođe do okvirnog značenja teksta prevedenog sa nekog jezika. Međutim, to nije čest slučaj. Sa druge strane veliki međujezički korpus nije neophodan za metodu baziranu na gramatici, ali je zato za ovu metodu neophodan lingvista koji će pažljivo utvrditi gramatička pravila po kojima ova metoda funkcioniše.
U prevodima bliskih jezika može se koristiti metoda plitkog transfera mašinskog prevođenja.
Metoda bazirana na rečniku ili direktna zamena
[uredi | uredi izvor]Najjednostavniji sistemi rade vrlo malo analize ulaznog teksta i uglavnom samo zamenjuju ulazne reči jezika izvora sa izlaznim rečima jezika prevoda. Kada su jezik izvor i jezik prevoda, slični u gramatičkoj strukturi i po korišćenju reči, kao na primjer, španski, italijanski i francuski, ovim pristupom se dobijaju iznenađujuće dobri rezultati. Ali kada raspored reči značajno varira, npr., glagol se nalazi na kraju rečenice kao u japanskom jeziku, onda je neophodna određena sintaksna analiza. Savremena istraživanja ovog pristupa se centriraju na poluatomatskim konstrukcijama tabela reči i rečenica, koristeći za primer prevode stvarnih prevodilaca, ili upotrebom statističkih metoda.
Statistička metoda
[uredi | uredi izvor]Statističko MP generiše prevode koristeći statističke metode bilingvalnih tekstova, kao što je Canadian Nansard korpus, englesko-francuski transkripti kanadskog parlamenta, zatim EUROPARL , transkripti evropskog parlamenta. Prvi softver za statističko MP prevođenje bio je IBM -ov CANDIDE . Google trenutno koristi SYSTRAN . Nedavno su poboljšali svoje kapacitete ubacivanjem 200 milijardi reči iz materijala preuzetih od Ujedinjenih nacija.
Metoda bazirana na primerima
[uredi | uredi izvor]MP bazirano na primerima (engl. EBMT), koristi bilingvalni korpus kao svoj osnovni izvor. U suštini to je prevođenje analogijom.
Interlingvalno mašinsko prevođenje
[uredi | uredi izvor]Interlingvalno prevođenje ima jedinstven pristup problemu. Ova metoda izvorni tekst prevodi na interlingval, jezik sličan esperantu, pa tek onda na jezik na koji tražimo.
Glavne teme
[uredi | uredi izvor]Višeznačnost
[uredi | uredi izvor]Traži najprikladniju reč kada ona ima više od jednog značenja. Problem se prvi put pojavio '50-ih godina prošlog veka kada je Yehoshua Bar-Hillel istakao da bez univerzalne enciklopedije mašina nikada neće moći da uoči razliku u značenjima iste reči. Danas postoji nekoliko pristupa za prevazilaženje pomenutog problema. Reči mogu biti podeljene na plitke i duboke pristupe. Plitki pristupi ne pokazuju poznavanje teksta, već jednostavno ubacuju dvosmislenu reč u kontekst statističkom metodom.. Duboki pristup podrazumeva potpuno razumevanje reči. Do sada, plitki pristup se pokazao kao mnogo uspešnija metoda.
Istorija
[uredi | uredi izvor]Mašinsko prevođenje je preteča oblasti računarske lingvistike. Takođe se preseca sa veštačkom inteligencijom, lingvistikom i u nekim slučajevima antropologijom. Prve korake u ovoj oblasti napravio je Voren Viver, 1955. godine, kada je sugerisao da se koncepti iz kriptografije, koja se koristila za vreme Drugog svetskog rata, kao i informacione teorije za koju je 1947. godine postavio osnove Klod Šenon, mogu iskoristiti za procesovanje jezika. Prvi veliki projekat na ovom polju, počela je vlada SAD-a i njegov cilj je bio prevođenje priručnika ruskog vojnog vazduhoplovstva. Deceniju kasnije, Savetodavni komitet za automatsko procesovanje jezika (ALPAC - Automatic Language Processing Advisory Committee), na zahtev američke vlade, radi analizu dostignuća na polju mašinskog prevođenja i nezadovoljan rezultatima odlučuje da obustavi sva dalja istraživanja,[1]. U SAD istraživanja će se ponovo obnoviti tek početkom osamdesetih. U međuvremenu, istraživanja i izrada komercijalnih aplikacije su se dalje nastavila u Evropi, a poslije 1970-ih i u Japanu.
Primena mašinskog prevođenja
[uredi | uredi izvor]Danas postoji nekoliko softvera za prevođenje prirodnih jezika od kojih su neki na internetu, kao što je SYSTRAN, sistem koji koristi i Google kao i AltaVista’s Babelfish . Naravno, nijedan sistem još uvek ne omogućava savršeno mašinsko prevođenje.
Bez obzira na velika ograničenja, MP se koristi širom sveta. Najveći institucionalni korisnik svakako je Evropska komisija, koja koristi visoko prilagođenu verziju komercijalnog SYSTRAN sistema za automatsko prevođenje velikog broja preliminarnih skica za internu upotrebu.
Danska prevodilačka agencija ( lingtech A/S) još od 1993. sa engleskog na danski prevodi uputstva za upotrebu raznih proizvoda koristeći sistem mašinskog prevođenja po imenu PaTrans koji radi zajedno sa komercijalnom verzijom Trados CAT tool-a.
Katalonske dnevne novine Periódico de Catalunya se svakodnevno prevode sa španskog na katalonski sistemom mašinskog prevođenja.
Poslednjih godina, usled visoke stope terorizma, vojska SAD izdvaja velika sredstva za unapređenje mašinskog prevođenja. Avijacija SAD izdvojila je milion dolara za unapređenje tehnologije prevođenja.
Ocena
[uredi | uredi izvor]Postoji nekoliko sredstava za utvrđivanje kvaliteta sistema mašinskog prevođenja. Najskorija, automatska sredstva za utvrđivanje kvaliteta prevoda su BLEU , NIST i METEOR .
Trenutno, gotovi prevodi MP-a su dosta sirovi i daleko su od konačnih prevoda, ali svakako mogu da pomognu čitaču koji poznaje oba jezika (i jezik sa koga se prevodi i na koji se prevodi).
Reference
[uredi | uredi izvor]- ^ Pierce, J. R., J. B. Carroll, E. P. Hamp, D. G. Hays, C. F. Hockett, A. G. Dettinger, and A. Perlis (1966). Computers in Translation and Linguistics (ALPAC Report). National Academy of Sciences/National Research Council Publication 1416. Washington, DC: NAS Press.
Literatura
[uredi | uredi izvor]- Brown, P. F., J. Cocke, S. A. Della Pietra, V. J. Della Pietra, F. Jelinek, J. D. Lafferty, R. L. Mercer, and P. S. Roossin (1990). A statistical approach to machine translation. Computational Linguistics
- Brown, P. F., S. Della Pietra, V. Della Pietra, and R. Mercer (1993). The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics
Spoljašnje veze
[uredi | uredi izvor]- Evropsko udruženje za mašinsko prevođenje
- Mašinsko prevođenje, Uvod u MP, D. Dž. Arnold i drugi. (1994)
- Arhiva istraživačkih radova Arhivirano na sajtu Wayback Machine (1. april 2019) - Džon Hatkins. Elektronska baza (i bibliografija) članaka, radova i knjiga, na temu mašinskog prevođenja i računarskih tehnologija u vezi.
- Mašinsko prevođenje Arhivirano na sajtu Wayback Machine (14. april 2008) - Objavljeni radovi Džona Hatkinsa u PDF formatu
- Džon Hatkins 1999 Arhivirano na sajtu Wayback Machine (7. septembar 2007)
- Mašinski prevodilac Vavilon
- Istorija mašinskog prevođenja - na ruskom jeziku
- Jezički alati kompanije Gugl za automatsko prevođenje tekstova preko principa direktne zamene