Упитнички системи
Упитнички системи (системи: питање-одговор, енгл. Question answering) су врста претраживања информација. За дату колекцију докумената (као што је Интернет или локална колекција) систем треба да буде у стању да пронађе одговоре на питања постављена на природном језику. Упитнички системи се сматрају сложенијим техникама обраде природних језика од претраживања и проналажења информација, и некад се на њих гледа као на следећи корак иза претраживачких машина.
Истраживачи у овој области морају да се носе са великим опсегом питања као што су: чињенице, листе, дефиниције, питањима која почињу са како, зашто, питањима са семантичким ограничењима, итд. Колекције варирају од малих колекција до целог Интернета.
- Упитнички системи затвореног домена одговарају на питања из специфичне области, на пример само на питања везана за кварове на аутомобилима. Изградња оваквог система може бити олакшана тиме што системи за обраду језика могу да користе мање количине знања које се најчешће организује у виду онтологије.
- Упитнички системи отвореног типа одговарају на питања из свих области, ослањају се на опште онтологије и светско знање. С друге стране, ови системи најчешће користе веће базе знања у којима могу пронаћи одговор.
Архитектура
[уреди | уреди извор]Први упитнички системи су развијени шездесетих година двадесетог века и били су пре свега интерфејс за експертске системе који је написан да би човек комуницирао са овим системом на природном језику. Насупрот томе, савремени упитнички системи користе текстуалне документе као скуп знања којим располажу.
Савремени упитнички системи најчешће садрже модул за класификацију питања који одређује тип питања и тип одговора. Након анализе питања, систем најчешће користи неколико модула који покушавају да смање количину текста у којој треба наћи одговор. Модул за проналажење докумената користи претраживачке машине да пронађе документе и параграфе у којима се може налазити одговор на питање. На крају систем покушава да конструише и сам одговор. На пример, ако је питање било „Када је умро Аристотел?“, тада систем треба да установи да се ради о питању чији одговор треба да буде одредница за време. Потом неколико модула треба да пронађе документе у којима се помиње Аристотелова смрт. Ово је компликован део, с обзиром на то да се експлицитан одговор не мора налазити у тексту. У тексту не мора писати „Аристотел је умро 322. године п. н. е.“ већ може писати „Не зна се тачно када је Аристотел рођен, али је свакако он био један од највећих филозофа који су икада живели. Према неким подацима, умро је највероватније 322. године п. н. е.“ Систем треба да препозна да се и друга реченица овог текста односи на Аристотела, као и да прпозна који део реченице садржи временску одредницу.
Методи
[уреди | уреди извор]Упитнички систем умногоме зависи од доброг корпуса. Без документа који садржи одговор, ниједан савремени упитнички систем не може много тога да уради. Зато је логично да системи који користе веће колекције доводе до бољих резултата. Појам редундантности података у великим колекцијама доводи до тога да информације могу бити пронађене на различитим местима у различитом облику. С обзиром на то:
- Систем може пронаћи неку информацију чак иако није у стању да извршава компликоване језичке трансформације, јер ће се одговор у траженом облику наћи у неком документу.
- Систем може да открије и одбаци погрешне информације, уз претпоставку да ће се тачан податак јавити више пута од погрешног.
Плитки методи
[уреди | уреди извор]Код плитких метода (енгл. Shallow) упитнички системи користе претрагу на основу кључних речи да би пронашли део текста у коме се може налазити одговор на питање. Рангирање се потом врши према синтаксним карактеристикама као што је ред речи или сличности текста и упита. Када користе велику колекцију докумената неки системи користе шаблоне да пронађу одговор у нади да је велики део одовора преформулисано питање. Тако нпр, ако је питање „Шта је рачунар?“ систем ће ово питање представити у облику „Шта је X?“ и покушати да нађе одговор у облику „X је Y.“ Овакав приступ је довољно добар за једноставна питања.