Једнократно учење (рачунарска визија)
Једнократно учење је проблем категоризације објеката, углавном заступљен у рачунарској визији. Док већина алгоритама за категоризацију објеката заснованих на машинском учењу захтева обуку на стотинама или хиљадама примера, једнократно учење има за циљ да класификује објекте на основу једног или само неколико примера. За проблеме овог типа се такође користи термин учење са неколико покушаја посебно у случајевима када када је потребно више примера за тренирање.
Мотивација
[уреди | уреди извор]Способност катеоризације објеката на основу неколико познатих примера је демонстрирана код људи. Процењено је да дете до своје шесте године научи између 10 и 30 хиљада категорија објеката у свету. Ово није последица само велике моћи људског ума, већ и могућности да створи и научи нове категорије објеката на основу познатих информација о различитим, претходно наученим категоријама. Имајући два примера из две категорије објеката, где прву категорију чини непознат објекат састављен од познатих облика, а другу категорију чини непознат, безобличан облик; људима је знатно лакше да препознају прву категорију, што инсинуира да људи ослањају на познате категорије приликом учења нових. Главни подстрек приликом разумевања учења са једним покушајем, јесте чињеница да системи, попут људи, могу искористити претходно знање о познатим објектима приликом класификације нових.
Позадина
[уреди | уреди извор]Као и код већине класификационих шема, једнократно учење укључује три главна изазова:[1]
- Репрезентација: Како треба описати објекте и категорије?
- Учење: Како се могу направити такви описи?
- Препознавање: Како се познати објекат може филтрирати од нереда који га окружује, без обзира на блокаду, тачку гледишта и осветљење?
Једнократно учење се разликује од препознавања појединачних објеката и стандардних алгоритама за препознавање категорија по свом нагласку на преносу знања (енгл. knowledge transfer), који користи претходно научене категорије.
- Параметри модела: Поново користи параметре модела, на основу сличности између старих и нових категорија. Категорије се најпре уче на основу бројних тренинг примера, након чега се за учење нових категорија примењују трансформације параметара модела иницијалних категорија, или се бирају параметри за класификатор. Категорије се прво уче на бројним примерима обуке, а затим се нове категорије уче коришћењем трансформација параметара модела из тих почетних категорија или одабиром одговарајућих параметара за класификатор.[2]
- Дељење функција: Врши поделу делова или карактеристика објеката по категоријама. Један алгоритам издваја "дијагностичке информације" у сегментима из већ научених категорија тако што максимизира заједничке информације сегмената, а затим примењује ове карактеристике на учење нове категорије. На пример, категорија пса се лако може научити у једном покушају на основу претходног знања о категоријама коња и крава, из разлога што категорија пас може да саржи сличне раздвајајуће закрпе.[3]
- Контекстуалне информације: Позива се на глобално познавање сцене у којој се објекат појављује. Такве глобалне информације могу се користити за расподелу фреквенција у условним насумичним пољима (енгл. conditional random field)[4] Алтернативно, контекст може узети у обзир висину камере и геометрију сцене.[5] Алгоритми овог типа имају две предности. Прво, уче категорије објеката које су релативно различите; и друго, за ову сврху показују добре перформансе у ситуацијама где слика није ручно изрезана и поравната.[6]
Теорија
[уреди | уреди извор]Бајесов алгоритам за учење са једним покушајем представља први план и позадину слика параметризованих различитим моделима. које су параметризоване мешавином груписаних модела.[7] Током фазе учења, параметри ових модела се уче коришћењем параметра густине апостериорне вероватноће и алгоритма очекивања-максимизације код варијационог Бајеса.[8] У овој фази претходно научене категорије објеката информишу избор параметара модела путем преноса контекстуалног значења. За препознавање објеката на новим сликама, апостериорна вероватноћа добијена током фазе учења се користи у Бајесовом систему доношења одлуке зарад процене односа п(објекат | тест, воз) према п(неред у позадини | тест, воз), где је п вероватноћа излаза.
Примена Бајесове теореме
[уреди | уреди извор]Узимајући у обзир задатак проналажења одређеног објекта на слици , општи циљ Бајесовог алгоритма једнократног учења је да упореди вероватноћу да је објекат присутан са вероватноћом да је присутан само "неред" у позадини. Ако је вероватноћа постојања објекта на слици већа, алгоритам пријављује његово присуство. Да би се израчунале поменуте вероватноће, неопходно је да је класа објекта моделирана из скупа од (1 ~ 5) слика за тренирање које садрже примере.
Зарад формализовања ових идеја, нека је слика коју је потребно класификовати, односно упитна слика која садржи или пример категорије у првом плану или сам неред генеричке позадинске категорије . Такође, нека је скуп слика за тренинг које се користе као категорија у првом плану. Одлука да ли садржи објекат из категорије првог плана, или је само неред из категорије позадине :
где су класе постериори и проширени Бајесовом теоремом, резултујући односом вероватноће и односом априорних вероватноћа категорије објеката . Доноси се одлука да слика садржи објекат из класе првог плана ако прелази одређени праг . Затим се уводе параметарски модели за категорије првог плана и позадинских категорија са параметрима и , респективно. Овај параметарски модел у првом плану се учи током фазе учења од , као на основу претходних информација научених категорија. За модел позадине се претпоставља да је униформан на свим сликама. Изостављајући константан однос приора катеогирја, , и параметризовање преко и приноси
- , упростиштено и да и
Апостериорна расподела параметара модела на основу познатих слика за тренирање, процењује се у фази учења. У овој процени, једнократно учење се веома разликује од традиционалних Бајесових модела процене који апроксимирају интеграл као . Уместо тога, користи се варијациони приступ користећи претходне информације из претходно научених категорија. Традиционална процена максималне вероватноће параметара модела се користи за позадински модел и категорије научене унапред кроз обуку.[9]
Модел категорије објеката
[уреди | уреди извор]За сваку слику упита и слике за тренирање , за представљање се користи модел констелације (енгл. constellation model).[7][10][11] Да бисте добили овај модел за дату слику , прво се на слици детектује скуп од N региона интереса помоћу Кадир-Брадијевог детектора салиенци (енгл. Kadir-Brady saliency detector).[12] Сваки изабрани регион је представљен локацијом на слици, и описом његовог изгледа, . Ако су
и и аналогне репрезентације слика за обуку, израз за R постаје:
Вероватноће и представљене су као мешавине модела констелације. Типичан модел констелације има P(3 ~ 7) делова, са N(~100) региона интереса. Тако P-димензионални вектор h додељује један регион интереса (од N постојећих региона) сваком делу модела (за P делове). Тако h означава хипотезу (додељивање региона интереса деловима модела) за модел, а модел пуне констелације је представљен сумацијом свих могућих хипотеза h у простору хипотеза . Коначно је написана формула вероватноће
Другачији параметри представљају различите конфигурације делова, док различите хипотезе h представљају различите доделе региона деловима, датим делом модела . Претпоставка да су облик модела (представљеним преко , колекција локација делова) и појаве независни омогућавају разматрање израза вероватноће као две одвојене вероватноће појаве и облика.[13]
Појава
[уреди | уреди извор]Појава сваке карактеристике је представљена тачком у простору појављивања (о којој се говори у наставку, у поглављу примене). „Сваки део у моделу констелације има Гаусову густину унутар овог простора са средњим и прецизним параметрима Из њих се горе описана вероватноћа појављивања израчунава као производ Гауссових преко делова модела за дату хипотезу h и компоненту композиције .[14]
Облик
[уреди | уреди извор]Облик модела за дату композитну компоненту а хипотезу х је представљен као заједничка Гаусова густина локација карактеристика. Ове карактеристике се трансформишу у скали и транслационо инваријантном простору пре моделирања релативне локације делова помоћу 2(P - 1)-димензионалног Гаусовог простора. Из овога добијамо вероватноћу облика, употпунивши нашу репрезентацију . У циљу смањења броја хипотеза у простору хипотеза , разматрају се само оне хипотезе које задовољавају ограничење уређења да је x-координата сваког дела монотоно растућа. Ово елиминише хипотеза из .[14]
Густина конјуговане вредности
[уреди | уреди извор]Да би се израчунала вредност , потребно је решити интеграл који је аналитички нерешив. Претходно поменут модел категорије објекта пружа информацију о , те је преостало прегледати , а постериор за и пронаћи довољно добру апроксимацију за поменути интеграл. Претходни радови апроксимирају а постериори вероватноћу путем функције са центром у , сводећи интеграл на . се уобичајено процењује методом процене максималне вероватноће () или максимум а постериори () процедурама. Међутим, с обзиром да се код учења користи свега неколико примера за тренинг, расподела неће бити изражена, као што се и претпоставља апроксимацијом путем функције. Из тог разлога уместо традиционалне апроксимације, Бајесов алгоритам учења са једним покушајем тежи да "пронађе параметарску форму тако да је учење p изводљиво". Алгоритам примењује нормалану Вишартову расподелу (енгл. Normal-Wishart distribution) као априор конјуговане вредности , а у фази учења, варијационеБајесове методе са истом рачунском сложеношћу, као што се методе максималне вероватноће користе за учење хиперпараметара расподеле. Затим, с обзиром да је p производ Гаусових вредности, постављеним у оквиру модела категорије објеката, интеграл се своди на мултиваријациону t-анализу (енгл. multivariate Stundent's T distribution) и може се проценити.
Имплементација
[уреди | уреди извор]Откривање и представљање карактеристика
[уреди | уреди извор]Да би се откриле карактеристике на слици тако да се она може представити моделом констелације, Кадир-Брејдијев детектор истакнутости се користи на сивим сликама, проналазећи истакнуте делове слике. Ови региони се затим групишу, резултујући низом карактеристика (кластера) и параметром облика , састављеним од центара кластера. Кадир-Брејдијев детектор је изабран зато што производи мањи број истакнутије регионе, за разлику од детектора као што је више скаларни Харис, који производи бројне, мање значајне регионе.
Учење
[уреди | уреди извор]Да би се одржао претходни облик и изглед, три категорије (мачке, лица и авиони) се уче коришћењем процене максималне вероватноће. Параметри ових категорија објеката се касније користе за процену хиперпараметара жељених а приора.
С обзиром на скуп примера обуке, алгоритам покреће детектор карактеристика на овим сликама и одређује параметре модела из истакнутих региона. Индекс хипотезе х који додељује особине деловима онемогућава затворено решење линеарног модела, тако да задња процењује се варијационим Бајесовим алгоритмом очекивања–максимизација, који се изводи до конвергенције параметара после ~ 100 итерација. Учење категорије на овај начин траје мање од једног минута на 2.8 GHz машина са моделом од 4 дела и < 10 слика за обуку.[15]
Експериментални резултати
[уреди | уреди извор]Пример мотоцикла
[уреди | уреди извор]Да бисте научили категорију мотоцикла:
- Изабрано је шест тренинг слика из категорије мотоцикала из Калтек 4 скупа података и примењен је Кадир–Брејдијев детектор, резултујући са и добијенпреко анализе главних компоненти.
- Затим, априорни параметри модела се израчунавају из 30 модела , по 10 из сваке од три научене категорије: уочене мачке, лица и авиони. Априори енкодирају знање да "модели којима фали визуелни континуитет окупирају различити део простора параметара у односу на кохерентне моделе"
- У учењу, које се изводи следеће, важи ка деловима параметарског простора који одговарају кохерентним моделима. Користи се само једна компонента мешавине, па је . Процена задњег дела је приказана у наставку.
- Коначно, слике испод приказују научени модел мотоцикла са обликом и изгледом делова и одговарајућим карактеристикама.
- За тестове препознавања, горе поменути модел се примењује на 50 слика које садрже моторе и 50 које не садрже. Слика испод приказује ROC криву, која мери вероватноћу детекције у односу на вероватноћу лажне детекције, као и неке препознате примере.
Заједничке густине на трансформацијама
[уреди | уреди извор]Још један алгоритам користи пренос знања преко параметара модела да би научио нову категорију објекта која је по изгледу слична претходно наученим категоријама. Слика је представљена или као текстура и облик, или као латентна слика која је трансформисана, означена са .
Сијамска неуронска мрежа (енгл. Siamese neural network) ради у заједно на два различита улазна вектора да би израчунала упоредиве излазне векторе.[16]
Згушњавања
[уреди | уреди извор]У овом контексту, згушњавање је „истовремена векторизација сваке од сета слика једне према другој“. За скуп слика за обуку одређене категорије, згушњавање итеративно трансформише сваку слику како би се минимизирале заједничке пикселне ентропије E слика, где је
„где је бинарна случајна променљива дефинисана вредностима одређеног пиксела p на свим сликама, је дискретна ентропијска функција те променљиве, и је скуп индекса пиксела за слику."
Алгоритам згрушавања почиње скупом слика и одговарајућом матрицом трансформације , који ће на крају алгоритма представљати трансформацију од у . Ови латентни минимизираЈУ заједничке ентропије у пикселима. Стога је задатак алгоритма за згушњавање да процени трансформације .
Скица алгоритма:
- Иницијализација матрица
- Израчунавање заједничких ентропија по пикселима тренутног скупа слика.
- За сваку слику , итерирати кроз све могуће афине трансформације (ротација, x-транслација, y-транслација, x-скала, y-скала, x-смицање, y-смицање) и тестирати да ли смањује заједничку ентропију у пикселима. Ако смањује наведену ентропију, поставити .
- Поновити претходне кораке док не дође до конвергенције.
На крају алгоритма, , и трансформише латентну слику назад у првобитно посматрану слику.[17]
Класификација
[уреди | уреди извор]Да би се овај модел користио за класификацију, неопходно је да се изврши његова процена максималном апостериорном вероватноћом уз дату посматрану слику . Применом Бајесовог правилаа на и параметризацијом трансформације добијамо тежак интеграл који се мора апроксимирати, а затим је потребно пронаћи најбољу трансформацију (оно што пресликава тест слику на њену латентну слику). Једном када се ова трансформација пронађе, тест слика се може трансформисати у њену латентну, а класификатор најближег komšije заснован на Хаусдорфовој удаљености између слика може класификовати латентну (а тиме и тест слику) као да припада одређеној класи .
За проналазак , пробна слика I се убацује у тренинг скуп за процес згрушавања. Пошто је тест слика извучена из једне од категорија , згушњавање резултује са које мапира пробну слику I у свој латент. Латентни се тада могу класификовати.[18]
Класификација са једним примером
[уреди | уреди извор]С обзиром на скуп трансформација добијен згушњавањем више слика одређене категорије, класификатор се може проширити на случај када је дозвољен само један тренинг пример нове категорије . Примењујући све трансформације секвенцијално на ствара вештачки тренинг сет за категорију . Овај вештачки скуп података може се повећати позајмљивањем трансформација из многих већ познатих категорија. Када се добије овај скуп података, пример , тест инстанца категорије , може се класификовати као у уобичајеном поступку класификације. Кључна претпоставка је да су категорије довољно сличне да се трансформације из једне могу применити на другу.[19]
Види још
[уреди | уреди извор]- Алгоритам очекивања-максимизације
- Бајесово закључивање
- Учење правилом асоцијације
- Учење без иједног покушаја
Референце
[уреди | уреди извор]- ^ Li, Fergus & Perona 2006, Section 2.
- ^ Fink 2004.
- ^ Bart & Ullman 2005.
- ^ Murphy & et al 2004.
- ^ Hoiem, Efros & Herbert 2005.
- ^ Li 2006, Section 2.
- ^ а б Burl & et al 1996.
- ^ Attias 1999.
- ^ Li, Fergus & Perona 2006, Section 3.1.
- ^ Weber, Welling & Perona 2000.
- ^ Fergus, Perona & Zisserman 2003.
- ^ Kadir & Brady 2001.
- ^ Li, Fergus & Perona 2006, Section 3.2.
- ^ а б Li, Fergus & Perona 2006, Section 3.2.1.
- ^ Li, Fergus & Perona 2006, Sections 4, 5.2.
- ^ Few-Shot Learning (2/3): Siamese Networks. Архивирано из оригинала 25. 08. 2024. г. Приступљено 25. 08. 2024.
- ^ Miller et al.
- ^ Miller, Matsakis & Viola 2000, Section 4.
- ^ Miller, Matsakis & Viola 2000, Section 7.
Литература
[уреди | уреди извор]- Li, Fei Fei (2006). „Knowledge transfer in learning to recognize visual object classes” (PDF). International Conference on Development and Learning (ICDL).[мртва веза]
- Li, Fei Fei; Fergus, R.; Perona, P. (2006). „One-Shot learning of object categories” (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (4): 594—611. PMID 16566508. S2CID 6953475. doi:10.1109/TPAMI.2006.79.[мртва веза]
- Miller; Matsakis; Viola (2000). „Learning from One Example through Shared Densities on Transforms” (PDF). Proc. Computer Vision and Pattern Recognition.
- Li, F.F.; VanRullen, R.; Coch, C.; Perona, P. (2002). „Rapid natural scene categorization in the near absence of attention”. PNAS. 99 (14): 9596—9601. Bibcode:2002PNAS...99.9596L. PMC 123186 . PMID 12077298. doi:10.1073/pnas.092277599 .
- Thorpe, S.; Fize, D.; Marlot, C. (1996). „Speed of processing in the human visual system” (PDF). Nature. 381 (6582): 520—522, 1996. Bibcode:1996Natur.381..520T. PMID 8632824. S2CID 4303570. doi:10.1038/381520a0.
- Biederman, I. (1987). „Recognition-by-Components: a theory of human understanding” (PDF). Psychological Review. 94 (2): 115—147. PMID 3575582. doi:10.1037/0033-295X.94.2.115. Архивирано из оригинала (PDF) 29. 11. 2022. г. Приступљено 25. 08. 2024.
- Fink, M. (2004). „Object classification from a single example utilizing class relevance pseudo-metrics”. NIPS. CiteSeerX 10.1.1.91.7461 .
- Bart; Ullman (2005). „Cross-generalization: learning novel classes from a single example by feature replacement” (PDF). CVPR. Архивирано из оригинала (PDF) 06. 12. 2022. г. Приступљено 25. 08. 2024.
- Murphy, K.; Torralba, A.; Freeman, W.T. (2004). „Using the forest to see the trees: a graphical model relating features, objects, and scenes” (PDF). NIPS.
- Hoiem, D.; Efros, A.A.; Herbert, M. (2005). „Geometric context from a single image” (PDF). ICCV.
- Attias, H. (1999). „Inferring Parameters and Structure of Latent Variable Models by Variational Bayes”. Proc. Of the 15th Conf. In Uncertainty in Artificial Intelligence: 21—30. arXiv:1301.6676 .
- Burl, M.; Weber, M.; Perona, P. (1996). „A Probabilistic Approach to Object Recognition Using Local Photometry and Global Geometry” (PDF). Proc. European Conf. Computer Vision. Lecture Notes in Computer Science. 1407: 628—641. ISBN 978-3-540-64613-6. doi:10.1007/BFb0054769.
- Fergus, R.; Perona, P.; Zisserman, A. (2003). „Object Class Recognition by Unsupervised Scale-Invariant Learning” (PDF). Proc. Computer Vision and Pattern Recognition: 264—271.
- Weber, M.; Welling, M.; Perona, P. (2000). „Unsupervised Learning of Models for Recognition” (PDF). Proc. European Conf. Computer Vision. Lecture Notes in Computer Science. 1842: 101—108. ISBN 978-3-540-67685-0. doi:10.1007/3-540-45054-8_2.
- Kadir, T.; Brady, M. (2001). „Scale, Saliency, and Image Description”. International Journal of Computer Vision. 45 (2): 83—105. S2CID 825395. doi:10.1023/A:1012460413855.