Пажња (машинско учење)

Пажња заснована на машинском учењу је механизам који интуитивно опонаша когнитивну пажњу. Он израчунава „меке“ тежине за сваку реч, тачније за њено уграђивање, у прозору контекста. Ове тежине се могу израчунати паралелно (као што је у трансформаторима) или секвенцијално (као у рекурентним неуронским мрежама). „Меке“ тежине могу да се мењају током сваког рада, за разлику од „тврдих“ пондера, који су (пре-)увежбани и фино подешени и остају замрзнути након тога.

Пажња је усмерена на решавање слабости у коришћењу информација из скривених излаза рекурентних неуронских мрежа. Рекурентне неуронске мреже фаворизују новије информације садржане у речима на крају реченице, док се очекује да ће информације раније у реченици бити ослабљене. Пажња омогућава израчунавање скривене репрезентације лексема једнаког приступа било ком делу реченице директно, а не само преко претходног скривеног стања.

Раније употребе повезале су овај механизам са системом за превођење језика серијске рекурентне неуронске мреже (испод), али касније коришћење у Трансформерима великих језичких модела уклонило је рекурентну неуронску мрежу и у великој мери се ослањало на бржу паралелну шему пажње.

Претходници

Претходници механизма су коришћени у рекурентним неуронским мрежама које су, међутим, секвенцијално израчунавале „меке“ тежине и, на сваком кораку, разматрале тренутну реч и друге речи унутар контекстног прозора. Они су били познати као мултипликативни модули, сигма пи јединице^[1] и хипер-мреже.^[2] Они су коришћени у мрежама дуготрајне краткорочне меморије (ЛСТМ), мулти-сензорној обради података (звук, слике, видео и текст) у перцепторима, брзој меморији контролора тежине,^[3] задацима расуђивања у диференцибилним неуронским рачунарима и неуронским Тјуринговим машинама.^[4]^[5]^[6]^[7]^[8]

Референце

^ Румелхарт, Давид Е.; Мццлелланд, Јамес L.; Гроуп, ПДП Ресеарцх (1987-07-29). Параллел Дистрибутед Процессинг, Волуме 1: Еxплоратионс ин тхе Мицроструцтуре оф Цогнитион: Фоундатионс, Цхаптер 2 (ПДФ) (на језику: енглески). Цамбридге, Масс: Брадфорд Боокс. ИСБН 978-0-262-68053-0.
^ Yанн Лецун (2020). Дееп Леарнинг цоурсе ат НYУ, Спринг 2020, видео лецтуре Wеек 6. Корисна информација се налази на: 53:00. Приступљено 2022-03-08.
^ Сцхмидхубер, Јüрген (1992). „Леарнинг то цонтрол фаст-wеигхт мемориес: ан алтернативе то рецуррент нетс.”. Неурал Цомпутатион. 4 (1): 131—139. С2ЦИД 16683347. дои:10.1162/нецо.1992.4.1.131.
^ Гравес, Алеx; Wаyне, Грег; Реyнолдс, Малцолм; Харлеy, Тим; Данихелка, Иво; Грабска-Барwиńска, Агниесзка; Цолменарејо, Сергио Гóмез; Грефенстетте, Едwард; Рамалхо, Тиаго; Агапиоу, Јохн; Бадиа, Адриà Пуигдомèнецх; Херманн, Карл Моритз; Зwолс, Yори; Островски, Георг; Цаин, Адам; Кинг, Хелен; Суммерфиелд, Цхристопхер; Блунсом, Пхил; Кавукцуоглу, Кораy; Хассабис, Демис (2016-10-12). „Хyбрид цомпутинг усинг а неурал нетwорк wитх дyнамиц еxтернал меморy”. Натуре (на језику: енглески). 538 (7626): 471—476. Бибцоде:2016Натур.538..471Г. ИССН 1476-4687. ПМИД 27732574. С2ЦИД 205251479. дои:10.1038/натуре20101.
^ Васwани, Асхисх; Схазеер, Ноам; Пармар, Ники; Усзкореит, Јакоб; Јонес, Ллион; Гомез, Аидан Н; Каисер, Łукасз; Полосукхин, Иллиа (2017). „Аттентион ис Алл yоу Неед” (ПДФ). Адванцес ин Неурал Информатион Процессинг Сyстемс. Цурран Ассоциатес, Инц. 30.
^ Рамацхандран, Прајит; Пармар, Ники; Васwани, Асхисх; Белло, Ирwан; Левскаyа, Анселм; Схленс, Јонатхон (2019-06-13). „Станд-Алоне Селф-Аттентион ин Висион Моделс”. арXив:1906.05909  [цс.CV].
^ Јаегле, Андреw; Гимено, Фелиx; Броцк, Андреw; Зиссерман, Андреw; Винyалс, Ориол; Царреира, Јоао (2021-06-22). „Перцеивер: Генерал Перцептион wитх Итеративе Аттентион”. арXив:2103.03206  [цс.CV].
^ Раy, Тиернан. „Гоогле'с Супермодел: ДеепМинд Перцеивер ис а степ он тхе роад то ан АИ мацхине тхат цоулд процесс анyтхинг анд еверyтхинг”. ЗДНет (на језику: енглески). Приступљено 2021-08-19.

Спољашње везе

Дан Јурафскy анд Јамес Х. Мартин (2022) Спеецх анд Лангуаге Процессинг (3рд ед. драфт, Јануарy 2022), цх. 10.4 Аттентион анд цх. 9.7 Селф-Аттентион Нетwоркс: Трансформерс
Алеx Гравес (4 Маy 2020), Аттентион анд Меморy ин Дееп Леарнинг (видео лецтуре), ДеепМинд / УЦЛ, виа YоуТубе
Раса Алгоритхм Wхитебоард - Аттентион виа YоуТубе

[PDP-1] Румелхарт, Давид Е.; Мццлелланд, Јамес L.; Гроуп, ПДП Ресеарцх (1987-07-29). Параллел Дистрибутед Процессинг, Волуме 1: Еxплоратионс ин тхе Мицроструцтуре оф Цогнитион: Фоундатионс, Цхаптер 2 (ПДФ) (на језику: енглески). Цамбридге, Масс: Брадфорд Боокс. ИСБН 978-0-262-68053-0.

[Lecun2020-2] Yанн Лецун (2020). Дееп Леарнинг цоурсе ат НYУ, Спринг 2020, видео лецтуре Wеек 6. Корисна информација се налази на: 53:00. Приступљено 2022-03-08.

[transform1992-3] Сцхмидхубер, Јüрген (1992). „Леарнинг то цонтрол фаст-wеигхт мемориес: ан алтернативе то рецуррент нетс.”. Неурал Цомпутатион. 4 (1): 131—139. С2ЦИД 16683347. дои:10.1162/нецо.1992.4.1.131.

[Graves2016-4] Гравес, Алеx; Wаyне, Грег; Реyнолдс, Малцолм; Харлеy, Тим; Данихелка, Иво; Грабска-Барwиńска, Агниесзка; Цолменарејо, Сергио Гóмез; Грефенстетте, Едwард; Рамалхо, Тиаго; Агапиоу, Јохн; Бадиа, Адриà Пуигдомèнецх; Херманн, Карл Моритз; Зwолс, Yори; Островски, Георг; Цаин, Адам; Кинг, Хелен; Суммерфиелд, Цхристопхер; Блунсом, Пхил; Кавукцуоглу, Кораy; Хассабис, Демис (2016-10-12). „Хyбрид цомпутинг усинг а неурал нетwорк wитх дyнамиц еxтернал меморy”. Натуре (на језику: енглески). 538 (7626): 471—476. Бибцоде:2016Натур.538..471Г. ИССН 1476-4687. ПМИД 27732574. С2ЦИД 205251479. дои:10.1038/натуре20101.

[allyouneed-5] Васwани, Асхисх; Схазеер, Ноам; Пармар, Ники; Усзкореит, Јакоб; Јонес, Ллион; Гомез, Аидан Н; Каисер, Łукасз; Полосукхин, Иллиа (2017). „Аттентион ис Алл yоу Неед” (ПДФ). Адванцес ин Неурал Информатион Процессинг Сyстемс. Цурран Ассоциатес, Инц. 30.

[Ramachandran2019-6] Рамацхандран, Прајит; Пармар, Ники; Васwани, Асхисх; Белло, Ирwан; Левскаyа, Анселм; Схленс, Јонатхон (2019-06-13). „Станд-Алоне Селф-Аттентион ин Висион Моделс”. арXив:1906.05909  [цс.CV].

[jaegle2021-7] Јаегле, Андреw; Гимено, Фелиx; Броцк, Андреw; Зиссерман, Андреw; Винyалс, Ориол; Царреира, Јоао (2021-06-22). „Перцеивер: Генерал Перцептион wитх Итеративе Аттентион”. арXив:2103.03206  [цс.CV].

[tiernan2021-8] Раy, Тиернан. „Гоогле'с Супермодел: ДеепМинд Перцеивер ис а степ он тхе роад то ан АИ мацхине тхат цоулд процесс анyтхинг анд еверyтхинг”. ЗДНет (на језику: енглески). Приступљено 2021-08-19.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]