Хесијан матрица
У математици, Хесијан матрица или Хесијан је квадратна матрица парцијалних извода другог реда скаларне функције или скаларног поља . Он описује локалну кривину функције многих променљивих. Хесијанову матрицу је у 19. веку развио немачки математичар Лудвиг Ото Хесе и касније је названа по њему. Хесе је првобитно користио термин „функционалне одреднице“.
Претпоставимо да је функција која као улаз узима вектор и излаз скалара Ако су сви други парцијални изводи од постојећи и непрекидни су у домену функције, онда Хесијанова матрица од је квадрат матрица, обично дефинисана и уређена на следећи начин:или, навођењем једначине за коефицијенте користећи индексе i и j,Хесијанова матрица је симетрична матрица, пошто хипотеза о континуитету других извода подразумева да ред диференцијације није битан ( Шварцова теорема ).
Детерминанта Хесијанове матрице назива се Hessian determinant [1]
Хесијанова матрица функције је Јакобијанска матрица градијента функције ; то је:
Примена
[уреди | уреди извор]Прегибне тачке
[уреди | уреди извор]Ако је хомогени полином у три варијабле, једначина је имплицитна једначина равне пројективне криве . Прегибне тачке криве су управо оне несингуларне тачке у којима је Хесијанова детерминанта нула. Из Безуове теореме следи да кубична равна крива има највише превојне тачке, пошто је Хесова детерминанта полином степена
Тест другог извода
[уреди | уреди извор]Хесијанова матрица конвексне функције је позитивна полуодређена . Пречишћавање ове особине нам омогућава да тестирамо да ли је критична тачка је локални максимум, локални минимум или тачка седла, како следи:
Ако је Хесијан позитивно-дефинисан у онда достиже изоловани локални минимум у Ако је Хесијан негативно-дефинитан у онда достиже изоловани локални максимум у Ако Хесијан има и позитивне и негативне сопствене вредности, онда је седло за У супротном, тест је неуверљив. Ово имплицира да је на локалном минимуму Хесијан позитивно-полуодређен, а на локалном максимуму Хесијан је негативно-полуодређен.
За позитивно-семидефинитне и негативно-семидефините хесијане тест је неуверљив (критична тачка у којој је хесијан полуодређен, али није одређен може бити локални екстрем или тачка седла). Међутим, више се може рећи са становишта Морзеове теорије .
Тест другог извода за функције једне и две променљиве је једноставнији од општег случаја. У једној променљивој, Хесијан садржи тачно један други извод; ако је позитиван, онда је локални минимум, а ако је негативан, онда је локални максимум; ако је нула, онда је тест неуверљив. Када имамо две променљиве, детерминанта може бити корисна, јер је детерминанта производ својственим вредностима. Ако је позитивана, онда су сопствене вредности обе позитивне или обе негативне. Ако је негативан, онда две сопствене вредности имају различите предзнаке. Ако је нула, онда је тест другог извода неуверљив.
Еквивалентно, услови другог реда који су довољни за локални минимум или максимум могу се изразити у смислу редоследа главних (крајњи горњи леви) минора (детерминанте подматрица) Хесијана; ови услови су посебан случај оних који су дати у следећем одељку за ограничене хесијане за ограничену оптимизацију - случај у којем је број ограничења нула. Конкретно, довољан услов за минимум је да сви ови главни минори буду позитивни, док је довољан услов за максимум да се минори смењују у знаку, са минор је негативан.
Критичне тачке
[уреди | уреди извор]Ако је градијент (вектор парцијалних извода) функције нула у неком тренутку онда има критичну тачку (или стационарну тачку ) у Детерминанта Хесијана у се у неким контекстима назива дискриминантом . Ако је ова детерминанта нула онда се назива дегенеративна критична тачка од или не-Морзеова критична тачка од Иначе је недегенерисана и назива се Морзеова критична тачка од
Хесијанова матрица игра важну улогу у Морзеовој теорији и теорији катастрофе, јер њено језгро и сопствене вредности омогућавају класификацију критичних тачака. [2] [3] [4]
Детерминанта Хесијанове матрице, када се процени у критичној тачки функције, једнака је Гаусовој кривини функције која се сматра многоструком. Сопствене вредности Хесијана у тој тачки су главне кривине функције, а сопствени вектори су главни правци кривине.
Употреба у оптимизацији
[уреди | уреди извор]Хесијан матрице се користе у оптимизацијским проблемима великих размера у оквиру Њутнове мотеоде јер су коефицијент квадратног члана локалне Тејлорове експанзије функције. То је,где је градијент Израчунавање и чување пуне хесијанове матрице има комплексност , што је неизводљиво за високодимензионалне функције као што су функције губитка, неуронске мреже, условна случајна поља и други статистички модели са великим бројем параметара. За такве ситуације развијени су скраћени Њутнов и квазиЊутнов алгоритам. Последња породица алгоритама користи апроксимације Хесијана; један од најпопуларнијих квази-Њутнових алгоритама је BFGS . [5]
Такве апроксимације могу користити чињеницу да алгоритам оптимизације користи Хесијан само као линеарни оператор и настави тако што ће прво приметити да се Хесијан такође појављује у локалној експанзији градијента: за неки скалар ово дајешто је,па ако је градијент већ израчунат, приближни Хесијан се може израчунати линеарним (у величини градијента) бројем скаларних операција. (Иако је једноставна за програмирање, ова шема апроксимације није нумерички стабилна јер мора бити мала да би се спречила грешка због комплексности, али његовим смањењем губи се прецизност. [6] )
Друге примене
[уреди | уреди извор]Хесијан матрица се обично користи за изражавање оператора за обраду слике и компјутерском виду (погледајте Лапласов Гаусов (LoG) детектор мрља, детерминанту Хесијану (DoH) детектора мрља и простор скале ). Хесијан матрица се такође може користити у анализи нормалног режима за израчунавање различитих молекуларних фреквенција у инфрацрвеној спектроскопији . [7]
Генерализације
[уреди | уреди извор]Ограничени Хесијан
[уреди | уреди извор]Ограничени Хесијан се користи за тест другог извода у одређеним ограниченим проблемима оптимизације. С обзиром на функцију коју смо претходно разматрали, али додајући функцију ограничења такву да ограничен Хесијен је Хесијен Лагранжове функције [8]Ако постоје, рецимо, ограничења онда је нула у горњем левом углу блок нула, док постоје граничних редова на врху и граничне колоне на левој страни.
Горенаведена правила која наводе да су екстреми окарактерисани (међу критичним тачкама са не-сингуларним хесијаном) позитивно-дефинитивним или негативно-дефинитивним хесијаном не могу се применити овде пошто ограничени хесијан не може бити ни негативно-дефинитан ни позитивно-дефинитан, као ако је било који вектор чији је једини унос који није први нула.
Тест другог извода се овде састоји од ограничења знака детерминанти одређеног скупа подматрице ограниченог Хесијана. [9] Интуитивно, ограничења се могу сматрати свођењем проблема на једно са слободне променљиве. (На пример, максимизација функције подложан ограничењу може се свести на максимизацију од без ограничења. )
Конкретно, предзначни услови се намећу низу водећих главних минора (детерминанте горње-лево оправданих подматрица) ограниченог Хесијана, за које су први водећи главни минори занемарени, најмањи минор који се састоји од скраћеног првог редова и колона, следећи се састоји од скраћеног првог редова и колона, и тако даље, при чему је последњи цео ограничен Хесијан; ако је већи од онда је најмањи водећи главни минор Хесијан. [10] Тако постоје минори које треба узети у обзир, а свако оцењен у одређеном тренутку сматра се кандидатом за максимум или минимум . Довољан услов за локални максимум је да се ови минори смењују у знаку са најмањим који има предзнак Довољан услов за локални минимум је да сви ови минори имају предзнак (У неограниченом случају ови услови се поклапају са условима да неограничени Хесијан буде негативно одређен или позитивно одређен).
Векторске функције
[уреди | уреди извор]Ако је уместо тога векторско поље онда је,збирка других парцијалних извода није матрица, већ тензор трећег реда. Ово се може замислити као низ од Хесијан матрица, по једна за сваку компоненту :Овај тензор се дегенерише у уобичајену Хесијанову матрицу када
Генерализација на сложен случај
[уреди | уреди извор]У контексту неколико комплексних променљивих, Хесијан се може генерализовати. Претпоставимо и писати Тада је генерализовани Хесијан Ако задовољава n-димензионалне Коши–Риман услове, онда је комплексна Хесијанова матрица идентично нула.
Генерализације на Риманове многострукости
[уреди | уреди извор]Нека буде Риманова многострукост и његова веза Леви-Чивита . Нека буде глатка функција. Дефинишемо Хесијанов тензор сапри чему се овим користи чињеница да је први коваријантни извод функције исти као и њен обични извод. Избор локалних координата даје локални израз за Хесијан каогде су Кристофелови симболи везе. Други еквивалентни облици за Хесијан су дати по
Види још
[уреди | уреди извор]- Детерминанта Хесијанове матрице је коваријанта; види Инваријанта бинарног облика
- Идентитет поларизације, користан за брза израчунавања која укључују Хесијан.
- Јакобинјанова матрица
Референце
[уреди | уреди извор]- ^ Binmore, Ken; Davies, Joan (2007). Calculus Concepts and Methods. Cambridge University Press. стр. 190. ISBN 978-0-521-77541-0. OCLC 717598615.
- ^ Callahan, James J. (2010). Advanced Calculus: A Geometric View (на језику: енглески). Springer Science & Business Media. стр. 248. ISBN 978-1-4419-7332-0.
- ^ Casciaro, B.; Fortunato, D.; Francaviglia, M.; Masiello, A., ур. (2011). Recent Developments in General Relativity (на језику: енглески). Springer Science & Business Media. стр. 178. ISBN 9788847021136.
- ^ Domenico P. L. Castrigiano; Sandra A. Hayes (2004). Catastrophe theory. Westview Press. стр. 18. ISBN 978-0-8133-4126-2.
- ^ Nocedal, Jorge; Wright, Stephen (2000). Numerical Optimization. Springer Verlag. ISBN 978-0-387-98793-4.
- ^ Pearlmutter, Barak A. (1994). „Fast exact multiplication by the Hessian” (PDF). Neural Computation. 6 (1): 147—160. doi:10.1162/neco.1994.6.1.147. Архивирано из оригинала (PDF) 15. 11. 2021. г. Приступљено 15. 11. 2021.
- ^ Mott, Adam J.; Rez, Peter (24. 12. 2014). „Calculation of the infrared spectra of proteins”. European Biophysics Journal (на језику: енглески). 44 (3): 103—112. ISSN 0175-7571. doi:10.1007/s00249-014-1005-6.
- ^ Hallam, Arne (7. 10. 2004). „Econ 500: Quantitative Methods in Economic Analysis I” (PDF). Iowa State.
- ^ Neudecker, Heinz; Magnus, Jan R. (1988). Matrix Differential Calculus with Applications in Statistics and Econometrics. New York: John Wiley & Sons. стр. 136. ISBN 978-0-471-91516-4.
- ^ Chiang, Alpha C. (1984). Fundamental Methods of Mathematical Economics (Third изд.). McGraw-Hill. стр. 386. ISBN 978-0-07-010813-4.
Литература
[уреди | уреди извор]- Lewis, David W. (1991). Matrix Theory. Singapore: World Scientific. ISBN 978-981-02-0689-5.
- Magnus, Jan R.; Neudecker, Heinz (1999). „The Second Differential”. Matrix Differential Calculus : With Applications in Statistics and Econometrics (Revised изд.). New York: Wiley. стр. 99–115. ISBN 0-471-98633-X.
Спољашње везе
[уреди | уреди извор]- Hazewinkel, Michiel, ур. (2001) [1994], „Hessian of a function”, Encyclopedia of Mathematics, Springer Science+Business Media B.V. / Kluwer Academic Publishers, ISBN 978-1-55608-010-4
- Weisstein, Eric W. „Hessian”. MathWorld.