Пређи на садржај

Markovljev proces odlučivanja

С Википедије, слободне енциклопедије

U matematici, Markovljev proces odlučivanja (MDP) je stohastički kontrolni proces sa diskretnim vremenom. On pruža matematički okvir za modelovanje donošenja odluka u situacijama u kojima su ishodi delimično randomni, a delom pod kontrolom donosioca odluka. MDP-ovi su korisni za proučavanje problema optimizacije rešenih dinamičkim programiranjem. MDP-ovi su bili poznati bar još 1950-ih;[1] jezgro istraživanja o Markovljevim procesima odlučivanja je rezultat knjige Ronalda Hauarda iz 1960. Dinamičko programiranje i Markovljevi procesi.[2] Oni se koriste u mnogim disciplinama, uključujući robotiku, automatsku kontrolu, ekonomiju i proizvodnju. Naziv MDP-a potiče od ruskog matematičara Andreja Markova jer su oni produžetak Markovljevih lanaca.

U svakom vremenskom koraku, proces je u nekom stanju , a donosilac odluke može izabrati bilo koju radnju koja je dostupna u stanju . Proces reaguje u sledećem vremenskom koraku tako što se randomno kreće u novo stanje i daje donosiocu odluke odgovarajuću nagradu .

Izabrana radnja utiče na verovatnoću da proces pređe u svoje novo stanje . Konkretno, data je funkcijom prelaza stanja . Dakle, sledeće stanje zavisi od trenutnog stanja i akcije donosioca odluke . Ali s obzirom na i , uslovno je nezavisno od svih prethodnih stanja i radnji; drugim rečima, tranzicije stanja MDP-a zadovoljavaju Markovljevo svojstvo.

Markovljevi procesi odlučivanja su produžetak Markovljevih lanaca; razlika je dodavanje akcija (omogućavanje izbora) i nagrada (davanje motivacije). Suprotno tome, ako postoji samo jedna radnja za svako stanje (npr. „čekaj“) i sve nagrade su iste (npr. „nula“), proces Markovljevog odlučivanja se svodi na Markovljev lanac.

Primer jednostavnog MDP-a sa tri stanja (zeleni krugovi) i dve akcije (narandžasti krugovi), sa dve nagrade (narandžaste strelice)

Markovljev proces odlučivanja je 4-orka , gde je:

  • je skup stanja koji se naziva prostor stanja,
  • je skup radnji koje se nazivaju prostor radnje (alternativno, je skup akcija dostupnih iz stanja ),
  • je verovatnoća da će radnja u stanju u vreme dovesti do stanja u vreme ,
  • je neposredna nagrada (ili očekivana trenutna nagrada) dobijena nakon prelaska iz stanja u stanje , zbog radnje

Prostori stanja i radnje mogu biti konačni ili beskonačni, na primer skup realnih brojeva. Neki procesi sa prebrojivo beskonačnim prostorima stanja i delovanja mogu se svesti na one sa konačnim prostorima stanja i delovanja.[3]

Funkcija politike je (potencijalno probabilističko) mapiranje iz prostora stanja () u prostor delovanja ().

Cilj optimizacije

[уреди | уреди извор]

Cilj u Markovljevom procesu odlučivanja je da se pronađe dobra „politika“ za donosioca odluka: funkcija koja određuje radnju koju će donosilac odluke izabrati kada je u stanju . Nakon što se Markovljev proces odlučivanja kombinuje sa politikom na ovaj način, ovo fiksira radnju za svako stanje i rezultirajuća kombinacija se ponaša kao Markovljev lanac (pošto je radnja izabrana u stanju potpuno određena sa i se svodi na , Markovljevu prelaznu matricu).

Cilj je odabrati politiku koja će maksimizovati neku kumulativnu funkciju randomnih nagrada, obično očekivanu sniženu sumu u potencijalno beskonačnom horizontu:

(gde se bira , i.e. radnje koje daje politika). A očekivanje se preuzima preko

gde je faktor popusta koji zadovoljava , što je obično blizu 1 (na primer, za neku diskontnu stopu r). Niži diskontni faktor motiviše donosioca odluka da favorizuje preduzimanje radnji rano, umesto da ih odlaže na neodređeno vreme.

Politika koja maksimizira gornju funkciju naziva se optimalna politika i obično se označava sa . Određeni MDP može imati više različitih optimalnih politika. Zbog Markovljevog svojstva, može se pokazati da je optimalna politika funkcija trenutnog stanja, kao što je pretpostavljeno gore.

Simulatorski modeli

[уреди | уреди извор]

U mnogim slučajevima, teško je eksplicitno predstaviti distribuciju verovatnoće prelaza, . U takvim slučajevima, simulator se može koristiti za implicitno modelovanje MDP-a pružanjem uzoraka iz distribucija prelaza. Jedan uobičajeni oblik implicitnog MDP modela je epizodični simulator okruženja koji se može pokrenuti iz početnog stanja i donosi naknadno stanje i nagradu svaki put kada primi akcioni unos. Na ovaj način se mogu proizvesti putanje stanja, radnji i nagrada, koje se često nazivaju epizodama.

Drugi oblik simulatora je generativni model, simulator sa jednim korakom koji može da generiše uzorke sledećeg stanja i nagradi za bilo koje stanje i radnju.[4] (Treba imati na umu da je ovo drugačije značenje od termina generativni model u kontekstu statističke klasifikacije.) U algoritmima koji se izražavaju pomoću pseudokoda, se često koristi za predstavljanje generativnog modela. Na primer, izraz može da označi akciju uzorkovanja iz generativnog modela gde su i su trenutno stanje i radnja, a i su novo stanje i nagrada. U poređenju sa epizodnim simulatorom, generativni model ima prednost u tome što može dati podatke iz bilo kog stanja, a ne samo one na koje se naiđe na putanji.

Ove klase modela formiraju hijerarhiju informacionog sadržaja: eksplicitni model trivijalno daje generativni model kroz uzorkovanje iz distribucija, a ponovljena primena generativnog modela daje epizodični simulator. U suprotnom smeru, moguće je naučiti samo približne modele putem regresije. Tip modela koji je dostupan za određeni MDP igra značajnu ulogu u određivanju koji su algoritmi rešenja odgovarajući. Na primer, algoritmi za dinamičko programiranje opisani u sledećem odeljku zahtevaju eksplicitan model, a Monte Karlo pretraga stabla zahteva generativni model (ili epizodični simulator koji se može kopirati u bilo kom stanju), dok većina algoritama podržanog učenja zahteva samo epizodni simulator.

  1. ^ Bellman, R. (1957). „A Markovian Decision Process”. Journal of Mathematics and Mechanics. 6 (5): 679—684. JSTOR 24900506. 
  2. ^ Howard, Ronald A. (1960). Dynamic Programming and Markov Processes. The M.I.T. Press. 
  3. ^ Wrobel, A. (1984). „On Markovian Decision Models with a Finite Skeleton”. Mathematical Methods of Operations Research. 28 (February): 17—27. S2CID 2545336. doi:10.1007/bf01919083. 
  4. ^ Kearns, Michael; Mansour, Yishay; Ng, Andrew (2002). „A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes”. Machine Learning. 49 (193–208): 193—208. doi:10.1023/A:1017932429737Слободан приступ. 

Spoljašnje veze

[уреди | уреди извор]