Пређи на садржај

Podržano učenje

С Википедије, слободне енциклопедије
(преусмерено са Reward function)
Tipični scenario u podržanom učenju: agent preduzima akcije u okruženju, što se tumači kao nagrada i reprezentacija stanja, što se vraća nazad agentu.

Podržano učenje (енгл. reinforcement learning – RL) područje je mašinskog učenja i optimalne kontrole koje se bavi time kako bi inteligentni agenti trebali odabrati akcije u okruženju kako bi maksimizovali pojam kumulativne nagrade. Podržano učenje jedno je od tri osnovne paradigme mašinskog učenja, uz nadzirano učenje i nenadzirano učenje.

Podržano učenje se razlikuje od nadziranog učenja po tome što ne zahteva prikazivanje označenih ulazno/izlaznih parova, kao ni obavezno ispravljanje suboptimalnih akcija. Umesto toga, fokus je na pronalaženju ravnoteže između istraživanja (nepoznatih područja) i iskorištavanja (trenutnog znanja).[1] Okruženje se obično izražava u obliku Markovljevog procesa odlučivanja (MDP) jer mnogi algoritmi podržanog učenja u ovom kontekstu koriste tehnike dinamičkog programiranja.[2]

Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama podržanog učenja je da podržano učenje ne pretpostavlja poznavanje tačnog matematičkog modela MDP-a i da cilja na velike MDP-ove za koje tačne metode postaju nemoguće.[3]

Formalizacija problema

[уреди | уреди извор]

Podržano učenje se uglavnom definiše kao Markovljev proces odlučivanja nazvan po ruskom matematičaru Markovu. Model je koncipiran kao skup stanja koja poseduju sve informacije o sistemu odnosno okolini koje modeluju. Svako od stanja omogućuje što preciznije predviđanje posledica svake izvedene radnje. MDP se formalno zapisuje kao četverac , pri čemu je:

  • : množina svih mogućih stanja.
  • : množina svih mogućih radnji u svakom stanju.
  • : verovatnoća prelaza u stanje , pod pretpostavkom da se nalazimo u stanju i da je izvršena radnja .
  • : nagrada / kazna

Cilj postupka je pronaći strategiju ponašanja (policy) π: , koja za svako stanje [4]:61 i akciju maksimizira očekivanu buduću nagradu. Strategija se može menjati tokom učenja zavisno od količine dobijenih nagrada.

Postoji nekoliko opcija za odabir akcije, na primer:

  • pohlepna: uvek će biti izabrana najbolja akcija -
  • ε-pohlepna: uglavnom će biti izabrana najbolja akcija, povremeno sa verovatnoćom ε biće odabrana i nasumična akcija

Vrednost funkcije

[уреди | уреди извор]

Postoje dve slične varijante vrednosti funkcije

  • Funkcije vrednosti stanja (state value function)
  • Funkcije vrednosti prelaza između stanja (state-action value function)

Funkcije vrednosti definirane su kao alat za traženje maksimalne sume svih očekivanih nagrada pomoću sledećeg algoritma:

  • Čekaj nagradu u budućnosti s faktorom umanjenja γ:
    • Uvažavajući stanja :
    • Uvažavajući prelaze između stanja :
  1. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). „Reinforcement Learning: A Survey”. Journal of Artificial Intelligence Research. 4: 237—285. S2CID 1708582. arXiv:cs/9605103Слободан приступ. doi:10.1613/jair.301. Архивирано из оригинала 20. 11. 2001. г. 
  2. ^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Reinforcement Learning. Adaptation, Learning, and Optimization. 12. стр. 3—42. ISBN 978-3-642-27644-6. doi:10.1007/978-3-642-27645-3_1. 
  3. ^ Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control (First изд.). Springer Verlag, Singapore. стр. 1—460. ISBN 978-9-811-97783-1. S2CID 257928563. doi:10.1007/978-981-19-7784-8. 
  4. ^ „Reinforcement learning: An introduction” (PDF). Архивирано из оригинала (PDF) 12. 7. 2017. г. Приступљено 2. 4. 2023. 

Spoljašnje veze

[уреди | уреди извор]