Пређи на садржај

Veliki jezički modeli

С Википедије, слободне енциклопедије
(преусмерено са Large language model)

Veliki jezički modeli (енгл. large language model, LLM) je jezički model poznat po svojoj sposobnosti da postigne generisanje jezika opšte namene i druge zadatke obrade prirodnog jezika kao što je klasifikacija. LLM stiču ove sposobnosti učeći statističke odnose iz tekstualnih dokumenata tokom računarski intenzivnog samonadgledanog i polu-nadgledanog procesa obuke.[1] LLM se mogu koristiti za generisanje teksta, oblik generativne VI, uzimanjem ulaznog teksta i uzastopnim predviđanjem sledećeg tokena ili reči.[2]

LLM su veštačke neuronske mreže. Prema podacima iz 2024. godine, najveći i najsposobniji modeli, izgrađeni su sa dekoderskom transformatorskom arhitekturom, dok su neke skorije implementacije zasnovane na drugim arhitekturama, kao što su varijante rekurentne neuronske mreže i Mambe (model prostora stanja).[3][4][5]

Sve do 2020. godine, fino podešavanje je bilo jedini način na koji je model mogao da se prilagodi da bi mogao da izvrši određene zadatke. Međutim, modeli većih dimenzija, kao što je GPT-3, mogu se brzo konstruisati da bi se postigli slični rezultati.[6] Smatra se da oni stiču znanja o sintaksi, semantici i „ontologiji“ svojstvenim korpusima ljudskog jezika, ali i netačnostima i pristrasnostima prisutnim u korpusu.[7]

Neki značajni LLM-ovi su OpenAI GPT serija modela (npr. GPT-3.5 i GPT-4, koji se koriste u ChatGPT-u i Majkrosoftovom Kopilotu), Guglov PaLM i Gemini (od kojih se poslednji trenutno koristi u istoimenom čatbotu), xAI-ov Grok, Metina LLaMA porodica modela otvorenog koda, Antropikovi Klaud modeli i Mistral AI modeli otvorenog koda.

  1. ^ „Better Language Models and Their Implications”. OpenAI. 2019-02-14. Архивирано из оригинала 2020-12-19. г. Приступљено 2019-08-25. 
  2. ^ Bowman, Samuel R. (2023). „Eight Things to Know about Large Language Models”. arXiv:2304.00612Слободан приступ [cs.CL]. 
  3. ^ Peng, Bo; et al. (2023). „RWKV: Reinventing RNNS for the Transformer Era”. arXiv:2305.13048Слободан приступ [cs.CL]. 
  4. ^ Merritt, Rick (2022-03-25). „What Is a Transformer Model?”. NVIDIA Blog (на језику: енглески). Приступљено 2023-07-25. 
  5. ^ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752Слободан приступ 
  6. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (децембар 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., ур. „Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877—1901. 
  7. ^ Manning, Christopher D. (2022). „Human Language Understanding & Reasoning”. Daedalus. 151 (2): 127—138. S2CID 248377870. doi:10.1162/daed_a_01905Слободан приступ.