Veliki jezički modeli

Veliki jezički modeli (енгл. large language model, LLM) je jezički model poznat po svojoj sposobnosti da postigne generisanje jezika opšte namene i druge zadatke obrade prirodnog jezika kao što je klasifikacija. LLM stiču ove sposobnosti učeći statističke odnose iz tekstualnih dokumenata tokom računarski intenzivnog samonadgledanog i polu-nadgledanog procesa obuke.^[1] LLM se mogu koristiti za generisanje teksta, oblik generativne VI, uzimanjem ulaznog teksta i uzastopnim predviđanjem sledećeg tokena ili reči.^[2]

LLM su veštačke neuronske mreže. Prema podacima iz 2024. godine, najveći i najsposobniji modeli, izgrađeni su sa dekoderskom transformatorskom arhitekturom, dok su neke skorije implementacije zasnovane na drugim arhitekturama, kao što su varijante rekurentne neuronske mreže i Mambe (model prostora stanja).^[3]^[4]^[5]

Sve do 2020. godine, fino podešavanje je bilo jedini način na koji je model mogao da se prilagodi da bi mogao da izvrši određene zadatke. Međutim, modeli većih dimenzija, kao što je GPT-3, mogu se brzo konstruisati da bi se postigli slični rezultati.^[6] Smatra se da oni stiču znanja o sintaksi, semantici i „ontologiji“ svojstvenim korpusima ljudskog jezika, ali i netačnostima i pristrasnostima prisutnim u korpusu.^[7]

Neki značajni LLM-ovi su OpenAI GPT serija modela (npr. GPT-3.5 i GPT-4, koji se koriste u ChatGPT-u i Majkrosoftovom Kopilotu), Guglov PaLM i Gemini (od kojih se poslednji trenutno koristi u istoimenom čatbotu), xAI-ov Grok, Metina LLaMA porodica modela otvorenog koda, Antropikovi Klaud modeli i Mistral AI modeli otvorenog koda.

Reference

^ „Better Language Models and Their Implications”. OpenAI. 2019-02-14. Архивирано из оригинала 2020-12-19. г. Приступљено 2019-08-25.
^ Bowman, Samuel R. (2023). „Eight Things to Know about Large Language Models”. arXiv:2304.00612  [cs.CL].
^ Peng, Bo; et al. (2023). „RWKV: Reinventing RNNS for the Transformer Era”. arXiv:2305.13048  [cs.CL].
^ Merritt, Rick (2022-03-25). „What Is a Transformer Model?”. NVIDIA Blog (на језику: енглески). Приступљено 2023-07-25.
^ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752 
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (децембар 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., ур. „Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877—1901.
^ Manning, Christopher D. (2022). „Human Language Understanding & Reasoning”. Daedalus. 151 (2): 127—138. S2CID 248377870. doi:10.1162/daed_a_01905 .

Literatura

Jurafsky, Dan, Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
Phuong, Mary; Hutter, Marcus (2022). „Formal Algorithms for Transformers”. arXiv:2207.09238  [cs.LG].
Eloundou, Tyna; Manning, Sam; Mishkin, Pamela; Rock, Daniel (2023). „GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models”. arXiv:2303.10130  [econ.GN].
Eldan, Ronen; Li, Yuanzhi (2023). „TinyStories: How Small Can Language Models Be and Still Speak Coherent English?”. arXiv:2305.07759  [cs.CL].
Frank, Michael C. (27. 6. 2023). „Baby steps in evaluating the capacities of large language models”. Nature Reviews Psychology (на језику: енглески). 2 (8): 451—452. ISSN 2731-0574. S2CID 259713140. doi:10.1038/s44159-023-00211-x. Приступљено 2. 7. 2023.
Zhao, Wayne Xin; et al. (2023). „A Survey of Large Language Models”. arXiv:2303.18223  [cs.CL].
Kaddour, Jean; et al. (2023). „Challenges and Applications of Large Language Models”. arXiv:2307.10169  [cs.CL].
Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong (2023-06-01). „A Survey on Multimodal Large Language Models”. arXiv:2306.13549  [cs.CV].
Open LLMs repository on GitHub.

[:7-1] „Better Language Models and Their Implications”. OpenAI. 2019-02-14. Архивирано из оригинала 2020-12-19. г. Приступљено 2019-08-25.

[Bowman-2] Bowman, Samuel R. (2023). „Eight Things to Know about Large Language Models”. arXiv:2304.00612  [cs.CL].

[3] Peng, Bo; et al. (2023). „RWKV: Reinventing RNNS for the Transformer Era”. arXiv:2305.13048  [cs.CL].

[4] Merritt, Rick (2022-03-25). „What Is a Transformer Model?”. NVIDIA Blog (на језику: енглески). Приступљено 2023-07-25.

[5] Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752 

[few-shot-learners-6] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (децембар 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., ур. „Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877—1901.

[Manning-2022-7] Manning, Christopher D. (2022). „Human Language Understanding & Reasoning”. Daedalus. 151 (2): 127—138. S2CID 248377870. doi:10.1162/daed_a_01905 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]