Hizkuntza Eredu Handiak (LLM)

Hizkuntza-eredu handiak^[1] (LLM) milaka miloi parametro dituzten sare neuronaletan (gehienbat transformer [2]-ak) oinarritutako hizkuntza-ereduak dira, oro har, hizkuntza-ulermena eta sormena lortzeko duten gaitasunagatik ezagunak. Gaitasun hauek eskuratzeko, entrenamenduan datu-kopuru erraldoiak eta ikaskuntza teknika ezberdinak erabiltzen dituzte.

Hizkuntza-eredu autorregresibo gisa, sarrerako testu bat hartu eta hurrengo token edo hitza behin eta berriz aurreikusten dute.

Esaldi batean hurrengo hitza iragartzea bezalako zeregin sinpleetan trebatuta egon arren, gai dira giza hizkuntzaren sintaxiaren eta semantikaren zati handi bat ikasteko. Gainera, hizkuntza eredu handiek munduari buruzko ezagutza orokorra erakusten dute, eta entrenamenduan zehar gertaera ugari "buruz ikasteko" gai dira. Entrenamenduak corpus erraldoien gainean egiten dira beraz hauenganako menpekotasun handia dute, hau da, corpuseko testuak dituen ez zehaztasun eta alborapenak heredatzen dituzte.

Adibide aipagarriak dira OpenAIren GPT ereduak (adibidez, GPT-3.5 eta GPT-4, ChatGPTen erabiltzen direnak), Google-ren PaLM (Bard-en erabilia) eta Meta-ren LLaMa, baita BLOOM, Ernie 3.0 Titan eta Anthropic-en Claude 2 ere.

Propietateak aldatu

Aurre entrenamentu datumultzoak aldatu

LLMak testu-datu multzo handietan aldez aurretik trebatzen dira. Gehien erabiltzen diren testu-datu multzo batzuk Common Crawl, The Pile, MassiveText, Wikipedia eta GitHub dira. Datu multzoek 10.000 milioi hitz arteko tamaina dute.

Kalitate handiko hizkuntza-datuen biltegia 4,6 eta 17 milioi hitz artekoa da, hau da, testu-datu multzo handienen magnitude ordena baten barruan dago.

Eskalatzeko legeak aldatu

Oro har, LLM bat osatu gabe deskriba daiteke lau parametrorekin: ereduaren tamaina, prestakuntza-datuen multzoaren tamaina, prestakuntza-kostua eta entrenamenduaren ondorengo errendimendua. Lau aldagai horietako bakoitza zehatz-mehatz defini daiteke zenbaki erreal batean, eta enpirikoki lege estatistiko sinpleen bidez erlazionatuta aurkitzen da, "eskala-legeak" izenekoak.

Garai baterako modu autorregresiboan trebatutako LLMentzako eskalatze-lege partikular batek ("Chinchilla eskala"), ikaskuntza-tasa logaritmikoko programazio batekin, hau dio:

${\begin{cases}C=C_{0}ND\\L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}$

aldagaiak hauek dira:

C

eredua entrenatzearen kostua da, FLOPetan.

N

ereduko parametro kopurua da.

D

entrenamendu multzoko token kopurua da.

L

token bakoitzeko (nats / token) batez besteko log probabilitate-galera negatiboa da, probako datu multzoan trebatutako LLMk lortutakoa.

eta parametro estatistikoak hauek dira:

C_{0}=6

, hau da, parametro bakoitzeko 6 FLOP kostatzen da token batean entrenatzea. Kontuan izan prestakuntza-kostua inferentzia-kostua baino askoz handiagoa dela, non parametro bakoitzeko 1 eta 2 FLOP kostatzen diren token bat ondorioztatzeko.

\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69

Gaitasun emergenteak aldatu

Normalean eredu txikien antzekoen errendimenduan oinarritutako hainbat zereginetan eredu handien errendimendua extrapola dezakeen arren, batzuetan eredu handiek "fase-aldaketa etena" izaten dute, non ereduak bat-batean ezagutzen ez diren gaitasun handiak eskuratzen dituen. Hauek "gaitasun emergenteak" izenez ezagutzen dira eta azterketa sakonen gai izan dira. Ikertzaileek adierazi dute gaitasun horiek "ezin direla aurreikusi eredu txikiagoen errendimendua estrapolatuz bakarrik". Gaitasun horiek programatuta edo diseinatuta aurkitu beharrean, kasu batzuetan LLM publikoki zabaldu ondoren aurkitzen dira. Ehunka trebetasun aurkitu dira. Adibideak honako hauek dira: urrats anitzeko aritmetika, unibertsitate-mailako azterketak gainditzea, hitz baten esanahia identifikatzea, pentsamendu-katea, Nazioarteko Alfabeto Fonetikoa deskodetzea eta abar. ^[3]

Aluzinazioak aldatu

LLM sortzaileek beren aurreentrenamentu datuek justifikatzen ez duten egiazko aldarrikapenak ziurtasunez baieztatzen dituztela ikusi da, "aluzinazioa" deitu izan den fenomenoa.^[4]

Arkitektura aldatu

Hizkuntza-eredu handiek transformer izeneko arkitektura erabili dute gehienbat, 2018az geroztik, datu sekuentzialetarako ikaskuntza sakoneko teknika estandarra bihurtu da (lehen, LSTM bezalako arkitektura errepikakorrak ziren ohikoenak).

Tokenizazioa aldatu

LLMak funtzio matematikoak dira, eta hauen sarrera eta irteera zenbakien zerrendak dira. Ondorioz, hitzak zenbaki bihurtu behar dira.

Orokorrean, LLM batek tokenizatzaile bat erabiltzen du. Tokenizatzailea testuen eta zenbaki osoen zerrenden arteko mapak egiten dituen funtzio bijektibo bat da. Tokenizatzailea normalean aurreentrenamentu-datu multzo osora egokitzen da eta gero izoztu egiten da LLM entrenatu aurretik. Aukera arrunt bat byte bikoteen kodeketa da.

Tokenizatzaileen beste ezaugarri bat testu-konpresioa da, eta horrek konputazioa aurrezten du. "Non dago" bezalako hitz edo esaldi arruntak token batean kodetu daitezke, 7 karaktere izan beharrean. OpenAI GPT-ek tokenizer bat erabiltzen dute, eta token bat 4 karaktere ingururekin osatzen da, edo 0,75 hitz ingururekin, ingelesezko testu arruntean.^[5] Ingelesezko testu ezohikoa ezin da hain erraz aurreikusi, beraz, gutxiago konprimitu ahalko da, beraz, token gehiago behar ditu kodetzeko.

Tokenizatzaile batek ezin ditu zenbaki oso arbitrarioak sortu. Normalean $\{0,1,2,...,V-1\}$ barneko zenbaki osoak soilik ateratzen dituzte, $V$ hiztegiaren tamainari deritzo.

Tokenizatzaile batzuk testu arbitrarioak kudeatzeko gai dira (normalean Unicode-n zuzenean funtzionatuz), baina beste batzuk ez. Kodetzerik gabeko testua topatzen denean, tokenizagailu batek "testu ezezaguna" adierazten duen token berezi bat sortuko luke (askotan 0). Hau [UNK] bezala idatzi ohi da, BERT dokumentuan bezala.

Askotan erabiltzen den beste token berezi bat [PAD] da, "betegarria" egiteko. Hau erabiltzen da normalean LLMak aldi berean testu loteetan erabiltzen direlako, eta testu horiek ez dira luzera berdinean kodetzen. LLMek, oro har, sarrera zerrenda ez-irregularra izatea eskatzen dutenez, kodetutako testu laburragoak bete behar dira luzeagoaren luzerarekin bat etorri arte.

Irteera aldatu

LLM baten irteera bere hiztegiaren gaineko probabilitate banaketa da. Hau normalean honela ezartzen da:

Testu bat jasotzean, LLM gehienak bektore bat sortzen du $y\in \mathbb {R} ^{V}$ non $V$ bere hiztegiaren tamaina den.
$y$ bektorea softmax funtzio batetik pasatzen da $softmax(y)$ ) lortzeko.

Prozesuan, $y$ bektoreari logit bektore ez normalizatua deitzen zaio, eta $softmax(y)$ bektoreari probabilitate-bektorea. $softmax(y)$ bektoreak $V$ sarrera dituenez, guztiak ez-negatiboak, eta 1era batuta, $\{0,1,2,...,V-1\}$ probabilitate-banaketa gisa interpreta dezakegu, hau da, probabilitate banaketa bat da LLMren hiztegian.

Entrenamendua aldatu

LLM gehienak aurre-entrenamendu generatiboa erabiliz entrenatzen dira, hau da, testu-token prestakuntza-datu multzo bat emanda, ereduak datu-multzoko tokenak aurreikusten ditu. Bi aurre-entrenamendu generatibo estilo orokor daude:^[6]

Autorregresiboa: "Izokia jatea" bezalako testu-segmentu bat emanda, ereduak hurrengo tokenak aurreikusten ditu, "gustatzen zait" adibidez.
Maskaratua: "Txokolatezko [MASKARA] [MASKARA] gustatzen zait" bezalako testu-segmentu bat emanda, ereduak maskaratutako tokenak aurreikusten ditu, adibidez "izozkia jatea".

LLM-ak datuen banaketaren ulermena erakusten duten bestelako zereginetan entrenatu daitezke.

Normalean, LLMak galera-funtzio zehatz bat minimizatzeko entrenatzen dira: token bakoitzeko batez besteko log probabilitate negatiboa (entropia gurutzatua ere deitzen zaio) adibidez. Eredu autorregresibo batek, "Izozkia jatea gustatzen" emanda, probabilitate-banaketa bat aurreikusten badu $Pr(\cdot |{\text{Izozkia jatea gustatzen}})$ orduan token honen log probabilitate negatiboa $-\log Pr({\text{zait }}|{\text{Izozkia jatea gustatzen}})$ izango da.

Entrenamenduan zehar, erregularizazio-galera ere erabiltzen da entrenamendua egonkortzeko. Hala ere, erregularizazio-galera hau ez da proba eta ebaluazioan erabiltzen. Ebaluazio-irizpide gehiago ere badaude entropia gurutzatutik haratago.

LLMak milaka milioi hitzen dimentsioa duten corpus linguistikoetan eratzen dira.

GPT-1, OpenAI-ren aurreentrenatutako lehen transformer-eredua, 2018an BookCorpus-en entrenatu zen, hau 985 milioi hitzez osatzen da. Urte berean, BERT BookCorpus eta ingelesezko wikipediaren konbinazio batean entrenatu zen, 3.300 milioi hitz guztira.Harrezkero, LLMrako prestakuntza-corpusak handitu egin dira, eta billoi bat tokenetara iritsi dira.

Entrenamendu kostua aldatu

LLMak konputazionalki oso garestiak dira entrenatzereko garaian. 2020ko ikerketa batek 1.500 milioi parametroko eredua entrenatzearen kostua 1.6 milioi dolarrekoa dela kalkulatu zuen. Softwarearen eta hardwarearen aurrerapenek kostua nabarmen murriztu dute, 2023ko paper batean aurreikusi zen 72.300 orduko A100-GPU kostua duela 12.000 milioi parametro-eredu bat entrenatzeko. Kalkulatzen da GPT-3 bat behin bakarrik entrenatzea, 175.000 milioi parametrorekin, 4,6 milioi dolar behar direla.Horretarako RTX 8000 bakar batek 665 urte beharko lituzke bukatzeko.^[7]

Transformerretan oinarritutako LLMetarako, parametro bakoitzeko 6 FLOP kostatzen da token batean entrenatzea. Kontuan izan behar da prestakuntza-kostua inferentzia-kostua baino askoz handiagoa dela, non parametro bakoitzeko 1 eta 2 FLOP artean kostatzen den token batean ondorioztatzeko.

Ingurumen kostuari dagokionez, LLM baten entrenamenduak kostu energetikoa oso altua du. Eredu bat entrenatzeak bidaiari batek New York-etik San Frantziskorako hegaldi batean bezainbesteko karbono-isuria egiten da.^[8] GPT-3-ren kasuan, kalkulatzen da 1.200 MWh konsumitzen dela, 500 tona CO2 isuri baino gehiago sortuz. Kostu horiek areagotu egiten dira ereduek parametro gehiago dituezten heinean. Prestakuntza-ziklo bakoitzak ehunka edo milaka CPU eta GPUren dedikazio esklusiboa eskatzen du, hauek karga konputazional handia onartzen dute, datu kopuru handiak gordetzeaz eta mugitzeaz gain. Horrek guztiak energia-kontsumo handia eragiten du, eta bero kantitate handiak sortzen ditu.

Kostu horiek murrizteko, irtenbide posible bat eredu txikiagoak erabiltzea da. Hauek eredu handi baten antzera funtziona dezaket, eta 100 dolar inguruko kostua dute entrenatzean. Eredu txiki baten adibidea Alpaca eredua da, Stanfordeko Unibertsitateko ikertzaileek Meta AI-ren LLaMA izeneko ereduan garatua. Hau nahikoa arina da eta mahaigaineko ordenagailu batean exekuta daiteke.

Ondorengo zereginetarako aplikazioa (downstream tasks) aldatu

2018 eta 2020 artean, hizkuntza naturalaren prozesatzeko (NLP) LLM bat prestatzeko metodo estandarra ataza zehatz baterako eredua doitzea izan zen, zeregin espezifikoko prestakuntza osagarri batekin. Ondoren, aurkitu zen LLM indartsuagoek, GPT-3 adibidez, zereginak prestakuntza gehigarririk gabe ebatzi ditzaketela "prompting" tekniken bidez, zeinetan konpondu beharreko arazoa testu-mezu gisa aurkezten zaiola ereduari, agian testu-adibide batzuekin, antzeko arazoak eta haien konponbideak emanez.

Fine-tuning aldatu

Fine-tuning aldez aurretik trebatutako hizkuntza-eredu bat aldatzeko praktika da (modu gainbegiratuan) zeregin zehatz batean trebatuz (adibidez, sentimenduen analisian, entitate izendapenaren errekonozimendua edo gramatika etiketatzea).^[9] Ikaskuntza transferitzeko modu bat da. Normalean, hizkuntza-ereduaren azken geruza nahi den zereginaren emaitzekin lotzen duten pisu multzo berri bat sartzeaz oinarritzen da. Hizkuntza-ereduaren jatorrizko pisuak "izoztu" daitezke, eta, beraz, irteerarekin lotzen dituen pisu-geruza berria bakarrik ikasten da entrenamenduan. Jatorrizko pisuen eguneratze txikiak eginez ere lortzen da.

Ebaluazioa aldatu

Perplexitatea aldatu

Hizkuntza-eredu baten errendimenduaren neurririk erabiliena testu-corpus jakin batean duen perplexitatea da. Perplexitatea eredu batek datu-multzo baten edukia zenbateraino iragar dezakeen neurtzen du; ereduak datu multzoa iragartzen duenaren probabilitatea zenbat eta handiago, orduan eta perplexitate txikiagoa izango du. Matematikoki, perplexitatea token bakoitzeko batez besteko log probabilitate negatiboaren esponentzial gisa definitzen da:

\log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(Pr({\text{token}}_{i}|{\text{context for token}}_{i}))

hemen

N

testu-corpuseko token kopurua da, eta "i tokenaren testuingurua" erabilitako LLM motaren araberakoa da. LLM autorregresiboa bada, "i tokenaren testuingurua" i tokenaren aurretik agertzen den testu-segmentua da. LLM maskaratuta badago, "i tokenaren testuingurua" i tokenaren inguruko testu-segmentua da.^[10]

Hizkuntza-ereduak beren prestakuntza-datuetara gehiegi moldatu daitezkeenez, ereduak normalean ikusten ez diren datuen proba-multzo batean perplexitatearen arabera ebaluatzen dira. Horrek erronka bereziak ditu hizkuntza eredu handiak ebaluatzeko.

Erreferentziak aldatu

Kanpo estekak aldatu

Leturia Azkarate, Igor. Adimen artifizial sortzailearen booma (Zientzia.eus, 2023)

Datuak: Q115305900

[1] Elhuyar. .

[2] What Is a Transformer Model?. .

[3] The Unpredictable Abilities Emerging From Large AI Models. .

[4] Survey of Hallucination in Natural Language Generation. .

[5] OpenAI API. .

[6] A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP. doi:10.1145/3373017.3373028. ISBN 9781450376976..

[7] OpenAI's GPT-3 Language Model: A Technical Overview. .

[8] Energy and Policy Considerations for Deep Learning in NLP. .

[d2l-9] ISBN 978-1-5443-6137-6..

[10] Perplexity in Language Models. .

[1]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]