Hitz-zaku eredu: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
No edit summary
n-grama atala luzatu
59. lerroa:
BoWbigrama = {"Nereak filmak":1, "filmak gogoko":2, "gogoko ditu":2, "Jonek ere":1, "ere filmak":1};
</syntaxhighlight> Kontzeptualki, BoW eredua N-grama ereduaren kasu berezi bat bezala ikusi daiteke, n=1 denean.
 
Esan bezala, n-grama ereduak modu sinple batean hitzen arteko harreman konplexuagoak adierazi ditzake. Adibidez, ingelesezko "John killed Mary" eta "Mary killed John" esaldiek biek hurrengo BoW adierazpena edukiko lukete: <syntaxhighlight lang="javascript">
BoW = {"John":1,"killed":1, "Mary":1};
</syntaxhighlight>Honek esan nahi du BoW erabiltzen bada, nahiz eta kalitate handizko ereduak erabili, eredu horiek ez direla izango bi esaldi hauen artean bereizteko, adierazpen berdin-berdina baidute. Beraz argi dago BoW ereduak gabezia garrantzitsuak dituela, eta esaldiei buruzko informazio sakona behar duten aplikazioetarako desegokia izan daitekeela. Bigrama eredua erabiliz bi esaldi horien adierazpenak hurrengoak izango dira:<syntaxhighlight lang="javascript">
Bigram1 = {"John killed":1,"killed Mary":1};
Bigram2 = {"Mary killed":1,"killed John":1};
</syntaxhighlight>Eta adierazpen hau erabiliz argi geratzen da zein den bi esaldien esannahien arteko desberdintasuna. Horrela, n-gramen bidez testuaren adierazpen aberatsago bat lortu daiteke.
 
N-gramen beste erabilera bat OOV edo bokabularioz kanpoko hitzak tratatzea da. Terminoak edo terminoen n-gramak erabili ordez adierazpenak lortzeko, posible da karaktereen n-gramak erabiltzea unitate moduan eta unitate hauen adierazpenak eraikitzea. Horrela, hizkuntza prozesamenduko aplikazioetan bokabulario kanpoko hitz bat aurkitzen denean, posible da hitz hori baztertu ordez hitz horren adierazpen bat lortzea osatzen duten n-gramen adierazpenak erabiliz. Adibidez, "zakur" bokabularioz kanpoko hitz bat bada ez da adierazpenik egongo gordeta "zakur" hitzerako, baina "zak", "aku" eta "kur" 3-gramen adierazpenak baditugu posible izango litzateke operazioren baten bitartez "zakur" hitzaren adierazpen bat lortzea. Adibidez, hitz-embeddingak lortzeko fastText softwarean hitzak osatzen dituzten n-gramen adierazpenak erabili daitezke entrenatutako embedding-en kalitatea hobetzeko, bereziki morfologikoki aberatsat diren hizkuntzentzat, non hitz-forma batzuk korpusetan maiztasun oso txikiarekin agertuko diren. <ref>Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov. [https://arxiv.org/pdf/1607.04606.pdf Enriching Word Vectors with Subword Information].TACL5:135–146.</ref>
 
== Hashing trukoa ==