Hitz-zaku eredu: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
t Marklar2007 wikilariak «Hitz-zaku eredua» orria «Hitz-zaku eredu» izenera aldatu du
Aplikazio atala luzatu
30. lerroa:
 
== Aplikazioak ==
Hitz-zaku modeloaren erabilera nagusia ezaugarri edo ''feature''-ak generatzea da. Dokumentu baten BoW adierazpena kalkulatu ondoren testuari buruzko informazioa ematen duten hainbat metrika lortu daitezke. Metrika hauen artean arruntena termino maiztasuna da, hau da, hitz bakoitza dokumentuan zenbat aldiz agertu den. Adibidez, goiko adibide bera erabiliz, esaldi bakoitzaren termino frekuentziamaiztasun lista eraiki dezakegu (terminoak BoW3 adierazpenean bezala ordenatuz): <syntaxhighlight lang="javascript">
(1) [1, 2, 2, 2, 1, 1, 0, 0, 0, 0, 0]
(2) [0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1]
(3) [1, 2, 3, 2, 1, 1, 1, 1, 1, 1, 1]
</syntaxhighlight>Horrela, hitz bakar baterako adierazpen trinkoa erabili ordez (zero maiztasunak gehitu gabe), dokumentu multzo bat badugu eta multzo osotik lortutako bokabulario bat, dokumentu bakoitzaren adierazpena bokabulario horretako terminoen maiztasun zerrenda izango da. Adibidez, lehen zerrendako lehen posizioan 1 zenbakia dugu ‘Nereak’ hitza behin agertzen delako lehen esaldian, eta bigarren eta hirugarren posizioetan 2 zenbakia dugu ‘filmak’ eta ‘gogoko’ hitzak bi aldiz agertzen direlako lehen esaldian.
 
40 ⟶ 41 lerroa:
Hala ere, termino maiztasunak askotan ez dira testuaren adierazpen egoki bat. Hitz arruntak, adibidez ‘the’ edo ‘to’ ingelesaren kasuan, izaten dira ia beti dokumentu luzeetan maiztasun handieneko elementuak, baina maiztasun handiko hitz hauek ez dute dokumentuari buruzko informazio esanguratsurik ematen. Arazo hau ekiditeko metodo ezagun bat terminoen maiztasunak ‘normalizatzea’ tf-idf terminoaren bidez. Honen helburua dokumentu guztietan zehar maiztasun handiak dituzten hitzen garrantzia txikitzea da, kasu hauetan maiztasun handia ez baita esanguratsua. Hitz batek maiztasun orokor (dokumentu multzo osoan kalkulatua) txikia badu, baina dokumentu zehatz batean askotan agertzen bada, berriz, aukera handiagoarekin hitz horrek dokumentuari buruzko informazio baliotsua ematen du. Gainera, aplikazio batzuetan adierazpen binarioa (dokumentuan agertzen den edo ez den agertzen) erabiltzen da maiztasunen ordez (adibidez aukera hau WEKA ikasketa automatiko software sisteman inplementatua dago).
 
BoW adierazpenetik lortutako termino maiztasun zerrendak, sailkatzaile bati pasatzeko ezaugarri posibleak izateaz gain, zuzenean erabili daitezke aplikazio batzuetan. Adibidez, bi dokumenturen arteko antzekotasuna neurtzeko dokumentu horien termino maiztasun bektoreen harteko hainbat operazio erabili datiezke. Operazio hauetako bat [[Kosenu antzekotasuna|kosenu antzekotasuna]] da. Bi bektore <math>x,y\in \mathbb{R}^n</math>izanda, haien arteko kosenu antzekotasuna <math>\frac{x . y }{||x||||y||}</math> zenbakia izango da, non <math>x.y</math>bi bektoreen biderketa eskalarra den. Intuitiboki, zenbaki honek bi bektoreen arteko angeluaren kosenua adierazten du, eta -1 eta 1 artean egongo da beti. Horrela, goiko adibideko (1) eta (2) bektoreen arteko antzekotasuna neurtzeko termino maiztasun zerrenden arteko kosenu antzekotasuna erabili daiteke. Kasu honetan ikusten da aurreko paragrafoan azaldutako maiztasun normalizazio tekniken garrantzia, teknika hauek erabiltzen ez badira 'the' edo 'to' motako maiztasun handiko hitzek harremanik gabeko dokumentuen arteko kosinu antzekotasun handi bat sortu dezaketelako.
== N-grama modeloa ==
Hitz-zaku eredua ordenik gabeko adierazpen sistema bat da, hitzen maiztasunak soilik erabiltzen direlako. Adibidez, ingelesez ‘John killed Mary’ eta “Mary killed John” esaldiek BoW adierazpen berdina izango dute. Aplikazio askotan ordena garrantzitsua denez, BoW adierazpenean hitzen orden informazioa nolabait harrapatzeko proposatu den aukera bat n-grama eredua da. Eredu honetan, dokumentu baten adierazpena lortzeko lehenik dokumentu horren n-grama guztiak kalkulatzen dira, eta hondoren n-grama horien agerpen kontaketak gordetzen dira. Hau da, termino maiztasuna erabili ordez n-grama maiztasunak erabiltzen dira.
 
Maiztasun kontaketak termino-dokumentu matrizeak sortzeko ere erabiltzen dira. Matrize hauetan lerro bakoitzak termino bat adierazten du, eta zutabe bakoitzak dokumentu bat. i. lerroko eta j. zutabeko gelaxkan j dokumentuan i terminoa zenbat aldiz agertu den gordetzen da. Beste modu batean esanda, j. zutabea j. dokumentuaren termino maiztasun zerrenda izango da. Goiko adibidearen kasuan, (1) (2) eta (3) dokumentuekin osatutako termino-dokumentu matrizea hurrengoa izango da:
 
<math>\begin{pmatrix} 1 & 0 & 1 \\ 2 & 0 & 2 \\ 2 & 1 & 3 \\ 2 & 0 & 2 \\ 1 & 0 & 1\\ 1 & 0 & 1 \\ 0 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 1 & 1 \\ \end{pmatrix}</math>
 
Matrize honen gainean hainbat teknika desberdin erabili daitezke dokumentu edo terminoen adierazpen trinkoak lortzeko, adibidez, [[Ezkutuko semantikaren analisia|Ezkutuko Semantikaren Analisia]].
 
== N-grama modeloa ==
Hitz-zaku eredua ordenik gabeko adierazpen sistema bat da, hitzen maiztasunak soilik erabiltzen direlako. Adibidez, ingelesez ‘John killed Mary’ eta “Mary killed John” esaldiek BoW adierazpen berdina izango dute. Aplikazio askotan ordena garrantzitsua denez, BoW adierazpenean hitzen orden informazioa nolabait harrapatzeko proposatu den aukera bat n-grama eredua da. Eredu honetan, dokumentu baten adierazpena lortzeko lehenik dokumentu horren n-grama guztiak kalkulatzen dira, eta hondoren n-grama horien agerpen kontaketak gordetzen dira. Hau da, termino maiztasuna erabili ordez n-grama maiztasunak erabiltzen dira.
Goiko adibideko lehen esaldiaren kasuan, bigrama eredu baten bidez hurrengo bigramak lortuko genituzke:<syntaxhighlight lang="javascript">
[
79 ⟶ 86 lerroa:
* Bektore espazio eredua
* w-shingling
*[[Ezkutuko semantikaren analisia]]
 
== Oharrak ==