Hitz-zaku eredu: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
Taula formatua
No edit summary
1. lerroa:
'''Hitz-zaku''' edo '''bag-of-words''' eredua [[Informazioa eskuratzea|informazioaren berreskuratze]] eta [[Hizkuntzaren prozesamendu|hizkuntzaren prozesamenduan]] erabilitako testu adierazpen bat da. Adierazpen honetan, testu bat (adibidez dokumentu edo esaldi bat) barnean dituen hitzen zaku edo [[multimultzo]] bat bezala adierazten da, hau da, hitzen arteko ordena eta harremana baztertzen da, baina agerpen kontaketak mantentzen dira. Hitz-zaku eredua ikusmen artifizialean ere erabilia izan da. <ref name="sivic">{{cite conference|first=Josef|last=Sivic|title=Efficient visual search of videos cast as text retrieval|booktitle=IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4|pages=591–605|publisher=IEEE|date=April 2009|url=http://www.di.ens.fr/~josef/publications/sivic09a.pdf}}</ref>
 
Hitz-zaku edo bag-of-words eredua [[Informazioa eskuratzea|informazioaren berreskuratze]] eta [[Hizkuntzaren prozesamendu|hizkuntzaren prozesamenduan]] erabilitako testu adierazpen bat da. Adierazpen honetan, testu bat (adibidez dokumentu edo esaldi bat) barnean dituen hitzen zaku edo [[multimultzo]] bat bezala adierazten da, hau da, hitzen arteko ordena eta harremana baztertzen da, baina agerpen kontaketak mantentzen dira. Hitz-zaku eredua ikusmen artifizialean ere erabilia izan da. <ref name="sivic">{{cite conference|first=Josef|last=Sivic|title=Efficient visual search of videos cast as text retrieval|booktitle=IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4|pages=591–605|publisher=IEEE|date=April 2009|url=http://www.di.ens.fr/~josef/publications/sivic09a.pdf}}</ref>
 
Hitz-zaku eredua askotan [[Dokumentuen sailkapena|dokumentuen sailkapen]] erabiltzen da, non hitz bakoitzaren agerpen kontaketa sailkatzailearen entrenamendu datu bezala erabiltzen den. <ref> McTear et al 2016, p. 167. </ref>
 
“Hitz-zaku” terminoaren erabilera goiztiar bat Zellig Harris-en 1954ko ''Distributional Structure'' artikuloan aurki daiteke.<ref>{{Cite aldizkari|author=Harris|first=Zellig|year=1954|title=Distributional Structure|volume=10|pages=146–62}}</ref>
 
<br />
 
== Inplementazio adibide bat ==
 
Atal honetan BOW modeloaren inplementazio adibide bat emango dugu. Hurrengo bi dokumentuak ditugu: <syntaxhighlight lang="text">
(1) Nereak filmak gogoko ditu. Jonek ere filmak gogoko ditu.
35 ⟶ 31 lerroa:
(3) [1, 2, 3, 2, 1, 1, 1, 1, 1, 1, 1]
</syntaxhighlight>Horrela, hitz bakar baterako adierazpen trinkoa erabili ordez (zero maiztasunak gehitu gabe), dokumentu multzo bat badugu eta multzo osotik lortutako bokabulario bat, dokumentu bakoitzaren adierazpena bokabulario horretako terminoen maiztasun zerrenda izango da. Adibidez, lehen zerrendako lehen posizioan 1 zenbakia dugu ‘Nereak’ hitza behin agertzen delako lehen esaldian, eta bigarren eta hirugarren posizioetan 2 zenbakia dugu ‘filmak’ eta ‘gogoko’ hitzak bi aldiz agertzen direlako lehen esaldian.
 
 
Lista adierazpen honek ez du hitzen ordenari buruz informaziorik ematen, hau hitz-zaku ereduaren ezaugarri nagusi bat da. Adierazpen mota hau arrakastarekin erabilia izan da hainbat aplikazioetarako, adibidez email iragazketan.
115 ⟶ 110 lerroa:
Eredu Bayesiar hauek suposatzen dute mezuko hitz-zakua bi banaketa hauetako batek generatua izan dela, eta metodo Bayesiarrak erabiltzen dira erabakitzeko bietako zein izan den.
 
== Ikusi ere Erreferentziak==
{{erreferentzia_zerrenda}}
 
== Ikus, gainera==
* Bag-of-words eredua ikusmen artifizialean
* [[Dokumentuen sailkapena]]
129 ⟶ 126 lerroa:
* w-shingling
*[[Ezkutuko semantikaren analisia]]
 
== Oharrak ==
<references group="" responsive=""></references>
[[Kategoria:Ikasketa automatikoa]]
[[Kategoria:Hizkuntzaren prozesamendua]]