Hitz-zaku eredu: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
Aplikazio atala luzatu
Hashing trukoa luzato
66. lerroa:
 
== Hashing trukoa ==
Adierazpenak gordetzeko hiztegiak erabili ordez askotan ezaugarri hashing-a edo ''hashinghasing trukoatrick'' deritzona erabiltzen da, hitzak zuzenean indizeetara mapatzeko <ref name="Weinberger05">{{Cite aldizkari|author=Weinberger|first=K. Q.|title=Feature hashing for large scale multitask learning,|year=2009|pages=1113–1120|bibcode=2009arXiv0902.2206W}}</ref>. Horrela memoria aurrezten da, baina hash kolisioen arriskua sortzen da. Hash kolisioen arazoa normalean hash kubo kopurua handitzen konpontzen da. Praktikan, ''hashing'' erabiltzean hitz-zaku ereduen inplementazioa errazten da eta eskalagarritasuna hobetzen da.
 
Aplikazioak atalean ikusi den bezala, BoW adierazpenak askotan termino-dokumentu matrizeak eraikitzeko erabiltzen dira, eta matrize hauetan lerro bakoitzak hitz bat adierazten du. Jakiteko hitz bakoitzari ze zutabe dagokion, soluzio erraz bat hiztegiak erabiltzea da. Horrela, goiko adibidearen kasuan hurrengo hiztegia eraikiko zen:
== Erabilera adibide bat: spam iragazkia ==
{|
!Nereak
!1
|-
!filmak
!2
|-
!gogoko
!3
|-
!ditu
!4
|-
!Jonek
!5
|-
!ere
!6
|-
!Asierrek
!7
|-
!pilota
!8
|-
!jardunaldiak
!9
|-
|ikustea
|10
|-
|du
|11
|}
 
Eta taula honen bidez zehaztua geratzen da zein den termino-dokumentu matrizeko errenkada bakoitzari dagokion hitza. Baina dokumentu handiak tratatzean hiztegi hauek memoria asko beharko dute.
 
Hiztegi hauek erabili ordez, posible da hash funtzio bat aplikatzea hitzeri, eta zuzenean funtzio horren emaitza hitz horren indize bezala erabiltzea. Horrela, termino-matrizea eraikitzean dokumentu batean hitz berri bat aurkitzen denean, hiztegi bat kontsultatu ordez hash funtzio baten bidez lortuko da hitz horri dagokion indizea, eta indize hori erabiliko da termino-dokumentu matrizea eguneratzeko.
 
Praktikan, mota honetako teknikak erabiliak izan dira spam iragazkien arazoan, emaitza positiboekin. <ref>{{Cite book|hizkuntza=|izenburua=Feature Hashing for Large Scale Multitask Learning|urtea=2009|abizena=|izena=Kilian Weinberger, Anirban Dasgupta, John Langford, Alex Smola, Josh Attenberg|orrialdeak=|orrialdea=|argitaletxea=Proc. ICML|ISBN=}}</ref>
 
== Erabileraera adibide bat: spam iragazkia ==
[[Naive Bayesen bidezko spam iragazketa|Spam iragazki Bayesiarretan]] e-posta mezu bat probabilitate banaketa batetik generatutako ordenatu gabeko hitz multzo bat bezala adierazten da. Probabilitate banaketa hau bitako bat izan daiteke: spam mezuetan erabiltzen diren hitzak generatzen dituena, edo benetako mezuetan erabiltzen diren hitzetan generatzen dituena.