Hitz-zaku eredu: berrikuspenen arteko aldeak
Ezabatutako edukia Gehitutako edukia
Aplikazio atala luzatu |
Hashing trukoa luzato |
||
66. lerroa:
== Hashing trukoa ==
Adierazpenak gordetzeko hiztegiak erabili ordez askotan ezaugarri hashing-a edo ''
Aplikazioak atalean ikusi den bezala, BoW adierazpenak askotan termino-dokumentu matrizeak eraikitzeko erabiltzen dira, eta matrize hauetan lerro bakoitzak hitz bat adierazten du. Jakiteko hitz bakoitzari ze zutabe dagokion, soluzio erraz bat hiztegiak erabiltzea da. Horrela, goiko adibidearen kasuan hurrengo hiztegia eraikiko zen:
== Erabilera adibide bat: spam iragazkia ==▼
{|
!Nereak
!1
|-
!filmak
!2
|-
!gogoko
!3
|-
!ditu
!4
|-
!Jonek
!5
|-
!ere
!6
|-
!Asierrek
!7
|-
!pilota
!8
|-
!jardunaldiak
!9
|-
|ikustea
|10
|-
|du
|11
|}
Eta taula honen bidez zehaztua geratzen da zein den termino-dokumentu matrizeko errenkada bakoitzari dagokion hitza. Baina dokumentu handiak tratatzean hiztegi hauek memoria asko beharko dute.
Hiztegi hauek erabili ordez, posible da hash funtzio bat aplikatzea hitzeri, eta zuzenean funtzio horren emaitza hitz horren indize bezala erabiltzea. Horrela, termino-matrizea eraikitzean dokumentu batean hitz berri bat aurkitzen denean, hiztegi bat kontsultatu ordez hash funtzio baten bidez lortuko da hitz horri dagokion indizea, eta indize hori erabiliko da termino-dokumentu matrizea eguneratzeko.
Praktikan, mota honetako teknikak erabiliak izan dira spam iragazkien arazoan, emaitza positiboekin. <ref>{{Cite book|hizkuntza=|izenburua=Feature Hashing for Large Scale Multitask Learning|urtea=2009|abizena=|izena=Kilian Weinberger, Anirban Dasgupta, John Langford, Alex Smola, Josh Attenberg|orrialdeak=|orrialdea=|argitaletxea=Proc. ICML|ISBN=}}</ref>
[[Naive Bayesen bidezko spam iragazketa|Spam iragazki Bayesiarretan]] e-posta mezu bat probabilitate banaketa batetik generatutako ordenatu gabeko hitz multzo bat bezala adierazten da. Probabilitate banaketa hau bitako bat izan daiteke: spam mezuetan erabiltzen diren hitzak generatzen dituena, edo benetako mezuetan erabiltzen diren hitzetan generatzen dituena.
|