13:08, 26 otsaila 2019ko berrikusketa aldatu Aitor Ormazabal (eztabaida \| ekarpenak) 32 edits Aplikazio atala luzatu Etiketa: Ikusizko edizioa ← Aurreko ezberdintasuna		13:53, 26 otsaila 2019ko berrikusketa aldatu desegin Aitor Ormazabal (eztabaida \| ekarpenak) 32 edits Hashing trukoa luzato Etiketa: Ikusizko edizioa Hurrengo ezberdintasuna →
66. lerroa: == Hashing trukoa == Adierazpenak gordetzeko hiztegiak erabili ordez askotan ezaugarri hashing-a edo ''~~hashing~~hasing ~~trukoa~~trick'' deritzona erabiltzen da, hitzak zuzenean indizeetara mapatzeko <ref name="Weinberger05">{{Cite aldizkari\|author=Weinberger\|first=K. Q.\|title=Feature hashing for large scale multitask learning,\|year=2009\|pages=1113–1120\|bibcode=2009arXiv0902.2206W}}</ref>. Horrela memoria aurrezten da, baina hash kolisioen arriskua sortzen da. Hash kolisioen arazoa normalean hash kubo kopurua handitzen konpontzen da. Praktikan, ''hashing'' erabiltzean hitz-zaku ereduen inplementazioa errazten da eta eskalagarritasuna hobetzen da. Aplikazioak atalean ikusi den bezala, BoW adierazpenak askotan termino-dokumentu matrizeak eraikitzeko erabiltzen dira, eta matrize hauetan lerro bakoitzak hitz bat adierazten du. Jakiteko hitz bakoitzari ze zutabe dagokion, soluzio erraz bat hiztegiak erabiltzea da. Horrela, goiko adibidearen kasuan hurrengo hiztegia eraikiko zen: == Erabilera adibide bat: spam iragazkia ==▼ {\| !Nereak !1 \|- !filmak !2 \|- !gogoko !3 \|- !ditu !4 \|- !Jonek !5 \|- !ere !6 \|- !Asierrek !7 \|- !pilota !8 \|- !jardunaldiak !9 \|- \|ikustea \|10 \|- \|du \|11 \|} Eta taula honen bidez zehaztua geratzen da zein den termino-dokumentu matrizeko errenkada bakoitzari dagokion hitza. Baina dokumentu handiak tratatzean hiztegi hauek memoria asko beharko dute. Hiztegi hauek erabili ordez, posible da hash funtzio bat aplikatzea hitzeri, eta zuzenean funtzio horren emaitza hitz horren indize bezala erabiltzea. Horrela, termino-matrizea eraikitzean dokumentu batean hitz berri bat aurkitzen denean, hiztegi bat kontsultatu ordez hash funtzio baten bidez lortuko da hitz horri dagokion indizea, eta indize hori erabiliko da termino-dokumentu matrizea eguneratzeko. Praktikan, mota honetako teknikak erabiliak izan dira spam iragazkien arazoan, emaitza positiboekin. <ref>{{Cite book\|hizkuntza=\|izenburua=Feature Hashing for Large Scale Multitask Learning\|urtea=2009\|abizena=\|izena=Kilian Weinberger, Anirban Dasgupta, John Langford, Alex Smola, Josh Attenberg\|orrialdeak=\|orrialdea=\|argitaletxea=Proc. ICML\|ISBN=}}</ref> ▲== ~~Erabilera~~era adibide bat: spam iragazkia == [[Naive Bayesen bidezko spam iragazketa\|Spam iragazki Bayesiarretan]] e-posta mezu bat probabilitate banaketa batetik generatutako ordenatu gabeko hitz multzo bat bezala adierazten da. Probabilitate banaketa hau bitako bat izan daiteke: spam mezuetan erabiltzen diren hitzak generatzen dituena, edo benetako mezuetan erabiltzen diren hitzetan generatzen dituena.

Hitz-zaku eredu: berrikuspenen arteko aldeak