Tf–idf: berrikuspenen arteko aldeak
Ezabatutako edukia Gehitutako edukia
t Autoritate kontrola jartzea |
t Robota: Aldaketa kosmetikoak |
||
1. lerroa:
[[Fitxategi:Karen Spärck.jpg|thumb|[[Karen Spärck Jones]]<nowiki/>ek
[[Informazioa eskuratzea|Informazioaren berreskurapenean]], '''tf–idf''' edo '''TFIDF''', '''terminoen maiztasuna–alderantzizko dokumentu maiztasuna''' (ingelesez term frequency–inverse document frequency), zenbakizko estatistika bat da eta hitz bat zein garrantzitsua den adieraztea du helburu, [[dokumentu]] bilduma batean edo [[Testu corpus|corpus]] batean.<ref>{{Erreferentzia|izena=A.,J.D.,|abizena=Rajaraman,Ullman|izenburua=Mining of Massive Datasets|orrialdeak=1–17|data=2011|url=http://i.stanford.edu/~ullman/mmds/ch1.pdf}}</ref> Sarri erabili oi da [[Haztapen (prozedura kuantitatiboa)|ponderazio-faktore]] modura, [[informazioaren berreskurapen]]<nowiki/>eko bilaketetan, testu-meatzaritzan, eta erabiltzaile modelaketa.
Tf-idf balioa [[Proportzionaltasun (matematika)|proportzionalki]] hazten da hitz bat dokumentuan agertzen den kopuruarekiko, eta hitzaren corpuseko maiztasunekin orekatzen da, zeinak hitz batzuk, oro har
Tf–idf ponderazio-eskemaren aldaerak askotan erabiltzen dituzte [[Bilaketa motor|bilaketa-motor]]<nowiki/>eek, erabiltzailearen [[Informazioa eskuratzea|kontsulta]] batetarako, dokumentu baten garrantzia puntuatu eta ranking bat osatzeko tresna gisa. Tf–idf arrakastaz erabili daiteke hainbat eremutan [[Stop-words|hitz-hutsen (stopwords)]] iragazketarako, [[Laburpengintza automatikoa|testu laburpen]]<nowiki/>a eta sailkapena barne.
9. lerroa:
== Motibazioak ==
=== Terminoen maiztasuna ===
Suposa dezagun [[Euskera]]<nowiki/>zko testu dokumentu batzuk ditugula eta "behi marroia" kontsultarako, dokumentu adierazgarriena
Bilaketan aurrera jo nahi izanez gero, termino bakoitza dokumentu bakoitzean zenbatetan agertzen den kontatu genezake; termino jakin bat dokumentu batean zenbat aldiz ageri den, terminoen maiztasuna deritzo. Hala eta guztiz ere, dokumentuen luzera asko aldatzen den kasuetan, doikuntzak egin behar izaten dira (ikusi definizioa behean). Terminoen ponderazioaren lehen forma, [[Hans Peter Luhn]]<nowiki/>ri (1957) zor zaio, honela laburbilduz:
* Dokumentu batean ageri den termino baten pisua terminoen maiztasunarekiko proportzionala da.<ref>{{Erreferentzia|izena=Hans Peter|abizena=Luhn|izenburua= A Statistical Approach to Mechanized Encoding and Searching of Literary Information |argitaletxea=IBM |data=2015|url=http://web.stanford.edu/class/linguist289/luhn57.pdf}}</ref>
19. lerroa:
[[Karen Spärck Jones]] (1972) asmatutako interpretazio estatistiko batek, Alderantzizko Dokumentu Maiztasuna (IDF) deiturikoak, terminoen espezifikotasuna neurtzeko balio zuen, eta hau giltzarri bilakatu zen terminoen ponderazioan:
* Termino baten espezifikotasuna dokumentu horrentako agerpen kopuruaren alderantzizko funtzio gisa kuantifikatua
== Definizioa ==
41. lerroa:
|}
=== Terminoen maiztasuna ===
'''Terminoen maiztasunaren''' tf(''t'',''d'') kasuan, aukerarik errazena dokumentuan hitzaren ''kontaketa gordina'' erabiltzea da, hau da, ''d'' dokumentu batean ''t'' terminoa zenbatetan ageri den. Kontaketa ''f''<sub>''t'',''d''</sub>, bidez adierazten badugu, tf(''t'',''d'') = ''f''<sub>''t'',''d''</sub>
* "maiztasun" [[Boolean data type|Boolearrak]]: tf(''t'',''d'') = 1 da, {{Mvar|t}} {{Mvar|d}}-n agertzen bada, eta 0 bestela;
* Terminoen maiztasuna dokumentuaren luzera<span>ra egokitua</span>: ''f''<sub>''t'',''d''</sub> ÷ (hitz-kopurua d-n)
71. lerroa:
non
* <math>N</math>: dokumentuen kopurua guztira corpusean
* <math> |\{d \in D: t \in d\}| </math> : terminoa agertzen den dokumentu kopurua (hau da, <math> \mathrm{tf}(t,d) \neq 0</math>). Terminoa corpusean ez bada, zerorekin zatitzera eramango gaitu, . beraz, ohikoa da izendatzailea honela egokitzea <math>1 + |\{d \in D: t \in d\}|</math>.
81. lerroa:
:<math>\mathrm{tfidf}(t,d,D) = \mathrm{tf}(t,d) \cdot \mathrm{idf}(t, D)</math>
TFIDF-n pisu altua lortzen da [[Maiztasun (estatistika)|maiztasun]] handiko (dokumentu batean) termino bat eta dokumentu bilduma osoan, dokumentu maiztasun txikia duen termino bat erabiliz; pisuek, beraz, termino arruntak iragazteko joera dute.
IDF-ren log funtzioa beti 1 edo handiagoa izanik, IDF-ren (eta TDIDFren) balioa 0 edo handiagoa izango da.
Termino bat dokumentu anitzetan ageri daitekeenez, logaritmo barruko ratioa 1era hurbiltzen da, idf eta tf-idf 0rantz hurbilduz.
105. lerroa:
== TFIDFaren adibidea ==
Suposa dezagun ingelesezko corpus bat dugula,
{| class="wikitable" style="float: right; margin: 0px 0px 10px 1.5em;"
|+2. dokumentua
|