Tf–idf: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
t Autoritate kontrola jartzea
t Robota: Aldaketa kosmetikoak
 
1. lerroa:
[[Fitxategi:Karen Spärck.jpg|thumb|[[Karen Spärck Jones]]<nowiki/>ek (1935-2007) [[indexazio]] automatizatuaren garapena lideratu zuen.]]
[[Informazioa eskuratzea|Informazioaren berreskurapenean]], '''tf–idf''' edo '''TFIDF''', '''terminoen maiztasuna–alderantzizko dokumentu maiztasuna''' (ingelesez term frequency–inverse document frequency), zenbakizko estatistika bat da eta hitz bat zein garrantzitsua den adieraztea du helburu, [[dokumentu]] bilduma batean edo [[Testu corpus|corpus]] batean.<ref>{{Erreferentzia|izena=A.,J.D.,|abizena=Rajaraman,Ullman|izenburua=Mining of Massive Datasets|orrialdeak=1–17|data=2011|url=http://i.stanford.edu/~ullman/mmds/ch1.pdf}}</ref> Sarri erabili oi da [[Haztapen (prozedura kuantitatiboa)|ponderazio-faktore]] modura, [[informazioaren berreskurapen]]<nowiki/>eko bilaketetan, testu-meatzaritzan, eta erabiltzaile modelaketa.
Tf-idf balioa [[Proportzionaltasun (matematika)|proportzionalki]] hazten da hitz bat dokumentuan agertzen den kopuruarekiko, eta hitzaren corpuseko maiztasunekin orekatzen da, zeinak hitz batzuk, oro har sarriago agertzen direla erakusten duen. Gaur egun, tf-idf da termino-ponderazio-eskema ezagunenetako bat; liburutegi digitaletan, testuetan oinarritutako gomendio-sistemen % 83k erabiltzen du tf-idf.<ref>{{Erreferentzia|izena=Corinna,Bela,Stefan|abizena=Rajaraman,Ullman,Langer|izenburua=Research-paper recommender systems: a literature survey|argitaletxea=International Journal on Digital Libraries|data=2015-07-26|url=https://link.springer.com/article/10.1007/s00799-015-0156-0}}</ref>
 
Tf–idf ponderazio-eskemaren aldaerak askotan erabiltzen dituzte [[Bilaketa motor|bilaketa-motor]]<nowiki/>eek, erabiltzailearen [[Informazioa eskuratzea|kontsulta]] batetarako, dokumentu baten garrantzia puntuatu eta ranking bat osatzeko tresna gisa. Tf–idf arrakastaz erabili daiteke hainbat eremutan [[Stop-words|hitz-hutsen (stopwords)]] iragazketarako, [[Laburpengintza automatikoa|testu laburpen]]<nowiki/>a eta sailkapena barne.
9. lerroa:
== Motibazioak ==
 
===   Terminoen maiztasuna ===
Suposa dezagun [[Euskera]]<nowiki/>zko testu dokumentu batzuk ditugula eta "behi marroia" kontsultarako, dokumentu adierazgarriena zein den jakin nahi dugula. Abiapuntu gisa "behi" eta "marroi", hitz biak ez dituzten dokumentuak baztertu ditzakegu, baina, hala ere, dokumentu asko geratzen zaizkigu.
Bilaketan aurrera jo nahi izanez gero, termino bakoitza dokumentu bakoitzean zenbatetan agertzen den kontatu genezake; termino jakin bat dokumentu batean zenbat aldiz ageri den, terminoen maiztasuna deritzo. Hala eta guztiz ere, dokumentuen luzera asko aldatzen den kasuetan, doikuntzak egin behar izaten dira (ikusi definizioa behean). Terminoen ponderazioaren lehen forma, [[Hans Peter Luhn]]<nowiki/>ri (1957) zor zaio, honela laburbilduz:
* Dokumentu batean ageri den termino baten pisua terminoen maiztasunarekiko proportzionala da.<ref>{{Erreferentzia|izena=Hans Peter|abizena=Luhn|izenburua= A Statistical Approach to Mechanized Encoding and Searching of Literary Information |argitaletxea=IBM |data=2015|url=http://web.stanford.edu/class/linguist289/luhn57.pdf}}</ref>
19. lerroa:
 
[[Karen Spärck Jones]] (1972) asmatutako interpretazio estatistiko batek, Alderantzizko Dokumentu Maiztasuna (IDF) deiturikoak, terminoen espezifikotasuna neurtzeko balio zuen, eta hau giltzarri bilakatu zen terminoen ponderazioan:
* Termino baten espezifikotasuna dokumentu horrentako agerpen kopuruaren alderantzizko funtzio gisa kuantifikatua izan daiteke.<ref>{{Erreferentzia|izena=Karen|abizena= Spärck Jones|izenburua=A Statistical Interpretation of Term Specificity and Its Application in Retrieval |argitaletxea= Journal of Documentation |data=1972|url=http://www.emeraldinsight.com/doi/abs/10.1108/eb026526}}</ref>
 
== Definizioa ==
41. lerroa:
|}
 
===   Terminoen maiztasuna ===
'''Terminoen maiztasunaren''' tf(''t'',''d'') kasuan, aukerarik errazena dokumentuan hitzaren ''kontaketa gordina'' erabiltzea da, hau da, ''d'' dokumentu batean ''t'' terminoa zenbatetan ageri den. Kontaketa  ''f''<sub>''t'',''d''</sub>, bidez adierazten badugu,  tf(''t'',''d'') = ''f''<sub>''t'',''d''</sub> da tf eskema errazena. Beste aukera batzuk, besteak beste<ref>{{Erreferentzia|izena=C.D.|abizena=Manning|izenburua= Introduction to Information Retrieval |data=2008|url=http://nlp.stanford.edu/IR-book/pdf/06vect.pdf|pmid=|pmc=}}</ref>{{Rp|128}}
* "maiztasun" [[Boolean data type|Boolearrak]]: tf(''t'',''d'') = 1 da, {{Mvar|t}}  {{Mvar|d}}-n agertzen bada, eta 0 bestela;
*  Terminoen maiztasuna dokumentuaren luzera<span>ra egokitua</span>: ''f''<sub>''t'',''d''</sub> ÷ (hitz-kopurua d-n)
71. lerroa:
 
non
* <math>N</math>: dokumentuen kopurua guztira corpusean <math>N = {|D|}</math>
* <math> |\{d \in D: t \in d\}| </math> : terminoa agertzen den dokumentu kopurua (hau da, <math> \mathrm{tf}(t,d) \neq 0</math>). Terminoa corpusean ez bada, zerorekin zatitzera eramango gaitu, . beraz, ohikoa da izendatzailea honela egokitzea <math>1 + |\{d \in D: t \in d\}|</math>.
 
81. lerroa:
:<math>\mathrm{tfidf}(t,d,D) = \mathrm{tf}(t,d) \cdot \mathrm{idf}(t, D)</math>
 
TFIDF-n pisu altua lortzen da [[Maiztasun (estatistika)|maiztasun]] handiko (dokumentu batean) termino bat eta dokumentu bilduma osoan, dokumentu maiztasun txikia duen termino bat erabiliz; pisuek, beraz, termino arruntak iragazteko joera dute.
IDF-ren log funtzioa beti 1 edo handiagoa izanik, IDF-ren (eta TDIDFren) balioa 0 edo handiagoa izango da.
Termino bat dokumentu anitzetan ageri daitekeenez, logaritmo barruko ratioa 1era hurbiltzen da, idf eta tf-idf 0rantz hurbilduz.
105. lerroa:
 
== TFIDFaren adibidea ==
Suposa dezagun ingelesezko corpus bat dugula, bi dokumentuz osatua, eta hitzen kontaketa egin dugula, beheko taulan daude ikusgai.
{| class="wikitable" style="float: right; margin: 0px 0px 10px 1.5em;"
|+2. dokumentua