Tf–idf: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
tNo edit summary
Etiketa: 2017 wikitestu editorearekin
formula matematikoak
Etiketa: 2017 wikitestu editorearekin
1. lerroa:
{{Zirriborro}}
 
[[Informazioa eskuratzea|Informazioaren berreskurapenean]], '''tf–idf''' edo '''TFIDF''', '''terminoen maiztasuna–alderantzizko dokumentu maiztasuna''' (ingelesez term frequency–inverse document frequency), zenbakizko estatistika bat da eta hitz bat zein garrantzitsua den adieraztea du helburu, [[dokumentu]] bilduma batean edo [[Testu corpus|corpus]] batean.<ref>{{Cite book|last=Rajaraman|first1=A.|last2=Ullman|first2=J.D.|doi=10.1017/CBO9781139058452.002|chapter=Data Mining|title=Mining of Massive Datasets|pages=1–17|year=2011|isbn=978-1-139-05845-2|url=http://i.stanford.edu/~ullman/mmds/ch1.pdf}}</ref> Sarri erabili oi da [[Haztapen (prozedura kuantitatiboa)|ponderazio-faktore]] modura, [[informazioaren berreskurapen]]<nowiki/>eko bilaketetan, testu-meatzaritzan, eta erabiltzaile modelaketanmodelaketa.
Tf-idf balioa [[Proportzionaltasun (matematika)|proportzionalki]] hazten da hitz bat dokumentuan agertzen den kopuruarekiko, eta hitzaren corpuseko maiztasunekin orekatzen da, zeinak hitz batzuk, oro har sarriago agertzen direla erakusten duen. Gaur egun, tf-idf da termino-ponderazio-eskema ezagunenetako bat; liburutegi digitaletan, testuetan oinarritutako gomendio-sistemen % 83k erabiltzen du tf-idf.<ref>{{Cite journal|last=Breitinger|first=Corinna|last2=Gipp|first2=Bela|last3=Langer|first3=Stefan|date=2015-07-26|title=Research-paper recommender systems: a literature survey|url=https://link.springer.com/article/10.1007/s00799-015-0156-0|journal=International Journal on Digital Libraries|language=en|volume=17|issue=4|pages=305–338|doi=10.1007/s00799-015-0156-0|issn=1432-5012|via=}}</ref>
 
Tf–idf ponderazio-eskemaren aldaerak askotan erabiltzen dituzte [[Bilaketa motor|bilaketa-motor]]<nowiki/>eek, erabiltzailearen [[Informazioa eskuratzea|kontsulta]] batetarako, dokumentu baten garrantzia puntuatu eta ranking bat osatzeko tresna gisa. Tf–idf arrakastaz erabili daiteke hainbat eremutan [[Stop-words|hitz-hutsenhutse(stopwords) n]] iragazketarako, [[Laburpengintza automatikoa|testu laburpen]]<nowiki/>a eta sailkapena barne.
 
Ranking funtzio sinpleenetariko bat kontsultako termino bakoitzeko TF-IDFak batuz kalkulatzen da; sofistikatuagoak diren sailkapen funtzioetariko ugari eredu sinple honen aldaerak besterik ez dira.
29. lerroa:
! TF pisua
|-
| boolearra|| <math>{0,1}</math>
| <math>{0,1}</math>
|-
|kontaketa gordina<br>|| <math> f_{t,d}</math>
| <math> f_{t,d}</math>
|-
|terminoen maiztasuna<br>||<math> f_{t,d} \Bigg/ {\sum_{t' \in d}{f_{t',d}}}</math>
|<math> f_{t,d} \Bigg/ {\sum_{t' \in d}{f_{t',d}}}</math>
|-
| log normalizazioa || <math>1 + \log (f_{t,d})</math>
| <math>1 + \log (f_{t,d})</math>
|-
| 0.5normalizazio bikoitza<br>|| <math>0.5 + 0.5 \cdot \frac { f_{t,d} }{\max_{\{t' \in d\}} {f_{t',d}}} </math>
| <math>0.5 + 0.5 \cdot \frac { f_{t,d} }{\max_{\{t' \in d\}} {f_{t',d}}} </math>
|-
|K normalizazio bikoitza<br>|| <math>K + (1 - K) \frac { f_{t,d} }{\max_{\{t' \in d\}} {f_{t',d}}} </math>
| <math>K + (1 - K) \frac { f_{t,d} }{\max_{\{t' \in d\}} {f_{t',d}}} </math>
|}
 
54 ⟶ 48 lerroa:
*  Eskala logaritmikoko maiztasuna: tf(''t'',''d'') = log ( 1 + ''f''<sub>''t'',''d''</sub>), (edo zero, ''f''<sub>'', t'',''d''</sub>{{math|''f''<sub>''t'',''d''</sub>}} zero bada);<ref>{{cite web|url=https://jmotif.github.io/sax-vsm_site/morea/algorithm/TFIDF.html|title=TFIDF statistics {{!}} SAX-VSM}}</ref>
* Maiztasun areagotuak, dokumentu luzeetan bias-a ekiditeko, adibidez, maiztasuna zati dokumentuan gehien agertzen den terminoaren maistasuna:
| :<math>\mathrm{tf}(t,d) = 0.5 + 0.5 \cdot \frac { f_{t, d} }{\max_{max\{f_{t', d}:t' \in d\}} {f_{t',d}}} </math>
: <math />
 
=== Alderantzizko dokumentu maiztasuna ===
60 ⟶ 54 lerroa:
|+ Alderantzizkoa dokumentu maiztasunaren (FID) ponderazio aldaerak
! ponderazio-eskema
! FID pisua (<math>n_t = |\{d \in D: t \in d\}| </math>)
|-
| unitarioak || 1
| 1
|-
| alderantzizko dokumentu maiztasuna || <math> \log \frac {N} {n_t} = - \log \frac {n_t} {N} </math>
| <math />
|-
| alderantzizko dokumentu maiztasuna leuna || <math> \log \left( 1+ \frac {N} {n_t}\right) </math>
| <math />
|-
| alderantzizko dokumentu maiztasun max || <math> \log \left(\frac {\max_{\{t' \in d\}} n_{t'}} {1 + n_t}\right) </math>
| <math />
|-
| alderantzizko dokumentu maiztasun probabilistikoa || <math> \log \frac {N - n_t} {n_t} </math>
| <math />
|}
 
'''Alderantzizkoa dokumentu maiztasuna''' hitz batek zenbat informazio ematen duen adierazteko neurri bat da, hau da, ea terminoa ohikoa edo arraroa den dokumentu guztietan zehar. Hitza barne duten dokumentuen eskala logaritmikoko alderantzizko zatikia da. Dokumentu kopurua zati terminoa barne duten dokumentuen kopurua eginez lortzen dan, ondoren zatiduraren logaritmoa kalkulatuz.
:<math> \mathrm{idf}(t, D) = \log \frac{N}{|\{d \in D: t \in d\}|}</math>
: <math />
 
non
* <math >N</math>: dokumentuen kopurua guztira corpusean <math>N = {|D|}</math>
* <math /> |\{d \in D:  <matht \in d\}| </math> : terminoa agertzen den dokumentu kopurua (hau da, <math> \mathrm{tf}(t,d) \neq 0</math>). Terminoa corpusean ez bada, zerorekin zatitzera eramango gaitu, . beraz, ohikoa da izendatzailea honela egokitzea <math>1 + |\{d \in D: t \in d\}|</math>.
 
[[Fitxategi:Plot_IDF_functions.png|thumb|Alderantzizko dokumentu maiztasuna kalkulatzeko funtzio ezberdinen grafikoa: estandarra, leuna eta probabilistikoa.]]
 
=== Termino maiztasun–Alderantzizko dokumentu maiztasuna ===
Ondoren, tf–idf honela kalkulatzen da:
 
: <br><math />
:<math>\mathrm{tfidf}(t,d,D) = \mathrm{tf}(t,d) \cdot \mathrm{idf}(t, D)</math>
 
TFIDF-n pisu altua lortzen da [[Maiztasun (estatistika)|maiztasun]] handiko (dokumentu batean) termino bat eta dokumentu bilduma osoan, dokumentu maiztasun txikia duen termino bat erabiliz; pisuek, beraz, termino arruntak iragazteko joera dute.
IDF-ren log funtzioa beti 1 edo handiagoa izanik, IDF-ren (eta TDIDFren) balioa 0 edo handiagoa izango da.
149 ⟶ 143 lerroa:
 
Bere maiztasun forma gordinean, dokumentu bakoitzerako "this"-en maiztasuna besterik ez da tf. Dokumentu bakoitzean, "this" hitza behin agertzen da; baina 2. dokumentuak hitz gehiago dituenez, bere maiztasun erlatiboa txikiagoa da.
:<math> \mathrm{tf}(\mathsf{''this''}, d_{1}) = \frac{1}{5} = 0.2 </math>
: <math />
:<math> \mathrm{tf}(\mathsf{''this''}, d_{2}) = \frac{1}{7} \approx 0.14 </math>
: <math />
 
Idf bat corpus bakoitzeko  konstantea da, eta "this" hitza barne duten dokumentuen ratioa adierazten du. Kasu honetan, bi dokumentuko corpus bat dugu, eta guztiek dute "this" hitza barnean.
:<math> \mathrm{idf}(\mathsf{''this''}, D) = \log \left (\frac{2}{2} \right ) = 0 </math>
: <math />
 
Beraz, TDIDFa zero da "this" hitzarentzat, eta horrek hitza ez dela oso adierazgarria erakusten digu, dokumentu guztietan agertzen delako.
:<math> \mathrm{tfidf}(\mathsf{''this''}, d_{1}) = 0.2 \times 0 = 0 </math>
: <math />
:<math> \mathrm{tfidf}(\mathsf{''this''}, d_{2}) = 0.14 \times 0 = 0 </math>
: <math />
 
Adibide interesgarriago bat izango dugu "example" hitzarekin; hiru alditan agertzen da, nahiz eta bigarren dokumentuan soilik agertzen den:
:<math> \mathrm{tf}(\mathsf{''example''}, d_{1}) = \frac{0}{5} = 0 </math>
: <math />
:<math> \mathrm{tf}(\mathsf{''example''}, d_{2}) = \frac{3}{7} \approx 0.429 </math>
: <math />
:<math> \mathrm{idf}(\mathsf{''example''}, D) = \log \left (\frac{2}{1} \right ) = 0.301 </math>
: <math />
 
Azkenik,
:<math>\mathrm{tfidf}(\mathsf{''example''}, d_1) = \mathrm{tf}(\mathsf{''example''}, d_1) \times \mathrm{idf}(\mathsf{''example''}, D) = 0 \times 0.301 = 0</math>
: <math />
:<math>\mathrm{tfidf}(\mathsf{''example''}, d_2) = \mathrm{tf}(\mathsf{''example''}, d_2) \times \mathrm{idf}(\mathsf{''example''}, D) = 0.429 \times 0.301 \approx 0.13</math>
: <math />
 
(logaritmo hamartarrak erabiliz ).