Tf–idf: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
tNo edit summary
Etiketa: 2017 wikitestu editorearekin
Ksarasola (eztabaida | ekarpenak)
No edit summary
1. lerroa:
[[Fitxategi:Karen Spärck.jpg|thumb|[[Karen Spärck Jones]]<nowiki/>ek (1935-2007) [[indexazio]] automatizatuaren garapena lideratu zuen.]]
[[Informazioa eskuratzea|Informazioaren berreskurapenean]], '''tf–idf''' edo '''TFIDF''', '''terminoen maiztasuna–alderantzizko dokumentu maiztasuna''' (ingelesez term frequency–inverse document frequency), zenbakizko estatistika bat da eta hitz bat zein garrantzitsua den adieraztea du helburu, [[dokumentu]] bilduma batean edo [[Testu corpus|corpus]] batean.<ref>{{Erreferentzia|izena=A.,J.D.,|abizena=Rajaraman,Ullman|izenburua=Mining of Massive Datasets|orrialdeak=1–17|data=2011|url=http://i.stanford.edu/~ullman/mmds/ch1.pdf}}</ref> Sarri erabili oi da [[Haztapen (prozedura kuantitatiboa)|ponderazio-faktore]] modura, [[informazioaren berreskurapen]]<nowiki/>eko bilaketetan, testu-meatzaritzan, eta erabiltzaile modelaketa.
Tf-idf balioa [[Proportzionaltasun (matematika)|proportzionalki]] hazten da hitz bat dokumentuan agertzen den kopuruarekiko, eta hitzaren corpuseko maiztasunekin orekatzen da, zeinak hitz batzuk, oro har sarriago agertzen direla erakusten duen. Gaur egun, tf-idf da termino-ponderazio-eskema ezagunenetako bat; liburutegi digitaletan, testuetan oinarritutako gomendio-sistemen % 83k erabiltzen du tf-idf.<ref>{{Erreferentzia|izena=Corinna,Bela,Stefan|abizena=Rajaraman,Ullman,Langer|izenburua=Research-paper recommender systems: a literature survey|argitaletxea=International Journal on Digital Libraries|data=2015-07-26|url=https://link.springer.com/article/10.1007/s00799-015-0156-0}}</ref>