Tf–idf: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
tNo edit summary
Etiketa: 2017 wikitestu editorearekin
1. lerroa:
{{Zirriborro}}
 
[[Informazioa eskuratzea|Informazioaren berreskurapenean]], '''tf–idf''' edo '''TFIDF''', '''terminoen maiztasuna–alderantzizko dokumentu maiztasuna''' (ingelesez term frequency–inverse document frequency), zenbakizko estatistika bat da eta hitz bat zein garrantzitsua den adieraztea du helburu, [[dokumentu]] bilduma batean edo [[Testu corpus|corpus]] batean.<ref>{{Cite book |last= Rajaraman |first1=A. |last2= Ullman |first2= J.D. |doi= 10.1017/CBO9781139058452.002 |chapter= Data Mining |title= Mining of Massive Datasets |pages= 1–17 |year= 2011 |isbn= 978-1-139-05845-2 |url= http://i.stanford.edu/~ullman/mmds/ch1.pdf}}</ref> Sarri erabili oi da [[Haztapen (prozedura kuantitatiboa)|ponderazio-faktore]] modura, [[informazioaren berreskurapen]]<nowiki/>eko bilaketetan, testu-meatzaritzan, eta erabiltzaile modelaketa.
Tf-idf balioa [[Proportzionaltasun (matematika)|proportzionalki]] hazten da hitz bat dokumentuan agertzen den kopuruarekiko, eta hitzaren corpuseko maiztasunekin orekatzen da, zeinak hitz batzuk, oro har sarriago agertzen direla erakusten duen. Gaur egun, tf-idf da termino-ponderazio-eskema ezagunenetako bat; liburutegi digitaletan, testuetan oinarritutako gomendio-sistemen % 83k erabiltzen du tf-idf.<ref>{{Cite journal |last= Breitinger |first=Corinna |last2=Gipp |first2= Bela |last3=Langer |first3=Stefan |date= 2015-07-26 |title= Research-paper recommender systems: a literature survey |url= https://link.springer.com/article/10.1007/s00799-015-0156-0 |journal= International Journal on Digital Libraries |language=en |volume=17 |issue=4 |pages= 305–338 |doi= 10.1007/s00799-015-0156-0 |issn= 1432-5012 |via=}}</ref>