Tf–idf: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
t →‎Erreferentziak: +erreferentzia zerrenda txantiloia
t erreferentziak zuzentzen
Etiketa: 2017 wikitestu editorearekin
1. lerroa:
[[Informazioa eskuratzea|Informazioaren berreskurapenean]], '''tf–idf''' edo '''TFIDF''', '''terminoen maiztasuna–alderantzizko dokumentu maiztasuna''' (ingelesez term frequency–inverse document frequency), zenbakizko estatistika bat da eta hitz bat zein garrantzitsua den adieraztea du helburu, [[dokumentu]] bilduma batean edo [[Testu corpus|corpus]] batean.<ref>{{Cite book |last= Rajaraman Erreferentzia|first1izena=A. |last2= Ullman |first2= ,J.D. ,|doiabizena= 10.1017/CBO9781139058452.002 Rajaraman,Ullman|chapterizenburua= Data Mining |title= Mining of Massive Datasets |pagesorrialdeak= 1–17 |yeardata= 2011 |isbn= 978-1-139-05845-2 |url= http://i.stanford.edu/~ullman/mmds/ch1.pdf}}</ref> Sarri erabili oi da [[Haztapen (prozedura kuantitatiboa)|ponderazio-faktore]] modura, [[informazioaren berreskurapen]]<nowiki/>eko bilaketetan, testu-meatzaritzan, eta erabiltzaile modelaketa.
Tf-idf balioa [[Proportzionaltasun (matematika)|proportzionalki]] hazten da hitz bat dokumentuan agertzen den kopuruarekiko, eta hitzaren corpuseko maiztasunekin orekatzen da, zeinak hitz batzuk, oro har sarriago agertzen direla erakusten duen. Gaur egun, tf-idf da termino-ponderazio-eskema ezagunenetako bat; liburutegi digitaletan, testuetan oinarritutako gomendio-sistemen % 83k erabiltzen du tf-idf.<ref>{{Cite journal Erreferentzia|last= Breitinger |firstizena=Corinna |last2=Gipp |first2= ,Bela ,Stefan|last3abizena=Rajaraman,Ullman,Langer |first3izenburua=Stefan |date= 2015-07-26 |title= Research-paper recommender systems: a literature survey|argitaletxea=International Journal on Digital Libraries|data=2015-07-26|url= https://link.springer.com/article/10.1007/s00799-015-0156-0 |journal= International Journal on Digital Libraries |language=en |volume=17 |issue=4 |pages= 305–338 |doi= 10.1007/s00799-015-0156-0 |issn= 1432-5012 |via=}}</ref>
 
 
Tf–idf ponderazio-eskemaren aldaerak askotan erabiltzen dituzte [[Bilaketa motor|bilaketa-motor]]<nowiki/>eek, erabiltzailearen [[Informazioa eskuratzea|kontsulta]] batetarako, dokumentu baten garrantzia puntuatu eta ranking bat osatzeko tresna gisa. Tf–idf arrakastaz erabili daiteke hainbat eremutan [[Stop-words|hitz-hutsen (stopwords)]] iragazketarako, [[Laburpengintza automatikoa|testu laburpen]]<nowiki/>a eta sailkapena barne.