Tf–idf: berrikuspenen arteko aldeak
Ezabatutako edukia Gehitutako edukia
t →Erreferentziak: +erreferentzia zerrenda txantiloia |
t erreferentziak zuzentzen Etiketa: 2017 wikitestu editorearekin |
||
1. lerroa:
[[Informazioa eskuratzea|Informazioaren berreskurapenean]], '''tf–idf''' edo '''TFIDF''', '''terminoen maiztasuna–alderantzizko dokumentu maiztasuna''' (ingelesez term frequency–inverse document frequency), zenbakizko estatistika bat da eta hitz bat zein garrantzitsua den adieraztea du helburu, [[dokumentu]] bilduma batean edo [[Testu corpus|corpus]] batean.<ref>{{
Tf-idf balioa [[Proportzionaltasun (matematika)|proportzionalki]] hazten da hitz bat dokumentuan agertzen den kopuruarekiko, eta hitzaren corpuseko maiztasunekin orekatzen da, zeinak hitz batzuk, oro har sarriago agertzen direla erakusten duen. Gaur egun, tf-idf da termino-ponderazio-eskema ezagunenetako bat; liburutegi digitaletan, testuetan oinarritutako gomendio-sistemen % 83k erabiltzen du tf-idf.<ref>{{
Tf–idf ponderazio-eskemaren aldaerak askotan erabiltzen dituzte [[Bilaketa motor|bilaketa-motor]]<nowiki/>eek, erabiltzailearen [[Informazioa eskuratzea|kontsulta]] batetarako, dokumentu baten garrantzia puntuatu eta ranking bat osatzeko tresna gisa. Tf–idf arrakastaz erabili daiteke hainbat eremutan [[Stop-words|hitz-hutsen (stopwords)]] iragazketarako, [[Laburpengintza automatikoa|testu laburpen]]<nowiki/>a eta sailkapena barne.
|