Tf–idf: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
formula matematikoak
Etiketa: 2017 wikitestu editorearekin
tNo edit summary
Etiketa: 2017 wikitestu editorearekin
4. lerroa:
Tf-idf balioa [[Proportzionaltasun (matematika)|proportzionalki]] hazten da hitz bat dokumentuan agertzen den kopuruarekiko, eta hitzaren corpuseko maiztasunekin orekatzen da, zeinak hitz batzuk, oro har sarriago agertzen direla erakusten duen. Gaur egun, tf-idf da termino-ponderazio-eskema ezagunenetako bat; liburutegi digitaletan, testuetan oinarritutako gomendio-sistemen % 83k erabiltzen du tf-idf.<ref>{{Cite journal|last=Breitinger|first=Corinna|last2=Gipp|first2=Bela|last3=Langer|first3=Stefan|date=2015-07-26|title=Research-paper recommender systems: a literature survey|url=https://link.springer.com/article/10.1007/s00799-015-0156-0|journal=International Journal on Digital Libraries|language=en|volume=17|issue=4|pages=305–338|doi=10.1007/s00799-015-0156-0|issn=1432-5012|via=}}</ref>
 
Tf–idf ponderazio-eskemaren aldaerak askotan erabiltzen dituzte [[Bilaketa motor|bilaketa-motor]]<nowiki/>eek, erabiltzailearen [[Informazioa eskuratzea|kontsulta]] batetarako, dokumentu baten garrantzia puntuatu eta ranking bat osatzeko tresna gisa. Tf–idf arrakastaz erabili daiteke hainbat eremutan [[Stop-words|hitz-hutsehutsen (stopwords) n]] iragazketarako, [[Laburpengintza automatikoa|testu laburpen]]<nowiki/>a eta sailkapena barne.
 
Ranking funtzio sinpleenetariko bat kontsultako termino bakoitzeko TF-IDFak batuz kalkulatzen da; sofistikatuagoak diren sailkapen funtzioetariko ugari eredu sinple honen aldaerak besterik ez dira.
13. lerroa:
Suposa dezagun [[Euskera]]<nowiki/>zko testu dokumentu batzuk ditugula eta "behi marroia" kontsultarako, dokumentu adierazgarriena zein den jakin nahi dugula. Abiapuntu gisa "behi" eta "marroi", hitz biak ez dituzten dokumentuak baztertu ditzakegu, baina, hala ere, dokumentu asko geratzen zaizkigu.
Bilaketan aurrera jo nahi izanez gero, termino bakoitza dokumentu bakoitzean zenbatetan agertzen den kontatu genezake; termino jakin bat dokumentu batean zenbat aldiz ageri den, terminoen maiztasuna deritzo. Hala eta guztiz ere, dokumentuen luzera asko aldatzen den kasuetan, doikuntzak egin behar izaten dira (ikusi definizioa behean). Terminoen ponderazioaren lehen forma, [[Hans Peter Luhn]]<nowiki/>ri (1957) zor zaio, honela laburbilduz:
* Dokumentu batean ageri den termino baten pisua terminoen maiztasunarekiko proportzionala da. <ref>{{cite journal |last=Luhn |first=Hans Peter |last2= |first2= |date=1957 |title= A Statistical Approach to Mechanized Encoding and Searching of Literary Information |url= http://web.stanford.edu/class/linguist289/luhn57.pdf |journal= IBM Journal of research and development |publisher=IBM |volume=1 |issue=4 |quote= There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea. |pages=315 |doi= 10.1147/rd.14.0309 |access-date= 2 March 2015}}</ref>
* Dokumentu batean ageri den termino baten pisua terminoen maiztasunarekiko proportzionala da.<ref />
 
=== Alderantzizko dokumentu maiztasuna ===
20. lerroa:
 
[[Karen Spärck Jones]] (1972) asmatutako interpretazio estatistiko batek, Alderantzizko Dokumentu Maiztasuna (IDF) deiturikoak, terminoen espezifikotasuna neurtzeko balio zuen, eta hau giltzarri bilakatu zen terminoen ponderazioan:
* Termino baten espezifikotasuna dokumentu horrentako agerpen kopuruaren alderantzizko funtzio gisa kuantifikatua izan daiteke.<ref>{{Cite journal |last= Spärck Jones |first= K. |authorlink= Karen Spärck Jones |doi= 10.1108/eb026526 |title= A Statistical Interpretation of Term Specificity and Its Application in Retrieval |journal= Journal of Documentation |volume= 28 |pages= 11–21 |year= 1972 |url= http://www.emeraldinsight.com/doi/abs/10.1108/eb026526 |pmid= |pmc= }}</ref>
 
== Definizioa ==