Tf–idf: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
t erreferentziak
Etiketa: 2017 wikitestu editorearekin
tNo edit summary
Etiketa: 2017 wikitestu editorearekin
11. lerroa:
Suposa dezagun [[Euskera]]<nowiki/>zko testu dokumentu batzuk ditugula eta "behi marroia" kontsultarako, dokumentu adierazgarriena zein den jakin nahi dugula. Abiapuntu gisa "behi" eta "marroi", hitz biak ez dituzten dokumentuak baztertu ditzakegu, baina, hala ere, dokumentu asko geratzen zaizkigu.
Bilaketan aurrera jo nahi izanez gero, termino bakoitza dokumentu bakoitzean zenbatetan agertzen den kontatu genezake; termino jakin bat dokumentu batean zenbat aldiz ageri den, terminoen maiztasuna deritzo. Hala eta guztiz ere, dokumentuen luzera asko aldatzen den kasuetan, doikuntzak egin behar izaten dira (ikusi definizioa behean). Terminoen ponderazioaren lehen forma, [[Hans Peter Luhn]]<nowiki/>ri (1957) zor zaio, honela laburbilduz:
* Dokumentu batean ageri den termino baten pisua terminoen maiztasunarekiko proportzionala da. <ref>{{cite journal |last=Luhn Erreferentzia|firstizena=Hans Peter |last2abizena= |first2= |date=1957 Luhn|titleizenburua= A Statistical Approach to Mechanized Encoding and Searching of Literary Information |argitaletxea=IBM |data=2015|url= http://web.stanford.edu/class/linguist289/luhn57.pdf |journal= IBM Journal of research and development |publisher=IBM |volume=1 |issue=4 |quote= There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea. |pages=315 |doi= 10.1147/rd.14.0309 |access-date= 2 March 2015}}</ref>
 
<ref>{{Erreferentzia|izena=Hans Peter|abizena=Luhn|izenburua= A Statistical Approach to Mechanized Encoding and Searching of Literary Information |argitaletxea=IBM |data=2015|url=http://web.stanford.edu/class/linguist289/luhn57.pdf}}</ref>
 
=== Alderantzizko dokumentu maiztasuna ===