Tf–idf: berrikuspenen arteko aldeak
Ezabatutako edukia Gehitutako edukia
t erreferentziak Etiketa: 2017 wikitestu editorearekin |
tNo edit summary Etiketa: 2017 wikitestu editorearekin |
||
11. lerroa:
Suposa dezagun [[Euskera]]<nowiki/>zko testu dokumentu batzuk ditugula eta "behi marroia" kontsultarako, dokumentu adierazgarriena zein den jakin nahi dugula. Abiapuntu gisa "behi" eta "marroi", hitz biak ez dituzten dokumentuak baztertu ditzakegu, baina, hala ere, dokumentu asko geratzen zaizkigu.
Bilaketan aurrera jo nahi izanez gero, termino bakoitza dokumentu bakoitzean zenbatetan agertzen den kontatu genezake; termino jakin bat dokumentu batean zenbat aldiz ageri den, terminoen maiztasuna deritzo. Hala eta guztiz ere, dokumentuen luzera asko aldatzen den kasuetan, doikuntzak egin behar izaten dira (ikusi definizioa behean). Terminoen ponderazioaren lehen forma, [[Hans Peter Luhn]]<nowiki/>ri (1957) zor zaio, honela laburbilduz:
* Dokumentu batean ageri den termino baten pisua terminoen maiztasunarekiko proportzionala da.
=== Alderantzizko dokumentu maiztasuna ===
|