18:44, 1 martxoa 2018ko berrikusketa aldatu Satantxiki (eztabaida \| ekarpenak) 45 edits t erreferentziak Etiketa: 2017 wikitestu editorearekin ← Aurreko ezberdintasuna		18:44, 1 martxoa 2018ko berrikusketa aldatu desegin Satantxiki (eztabaida \| ekarpenak) 45 edits tNo edit summary Etiketa: 2017 wikitestu editorearekin Hurrengo ezberdintasuna →
11. lerroa: Suposa dezagun [[Euskera]]<nowiki/>zko testu dokumentu batzuk ditugula eta "behi marroia" kontsultarako, dokumentu adierazgarriena zein den jakin nahi dugula. Abiapuntu gisa "behi" eta "marroi", hitz biak ez dituzten dokumentuak baztertu ditzakegu, baina, hala ere, dokumentu asko geratzen zaizkigu. Bilaketan aurrera jo nahi izanez gero, termino bakoitza dokumentu bakoitzean zenbatetan agertzen den kontatu genezake; termino jakin bat dokumentu batean zenbat aldiz ageri den, terminoen maiztasuna deritzo. Hala eta guztiz ere, dokumentuen luzera asko aldatzen den kasuetan, doikuntzak egin behar izaten dira (ikusi definizioa behean). Terminoen ponderazioaren lehen forma, [[Hans Peter Luhn]]<nowiki/>ri (1957) zor zaio, honela laburbilduz: * Dokumentu batean ageri den termino baten pisua terminoen maiztasunarekiko proportzionala da. <ref>{{~~cite journal \|last=Luhn~~ Erreferentzia\|~~first~~izena=Hans Peter \|~~last2~~abizena= ~~\|first2= \|date=1957~~ Luhn\|~~title~~izenburua= A Statistical Approach to Mechanized Encoding and Searching of Literary Information \|argitaletxea=IBM \|data=2015\|url= http://web.stanford.edu/class/linguist289/luhn57.pdf \|journal= IBM Journal of research and development \|publisher=IBM \|volume=1 \|issue=4 \|quote= There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea. \|pages=315 \|doi= 10.1147/rd.14.0309 \|access-date= 2 March 2015}}</ref> <ref>{{Erreferentzia\|izena=Hans Peter\|abizena=Luhn\|izenburua= A Statistical Approach to Mechanized Encoding and Searching of Literary Information \|argitaletxea=IBM \|data=2015\|url=http://web.stanford.edu/class/linguist289/luhn57.pdf}}</ref> === Alderantzizko dokumentu maiztasuna ===

Tf–idf: berrikuspenen arteko aldeak