Tf–idf: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
t erref
Etiketa: 2017 wikitestu editorearekin
tNo edit summary
Etiketa: 2017 wikitestu editorearekin
44. lerroa:
* "maiztasun" [[Boolean data type|Boolearrak]]: tf(''t'',''d'') = 1 da, {{Mvar|t}}  {{Mvar|d}}-n agertzen bada, eta 0 bestela;
*  Terminoen maiztasuna dokumentuaren luzera<span>ra egokitua</span>: ''f''<sub>''t'',''d''</sub> ÷ (hitz-kopurua d-n)
*  Eskala logaritmikoko maiztasuna: tf(''t'',''d'') = log ( 1 + ''f''<sub>''t'',''d''</sub>), (edo zero, ''f''<sub>''t'',''d''</sub> zero bada);<ref>{{citeErreferentzia|izenburua= TFIDF statistics web|url=https://jmotif.github.io/sax-vsm_site/morea/algorithm/TFIDF.html|title=TFIDF statistics {{!}} SAX-VSM}}</ref>
 
* Maiztasun areagotuak, dokumentu luzeetan bias-a ekiditeko, adibidez, maiztasuna zati dokumentuan gehien agertzen den terminoaren maistasuna:
:<math>\mathrm{tf}(t,d) = 0.5 + 0.5 \cdot \frac{f_{t, d}}{\max\{f_{t', d}:t' \in d\}}</math>