Informazioaren berreskurapen: berrikuspenen arteko aldeak
Ezabatutako edukia Gehitutako edukia
No edit summary |
|||
34. lerroa:
#'''Parekatzea''': kontsulta dokumentuen errepresentazioarekin, indizearekin, parekatzen da. Parekatze honetan dokumentuen azpimultzo bat aukeratzen da.
Gaur egungo sistemetan ohikoena dokumentu-zerrenda ordenatu bat itzultzea da, zerrendaren hasieran jarriz ustez erabiltzaileari gehien interesatuko zaizkion dokumentuak, alegia, sistemaren ustez adierazgarrienak direnak. Page rank izeneko algoritmoa oso baliagarria da adierazgarrienak zein diren jakiteko; kontatzen da zenbat esteka dauden Interneten dokumentu bakoitzera, eta esteka gehien jasotzen dituztenak adierazgarrienak direla suposatzen da.
== IB sistemen ebaluazioa ==
Irteerako dokumentu batzuek, ziur aski, erabiltzailearen informazio-behar hori asetuko dute; dokumentu horiei ''dokumentu adierazgarri'' deitzen zaie. IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen eta IB sistema bat ebaluatzen denean bi neurri kalkulatzen dira:
* Precision (doitasuna): lortutakoaren kalitatea▼
* Recall (estaldura): lortu ez dena▼
<!--
Teknologia: Robota+indexatzailea+bilatzailea (page rank)
stemming+stop-list
[[Berbategi]] bat (hizkuntza naturaleko hitz zerrenda bat), bilaketaren arau logikoak biltzen dituen algoritmoa, eta emaitzen balorazio bat sortu beharra dago, besteak beste.
.
Tresna orokorrak (plug-in/gehigarriak):▼
Jabedunak: Autonomy, Google Search Appliance...▼
Libreak: Lucene, Fedora Commons...▼
▲Precision (doitasuna): lortutakoaren kalitatea
▲Recall (estaldura): lortu ez dena
Aldaerak
Sailkapena, bideratzea(routing), multzokatzea (clustering)...
59 ⟶ 51 lerroa:
CLIR, IR multimodala, QA
-->
== Bilatzaileak ==
[[Google]], [[Yahoo]], [[Elebila]], [[Lycos]] edo [[Copernic]] bezalako [[bilatzaile]]ak dira informazioa eskuratzen duten tresna ezagunenetako batzuk. Ezagunenenak Internet erabiltzen dute bilatzeko eremu gisa, baina intranet moduan ere erabil daitezke dokumentazio-gunetan edo liburutegi digitaletan.
== Tresna orokorrak ==
▲* Jabedunak: Autonomy, Google Search Appliance...
▲* Libreak: Lucene, Fedora Commons...
== Hizkuntza-teknologiaren erabilera ==
Duela gutxi arte, tresnen abiadura motela zela-eta, [[hizkuntza-teknologia]] ez zen asko erabiltzen arlo honen garapenean. Dena den, tresnak hobetu diren heinean eta dokumentu digitalen eleaniztasuna areagotzearekin batera, tresna linguistikoen erabilpena garrantzia hartzen joan da. Erabilpen progresibo hori Googleren bilakaeran bertan ikus daiteke:
* 2007 urtera arte bilaketetak egiteko oinarria hitz soila izan zen, karaktere-sekuentzia hutsa.
|