Informazioaren berreskurapen: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
No edit summary
34. lerroa:
#'''Parekatzea''': kontsulta dokumentuen errepresentazioarekin, indizearekin, parekatzen da. Parekatze honetan dokumentuen azpimultzo bat aukeratzen da.
 
Gaur egungo sistemetan ohikoena dokumentu-zerrenda ordenatu bat itzultzea da, zerrendaren hasieran jarriz ustez erabiltzaileari gehien interesatuko zaizkion dokumentuak, alegia, sistemaren ustez adierazgarrienak direnak. Page rank izeneko algoritmoa oso baliagarria da adierazgarrienak zein diren jakiteko; kontatzen da zenbat esteka dauden Interneten dokumentu bakoitzera, eta esteka gehien jasotzen dituztenak adierazgarrienak direla suposatzen da.
Irteerako azpimultzo horretako dokumentu batzuek, ziur aski, erabiltzailearen
 
informazio-behar hori asetuko dute; dokumentu horiei dokumentu
== IB sistemen ebaluazioa ==
adierazgarri deitzen zaie. IB sistema perfektu batek dokumentu adierazgarriak
Irteerako dokumentu batzuek, ziur aski, erabiltzailearen informazio-behar hori asetuko dute; dokumentu horiei ''dokumentu adierazgarri'' deitzen zaie. IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen eta IB sistema bat ebaluatzen denean bi neurri kalkulatzen dira:
bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu.
* Precision (doitasuna): lortutakoaren kalitatea
Alabaina, sistema perfektuak ez dira existitzen eta geroago ikusiko ditugu
* Recall (estaldura): lortu ez dena
zein diren sistema hauen gabezietako batzuk. Gaur egungo sistemetan ohikoena
dokumentu-zerrenda ordenatu bat itzultzea da, zerrendaren hasieran
jarriz ustez erabiltzaileari gehien interesatuko zaizkion dokumentuak, alegia,
sistemaren ustez adierazgarrienak direnak.
<!--
 
Teknologia: Robota+indexatzailea+bilatzailea (page rank)
stemming+stop-list
[[Berbategi]] bat (hizkuntza naturaleko hitz zerrenda bat), bilaketaren arau logikoak biltzen dituen algoritmoa, eta emaitzen balorazio bat sortu beharra dago, besteak beste.
.
 
Tresna orokorrak (plug-in/gehigarriak):
Jabedunak: Autonomy, Google Search Appliance...
Libreak: Lucene, Fedora Commons...
Ebaluazioa:
Precision (doitasuna): lortutakoaren kalitatea
Recall (estaldura): lortu ez dena
Aldaerak
Sailkapena, bideratzea(routing), multzokatzea (clustering)...
59 ⟶ 51 lerroa:
CLIR, IR multimodala, QA
-->
== Bilatzaileak ==
 
[[Google]], [[Yahoo]], [[Elebila]], [[Lycos]] edo [[Copernic]] bezalako [[bilatzaile]]ak dira informazioa eskuratzen duten tresna ezagunenetako batzuk. Ezagunenenak Internet erabiltzen dute bilatzeko eremu gisa, baina intranet moduan ere erabil daitezke dokumentazio-gunetan edo liburutegi digitaletan.
 
== Tresna orokorrak ==
Tresna orokorrakorokor moduan (plug-in/gehigarriak) hauek dira ezagunenak:
* Jabedunak: Autonomy, Google Search Appliance...
* Libreak: Lucene, Fedora Commons...
 
== Hizkuntza-teknologiaren erabilera ==
Duela gutxi arte, tresnen abiadura motela zela-eta, [[hizkuntza-teknologia]] ez zen asko erabiltzen arlo honen garapenean. Dena den, tresnak hobetu diren heinean eta dokumentu digitalen eleaniztasuna areagotzearekin batera, tresna linguistikoen erabilpena garrantzia hartzen joan da. Erabilpen progresibo hori Googleren bilakaeran bertan ikus daiteke:
* 2007 urtera arte bilaketetak egiteko oinarria hitz soila izan zen, karaktere-sekuentzia hutsa.