Informazioaren berreskurapen

Informazioaren berreskurapena (ingelesez, information retrieval edo IR) dokumentuetan informazioa bilatzea, dokumentuak bilatzea, dokumentuak deskribatzen dituzten metadatuak bilatzea edo datu-baseetan bilatzea burutzen dituen teknologia da. Ohiko arlo bat izan da informatikan bere hasieratik. Konputagailuek informazio kopuru handiak biltegiratzea posible egiten dutenez, informazio hori modu zehatz, eroso eta eraginkorrean berreskuratzea izan da beti aztergai garrantzitsua. Datu-base dokumentalak izan dira betidanik arlo honetako aplikazio garrantzitsuenak, baina Internet fenomenoak ikaragarri bultzatu du arlo honen garapena, testu digitalak izugarri ugaldu direlako. Ohiko aplikazio-eremuez gain (testu legalak, medikuntzakoak, dokumentazio-zentroak, …) Internet/Intranet eremuko aplikazio garrantzitsuenak kokatzen dira arlo honetan: Google moduko bilatzaileak eta Yahoo moduko direktorioak.

Bi urrats nagusitan burutu ohi da informazioaren berreskurapena: hasieran dokumentuen indexazioa eta gero bilaketa. Informazioaren berreskurapenak jakintzagai asko hartzen ditu barne, besteak beste: informazioaren arkitektura, informazioaren diseinua, gizakien jokaera informazioaren aurrean, psikologia kognitiboa, hizkuntzalaritza konputazionala, semiotika, informatika eta bibliotekonomia.

Historia [1] aldatu

Lehen aldiz information retrieval terminoa erabili zuena C. N. Mooers izan zen 1950ean, eta honela definitu zuen:

« Information retrieval is the name for the process or method whereby a prospective user of information is able to convert his need for information into an actual list of citations to documents in storage containing information useful to him. It is the finding or discovery process with respect to stored information. »

—C. N. Moers[oh 1]


Erabat errotuta gelditu zen termino hori eta geroztik horrelaxe deitu izan zaio, labur esanda, erabiltzaile baten informazio-beharra asetuko duen dokumentu-bilatzeari.

Honela ba, informazioaren berreskurapenerako sistema bat edo IB sistema bat dokumentuetako informazioa biltegiratu eta kudeatzen duen software programa bat da [3]. Sistemak erabiltzaileak behar duen informazioa topatzen lagunduko dio, informazio hori eduki dezaketen dokumentuen berri emanaz. Kontuan izan, horrelako sistemek ez dutela informazioa esplizituki itzultzen edo galdera erantzuten, dokumentuak berreskuratu edo iradoki besterik ez dute egiten.

Prozesu horiek konputagailuen bidez guztiz automatikoki egikaritzearen ideia Bush-ek (1945) proposatu zuen lehen aldiz:

« Consider a future device for individual use, which is a sort of mechanized private file and library. It needs a name, and, to coin one at random, ‘memex’ will do. A memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory. »

—V. Bush[oh 2]


Bush-en ideia jarraituz, lehenengo IB sistema automatizatuak 50 eta 60ko hamarkadetan sortu ziren. Hasierako urte haietan sistema hauek argitalpen zientifiko eta liburutegietako dokumentuak bilatzeko erabiltzen ziren, batez ere. Bilaketak ez ziren dokumentuen eduki osoaren gainean egiten, baizik eta dokumentuei eskuz esleitutako gako-hitzetan oinarritzen ziren. Joerak aldatzen joan dira eta gaur egungo egoera guztiz bestelakoa da. Sistema hauen erabilera guztiz zabaldurik dago gaur egungo gizartean, azken urteotan konputagailu pertsonalen kopurua handituz eta Internet zabalduz doan heinean, webeko bilatzaileen beharra ere gorantz doalako. Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web bilatzaileak IB sistemen adibide garbiak dira.

Bilaketak egiteko modua edo, beste modu batera esanda, IB gauzatzeko metodoak ere aldatzen joan dira konputagailuen ahalmena eta biltegiratze-lekua handituz doan heinean. Gaur egungo sistema gehienek dokumentuetan agertzen diren termino guztiak (edo ia guztiak) erabiltzen dituzte bilaketak egiteko, alegia, dokumentuen eduki osoak hartzen dituzte kontuan. Honi ingelesez full text retrieval esan ohi zaio. Hala ere, gaur egun ere badira dokumentuen zati jakin batzuetan eta dokumentuei eskuz esleitutako gako-hitzetan oinarritzen diren sistemak. Horren adibide da 70eko hamarkadatik martxan den PubMed bilatzailea.[5] IB sistema honek biomedikuntzako eta osasun-arloko argitalpenak gordetzen dituen MEDLINE datu-basean bilaketak egitea ahalbideratzen du. Datu-base horretan argitalpen bakoitzaren titulu, abstract eta eskuz esleitutako gako-hitzak daude —gako-hitz hauek medikuntzako thesaurus batetik hartutakoak dira.

Aplikazioak aldatu

IB tekniken aplikazio arruntenetakoa bilatzailea da. Bilatzailerik erabilienak web-bilatzaileak badira ere, badira beste batzuk; beste batzuen artean, hauexek:

  • Bilatzaile bertikalak: bilaketak domeinu edo gai konkretu batera mugatzen dituzten web-bilatzaile espezializatuak.
  • Enpresa-bilatzaileak (enterprise search): bilaketak enpresa baten intranetean aurkitzen diren mota desberdinetako dokumentuetan (weborrialdeak, posta elektronikoa, txostenak, aurkezpenak, kalkulu-orriak, datu-baseak...) egiten dituzten bilatzaileak.
  • Mahaigaineko bilatzaileak (desktop search): bilaketak konputagailu pertsonalean aurkitzen diren dokumentuetan egiten dituzten bilatzaileak.

Kasu honetan, aurrekoan bezala, dokumentu horiek mota askotakoak izango dira.

Horrelako bilatzaileez gain, ordea, badira IBaren aplikazio orokor gehiago ere. Izan ere, testu-bilduma edo bestelako informazio ez-egituratua darabilen edozein aplikaziok, informazio hori antolatu eta bilatu beharko du momenturen batean. Horren adibide dira, esaterako, honako hauek:

Azken hauek, izenak dioen bezala, erabiltzailearen intereseko izango diren informazio-elementuak (pelikulak, liburuak, musika, ikuskizunak...) gomendatzen dituzten sistemak dira.

IB sistemen funtzionamendua aldatu

IB sistema batek hiru prozesu nagusi gauzatzen ditu:

  1. Indexazioa: dokumentuen errepresentazioa gauzatzen da, indizea(k) sortuz. Indizea bilaketa azkarrak egitea ahalbideratuko duen datuegitura bat da. Lineaz kanpo (offline) egikaritzen da, eta dokumentu bilduma aldatzen ez bada behintzat, behin egitea nahikoa da.
  2. Kontsultaren formulazioa: erabiltzailearen informazio-beharra kontsulta batean adierazita jartzen da.
  3. Parekatzea: kontsulta dokumentuen errepresentazioarekin, indizearekin, parekatzen da. Parekatze honetan dokumentuen azpimultzo bat aukeratzen da.

Gaur egungo sistemetan ohikoena dokumentu-zerrenda ordenatu bat itzultzea da, zerrendaren hasieran jarriz ustez erabiltzaileari gehien interesatuko zaizkion dokumentuak, alegia, sistemaren ustez adierazgarrienak direnak. Page rank izeneko algoritmoa oso baliagarria da adierazgarrienak zein diren jakiteko; kontatzen da zenbat esteka dauden Interneten dokumentu bakoitzera, eta esteka gehien jasotzen dituztenak adierazgarrienak direla suposatzen da.

IBeko sistemen ebaluazioa[6] aldatu

Irteerako dokumentu batzuek, ziur aski, erabiltzailearen informazio-behar hori asetuko dute; dokumentu horiei dokumentu adierazgarri deitzen zaie. IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen eta lortutako emaitzak baloratu behar dira.

Jasotako emaitzak baloratzea, egindako bilaketan lortutako emaitzak gure bilaketa beharrak ase dituzten ala ez jakitea da. Bilaketa bateko emaitzak ezin dira egokitasunaren arabera baloratu, hau subjetiboa baita. Horregatik, beste kontzeptu batzuk erabiltzen dira: doitasuna eta osotasuna.

  • Doitasuna (precision): bilaketan eskuraturiko dokumentu guztien artean gure bilaketa-beharretarako zenbat diren interesgarriak kalkulatzean datza. Beste hitz batzuetan, zarata dokumentalik gabeko zenbat emaitza eskuratu ditugun.
    • Zarata dokumentala bilaketa guztiz ez fintzea da, informazioa bilatzerakoan dokumentu egokiez gain desegokiak lortzea. Arazo hau jazo daiteke bilaturiko hitzek esanahi bat baino gehiago dutenean (polisemia) edo terminoak modu desegokian konbinatzen direnean. Arazoa konpontzeko eta doitasuna handitzeko moduak, bilaketa fintzea, iragazki xeheagoak erabiltzea da. Bestalde, arazoa gutxitu daiteke hurrenkera egokia denean.edo emaitzak beste modu batean ordenatzean.
  • Osotasuna, estaldura (recall): sistemaren eraginkortasuna neurtezean datza, horretarako galdera honi erantzun behar zaio: lortu zitekeen informazio guztia eskuratu da ala bidean informazioa galdu da? Eskuratu zitezkeen dokumentu guztiak lortu ez badira, isiltasun dokumentala egon dela esango dugu.
    • Isiltasun dokumentala informazioa bilatzerako orduan lortu daiteken informazio egoki guztia ez eskuratzeari deritzo. Hau da, bilaketan ez ditugu erabili dokumentu edo metadatuetan daude terminoak. Arazoa konpontzeko eta estaldura zabala lortzeko, semantika erabili behar da: sinonimoak, termino zehatzagoak edo zabalagoak...


IBeko atazak aldatu

Hainbat atazatan erabiltzen dira IB teknikak; besteak beste, ondoko hauek, azkenekoa delarik aipagarriena:

  • Dokumentu-sailkapena: dokumentu bakoitzaren edukian oinarrituz, dokumentuei etiketa bat esleitzea edo klase konkretu batekoak direla adieraztea.
  • Galderak erantzutea (question answering, ingelesez): erabiltzaileak lengoaia naturalean egindako galderari erantzun zehatza bilatzea.
  • Dokumentu askotan oinarritutako testu-laburtze automatikoa (multi-document automatic summarization): gai jakin bati buruzko hainbat dokumenturen laburpena izango den dokumentu bakar bat lortzea.
  • IB multimodala: testuetan gain, soinuan, irudietan edo bideoetan bilatzen denean.
    Hor oinarrizko tresnak hizketa-ezagutzaileak (kontuz, beren doitasuna %60ren inguruan dabil) eta irudien sailkapen automatikoa.
    Eta oinarrizko estrategia ohiko bilatzaileak erabiltzea da hizketa testu bihurtu ondoren eta irudien sailkapenetatik metadatuak lortu eta gero.
  • Ad hoc: erabiltzaileak mahaigaineratutako kontsulta batean adierazitako informazio-beharra asetuko duten dokumentuak bilatzea dokumentu-bilduma batean. Atazarik arruntena dela esan daiteke eta tesi-lan honetan aztergai izango duguna da.

Bilatzaileak aldatu

Google, Yahoo eta Elebila bezalako bilatzaileak dira informazioa eskuratzen duten tresna ezagunenetako batzuk. Ezagunenenak Internet erabiltzen dute bilatzeko eremu gisa, baina intranet moduan ere erabil daitezke dokumentazio-gunetan edo liburutegi digitaletan.

Tresna orokorrak aldatu

Tresna orokor moduan (plug-in/gehigarriak) hauek dira ezagunenak:

  • Jabedunak: Autonomy, Google Search Appliance...
  • Libreak: Lucene, Fedora Commons...

Hizkuntza-teknologiaren erabilera aldatu

Duela gutxi arte, tresnen abiadura motela zela-eta, hizkuntza-teknologia ez zen asko erabiltzen arlo honen garapenean. Dena den, tresnak hobetu diren heinean eta dokumentu digitalen eleaniztasuna areagotzearekin batera, tresna linguistikoen erabilpena garrantzia hartzen joan da. Erabilpen progresibo hori Googleren bilakaeran bertan ikus daiteke:

  • 2007 urtera arte bilaketetak egiteko oinarria hitz soila izan zen, karaktere-sekuentzia hutsa.
  • 2008an hasi ziren lematizazioa erabiltzen, baita galdera-erantzun sistemak (Question Answering) eta Hizkuntzarteko informazio-berreskurapena (CLIR, Cross Lingual Information Retrieval). [7]
  • 2012 urteaz geroztik nolabaiteko ezagutza semantikoa erabiltzen hasi zen, bilatzen den pertsona edo kontzeptuari buruzko datuak ere azaltzen zaizkigu eskuinaldeko koadro batean, datu multzo desberdinak emanez kontzeptuaren motaren arabera (hiria, kirolaria, musikaria...). [8][9]

Googletik aparte beste bilatzaile batzuetan ere erabili da hizkuntza-teknologia:

  • Elebila. Euskarazko hitzen lematizazioa eta bilaketarako idazkera alternatiboak eskaintzen ditu 2005 urtetik.[10]
  • Hakia bilatzaileak 2008tik ibili da informazio semantikoa erabiltzen bere Gallery atalean. Datu multzo desberdinak eskaintzen ditu bilatu nahi denaren klase semantikoa ezagutzen badu (hiria, kirolaria...). Hiria bada esango digu nola ilegatu bertara, nolakoa da garraio publikoa, zenbat parke dituen... Kirolaria bada esango digu zein txapelketak irabazi dituen , zein diren bere markak...Bilatu Boston Hakia bilatzailean[Betiko hautsitako esteka].
  • Powerset bilatzailea antzekoa zen. Gaur egun ez dabil.
  • Quintura. Bilatzeko hitz bat (edo termino) bat emanda, berarekin lotuta dauden beste terminoak bilatu eta horiekin grafiko kontzeptual bat irudikatzen du.
  • Yieey! bilatzaileak sintaxia erabiltzen du dokumentuak beraien izen-sintagmen bidez antolatzeko.

Gainera, semantikaren erabilera eman da baita ere alor honetan. Izan ere bilatzaile batzuek ontologia erabiltzen dute anbiguotasuna kentzeko bilaketei.

Ikerketa-gaiak aldatu

IBren erabilerak askotarikoak dira eta urteak joan ahala esparru berrietara zabalduz doazenez, ikerketa-gaiak ez dira falta arlo honen inguruan: ranking-funtzioen eraginkortasuna, sistemaren errendimendua (erantzun-denbora, indexatzeko denbora...), dokumentu edo datu berriak indizean txertatzeko azkartasuna, sistemaren eskalagarritasuna (datu edo erabiltzaile kopuruarekiko), aplikazio berrietara egokitzeko gaitasuna, ebaluazioa edo parekatze-arazoa.

Bilaketak zailak direnean egoera egokia dira Hta erabiltzeko. Hainbat hizkuntzarekin bilatu nahi dugu, erantzunik ez edo gutxi aurkitzen badira ( horrelakoetan, bilatzeko hitz multzoa zabaldu daiteke sinonimia eta hiperonimiaren bidez), edo kontrakoa gertatzen denean, erantzun gehiegi lortzen direnean (horrelakoetan hitzen adieren desanbiguazio semantikoa erabil daiteke galderaren esanahia fintzearren).

IB multimodala. Soinuan, irudietan eta bideoetan ere bilaketak egitea da helburua. Helburu horiek lortzeko oinarrizko tresnak hizketa-ezagutzaileak (honezkero beren doitasuna %60tik gora dabil) eta irudien sailkapen automatikoa. Oinarrizko estrategia sailkapen metodoen bidez irudien metadatuak lortzea da (zer dago irudi honetan, zein dira forma eta kolore nagusiak...), hizketa-grabazioak testu bihurtzea, eta hainbat esteka sortzea dokumentu elementuekin. Hori egin eta gero ohiko bilatzaileak erabil daitezke multimedian irudiak edo hitzak bilatzeko .

Bibliografia aldatu

Erreferentziak aldatu

  1. Otegi, Arantza: Hedapena informazioaren berreskurapenean: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak. Doktorego-tesia. Lengoaia eta Sistema Informatikoak Saila, EHU/UPV. Informatika Fakultatea. 2012/03/16
  2. (Ingelesez) Mooers C.N. Information retrieval viewed as temporal signaling. Proceedings of the International Congress of Mathematicians, 1950.
  3. (Ingelesez) Hiemstra D. Information retrieval: searching in the 21st century, chapter Information Retrieval Models, 1–19. John Wiley & Sons, Ltd, 2009. ISBN 9780470033647.
  4. (Ingelesez)Bush V. As we may think. The Atlantic Monthly, 176(1):101–108, 1945.
  5. http://www.ncbi.nlm.nih.gov/pubmed/
  6. (Ingelesez) Agirre, Eneko; Alegria, Iñaki. (2009). Agirreazaldegi, Teresa ed. «Tresna linguistikoak informazioa atzitzeko» Dokumentazio zerbitzuak Euskal Herriko komunikabideetan = Los servicios de documentación en los medios de comunicación del País Vasco (Euskal Herriko Unibertsitatea = Universidad del País Vasco): 101–112. (Noiz kontsultatua: 2020-05-12).
  7. Hizkuntza Teknologia Interneteko bilatzaileetan: Azkenean sartu dute! Ixa taldearen bloga Unibertsitate.net gunean
  8. (Ingelesez) From Words to Concepts and Back: Dictionaries for Linking Text, Entities and Ideas Google Research Blog
  9. Googleko kontzeptu-hiztegi berritzailea Ixa taldearen bloga Unibertsitate.net gunean
  10. «Elebila» elebila.elhuyar.eus (Noiz kontsultatua: 2020-05-12).

Ikus, gainera aldatu

Kanpo estekak aldatu


Aipuaren errorea: <ref> tags exist for a group named "oh", but no corresponding <references group="oh"/> tag was found