Hizkuntzaren prozesamendu: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
Ksarasola (eztabaida | ekarpenak)
esteka
Ksarasola (eztabaida | ekarpenak)
tNo edit summary
15. lerroa:
* [[Informazio erauzketa|Informazio-erauzketa]]. Datuak erauztea dokumentuetatik (IE, Information Extraction).
* [[Testu-meatze]]a (text mining). Informatikaren munduan azken urteetan indarra hartu duen arloa dugu ''data mining'' edo ''text mining'' izenekoa. Datu-masa handietatik ondorioak ateratzea da funtsa, eta aplikazio asko du: maileguen arriskuak, gaixotasunen arrisku-taldeak... Datu horiek testuak direnean ''text mining'' terminoa erabiltzen da, datuak orokorrean Internetetik hartzen direnean, aldiz, ''web mining''. Guzti horietan erabiltzen diren metodoak antzekoak dira, baina testuekin arazo bat dago: ezaugarriak edo adierazleak asko dira eta ez daude agerian. Medikuntzan edo finantzatan ezaugarri argiak daude, diru-mugimenduak esaterako, eta gehienetan jasota. ''Text mining'' eta [[informazio erauzketa]] automatikoa sinonimotzat har daitezke.
* [[Laburpengintza_automatikoa|LaburpenLaburpengintza automatikoa]] (Summarization). Dokumentu baten laburpena lortzea testuan oinarrituta. Erauzketaren kasu bat bezala ikus daiteke baina berezia da, datu-base bat osatu beharrean testuaren ordezkari labur bat lortu nahi baita. Dokumentuen laburpena automatikoki egitea bi eratara bidera daiteke. Modu errazena da testu zati edo esaldi esanguratsuenak hautatzea. Modu zaila erabiltzen denean, aldiz, ideia nagusiak detektatu, integratu eta testu berri bat sortzen da. Testu-editore aurreratuek, hizkuntza-tresnen artean, eskaini ohi dute laburpenak egiteko aukera. Hori eskatuta atzeko planoa markatuta dutela azaltzen dira dokumentuko hainbat esaldi. Erabiltzaileak aukera dezake laburpenaren luzera, alegia, testu osoaren zenbateko portzentajea izan behar den laburpena.
* [[Dokumentu-sailkatzaileak]]. Testu bat emanda bere kategoria edo gaia asmatzea da helburua. IEren ataza gisa ikus daiteke eta modu automatikoan edo semiautomatikoan egin daiteke.
* [[Dokumentu-multzokatzaileak]] (Clustering). Arlo askotan erabiltzen den teknika-multzo honek antzekotasuna duten dokumentuak erlazionatzea du helburutzat, berreskuratzea ahaltsuagoa egiteko asmoz askotan. Erauzketaren 2. fasea izaten da batzuetan, multzo berean sartzen baitira erauzitako ezaugarriren bat komunean duten dokumentuak. Terminologia-erauzketa automatikoan adibidez, ''clustering'' egin ohi da bigarren fase batean, terminoen hierarkia bat sortzearren erauzitako terminoetatik abiatuta. Aurreko aplikazioetan makina bat dokumentu aldez aurretik ezarritako kategoria multzo txiki baten arabera sailkatu behar ziren. Baina clustering egiten denean, aldez aurretik ez daude definituta kategoria posibleak. Abiapuntuan, hainbat dokumentu dauzkagu, eta bukaeran dokumentu horiek guztiak sailkatuta, haien arteko antzekotasunen arabera. Jakin beharko da geroago interpretatzen zergatik proposatu diren multzo horiek, zer adierazten duten azpimultzo horiek.