Hizkuntzaren prozesamendu: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
Ksarasola (eztabaida | ekarpenak)
Ksarasola (eztabaida | ekarpenak)
7. lerroa:
* [[Ortografia-zuzentzaile]]ak.
* [[Estilo-zuzentzaile]]ak.
* [[Lexikografia konputazional]]a. Hiztegiak sortzeko eta kontsultatzeko.
* [[Itzulpengintza automatikoa]], eta [[itzulpen-laguntzak]].
* [[Hizketa-ezagutzaile]]ak. Hizketa-soinua testua bihurtzen duten sistemak]]. (ASR, Automatic Speech Recognition|Automatic Speech Recognition).
* [[Ahotsaren sintesia]]. (TTS, Text To Speech).
* [[Informazioaren berreskurapen]]a, Dokumentu-bilatzaileak (IR, Information Retrieval).
* [[Galdera-erantzun sistema]]k. Galderetarako erantzunak bilatzeko sistemak (QA, Question Answering).
* [[Informazio erauzketa]]. Datuak erauztea dokumentuetatik (IE, Information Extraction).
* [[testuTestu-meatze]]a (text mining). Informatikaren munduan azken urteetan indarra hartu duen arloa dugu ''data mining'' edo ''text mining'' izenekoa. Datu-masa handietatik ondorioak ateratzea da funtsa, eta aplikazio asko du: maileguen arriskuak, gaixotasunen arrisku-taldeak... Datu horiek testuak direnean ''text mining'' terminoa erabiltzen da eta, datuak orokorrean Internetetik hartzen direnean, aldiz, ''web mining''. GuztietanGuzti horietan erabiltzen diren metodoak antzekoak dira, baina testuekin arazo bat dago: ezaugarriak edo adierazleak asko dira eta ez daude agerian. Medikuntzan edo finantzatan ezaugarri argiak daude, diru-mugimenduak esaterako, eta gehienetan jasota. ''Text mining'' eta [[informazio erauzketa]] automatikoa sinonimotzat har daitezke.
* [[Laburpen automatikoa]] (Summarization). Dokumentu baten laburpena lortzea testuan oinarrituta. Erauzketaren kasu bat bezala ikus daiteke baina berezia da, datu-base bat osatu beharrean testuaren ordezkari labur bat lortu nahi baita.
* [[Dokumentu-sailkatzaileak]]. Testu bat emanda bere kategoria edo gaia asmatzea da helburua. IEren ataza gisa ikus daiteke eta modu automatikoan edo semiautomatikoan egin daiteke.
* [[Dokumentu-multzokatzaileak]] (Clustering). Arlo askotan erabiltzen den teknika-multzo honek antzekotasuna duten dokumentuak erlazionatzea du helburutzat, berreskuratzea ahaltsuagoa egiteko asmoz askotan. Erauzketaren 2. fasea izaten da batzuetan, multzo berean sartzen baitira erauzitako ezaugarriren bat komunean duten dokumentuak. Terminologia -erauzketa automatikoan adibidez, ''clustering'' egin ohi da bigarren fase batean, terminoen hierarkia bat sortzearren erauzitako terminoetatik abiatuta.
* [[Informazio-bideratze]]a (routing): informazioa pertsona edo agente desberdinen artean banatzeko teknika multzoa. Sailkapen mota bat da azken finean, baina informazioaren ezaugarriez gain agenteena ere kontuan hartu behar dira. Kazetaritza alorreko adibide pare bat jar daiteke: egunkari batean agentzien berrien banaketa kazetarien artean, edo web bidezko berrien pertsonalizazioa. Batzuetan bideratzea eta iragaztea sinonimotzat hartzen dira.
* [[Informazio-iragazte]]a (filtering): dinamikoki jasotzen den informazio ez-interesgarria baztertzean datza. Indar handia hartu du posta elektronikoarekin, spam edo antzeko mezuak automatikoki baztertzeko aukera ematen duelako. Sailkatzaileen kasu partikular gisa ere ikus daiteke.