Hizkuntzaren prozesamendu: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
+erreferentzia atala
t Robota: Aldaketa kosmetikoak
1. lerroa:
'''Hizkuntzaren prozesamendua''' ([[ingeles]]ez, ''NLP'' - ''Natural Language Processing'' edo ''Computational Linguistics'') [[informatika]], [[adimen artifizial]] eta [[hizkuntzalaritza]]ren alorra da, [[hizkuntzalaritza konputazional]]eko [[ingeniaritza]] lantzen duena. [[Hizkuntza]]ren bidez pertsona eta makinen arteko komunikazioa, baita pertsonen artekoa ere, errazteko tresna konputazionalak ikertzeaz arduratzen da.
 
'''Hizkuntzaren prozesamendua''' izenarekin ezagutzen dugunari [[hizkuntzalaritza konputazional]]a ere esaten zaio askotan, hitz biak ia sinonimotzat har daitezke. Batzuetan [[hizkuntzalaritza konputazional]]a terminoa lehenesten da hizkuntzalaritzaren ikuspuntua azpimarratzeko, eta '''hizkuntzaren prozesamendua''', aldiz, ikuspuntu teknologikoa azpimarratzeko, baina bereizketa hori ez da zurruna. Bestalde, Ingelesezko Wikipedian [http://en.wikipedia.org/computational_linguistics Computational_linguistics] (Hizkuntzalaritza Konputazionala) kategoriaren barruan [http://en.wikipedia.org/Natural_language_processing Natural Language Processing] (Hizkuntzaren prozesamendua) eta [http://en.wikipedia.org/speech-recognition Speech Recognition] (Hizketaren tratamendua) kategoriak bereizten dira, nonbait ''hizkuntzaren prozesamendua'' hizkuntza idatziarekin lotuz, eta ''hizketaren tratamendua'' ahozkoarekin, baina gero erabilera mailan ''Computational linguistics'' eta ''Natural Language Processing'' kontzeptuen arteko bereizketa hori ez dago hain garbi. Euskaraz ''Hizkuntza naturalaren prozesamendua'' edota ''Lengoaia naturalaren prozesamendua'' ere erabili izan dira aurreko urteetan, baina joera dago azken bi izen horiek baztertzeko, eta '''hizkuntzaren prozesamendu'''aren erabilera lehenesteko.
16. lerroa:
* [[Galdera-erantzun sistemak]]. Galderetarako erantzunak bilatzeko sistemak (QA, Question Answering).
* [[Informazio erauzketa|Informazio-erauzketa]]. Datuak erauztea dokumentuetatik (IE, Information Extraction).
* [[Ikasketa automatiko|Ikasketa automatikoa]]a
* [[Testu-meatze]]a (text mining). Informatikaren munduan azken urteetan indarra hartu duen arloa dugu ''data mining'' edo ''text mining'' izenekoa. Datu-masa handietatik ondorioak ateratzea da funtsa, eta aplikazio asko du: maileguen arriskuak, gaixotasunen arrisku-taldeak... Datu horiek testuak direnean ''text mining'' terminoa erabiltzen da, datuak orokorrean Internetetik hartzen direnean, aldiz, ''web mining''. Guzti horietan erabiltzen diren metodoak antzekoak dira, baina testuekin arazo bat dago: ezaugarriak edo adierazleak asko dira eta ez daude agerian. Medikuntzan edo finantzatan ezaugarri argiak daude, diru-mugimenduak esaterako, eta gehienetan jasota. ''Text mining'' eta [[informazio erauzketa]] automatikoa sinonimotzat har daitezke.
* [[Laburpengintza automatikoa]] (Summarization). Dokumentu baten laburpena lortzea testuan oinarrituta. Erauzketaren kasu bat bezala ikus daiteke baina berezia da, datu-base bat osatu beharrean testuaren ordezkari labur bat lortu nahi baita. Dokumentuen laburpena automatikoki egitea bi eratara bidera daiteke. Modu errazena da testu zati edo esaldi esanguratsuenak hautatzea. Modu zaila erabiltzen denean, aldiz, ideia nagusiak detektatu, integratu eta testu berri bat sortzen da. Testu-editore aurreratuek, hizkuntza-tresnen artean, eskaini ohi dute laburpenak egiteko aukera. Hori eskatuta atzeko planoa markatuta dutela azaltzen dira dokumentuko hainbat esaldi. Erabiltzaileak aukera dezake laburpenaren luzera, alegia, testu osoaren zenbateko portzentajea izan behar den laburpena.
* [[Dokumentuen analisia]].
* [[Dokumentu-sailkatzaileak]]. Testu bat emanda bere kategoria edo gaia asmatzea da helburua. IEren ataza gisa ikus daiteke eta modu automatikoan edo semiautomatikoan egin daiteke.
* [[Dokumentu-multzokatzaileak]] (Clustering). Arlo askotan erabiltzen den teknika-multzo honek antzekotasuna duten dokumentuak erlazionatzea du helburutzat, berreskuratzea ahaltsuagoa egiteko asmoz askotan. Erauzketaren 2. fasea izaten da batzuetan, multzo berean sartzen baitira erauzitako ezaugarriren bat komunean duten dokumentuak. Terminologia-erauzketa automatikoan adibidez, ''clustering'' egin ohi da bigarren fase batean, terminoen hierarkia bat sortzearren erauzitako terminoetatik abiatuta. Aurreko aplikazioetan makina bat dokumentu aldez aurretik ezarritako kategoria multzo txiki baten arabera sailkatu behar ziren. Baina clustering egiten denean, aldez aurretik ez daude definituta kategoria posibleak. Abiapuntuan, hainbat dokumentu dauzkagu, eta bukaeran dokumentu horiek guztiak sailkatuta, haien arteko antzekotasunen arabera. Jakin beharko da geroago interpretatzen zergatik proposatu diren multzo horiek, zer adierazten duten azpimultzo horiek.
* [[Informazio-bideratze]]a (routing): informazioa pertsona edo agente desberdinen artean banatzeko teknika multzoa. Sailkapen mota bat da azken finean, baina informazioaren ezaugarriez gain agenteena ere kontuan hartu behar dira. Kazetaritza alorreko adibide pare bat jar daiteke: egunkari batean agentzien berrien banaketa kazetarien artean, edo web bidezko berrien pertsonalizazioa. Batzuetan bideratzea eta iragaztea sinonimotzat hartzen dira.
* [[Informazio-iragazte]]a (filtering): dinamikoki jasotzen den informazio ez-interesgarria baztertzean datza. Indar handia hartu du posta elektronikoarekin, iragazte-aplikazioen adibide tipikoa posta elektronikoko spam-mezu guztiak detektatzea eta automatikoki alde batera uztea da. Sailkatzaileen kasu partikular gisa ere ikus daiteke.
* [[Eleaniztasun|Eleaniztasunerako]]erako tresnak
* [[Bigarren hizkuntza ikasteko sistemak]].
* [[Testu-sorkuntza automatiko|Testu-sorkuntza automatikoa]]a.
* [[Iritzi-meatzaritza]] edo [[sentimendu-analisia]]
* [[Sare sozialen analisia]]
* [[Testu-inferentzia]]
* [[Hitz mailako semantika]]
 
 
75. lerroa:
Hizkuntza naturala hainbat mailatan anbiguoa izan ohi da:
 
* Maila [[lexiko|lexikalelexikalean]]an: hitz bakar batek esanahi ezberdinak izan ditzake, eta hauetako egokiaren hautapena testuinguruaren edo oinarrizko ezagutzaren araberakoa izan behar da. Zentzu honetan ikerketa ezberdinak burutu izan dira, hiztegiak, gramatika, ezagutza oinarriak eta korrelazio estatistikoetan oinarritutako metodoekin.
* Erreferentzia mailan: [[anafora]] eta [[katafora]]k ebazteak erreferentzia egiten duten aurreko edo ondorengo entitate linguistikoa zehaztea suposatzen du.
* Egitura mailan: [[Zuhaitz sintaktiko]] ezberdinak sortzea ondorioztatzen duten sintagma preposizionalen dependentziaren anbiguotasuna argitzeko [[semantika]]ra jo beharra dago.