Hizkuntzaren prozesamendu: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
Ksarasola (eztabaida | ekarpenak)
Ksarasola (eztabaida | ekarpenak)
aplikazio-arloak gehitu
2. lerroa:
 
'''Hizkuntzaren prozesamendua''' izenarekin ezagutzen dugunari [[hizkuntzalaritza konputazional]]a ere esaten zaio askotan, hitz biak ia sinonimotzat har daitezke. Batzuetan [[hizkuntzalaritza konputazional]]a terminoa lehenesten da hizkuntzalaritzaren ikuspuntua azpimarratzeko, eta '''hizkuntzaren prozesamendua''', aldiz, ikuspuntu teknologikoa azpimarratzeko, baina bereizketa hori ez da zurruna. Bestalde, Ingelesezko Wikipedian [http://en.wikipedia.org/computational_linguistics Computational_linguistics] (Hizkuntzalaritza Konputazionala) kategoriaren barruan [http://en.wikipedia.org/Natural_language_processing Natural Language Processing] (Hizkuntzaren prozesamendua) eta [http://en.wikipedia.org/speech-recognition Speech Recognition] (Hizketaren tratamendua) kategoriak bereizten dira, nonbait ''hizkuntzaren prozesamendua'' hizkuntza idatziarekin lotuz, eta ''hizketaren tratamendua'' ahozkoarekin, baina gero erabilera mailan ''Computational linguistics'' eta ''Natural Language Processing'' kontzeptuen arteko bereizketa hori ez dago hain garbi. Euskaraz ''Hizkuntza naturalaren prozesamendua'' edota ''Lengoaia naturalaren prozesamendua'' ere erabili izan dira aurreko urteetan, baina joera dago azken bi izen horiek baztertzeko, eta '''hizkuntzaren prozesamendu'''aren erabilera lehenesteko.
 
<br />{{esaera2|Hizkuntza berez datorkigun zerbait dela uste dugu, eta erraz sortzen dugula, arnasa hartzea edo oinez ibiltzea bezala. Baina dirudiena baino askoz eragiketa konplexuagoa da hitz egitea. Hitz egiten ari garenean, adierazi nahi ditugun esanahiak hizkuntza-forma bihurtzen ditugu, eta hizkuntza-forma horiek soinu/irudien bidez igortzen ditugu. Era berean, hizkuntza hori ulertzeko, gure begi/belarriek seinale bat dekodifikatu behar dute lehenengo, horri dagokion hizkuntza-forma aurkitu eta hizkuntza-forma horrek daraman esanahia jaso. Hori guztia burmuinak egiten du, baina prozesu horretan eragin handia daukate beste hamaika faktorek.|[[Itziar Laka]]<ref>{{Erreferentzia|izenburua=Hizkuntzaren prozesamendua [Sareko Euskal Gramatika]|url=http://www.ehu.eus/seg/gizk/1|aldizkaria=www.ehu.eus|sartze-data=2019-01-22}}</ref>|komatxoen tamaina=20px|zabalera=600|kokapena=center}}<br />
 
== Aplikazioak ==
14 ⟶ 16 lerroa:
* [[Galdera-erantzun sistemak]]. Galderetarako erantzunak bilatzeko sistemak (QA, Question Answering).
* [[Informazio erauzketa|Informazio-erauzketa]]. Datuak erauztea dokumentuetatik (IE, Information Extraction).
*[[Ikasketa automatiko|Ikasketa automatikoa]]
* [[Testu-meatze]]a (text mining). Informatikaren munduan azken urteetan indarra hartu duen arloa dugu ''data mining'' edo ''text mining'' izenekoa. Datu-masa handietatik ondorioak ateratzea da funtsa, eta aplikazio asko du: maileguen arriskuak, gaixotasunen arrisku-taldeak... Datu horiek testuak direnean ''text mining'' terminoa erabiltzen da, datuak orokorrean Internetetik hartzen direnean, aldiz, ''web mining''. Guzti horietan erabiltzen diren metodoak antzekoak dira, baina testuekin arazo bat dago: ezaugarriak edo adierazleak asko dira eta ez daude agerian. Medikuntzan edo finantzatan ezaugarri argiak daude, diru-mugimenduak esaterako, eta gehienetan jasota. ''Text mining'' eta [[informazio erauzketa]] automatikoa sinonimotzat har daitezke.
* [[Laburpengintza automatikoa]] (Summarization). Dokumentu baten laburpena lortzea testuan oinarrituta. Erauzketaren kasu bat bezala ikus daiteke baina berezia da, datu-base bat osatu beharrean testuaren ordezkari labur bat lortu nahi baita. Dokumentuen laburpena automatikoki egitea bi eratara bidera daiteke. Modu errazena da testu zati edo esaldi esanguratsuenak hautatzea. Modu zaila erabiltzen denean, aldiz, ideia nagusiak detektatu, integratu eta testu berri bat sortzen da. Testu-editore aurreratuek, hizkuntza-tresnen artean, eskaini ohi dute laburpenak egiteko aukera. Hori eskatuta atzeko planoa markatuta dutela azaltzen dira dokumentuko hainbat esaldi. Erabiltzaileak aukera dezake laburpenaren luzera, alegia, testu osoaren zenbateko portzentajea izan behar den laburpena.
*[[Dokumentuen analisia]].
* [[Dokumentu-sailkatzaileak]]. Testu bat emanda bere kategoria edo gaia asmatzea da helburua. IEren ataza gisa ikus daiteke eta modu automatikoan edo semiautomatikoan egin daiteke.
* [[Dokumentu-multzokatzaileak]] (Clustering). Arlo askotan erabiltzen den teknika-multzo honek antzekotasuna duten dokumentuak erlazionatzea du helburutzat, berreskuratzea ahaltsuagoa egiteko asmoz askotan. Erauzketaren 2. fasea izaten da batzuetan, multzo berean sartzen baitira erauzitako ezaugarriren bat komunean duten dokumentuak. Terminologia-erauzketa automatikoan adibidez, ''clustering'' egin ohi da bigarren fase batean, terminoen hierarkia bat sortzearren erauzitako terminoetatik abiatuta. Aurreko aplikazioetan makina bat dokumentu aldez aurretik ezarritako kategoria multzo txiki baten arabera sailkatu behar ziren. Baina clustering egiten denean, aldez aurretik ez daude definituta kategoria posibleak. Abiapuntuan, hainbat dokumentu dauzkagu, eta bukaeran dokumentu horiek guztiak sailkatuta, haien arteko antzekotasunen arabera. Jakin beharko da geroago interpretatzen zergatik proposatu diren multzo horiek, zer adierazten duten azpimultzo horiek.
* [[Informazio-bideratze]]a (routing): informazioa pertsona edo agente desberdinen artean banatzeko teknika multzoa. Sailkapen mota bat da azken finean, baina informazioaren ezaugarriez gain agenteena ere kontuan hartu behar dira. Kazetaritza alorreko adibide pare bat jar daiteke: egunkari batean agentzien berrien banaketa kazetarien artean, edo web bidezko berrien pertsonalizazioa. Batzuetan bideratzea eta iragaztea sinonimotzat hartzen dira.
* [[Informazio-iragazte]]a (filtering): dinamikoki jasotzen den informazio ez-interesgarria baztertzean datza. Indar handia hartu du posta elektronikoarekin, iragazte-aplikazioen adibide tipikoa posta elektronikoko spam-mezu guztiak detektatzea eta automatikoki alde batera uztea da. Sailkatzaileen kasu partikular gisa ere ikus daiteke.
*[[Eleaniztasun|Eleaniztasunerako]] tresnak
* [[Bigarren hizkuntza ikasteko sistemak]].
* [[Testu-sorkuntza automatiko|Testu-sorkuntza automatikoa]].
* [[Iritzi-meatzaritza]] edo [[sentimendu-analisia]]
*[[Sare sozialen analisia]]
*[[Testu-inferentzia]]
*[[Hitz mailako semantika]]
 
 
<!--