Hizkuntzaren prozesamendu

informatika eta linguistikako arloa
Hizkuntza naturalaren prozesamendu» orritik birbideratua)

Hizkuntzaren prozesamendua (ingelesez, NLP - Natural Language Processing edo Computational Linguistics) informatika, adimen artifizial eta hizkuntzalaritzaren alorra da, hizkuntzalaritza konputazionaleko ingeniaritza lantzen duena. Hizkuntzaren bidez pertsona eta makinen arteko komunikazioa, baita pertsonen artekoa ere, errazteko tresna konputazionalak ikertzeaz arduratzen da.

Bideo hau Ikusgela proiektuaren parte da.
Bideo hau Ikusgela proiektuaren parte da. Bideoak dituzten artikulu guztiak ikus ditzakezu hemen klik eginez gero.
Hizkuntza prozesamendu naturala: komunikazioaren iraultza?

Hizkuntzaren prozesamendua izenarekin ezagutzen dugunari hizkuntzalaritza konputazionala ere esaten zaio askotan, hitz biak ia sinonimotzat har daitezke. Batzuetan hizkuntzalaritza konputazionala terminoa lehenesten da hizkuntzalaritzaren ikuspuntua azpimarratzeko, eta hizkuntzaren prozesamendua, aldiz, ikuspuntu teknologikoa azpimarratzeko, baina bereizketa hori ez da zurruna. Bestalde, Ingelesezko Wikipedian Computational_linguistics (Hizkuntzalaritza Konputazionala) kategoriaren barruan Natural Language Processing (Hizkuntzaren prozesamendua) eta Speech Recognition (Hizketaren tratamendua) kategoriak bereizten dira, nonbait hizkuntzaren prozesamendua hizkuntza idatziarekin lotuz, eta hizketaren tratamendua ahozkoarekin, baina gero erabilera mailan Computational linguistics eta Natural Language Processing kontzeptuen arteko bereizketa hori ez dago hain garbi. Euskaraz Hizkuntza naturalaren prozesamendua edota Lengoaia naturalaren prozesamendua ere erabili izan dira aurreko urteetan, baina joera dago azken bi izen horiek baztertzeko, eta hizkuntzaren prozesamenduaren erabilera lehenesteko.


« Hizkuntza berez datorkigun zerbait dela uste dugu, eta erraz sortzen dugula, arnasa hartzea edo oinez ibiltzea bezala. Baina dirudiena baino askoz eragiketa konplexuagoa da hitz egitea. Hitz egiten ari garenean, adierazi nahi ditugun esanahiak hizkuntza-forma bihurtzen ditugu, eta hizkuntza-forma horiek soinu/irudien bidez igortzen ditugu. Era berean, hizkuntza hori ulertzeko, gure begi/belarriek seinale bat dekodifikatu behar dute lehenengo, horri dagokion hizkuntza-forma aurkitu eta hizkuntza-forma horrek daraman esanahia jaso. Hori guztia burmuinak egiten du, baina prozesu horretan eragin handia daukate beste hamaika faktorek. »

Itziar Laka[1]


Aplikazioak

aldatu

Gaur egun badira testua edo hizketa lantzeko zenbait hizkuntza–aplikazio eskuragarri, hala nola:

  • Ortografia-zuzentzaileak.
  • Estilo-zuzentzaileak.
  • Lexikografia konputazionala. Hiztegiak sortzeko eta kontsultatzeko..
  • Morfologia konputazionala.
  • Itzulpengintza automatikoa, eta itzulpen-laguntzak.
  • Hizketa-ezagutzaileak. Hizketa-soinua testua bihurtzen duten sistemak. (ASR, Automatic Speech Recognition).
  • Ahotsaren sintesia. (TTS, Text To Speech).
  • Informazioaren berreskurapena, Dokumentu-bilatzaileak (IR, Information Retrieval).
  • Galdera-erantzun sistemak. Galderetarako erantzunak bilatzeko sistemak (QA, Question Answering).
  • Informazio-erauzketa. Datuak erauztea dokumentuetatik (IE, Information Extraction).
  • Ikasketa automatikoa
  • Testu-meatzea (text mining). Informatikaren munduan azken urteetan indarra hartu duen arloa dugu data mining edo text mining izenekoa. Datu-masa handietatik ondorioak ateratzea da funtsa, eta aplikazio asko du: maileguen arriskuak, gaixotasunen arrisku-taldeak... Datu horiek testuak direnean text mining terminoa erabiltzen da, datuak orokorrean Internetetik hartzen direnean, aldiz, web mining. Guzti horietan erabiltzen diren metodoak antzekoak dira, baina testuekin arazo bat dago: ezaugarriak edo adierazleak asko dira eta ez daude agerian. Medikuntzan edo finantzatan ezaugarri argiak daude, diru-mugimenduak esaterako, eta gehienetan jasota. Text mining eta informazio erauzketa automatikoa sinonimotzat har daitezke.
  • Laburpengintza automatikoa (Summarization). Dokumentu baten laburpena lortzea testuan oinarrituta. Erauzketaren kasu bat bezala ikus daiteke baina berezia da, datu-base bat osatu beharrean testuaren ordezkari labur bat lortu nahi baita. Dokumentuen laburpena automatikoki egitea bi eratara bidera daiteke. Modu errazena da testu zati edo esaldi esanguratsuenak hautatzea. Modu zaila erabiltzen denean, aldiz, ideia nagusiak detektatu, integratu eta testu berri bat sortzen da. Testu-editore aurreratuek, hizkuntza-tresnen artean, eskaini ohi dute laburpenak egiteko aukera. Hori eskatuta atzeko planoa markatuta dutela azaltzen dira dokumentuko hainbat esaldi. Erabiltzaileak aukera dezake laburpenaren luzera, alegia, testu osoaren zenbateko portzentajea izan behar den laburpena.
  • Dokumentuen analisia.
  • Dokumentu-sailkatzaileak. Testu bat emanda bere kategoria edo gaia asmatzea da helburua. IEren ataza gisa ikus daiteke eta modu automatikoan edo semiautomatikoan egin daiteke.
  • Dokumentu-multzokatzaileak (Clustering). Arlo askotan erabiltzen den teknika-multzo honek antzekotasuna duten dokumentuak erlazionatzea du helburutzat, berreskuratzea ahaltsuagoa egiteko asmoz askotan. Erauzketaren 2. fasea izaten da batzuetan, multzo berean sartzen baitira erauzitako ezaugarriren bat komunean duten dokumentuak. Terminologia-erauzketa automatikoan adibidez, clustering egin ohi da bigarren fase batean, terminoen hierarkia bat sortzearren erauzitako terminoetatik abiatuta. Aurreko aplikazioetan makina bat dokumentu aldez aurretik ezarritako kategoria multzo txiki baten arabera sailkatu behar ziren. Baina clustering egiten denean, aldez aurretik ez daude definituta kategoria posibleak. Abiapuntuan, hainbat dokumentu dauzkagu, eta bukaeran dokumentu horiek guztiak sailkatuta, haien arteko antzekotasunen arabera. Jakin beharko da geroago interpretatzen zergatik proposatu diren multzo horiek, zer adierazten duten azpimultzo horiek.
  • Informazio-bideratzea (routing): informazioa pertsona edo agente desberdinen artean banatzeko teknika multzoa. Sailkapen mota bat da azken finean, baina informazioaren ezaugarriez gain agenteena ere kontuan hartu behar dira. Kazetaritza alorreko adibide pare bat jar daiteke: egunkari batean agentzien berrien banaketa kazetarien artean, edo web bidezko berrien pertsonalizazioa. Batzuetan bideratzea eta iragaztea sinonimotzat hartzen dira.
  • Informazio-iragaztea (filtering): dinamikoki jasotzen den informazio ez-interesgarria baztertzean datza. Indar handia hartu du posta elektronikoarekin, iragazte-aplikazioen adibide tipikoa posta elektronikoko spam-mezu guztiak detektatzea eta automatikoki alde batera uztea da. Sailkatzaileen kasu partikular gisa ere ikus daiteke.
  • Eleaniztasunerako tresnak
  • Bigarren hizkuntza ikasteko sistemak.
  • Testu-sorkuntza automatikoa.
  • Iritzi-meatzaritza edo sentimendu-analisia
  • Sare sozialen analisia
  • Testu-inferentzia
  • Hitz mailako semantika


Osagaiak

aldatu

Historia

aldatu
 
Bideo hau Ikusgela proiektuaren parte da. Bideoak dituzten artikulu guztiak ikus ditzakezu hemen klik eginez gero.
Adimen artifiziala ulertzeko bideoa.

Inprentaren sorkuntzak hizkuntzaren tratamendua eta zabalkuntza irauli bazituen, XX. mende amaierakoa dugun konputagailuak ez du iraultza txikiagoa ekarri. Hasteko, gero eta gehiago erabiltzen ditugu konputagailuak eta konputagailu-programak gure eguneroko jardunean, eta programa horietako askok eta askok testua nola edo hala “tratatu” egiten dute, prozesatu. Bestalde, konputagailuekiko komunikazioa hizkuntza arruntaren bitartez (eta ez lengoaia formal baten bidez) egin ahal izatea, gero eta normalago izango da. Gizarte eleaniztunak hizkuntza batetik bestera egin behar izaten dituen joan-etorriak leuntzeko ere, aparteko lagun dugu konputagailua. Gainera, telekomunikazioetan gertatutako aurrerapen izugarriak eragin duen Internet fenomenoak, areagotu egin du hizkuntzaren tratamendu automatikoaren beharra; interesatzen zaigun informazioa ondo selekzionatzeko, esaterako, tratamendu linguistiko lagungarria ezinbestekoa baita.

Hizkuntza naturalen prozesamendua adimen artifizialaren baitan sortutako lehen adarretako bat da. Itzulpengintza automatikoa, esate baterako, 1940ko hamarkada amaieran sortu zen, adimen artifizial kontzeptua bera baino lehenago. Hala eta guztiz ere, LNPk egoera ezberdinak bizi izan ditu adimen artifizialaren barruan, aldaketa teknologiko eta zientifikoak direla-eta bere garrantzia honen baitan hazi eta murriztu egin delarik garai ezberdinetan. Ordenagailu bidez testuak itzultzeko lehen saiakerek huts egin zuten, ordenagailuen mugak eta hizkuntzalaritza arloko ezagutza urria zela-eta. Beranduago, 1960ko eta 1970eko hamarkadetan interfazeak hizkuntza naturalen bidez sortzearen saiakerek arrakasta gehiago izan zuten. 1980ko eta 1990eko hamarkadetan izan da, batez ere, Itzulpengintza automatikoaren inguruko ikerketen berrindartzea.

Hizkuntza naturalen prozesamendurako zailtasunak

aldatu

Anbiguotasuna

aldatu

Hizkuntza naturala hainbat mailatan anbiguoa izan ohi da:

  • Maila lexikalean: hitz bakar batek esanahi ezberdinak izan ditzake, eta hauetako egokiaren hautapena testuinguruaren edo oinarrizko ezagutzaren araberakoa izan behar da. Zentzu honetan ikerketa ezberdinak burutu izan dira, hiztegiak, gramatika, ezagutza oinarriak eta korrelazio estatistikoetan oinarritutako metodoekin.
  • Erreferentzia mailan: anafora eta kataforak ebazteak erreferentzia egiten duten aurreko edo ondorengo entitate linguistikoa zehaztea suposatzen du.
  • Egitura mailan: Zuhaitz sintaktiko ezberdinak sortzea ondorioztatzen duten sintagma preposizionalen dependentziaren anbiguotasuna argitzeko semantikara jo beharra dago.
  • Maila pragmatikoan: Esaldi askok, sarritan, ez dute esaten dena adierazten. Ironiek garrantzi handia dute mezuaren ulermenean.

Anbiguotasun hauek eta beste batzuk ebazteko, arazo nagusia hizkuntza naturalean izaten diren sarrerak anbiguotasunik gabeko barne errepresentazio batean itzultzea da, hala nola, zuhaitz sintaktiko bat.

Hitzen arteko banaketak antzematea

aldatu

Ahozko hizkuntzan ez dira tarteak uzten hitzen artean. Hitzen arteko tartea bilatzeko, askotan zentzu gramatikala baten bila jo beharra dago testuingurua aztertuta. Idatzizkoan ere, txinera bezalakoek ez dauzkate hitzen arteko tarterik.

Datuak ezegoki jasotzea

aldatu

Tekleatze-akatsak, OCR bidez jasotzeagatik sortutako erroreak, hitzek tokian-tokiko dituzten aldakuntza bitxiak, hitz egiteko arazo fisikoek sortutako aldaketak eta beste arazo ugarirengatik sarrerako datuen jasotze ezegoki bat gerta daiteke.

Erreferentziak

aldatu
  1. «Hizkuntzaren prozesamendua [Sareko Euskal Gramatika»] www.ehu.eus (Noiz kontsultatua: 2019-01-22).

Bibliografia

aldatu

Ikus, gainera

aldatu

Kanpo estekak

aldatu