Itzulpengintza automatiko: berrikuspenen arteko aldeak

Ezabatutako edukia Gehitutako edukia
→‎Analogi bidezko itzulpena: nire apunteak sartu ditut (aurreko testua eztabida orriara pasatu dut)
57. lerroa:
==Analogi bidezko itzulpena==
 
Laurogeita hamargarren hamarkadan izandako ikuspegi aldaketak onura izan zuen mikroprozesadoreak eta bilketarako unitateak merkatu egin zirelako. Horrekin, formatu elektronikodun testu bildumak areagotzen hasi ziren eta Interneti esker eskuragarri zeudenez, jadanik ahozko corporan hain emaitza onak izan zituzten aukera eta lotura metodoak probatzeko gonbidapena egin zen. Diseinaturiko sistema kopurua (Catizone eta beste batzuk 1993, Kay eta Röscheisen 1993; Vogel eta beste batzuk 1996, Wu 1996 ella Tillman eta beste batzuk 1997) areagotu egin zen, hain zen horrela, ezen arau bidezko itzulpenaren paradigmak jarraitzaile ugari galdu baitzituen analogia bidezko itzulpenaren ponerako (Jones 1992). Birpasa ditzagun ikuspegi horren lau alderdi: itzulpen estatistikoa, adibideetan oinarrituriko itzulpena, corpora paraleloen segida eta itzulpen memoriak.
'''1.Estatistiketan oinarritutako sistemak'''
 
* Metodo estatistikoak
• Sarrera berria adibideen datu-basearekin parekatzen da, egokiak diren adibideak erauzteko. Adibide hauek, ondoren, modu analogikoan bateratzen dira itzulpen zuzena erabakitzeko
* Adibideetan oinarrituriko itzulpena
* Corpora paraleloen lerrotzea
* Itzulpen memoriak
 
===Metodo estatistikoak===
• Datu-base lexikala da hizkuntza-lexikoaren biltegi orokorra: Hiztegi elektroniko moduko bat da, hizkuntzaren tratamendu automatikoari begira eraikia.
 
Estatistika itzulpen automatikoan metodo erabilgarri gisa Warren Weaver-ren hausnarketa eragin zuen 1949. Berragertu egin zen 1990ean "CANDIDE" sistemarekin, IBM.ren "Thomas J. Watson Center-reko" taldeak garaturikoa Nueva York-en (Brown et al. 1990). Hizketa antzemateko teknika estokastiken bidez lortutako arrakastaren ostean, taldeak itzulpenekin proba egitea erabaki zuen. Ikuspegia analisirako zein sortzeko estatistika ez zen beste informaziorik ez erabiltzeko proba egitearen postulatutik planteatu zen. Esperimentua Kanadako Parlamentuko Akten Hansard corpusaren gainean egin zen (hiru milioi bat esaldi ingelesez eta frantsesez). Lehenengo eta behin perpausak, hitz multzoak eta hitz solteak zerrendatu ziren geroago kalkulatu ahal izateko hizkuntza batean perpausa bateko hitz batek itzulpenean beste hitz batzuekin bat etortzeko zituen aukerak. Emaitzek ikerlariak beraiek harritu zituzten, itzulitako perpausen ia erdia jatorrizko testuan zirenak bezalakoak baitziren bahiz eta hitz ezberdinekin eratu. Sistema ez zen merkaturatu, baina ikerketak birbideratzeko gertaera historikoa suposatu zuten. Egindako azken ekarpenen artean, "University of Southern Californiako" ISI taldearena azpimarra daiteke, "EGYPT-ek" garatzen duena hain zuzen ere, alegia, corpora elebidunetik abiatuta estatistikan oinarrituriko sistemak eratzeko software pakete bat.
• Gramatika konputazionalak: sintaxiaren deskribapena Sintaxia ere funtsezkoa dugu hizkuntzaren tratamenduaren arloko edozein lani ekiteko, helburua hizkuntza ezagutzea nahiz sortzea dela ere.
 
===Adibideetan oinarrituriko itzulpena===
• Taxonomia semantikoak Hizkuntza ulertzea xede denean, baina, ez da aski morfologia eta sintaxiarekin, semantikaz ere jakin behar izaten baitu programak.
 
Itzulpen estatistikoaren antzera, corpora elebidunen disponibilitatean oinarrituriko antzeko ikuspegia da "adibideetan" oinarrituriko itzulpena (AOIA). Hasiera batean japoniar Makoto Nagao ikerlariak 1981ean proposatu zuen, baina teknika ez zen hamarkadaren amaiera arte probatu Kyoto-ko Unibertsitateko Nagao-k berak eta DLT (Sadler, 1989) proiektuaren taldeak Holandan batera egin arte. Hipotesiak dio, itzulita dauden testuak itzulpen berrien eredu izan daitezkeela. Metodoa testu elebidunen corpus batetik, aurretiaz lerrokatua, perpausa edo sintagmak atera eta hautatzean datza. Tsuji eta beste batzuek (1991) eta Sumita eta Iida-k (1991) horren antzeko ikuspegi hibridoak aplikatu dituzte. Adibideetan oinarrituriko itzulpena itzulpen memoriak deritzotenen garapenean oinarriturik dago (Sato eta Nagao, 1991).
 
===Corpora paraleloen lerrotzea===
 
Analogietan oinarritutako itzulpena corpora elebidunen menpe dago nahita nahiez, eta horrek lerrokatze teknikak itzulpen automatikoan interes handien duen ikerketa arloetako bat bilakatu du. Lerrokatzea corpus elebidunaren zatien arteko korrespondentzia erlazio esplizituak egitea da. Martinez-i (1999) jarraituz, hiru ikuspegi nagusiri buruz mintza gaitezke:
'''2.Adibideetan Oinarritutako Itzulpen Automatikoa (AOIA, ingelesez Example Based Machine Translation, EBMT)'''
 
* Ikuspegi estatistikoa: Corpusean diren ezaugarri kuantitatibo batzuen antzekotasuna aprobetxatzen duen lerrokatze metodoa, esaterako, perpausen luzera, hitz edo karakter kopurua, eta abar. (Brown eta beste batzuk, 1991; Gale eta Church, 1991).
• Testu-corpusak: testu-masa handiak dira. testu-masa handiak dira
* Ikuspegi linguistikoa: Lerrokatzea aurretiaz unitate sintagmatiko edo menpeko egiturak parekatzean datza (Sadler, 1991; Kaji eta beste batzuk, 1992; Matsumoto eta beste batzuk, 1993).
* Ikuspegi mistoa: kategoria gramatikalen identifikazioa lerrokatze estatistikorako laguntza legez erabiltzen duen metodoa (Chen, 1993).
 
Ohar sintaktikoetan oinarritzen diren aukera teknikek aurretiaz eginiko oharrak behar dituzte (Black eta beste batzuk, 1993). Brown corpusa edo Penn Treebank-a (Marcos eta Santorini, 1991) ingeleserako erabilgarri izan dira. Beste hizkuntza batzuetan ere ezagutzen dira ohar sintaktikodun corporak: turkieran /Skut eta beste batzuk, 1997), txekieran (Hajic eta Hladká, 1998), alemaneran (Oflazer eta beste batzuk, 1999). Euskararen kasuan sintaktikoki 10.000 hitz etiketatu dira (Ezeiza eta beste batzuk, 1998). Prozesu hauek asko kostatzen dute, metrika batzuek (Voutilainen, 1997) atera duten ondorioa izan da, urte betez entrenaturiko pertsona baten lana behar dela sintaktikoki 200.000 hitzetako corpus bat etiketatzeko. Martinezek (1998 eta 1999) oso emaitza onak izan ditu etiketa sintaktikorik ez duen espainol eta euskarazko corpus batean, segmentatze elebakarraren prozesuan sartutako egitura etiketak aprobetxatzen dituzten teknikak aplikatuz. Lan era hori DEL taldeak egun Deustuko Unibertsitatean duena da.
• Aldez aurretik itzulitako adibideen datu-basea edo corpusa erabiltzen dute.
 
• Informazio-erauzketako sistemek: hizkuntza arruntean idatziriko testuetatik abiatu eta datu-base egituratu bat osatzen dute, gero informazioa errazago aurkitu ahal izan dadin.
 
• Kategorizazio-sistemak: oso baliagarriak dira dokumentu kopuru handia kategoria-multzo txiki baten arabera sailkatzerakoan.
 
• Analizatzaile morfologikoa: Analizatzaile (eta sintetizatzaile) morfologikoaren zeregina hitz-forma osatzen duten morfemak ezagutzea (eta konposatzea) da, eta morfema bakoitzari dagokion informazio morfologiko-lexikala ematea.
 
• Lematizatzaile/etiketatzailea: Analizatzaile morfologikotik eratortzen da, eta hitz-forma baten lema eta kategoria ematen ditu, anbiguotasuna saihestu edo gutxitzearren testuingurua aintzat hartuz.
 
• Analizatzaile sintaktikoa bere zeregina, testuetako osagai sintaktikoak ezagutzea da: perpausak, izen-sintagmak, izen-lagunak, etab. Analisiaren oinarria lexikoa eta gramatika izango dira.
 
Hauek ditugu, hortaz, itzulpen automatikoari dagozkion sistema edo baliabide azpimarragarri eta garrantzitsuenak.
 
===Itzulpen memoriak===
 
Analogietan oinarrituriko itzulpenak "itzulpenaren memoria" izenaz ezaguna den teknologian izan du bere garapenik handiena. Teknika, eskuz egin eta giza itzultzaile batek onetsiriko itzulpenak biltzean datza, ostean, antzeko testuak itzultzean berriro erabiltzeko. Teknologia honek arrakasta handia izan du merkatuan hazten ari zen software pakete kopurua dela eta; pakete horiek memorien kudeaketa moduluak dituzte datu terminologikoak, lerrokatze automatikoak eta formatuak aldatzeko filtroak sortu eta gordetzeko programez gain. Ezagunenak honakoak dira: "DÉJÀ-VU" (ATRIL), "Translator's Workbench" (TRADOS), "TRANSIT" (STAR), "SDLX", "Eurolang Optimizer" (LANT), "CATALYST"(ALCHEMY), "WORDFAST", eta abar. Gaur egun, merkatuan den liderrik argiena alemaniar TRADOS enpresarena da, gero eta hurbilago DÉJÁ-VU duelarik, halere, hurrengo urteetako konpetentzia gogorra izango da. Programa batzuek (WORDFAST), dohainik izan ohi dira bezeroak bereganatzeko. Hortaz, badirudi hainbeste beldurtzen dituen monopolioa urrun dagoela. Sanchez-Gijon (2001) eta Nogueira-k (2002)emaitza interesgarri eta balorazio pertsonalak izan dituzten azterketa konparatiboak egin dituzte.
 
==Sistemarik aipagarrienak==