Corpusetan oinarritutako itzulpen automatikoa

Corpusetan oinarritutako itzulpen automatikoak, bere oinarrian aurrez egindako itzulpenak ditu. Metodo hauek eraikitzea erregeletan oinarritutakoak baino merkeagoa izan daiteke kasu askotan, hizkuntzalarien menpekotasun handirik ez dagoelako; aitzitik, traba nabarmena da batez ere hizkuntza txikientzat corpus handiak biltzea.

Hainbat sailkapen egin daitezke corpusetan oinarritutako IA aztertzerako garaian: IA estatistikoa (SMT), adibideetan oinarritutako IA (EBMT) eta bereiz azter daitezkeen itzulpen-memoriak. Azken urtetan ikasketa sakonaren eta neurona-sareen garapenarekin paradigma berri bat sortu eta garatzen ari da, IA neuronala izenekoa, arrakasta handia ziaten ari dena[1].

Metodo estatistikoak aldatu

Itzulpen automatikoan metodo erabilgarri gisa Warren Weaver-ren hausnarketa eragin zuen estatistikak 1949. urtean. 1990.ean berriro agertu zen CANDIDE sistemarekin, IBMren Thomas J. Watson Center-eko" taldeak New York-en garaturikoa. Hizketa antzemateko teknika estokastikoen bidez lortutako arrakastaren ostean, taldeak itzulpenekin proba egitea erabaki zuen. Ikuspegia analisirako zein sorkuntzarako estatistika soilik erabiltzeko proba egitearen postulatutik planteatu zen. Esperimentua Kanadako Parlamentuko Akten Hansard corpusaren gainean egin zen (hiru milioi bat esaldi ingelesez eta frantsesez).

Lehenik eta behin perpausak, hitz multzoak eta hitz solteak zerrendatu ziren geroago kalkulatu ahal izateko hizkuntza batean perpaus bateko hitz batek itzulpenean beste hitz batzuekin bat etortzeko zituen aukerak. Emaitzek ikerlariak harritu zituzten, itzulitako perpausen ia erdia jatorrizko testukoak bezalakoak baitziren nahiz eta hitz ezberdinekin eratu. Sistema ez zen merkaturatu, baina ikerketak birbideratzeko gertaera historikoa izan zen. Egindako azken ekarpenen artean, University of Southern Californiako ISI taldearena azpimarra daiteke, EGYPT-ek garatzen duena hain zuzen ere: corpora elebidunetik abiatuta estatistikan oinarrituriko sistemak eratzeko software pakete bat, alegia.

Corpora paraleloen lerrokatzea aldatu

Corpusetan oinarritutako itzulpena corpora elebidunen menpe dago nahita nahiez, eta horrek lerrokatze teknikak itzulpen automatikoan interes handien duen ikerketa arloetako bat bilakatu du. Lerrokatzea corpus elebidunaren zatien arteko korrespondentzia erlazio esplizituak egitea da. Martinez-i (1999) jarraituz, hiru ikuspegi nagusiri buruz mintza gaitezke:

  • Ikuspegi estatistikoa: Corpusean diren ezaugarri kuantitatibo batzuen antzekotasuna aprobetxatzen duen lerrokatze metodoa, esaterako, perpausen luzera, hitz edo karaktere kopurua, eta abar.
  • Ikuspegi linguistikoa: Lerrokatzea aurretiaz unitate sintagmatiko edo menpeko egiturak parekatzean datza.
  • Ikuspegi mistoa: kategoria gramatikalen identifikazioa lerrokatze estatistikorako laguntza legez erabiltzen duen metodoa.

Ohar sintaktikoetan oinarritzen diren aukera teknikek aurretiaz eginiko oharrak behar dituzte. Brown corpusa edo Penn Treebank-a ingeleserako erabilgarri izan dira. Beste hizkuntza batzuetan ere ezagutzen dira ohar sintaktikodun corporak: turkieran, txekieran edota alemanez.

Euskararen kasuan sintaktikoki 10.000 hitz etiketatu dira. Prozesu hauek kostu handia dute. Metrika batzuek atera duten ondorioa izan da, urte betez entrenaturiko pertsona baten lana behar dela sintaktikoki 200.000 hitzetako corpus bat etiketatzeko. Martinezek oso emaitza onak izan ditu etiketa sintaktikorik ez duen espainol eta euskarazko corpus batean, segmentatze elebakarraren prozesuan sartutako egitura etiketak aprobetxatzen dituzten teknikak aplikatuz. Laneko era hori DEL taldeak egun Deustuko Unibertsitatean duena da.

Adibideetan oinarritutako itzulpena aldatu

Itzulpen estatistikoaren antzera, corpora elebidunen disponibilitatean oinarrituriko antzeko ikuspegia da "adibideetan" oinarrituriko itzulpena (AOIA). Hasiera batean japoniar Makoto Nagao ikerlariak 1981ean proposatu zuen, baina teknika ez zen hamarkadaren amaiera arte probatu Kyoto-ko Unibertsitateko Nagao-k berak eta DLT (Sadler, 1989) proiektuaren taldeak Holandan batera egin arte. Hipotesiak dio, itzulita dauden testuak itzulpen berrien eredu izan daitezkeela. Metodoa testu elebidunen corpus batetik, aurretiaz lerrokatua, perpausa edo sintagmak atera eta hautatzean datza. Tsuji eta beste batzuek (1991) eta Sumita eta Iida-k (1991) horren antzeko ikuspegi hibridoak aplikatu dituzte. Adibideetan oinarrituriko itzulpena itzulpen memoriak deritzotenen garapenean oinarriturik dago (Sato eta Nagao, 1991).

Itzulpen memoriak aldatu

Sakontzeko, irakurri: «Itzulpen-memoria»

Analogietan oinarrituriko itzulpenak "itzulpenaren memoria" izenaz ezaguna den teknologian izan du bere garapenik handiena. Teknika, eskuz egin eta giza itzultzaile batek onetsiriko itzulpenak biltzean datza, ostean, antzeko testuak itzultzean berriro erabiltzeko. Teknologia honek arrakasta handia izan du merkatuan hazten ari zen software pakete kopurua dela eta; pakete horiek memorien kudeaketa moduluak dituzte datu terminologikoak, lerrokatze automatikoak eta formatuak aldatzeko filtroak sortu eta gordetzeko programez gain. Ezagunenak honakoak dira: "DÉJÀ-VU" (ATRIL), "Translator's Workbench" (TRADOS), "TRANSIT" (STAR), "SDLX", "Eurolang Optimizer" (LANT), "CATALYST"(ALCHEMY), "WORDFAST", eta abar. Gaur egun, merkatuan den liderrik argiena alemaniar TRADOS enpresarena da, gero eta hurbilago DÉJÁ-VU duelarik, halere, hurrengo urteetako konpetentzia gogorra izango da. Programa batzuek (WORDFAST), dohainik izan ohi dira bezeroak bereganatzeko. Hortaz, badirudi hainbeste beldurtzen dituen monopolioa urrun dagoela. Sanchez-Gijon[2] eta Nogueira-k[3] emaitza interesgarri eta balorazio pertsonalak izan dituzten azterketa konparatiboak egin dituzte.

Aipamenak aldatu

  1. Iñaki Alegria , Eneko Agirre. Itzulpen automatiko neuronalaren aurrerapenak eskura.. .
  2. Pilar Sánchez-Gijón. 2001. Catàleg de sistemes de memòries de traducció. Tradumàtica 0.
  3. Danilo Nogueira . 2002. Translation Tools Today: A Personal View. Translation Journal 6-1.

Ikus, gainera aldatu

Kanpo estekak aldatu