Corpus paraleloa (ikusi testu corpus) maila batera lerrokaturik dauden bi hizkuntz desberdinetako testu bik osatzen duten duten errekurtso linguistiko bat da, normalean, lerrokada, sekzio, orri, edota hitzeko.

Corpus paralelo motak aldatu

4 corpus paraleloak ezberdindu daitezke:

Kalitate txarreko itzulpenak dituzten, edota zehazki lerrokatuak ez dauden esaldi elebidunak dituen corpus paraleloa.

Corpus konparagarri bat itzulita ez dauden dokumentu elebidunetatik abiatuta egiten dira. Dokumentuak alineaturik daude.

Corpus cuasi-konparagarri batek alineaturik edo alineatu gabe dauden dokumentu heterogeneo ez paraleloek osatzen dute.

Corpus paralelo arraroenak dokumentu berari buruzko hainbat itzulpen dituztenak dira, gutxienez esaldi mailan alineaturik eta bi hizkuntza edo gehiagotan.

Euskara duten zenbait corpus paralelo aldatu

Dabilena Corpuseko euskara-gaztelania corpus elebiduna aldatu

Elhuyar Fundazioak garatutako PaCo2 tresna erabiliz. Tresna horrek erabiltzaileak aukeratutako bi hizkuntzetan eduki elebiduna duten domeinuak bilatzen ditu Interneten, eta domeinu horietatik elkarren itzulpen diren esaldiak erauzten ditu. 2021ean 15 milioi hitz zituene euskaraz eta 19 miloi espainieraz, 340 domeinutatik erauziak.[1]

Hizkuntzen arteko Corpusa (HAC) aldatu

Lau hizkuntzatara itzulitako 137 liburuk osatzen zuten HAC corpusa 2021ean. Itzulpen unitateak parekatuta bistaratzen dira, eta bilaketak edozein hizkuntzatan egin daitezke. Guztira 42,43 milioi testu-hitz zeuden, horrela banatuta: euuskaraz  8,64; espainieraz 11,31; frantsesez 11,11 eta ingelesez 11,53.[2]

Eroski Consumer Corpusa aldatu

Consumer Eroski aldizkariaren edukiak euskaraz, gaztelaniaz, galegoz edo katalanez.[3]

Euskal Klasikoen Corpusa (EKC) aldatu

2005ean abiatu zuen armiarma.eus-ek Klasikoen Gordailua, XX. mendea bitarteko testu klasiko ia guztien bilgunea bilakatzeko asmoz. Corpus honek XVI. mendean hasi eta 1975. urtera arteko 496 liburu jasotzen ditu, eta denera 11,9 milioi testu-hitzez osatuta dago. Lehenago OEH corpus zegoen (303 liburu eta 5,8 milioi testu-hitz), baina hori ez da inoiz modu publikoan kontsultagai egon. dena.[4]

Erreferentziak aldatu

  1. «dabilena - Elhuyar» dabilena.elhuyar.eus (Noiz kontsultatua: 2022-09-19).
  2. «Hizkuntzen arteko Corpusa (HAC) - UPV/EHU» www.ehu.eus (Noiz kontsultatua: 2022-01-25).
  3. Eroski-Consumer corpusa. Eroski.
  4. «Euskal Klasikoen Corpusa (EKC) - Euskara Institutua - UPV/EHU» Euskara Institutua (Noiz kontsultatua: 2022-01-25).

Ikus, gainera aldatu

Kanpo estekak aldatu