XX. mendeko euskararen corpus estatistikoa

euskarazko testu corpusa

XX. mendeko euskararen corpus estatistikoa XX. mendeko euskara jasotzen duen corpus estatistikoa da 4.658.036 testu-hitzez osatuta dagoena. Pasa den mendean erabili izan den euskararen lekuko eta erakusgarri izatea du egiteko nagusi eta ia bakarra, eta ez ereduzko hizkuntza proposatzea.[1][2] Kontsultagarria da sarean.[3]

Ricardo Gomez Guinovart, Andoni Sagarna eta Miriam Urkia Corpusgintza aztertzeko aurkezpen batean.

Egungo Euskararen Bilketa Sistematikoa (EEBS) UZEI eta Euskaltzaindiak Ixa Taldearen laguntzaz sorturiko testu-corpus lematizatu bat zen, baita horren inguruko ikerketa eta garatze lan guztia.[4][5][6] EEBS proiektuak hiru milioi testu-hitz bildu zituen 1996rako eta 4.658.036 bukaeran 2002an. Euskara modernoaren benetako lexikoa eta erabilerak finkatzeko balio izan du. EEBS izena zuen corpusa guztiz bukatu zenean XX. mendeko euskararen corpus estatistikoa modua berrizendatu zen eta Euskaltzaindiaren webgunean kokatu zen kontsultagai.

Antzera, XXI. mendean erabiltzen den euskarazko testuak biltzen dituen corpusa Lexikoaren Behatokia Corpusa da. Helburu berarekin ari da sortzen Euskaltzaindia baina kasu honetan 2000. urtetik aurrerako testuekin, kasu honetan aurretik inbentario oso bat eduki gabe, jakina. Corpus hau ezinbesteko tresna da Euskaltzaindiarentzat, hitz berri bat finkatu baino lehenago derrigorrezkoa baita hitzaren erabilera erreala zehazki ezagutzea.

Historia eta jatorriaAldatu

Terminologia zientziaren, teknikaren, jakintza-alor edo giza-jardueraren esparru jakin bateko hizkera espezializatuan erabiltzen diren terminoen multzoa da, lehen adiera batean. Bigarren adiera batean, terminologia, terminoen biltze, aurkezpen eta deskribapen sistematikoari egiten die erreferentzia.

XX. mendean Eugene Wüsterrek terminologiaren teoria orokorraren hastapenak jarri zituen; diziplina autonomo bat dela aldarrikatuko zuen, lexikologiaz eta hizkuntzalaritzaz baliatu arren. Haren teoria zabalki kritikatuak izan arren, gaurko ikerketen abiapuntu eta oinarri izan da; besteak beste, terminologiaren barne, terminoen bilketa, aurkezpen eta deskribapen sistematikoari dagokionez.

Aurrekariak eta EEBSren inspirazioaAldatu

Aurretik aipatutakoaren adibide da esate baterako, Quebec-eko Terminologia Bankua. Frantsesaren normalizazioa bultzatzeko, “Office de la langue française" izeneko bulegoa sortu zuten 1961ean, bulego honen zeregina frantsesa lehenbailehen komunikabideetako, laneko, merkataritza eta administrazioko hizkuntza bihurtzen ahalegintzea zen. Bulegoa sortu eta handik zortzi urtetara, 1969an, honek "Banque terminologique du Quebec" izeneko terminologi zentroa eratu zuen. Hemen, hasiera batean 30.000 fitxako terminologi fitxategi bat antolatu zen. Sei fitxategik osatzen dute gaur egun Terminologi Bankua: bi terminologi fitxategik, erabilera-eremuen thesaurusaren fitxategiak, erreferentzia bibliografikoen fitxategiak, terminologiari buruzko dokumentazioaren fitxategiak eta erakunde, idazle, liburutegi eta enpresen fitxategiak.

EEBSren jaiotza eta historiaAldatu

Euskal Herri mailan, proiektua 1987an jarri zen martxan Andoni Sagarnaren gidaritzapean, eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, corpus irekia zen, urtero eguneratzen zena, nahiz eta geroago corpus itxia izatera pasatu. Bestalde, euskara idatzia jaso da hor, ez ahozkoa. Ahozkoek badute haien lekua, baina transkribatu eta argitaratu diren neurrian jasotzen dira.

Bigarren fase batean (1987-2001), Euskaltzaindiaren Egungo Euskararen Bilketa-lan Sistematikoa izeneko batzordearen gidaritzapean UZEI Terminologia eta Lexikografia Zentroak corpusa garatzeko aholkularitza teknikoa, tratamendu informatikoa eta lan lexikografikoa burutu ditu. Kanadan egin zen antzeko lan bat betetzen du, hala ere Kanadan duten frantsesa laneko hizkuntza bihurtzeko legearen parekorik ez da Euskal Herrian.

XX. mendeko euskara jasotzen duen corpus estatistikoa 4.658.036 testu-hitzez osatua da. Erabili izan den eta erabiltzen den euskararen lekuko eta erakusgarri izatea du egiteko nagusi eta ia bakarra, eta ez ereduzko hizkuntza proposatzea. Kontsultagarria da sarean.

Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da, "Datu-base bibliografikoa" atalean aipatzen diren irizpideen arabera sailkatua. Argitalpenek osatzen duten unibertsotik abiatuta, osotasun hori proportzionalki adieraziko duen lagina eskuratu da zozketa bidez, orotara jasotako 6.351 obra-zatik osatzen dutena.

Proiektua 1987an jarri zen martxan eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, baina corpus irekia zen eta, beraz, urtero eguneratzen zen, nahiz mendea bukatzean corpus itxi izatera pasatu den, mende oso baten erakusgarri. Bestalde, euskara idatzia jaso da hor, ez ahozkoa. Ahozkoek badute bere lekua, baina transkribatu eta argitaratu diren neurrian jaso dira.

XX. mendeko euskararen corpus estatistikoa bihurtzeaAldatu

EEBS izena zuen corpusa guztiz bukatu zenean XX. mendeko euskararen corpus estatistikoa izeneko corpusa bihurtu zen Euskaltzaindiaren webgunean.[4] 4.658.036 testu-hitzez osatua da. Erabili izan den eta erabiltzen den euskararen lekuko eta erakusgarri izatea zuen egiteko nagusi eta ia bakarra, eta ez ereduzko hizkuntza proposatzea.[1][2] Kontsultagarria da sarean.[3]

Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da, "Datu-base bibliografikoa" atalean aipatzen diren irizpideen arabera sailkatua. Argitalpenek osatzen duten unibertsotik abiatuta, osotasun hori proportzionalki adieraziko duen lagina eskuratu da zozketa bidez, orotara jasotako 6.351 obra-zatik osatzen dutena.

Testuak sailkatzeko irizpideakAldatu

Dokumentuak sailkatzeko irizpideak hauek dira:

  • Epea, garaia: lau garai nagusitan banatzen dira XX. mendeko argitalpenak:
    • 1900-1939: mende-hasieratik gerrak artekoa.
    • 1940-1968: gerraostean abiatu eta euskara batuaren sorrera artekoa.
    • 1969-1990: euskara batuak ekarritako aldaketarekin hasi eta Euskaltzaindiaren gomendioak eta arauak artekoa (eta Ibon Sarasolaren Hauta-Lanerako Euskal Hiztegia argitaratu artekoa).
    • 1991-1999: araugintza berriaren ondokoa.
  • Euskalkiak: Bizkaiera, Gipuzkera, Zuberera, Lapurtera-Nafarrera (biak bakarrean bilduta), euskara batua.
  • Sailkatu gabeak:Atal honetan egunkari eta astekarietako artikuluak jasotzen dira, horien inbentarioa ez baita artikuluka egin, bestelako aldizkariekin egin den bezala, baizik argitalpena bere osoan harturik. Honela sailkatu dira, halaber, askoren jardunak jasotzen dituzten bertso-bildumak ere.
  • Saio-artikuluak: Euskera, Egan, Euzko Gogoa, Jakin bezalako aldizkarietako artikuluak banaka fitxatu dira inbentarioan, eta horietakoek osatzen dute multzo hau.
  • Testu-mota: Administrazio-idazkia, Ikasliburuak, Saio-liburuak, Literatura-prosa, Poesia, Antzerkia, Bertsoak, Ikerketa-lanak, Haur- eta gazte-literatura, Ahozkoak: ahozko jardunen transkripzioak, Liturgia, Egunkariak, eta Aldizkariak.

Sailkapen horiek, unibertsoaren berri eman eta lagin erakusgarria aukeratzeko oinarri izateaz gain, lagungarri izan litezke oraingo kontsultetan. Alegia, forma bat euskalki, epe edo testu-mota batean (edo gehiagotan) nola erabili den ikus liteke, bilaketa murriztuz. Adibidez, pastoral lema begira dezakegu, baina zubererazko testuetara mugatua, edo erdu bizkaieraz ez bestekoetan. Autoreak eta izenburuak ere ageri dira, bai liburuen kasuan eta bai aldizkarietako artikuluetan ere, artikulua eta aldizkariaren fitxa jaso baita.

Testu-zatiak XML formatu estandarrean ezarrita daude (hasieran SGMLz zegoenStandard Generalized Mark-up Language). Erabiltzaileak testuak kurtsibaz, lodiz edo azpimarratuak aurkituko ditu, testu originalean zegoen bezala. Baina, hauez gain, erdarak, aipamenak, metahizkuntza eta bestelakoak ere markatuta aurkitu daitezke, egilearen erabilera bereziak agerian utziz adibidez.

Corpus lematizatuaAldatu

Horiek dira corpusaren ezaugarriak; baina corpusak badu balio erantsi bat: lematizatua da. Alegia, testu-hitz bakoitzari forma estandar bat erantsi zaio, hiztegi-sarrera moduko bat, eta horrek, besteak beste, erraztu egingo du kontsulta. Adibide batekin esateko, forma deklinatuei eta aldaerei lema bakarra ezarri zaienez, helduleku erosoa dugu orain lema hori: etxe. Etxe, etxea, etxien, echeco, etchetik bezalako testu-hitzak etxe galdetuz ikus daitezke, aldaeraren bat ahazteko arriskurik gabe. Lematizazio hau, bestalde, ez da hitz bakunetara mugatzen; hitz soilez gain, hitz elkartuak, eratorriak eta bestelako hitz anitzeko unitate lexikalak ere markatu dira: etxe lema soilaren ondoan, etxe orratz, etxe-abere, etxe-tresna, etxeko, etxeko jaun, etxekoandre, etxepe, etxetxo, etxeño, etxezain bezalako lemak ere adieraziz. Edo, hala soilaz gain, hala ere, hala eta guztiz ere, hala... nola, hala nola modukoak ere zehaztuz. Horiek horrela, 101.585 lema desberdin aurkituko ditu erabiltzaileak, bere kontsultak egiteko modu eroso eta batez ere segurua eskainiko diotenak.

Ixa taldeak garatutako EUSLEM prorama informatikoa eta EDBL datu-base lexikala erabili ziren EEBS corpusa lematizatzeko.

ErreferentziakAldatu

  1. a b Euskaltzaindia. «XX. mendeko Euskararen Corpus estadistikoa» xxmendea.euskaltzaindia.net . Noiz kontsultatua: 2018-11-26.
  2. a b «Corpus beharra asetzeko baliabide eta tresna berriak: ZT corpusa, Corpusgile eta Eulia. – Hizkuntza-teknologiak» www.unibertsitatea.net . Noiz kontsultatua: 2018-11-26.
  3. a b «XX. mendeko Euskararen Corpus estatistikoa» xxmendea.euskaltzaindia.net . Noiz kontsultatua: 2018-11-26.
  4. a b «XX. mendeko Euskararen Corpus estadistikoa» xxmendea.euskaltzaindia.net . Noiz kontsultatua: 2020-04-27.
  5. «Terminologiaren teoria orokorra» EIZIE . Noiz kontsultatua: 2020-04-27.
  6. (Gaztelaniaz) Terminología. 2020-03-27 . Noiz kontsultatua: 2020-04-27.

Ikus, gaineraAldatu

Kanpo estekakAldatu