Euskararen Erreferentzia Corpusa aurkeztu du Euskaltzaindiak
Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikorekin lankidetzan osatu du Euskararen Erreferentzia Corpusa, hedabide nagusiekin eta gizarte-eragile askorekin batera, eta tartean dago Lea-Artibai, Mutriku eta Busturialdeko Hitza. 123.124 dokumentu, 154,21 milioi testu-hitz eta 129.817 lema biltzen ditu.

Euskararen egunean eguneko erabileraren berri izateko eta hizkuntza-teknologiek dakartzaten erronkei aurre egiteko, corpus handiago eta orekatuago baten beharraz jakitun zegoen Euskaltzaindia, eta hutsune hori betetzeko, Euskararen Erreferentzia Corpusa (EEC) abian ipini zuen duela lau urte. Azken urteotako lanaren emaitza aurkeztu dute gaur goizean [martxoak 31], Bilbon. 2000. urtetik 2023ra bitartean euskaraz idatzitako edo ekoitzitako testuetatik hartutako 123.124 dokumentu, 154,21 milioi testu-hitz eta 129.817 lema biltzen ditu.
Hain zuzen ere, “datu-bilduma handi bat da hizkuntza-corpusa”, egituratua, erabilera errealetan oinarritua eta linguistikoki prozesatua, hizkuntzaren atal baten erakusgarri legez erabiltzen dena. Eta erreferentzia-corpusa deritzo hizkuntza baten garai zehatz baten ahalik eta erakusgarririk xeheena —eta aldi berean zabalena— izateko sortutako corpusari.
Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikorekin lankidetzan osatu du Euskararen Erreferentzia Corpusa, komunikabide nagusiekin eta gizarte-eragile askorekin batera, eta tartean dago Lea-Artibai, Mutriku eta Busturialdeko Hitza: “Testu horien jabeak diren argitaletxe, erakunde eta komunikabideen eskuzabaltasuna izan ez balitz, ezinezkoa izango zen holako corpusik. Gainera, horiekin guztiekin hitzarmenak sinatu dira, beren eskubideak bermatzeko. Testuak jaso eta formatu egokitzapenak egiteko, testuen jabeak diren etxeetako teknikarien lankidetza ere nahitaezkoa izan da”.
Akademiaren “giltzarri eta oinarri” izango den corpusa da; Andres Urrutia euskaltzainburuak esan bezala, orekatua, irekia eta kolektiboa: “Erreferentzia-corpusa da, alegia, oreka baten bila doana, hizkuntzaren nondik norako zehatzak eta orekatuak bildu nahi dituena, arlo desberdinetako laginak bilduz, egungo euskararen isla emanez. Irekia ere bada, orain arteko materialak bildu dituena eta geroago garrenean ere zabaltzen joango dena, eragile eta material berriekin. Eta, nola ez, kolektiboa da, Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikoekin batera egin duelako, hedabide nagusiekin eta gizarte-eragile askorekin batera”.
Aurkezpenean azpimarratu dute analisi linguistikorako, ikasketa automatikorako eta hizkuntza-ikerketetan hipotesiak baliozkotzeko “funtsezko tresna” dela, eta hizkuntza-, literatura- edo ikerketa-helburuetarako “corpus estandar edo erreferente gisa erabil” litekeela. “Egungo egoera islatzen duen neurrian, hizkuntzaren irakaskuntzan jarduten dutenek, zuzentzaileek… erabilgarri izango dute EEC, lexiko- (orokorra zein terminologikoa) eta gramatika-zalantzak argitzeko, eta, jakina, corpus handi horietarako eredu egokiak balioztatzeko ere bai”, adierazi du Miriam Urkia euskaltzain oso eta Euskaltzaindiaren Hiztegia egitasmoko arduradunak. Euskararen Erreferentzia Corpusa egiteko, oreka eta adierazgarritasuna kontuan izan dituzte. Urkiaren berbetan, egungo euskararen erabilera islatzeko helburuarekin, garrantzitsuak dira gaien aniztasuna mantentzea, euskalki guztietako adibideak eta testu-iturri desberdinetako (liburuak, aldizkarik, sarea…) edukiak biltzea, eta publiko mota guztiei zuzendutako testuak (gazteak, publiko orokorra, espezialistak) kontuan izatea.
Urkiak gogoratu du Euskaltzaindia aitzindaria izan dela euskal corpusgintzan: “Euskaltzaindia XX. mendeko 80. hamarkadan hasi zen corpusak lantzen, aitzindaria izan da euskal corpusgintzan. Orotariko Euskal Hiztegiaren corpusa eta XX. Mendeko Euskararen Corpus Estatistikoa ondu zituen aurrena. Ondoren, XXI. mendean sartuaz batera, Lexikoaren Behatokia corpus monitorea osatu zuen. Horiek gabe Euskaltzaindiak ez zituen izango, esate baterako, Euskaltzaindiaren Hiztegiko hitzak, adierak, erabilera-markak eta horien testuinguruak adierazteko adibideak”.
Ibone Bengoetxea Kultura eta Hizkuntza Politikako sailburuak Euskaltzaindiak hizkuntzari “prestigioa” ematen diola goraipatu du: “Euskaltzaindiatik landu eta eskaintzen ari zareten euskararen corpus hau gure historiaren zati bat da eta, aldi berean, gure herriaren etorkizuna gidatuko duen erreferentziazko tresna ere bada”.
Irizpideak. Euskararen Erreferentzia Corpusa diseinatzeko hiru irizpide nagusi eduki dituzte: medioa, sailkapena eta kronologia.
Euskaraz idatzitako testuetan oinarritua dago (batez ere bertsio elektronikoetatik abiatuta). Ahozkoaren transkripziorik ez du oraingoz, baina ahozkorako prestatutakoa biltzen du (serieak, filmak, gidoiak…). Testuen % 48 liburuetatik dator corpusera, % 48 aldizkako argitalpenetatik eta % 4 sarerako berariaz sortutako materialetik. Bi sail edo multzo nagusitan sailkatu dituzte testuak: fikzioa (% 25/ 39,67 milioi testu-hitz) eta ez-fikzioa (% 75/114,54 milioi testu-hitz). Kronologiari dagokionez, azken 25 urteetako testuak jasoko ditu beti EECk. Esan bezala, lehen bertsioak 2000. urtetik hasi eta 2023. urterainoko testuak barne hartuditu. Urtean-urtean eguneratuko da, beraz, corpus dinamikoa izango da.
“Irizpide horien guztien konbinazio orekatuak dakar erreferentzialtasuna. Horrexek definitzen du erreferentzia-corpusa, orekari eustea beti erraza ez bada ere. Eta, aldi berean, irizpide horiek hiztegiko kontsultak beharren arabera mugatzeko aukera edo bidea ematen digute”, zehaztu du Urkiak.