"Munduko enpresa potoloenak adimen artifizialaren industrian sartuta daude"
Xabier Arregi Iparragirre (Zubieta, 1964) adimen artifizialean eta hizkuntzalaritza konputazionalean aditua da. Euskararen prozesamendu automatikoa lantzen duen Euskal Herriko Unibertsitatearen Ixa talderean nahiz HiTZ zentroaren partaide da gipuzkoarra. Hizkuntzalaritza konputazionalarekin erlazionatutako hainbat proiektu eta aplikazioren ekoizpenean eta garapenean parte hartu du.
Zelan defini daiteke Ixa taldea?
Ixa taldea EHUren ikerketa taldea da, 1988an sortua, hizkuntzaren tratamendu automatikoa lantzen duena. Duela zenbait urte, Aholab taldeagaz bat egin zuen; halaxe sortu zen HiTZ zentroa. Funtsean, Ixak testuekin lan egiten du, eta Aholabek ahotsarekin. Ixa barruan, batik bat, hizkuntzalariek eta informatikariek lan egiten dute. Helburua da makinek gizakion hizkuntza ulertzea, hura sortzeko gai izatea; finean, makinen eta gizakien arteko komunikazioa hizkuntza bidez ematea.
Gailuek, beraz, hizkuntza erabiltzen ikasi behar dute.
Horretan dihardugu: makinei nahiz gailuei hizkuntza irakurtzen eta erabiltzen irakasten ari gara, euskaragan ardura berezia ipinita. Egiteko horri, hain zuzen, hizkuntzaren tratamendu automatikoa edo hizkuntzalaritza konputazionala deitu ohi zaio. Makinei euskaraz irakatsi behar diegu, geure hizkuntzak arlo teknologikoan bere esparru propioa eduki dezan.
Xuxen zuzentzaile ortografikoa ekarpen handia izan zen 90eko hamarkada inguruan
Egiteko horren peskizan, hainbat eta hainbat dira ondu dituzuen proiektuak.
Asko. Entzutetsuenetatik, lehenengoetarikoa Xuxen izan zen: euskarazko idatzizko testuentzako zuzentzaile ortografikoa. Bere garaian, 90eko hamarkada inguruan, ekarpen handia izan zen. Ostean etorri ziren hiztegiak, corpusak, itzultzaile automatikoak, eta abar luze bat.
Gaur-gaurkoz, zein proiektu nagusi duzue esku artean?
Chat GPT-ren pareko proiektua nabarmenduko nuke: Latxa. Sare neuronala erabiltzen duen hizkuntza eredu sortzailea da, eta hizkuntza sortzeko gai da. Oraindik ez du Chat PGT-k eduki dezakeen bezainbesteko gaitasun mailarik, baina garatze lanean ari gara. Hain zuzen, Latxa gai da testuak euskaraz sortzeko, pertsona batek egingo lukeen legez, baina elkarrizketa bati eusteko duen kapazitatea hobetzen ari gara. Chat GPT-k, esaterako, gaitasuna du eskatzen dioguna ulertzeko eta hori ahalbidetzeko; are gehiago, aurretiaz agindutakoak birgogoratzeko eta horien arabera funtzionatzeko ahalmena du, hau da, elkarrizketa bat jarraitzeko. Latxa gizakiokin interaktuatzeko gai izatea da gure hurrengo erronka: gure aginduak konprenitzeko eta prozesatzeko gai izatea.
Tankerako proiektuak aurrera eroateko, kolaborazio publiko nahiz pribatuak egitea funtsezkoa izango da, ezta?
Elkarlan sare horiek berebizikoak dira. EHUren barruko erakunde publikoa izanik, proiektuen finantzazioa maiz lehiaketa publiko bidez jaso ohi dugu; baditugu Europa mailako proiektuak, baita Espainia mailakoak ere, eta Eusko Jaurlaritzarekin dugu Ikergaitu egitasmoa. Guretzat garrantzizkoena da egiten ditugun ikerketak gerora aplikazio bihurtzea. Horretarako, nahitaezkoa da ikerketa zentroen eta garapen enpresa, eragile zein erakundeen arteko saretzea eta zubi lana. Adimen artifizialaren eta bere barruan kokaturiko hizkuntzalaritza konputazionalaren alorrean, bada ekosistema moduko bat, eta kolaborazioak ekosistema horren baitan zeharo garrantzitsuak dira.
“Euskaldunontzat erabilgarriak diren formulak bilatzen eta lanabesak sortzen saiatzen gara”
Euskararen idatzizko erabileran zein eragin du, egun, adimen artifizialak?
Nahiko genukeena baino txikiagoa. Horren arrazoia agerikoa da: lehiakortasuna. Munduko enpresarik potoloenak adimen artifizialaren industrian sartuta daude, egun; Microsoft, Google, OpenAI nahiz Metta arlo horretan bete-betean murgilduta daude. Euskal enpresentzat ogibide zaila da erraldoi horien aurka zerbait egitea. Beraz, gure eragin eremua herri honen txikitasunetik jorratu behar dugu; euskaldunontzat erabilgarriak diren formulak bilatzen eta lanabesak sortzen saiatzen gara. Inportantea da bertoko jendeak jakitea posible dela gauza piloa egitea, tokiko produktuak baliatuta eta beti multinazionalen morrontzan egon barik.
Kalitatezko datuen bilketak, hortaz, giltzarri behar du izan.
Datu bilketa, egun, gako nagusienetako bat da. Datu asko eta asko bildu behar dira, sistema informatikoak ekoizteko. Aipatutako enpresa handiek ahalmen izugarria dute datuen bilketarako; guk, berriz, mugatuagoa. Beraz, garrantzitsua da euskarazko testu eta ahotsak sortzen dituztenek testu eta ahots horiek uztea, sistemak osatzen joan gaitezen.
“Gure lana euskara batuan oinarritu behar dugun arren, gure lanabesek euskalkiak ezagutu behar dituzte nahitaez”
Euskararen dialekto eta hizkeren aniztasunak zelan jokatzen du aplikazioen sorreran?
Datu bilketari begira, oso onuragarria da. Gure lana euskara batuan oinarritu behar dugun arren, egoera soziolinguistikoa begibistakoa da; hortaz, gure lanabesek euskalkiak ezagutu behar dituzte nahitaez. Adibidez, eskualde jakin bateko elkarrizketak transkribatzeko, aplikazioaren ahots ezagutzaileak toki horretako hizkera neurri handi batean ezagutu egin beharko du, nahitaez. Beraz, euskalkiekiko sentsibilizazioa dugu, jakina.
Eta nola doitu da euskaldunon hizkuntza GPT moduko Hizkuntza Eredu Handien erabilerara?
Nahiko ondo, Latxa proiektua horren erakusle da; teknologia aldetik GPT 3 eta 4 artean kokatuko litzateke. Bestalde, Elhuyarrek ere antzeko produktu bat sortu du: Llama-eus-8b.
Pandemia mugarri izan al da zuon jardunean?
Eragina eduki du, nola ez. Etxetik lan egin behar izan genuen, baina lan dinamika oso aktibo mantendu genuen. Esaterako, COVID-19ari buruzko testuak lantzeko aplikazioak sortu genituen, egoerara moldatuz. Hitz bitan: pandemia ez zen denbora galdua izan ez ikerketa aldetik, ez produktuen garapenari zegokionez.
“Kalean, adimen artifizialarekiko edota hizkuntzalaritza konputazionalarekiko ezagutza eza dago, baita kuriositatea ere”
Kalean adimen artifizialarekiko edota hizkuntzalaritza konputazionalarekiko desinformazioa dagoela uste al duzu?
Bai, ezagutza eza dago, baita kuriositatea ere. Hori dela eta, aukera dugun oro, dibulgazio lanak egiten saiatzen gara. Gainera, asko dira mundu horretara hurbiltzen aritzen diren eragileak. Guk, adibidez, sarritan parte hartzen dugu herrietako hitzaldietan, jendea jakitun baita adimen artifizialaren etorrerak gure bizitzetan astindua eragingo duela.
Eta arlo horretako profesionalen eskaria handia al da?
Profesionalen eskaria egon, badago. Enpresetan zein erakundeetan ezagutza hori duten langileen beharra sumatzen hasiak dira aspalditik.