euskaraespañol

Redes sociales campusa

HiTZ zentroak hizkuntza txikiagoentzat txatbotak egiteko modu berria deskubritu du

Elkarrizketak edukitzeko gai den euskarazko txatbotak egiteko modu berriaren berri eman dute

  • Albisteak

Lehenengo argitaratze data: 2025/06/18

ChatGPT bezalako txatboten erabilera etengabe handitzen ari da, eta lanbide askotan tresna ezinbesteko bihurtzen ari dira. Haien gaitasunak hedatu eta hobetzen dihardute, hala nola, testuak laburtu, edozein gairi buruzko galderak erantzun, ideia jasak egin, programatu, dokumentuak sortu edo dokumentu osoak hizkuntza batetik bestera itzuli. Hizkuntza nagusietan errendimendu parekoa duten bitartean, euskara bezalako hizkuntza txikiagoetara joatean kalitatea ez da hain ona izaten, hizkuntza horietarako dauden testu masak hain ugariak ez direlako. Adibidez, Internet irekian dagoen dokumentu kopuruari dagokionean, ingelesez euskaraz baina 1000 aldiz dokumentu gehiago daude, eta gaztelaniaz euskaraz baina 100 aldiz gehiago. Zientzialarion artean galdera irekia izaten jarraitzen du ea posible den halako testu masa urriarekin ingelesaren pareko emaitza onak lortzea. Eneko Agirre EHUko HiTZ ikerketa zentroaren zuzendariaren uste, “lan berri honekin aurrerapen handia egin da galdera horren baiezko erantzunaren bidean, baina oraindik inkognita izaten jarraitzen du”.

Euskarazko txatbota eraikitzeko pausoak

HiTZ zentroak duela urtebete inguru publikatu zuen euskarazko hizkuntza-eredu irekia egiteko metodoa, eta artikulu hoberenaren saria irabazi zuen arlo honetako kongresu entzutetsuenean. Latxa izeneko hizkuntza-ereduen familia, kodearekin batera, libre utzi zituen, enpresa eta erakunde interesatuak erabili zitzaten beraien garapenetan. Laborategian egindako ebaluazio estandarizatuetan orduko ChatGPTren pareko ezagutza zuela erakutsi zuten euskaraz aritzean, eta euskararen ezagutzari buruzko frogetan hobeto ari zela ere. Latxa garatzen duen lantalde zabalaren kide den Oscar Sainzek dio “euskara bezalako hizkuntza batentzat lehen aldia izan zen halako kalitatea lortzen, azken finean milaka miloi euro dituen erraldoi teknologikoekin lehiatzen aritu ginen eredu irekietan oinarrituta gainera”.

Naiara Pérez ere garatzaileetako bat da, eta kontatzen duenez duela urtebete eraikitako Latxak “gaitasun asko zeuzkan, baina ez zen gai elkarrizketak edukitzeko, ez eta ataza konkretuak egiteko aginduak jarraitzeko. Hau da, galdera bat egitean, nahiz eta erantzuteko adina ezagutza jakin, ez zen konturatzen erantzuna sortu behar zuela. Gauza bera laburpenak egiteko aginduak edo beste edozein agindu emanez gero. Modu berean, testu toxikoak edo desegokiak sortzen zituen, ez baitzuen inongo filtrorik halakoak ez egiteko”.

Metodo berria

Artikulu zientifiko berri honetan HiTZeko kideek elkarrizketak edukitzeko gai den euskarazko txatbotak egiteko modu berriaren berri eman dute. Artikulu zientifikoa errebisiopean dago, eta onarpenaren zain dagoen bitartean eskuragarri utzi dute. Abiapuntua Meta enpresako ikerkuntza zentroak eraikitako hizkuntza-eredu ireki eleaniztuna da, Llama izenekoa. “Eredu libreen artean ahaltsuenetakoa izanda ere euskaraz trakets ari da, eta helburua euskaraz aritzen den txatbota eraikitzea da. Bide ohikoena Llama hartu, euskarazko testu-masekin elikatu, eta ondoren euskarazko erabilera adibideekin eta erabilera toxikoak bereizteko adibideekin elikatzea da. Tamalez, kalitate handiko txatbota eraikitzeko, euskarazko erabilera adibide asko sortu behar dira, eta horrek oso garestia den eskulana eskatzen du. Enpresa handiek bakarrik egin ahal izan dute oraingoz”, dio Eneko Agirrek.

HiTZeko kideek hainbat bide probatu dituzte eskuzko lan hori ekiditeko, eta uste zenaren kontra, bide berritzaile eta efizientea topatu dute eskuzko lanik gabe kalitate handiko txatbota euskarara egokitzeko. Egindako esperimentu eta garapenek erakusten dute nahikoa dela Llama txatbota euskarazko testu-masarekin entrenatzen jarraitzea, baina horretarako gakoa da ahanztura katastrofikoa (catastrophic forgetting ingelesez) deritzan arazoari aurre egiteko teknikak aplikatzen asmatzea.

Zein da aukera hoberena? Ebaluatoia

Baina nola ebaluatu “edozer gauza” egin dezaketen hizkuntza-eredu hauek? Ebaluazioa egiteko HiTZ zentroko kideek gizarteari laguntza eskatu zioten duela hilabete batzuk. Ebaluatoia deitu zen ekimenean, parte-hartzaileek edozein galdera edo eskaera bat bota, bi txatboten erantzuna jaso, eta erantzun gustukoenaren alde bozkatzeko aukera zuten. Bi astetan hamahiru mila hobespen lortu ziren. “Probatu ziren txatboten artean Latxaren aldaera ezberdinak zeuden, eta hobespenei esker frogatu da HiTZek asmatutako metodoa euskarazko txatbotak garatzeko metodo hoberena dela, eta 70B tamaina erraldoiko Latxa 8B tamainakoa baina dezente hobea dela. Latxaren aldaera handiena, hain zuzen ere, eredu itxi hoberenak diren OpenAIren GPT-4o eta Anthropic-en Claude-etik oso gertu dagoela ikusi da”.

Latxa txatbota garatzaileentza eskuragarri

Egindako lanak bide berriak irekitzen ditu. Alde batetik metodoa bera Llama baino txatbot ireki ahaltsuagoetara ere aplikatu daiteke, etorkizunean Latxa ahaltsuagoak eraikitzea ahalbideratzen. Gainera, metodoa euskara ez diren hizkuntzetara aplikatu daiteke, kopuru antzekoa duten testu-masak erabiliaz.

Bestetik, Latxa eredu guztiak eskuragarri daude, garatzaile eta enpresek beraien beharretara egokitu eta erabili ditzaten doan. Eusko Jaurlaritzaren Hizkuntza-Politikarako Sailburuordetzarekin elkarlanean, Euskal Herriko eragileekin partekatu da, nahi dutenerako erabili dezaten. Ehun kidetik  gora erabili dute bi astez, eta Latxaren indargune eta ahulguneez galdetu zaie. Tartean galdera zehatza egin zaie: “Latxa jendarteak erabili dezan prest dago?” Erantzuna baiezkoa izan da, nahiz eta kasu batzuetan hobekuntza batzuk iradoki diren. Egun HiTZ zentroa publiko zabalaren esku uzteko modu hoberena zein den aztertzen ari da Eusko Jaurlaritzarekin batera.

“Lan hau mugarria izanda ere, Latxa hobetu eta hedatzen lan asko dago egiteko. Txatbotak etengabe hobetzen doaz gaitasun berriekin, eta edonon erabiltzen ari dira. Google bera bilatzailea txatbot bihurtzeko bidean ari da. Europa kezkatuta dago gailu hauek munduaren ikuspegi konkretuak islatzen dituztelako, eta horrek hegemonia linguistiko eta kulturala ekarri dezakeelako. Euskararen kasuan, hizkuntzaren erabileran eduki dezakeen inpaktuaz haratago, bertako kultura, ezagutza eta ikuspegiak modu egokian islatzea ere jokoan dago”, azpimarratu du HiTZ zentroko zuzendariak.

Informazio osagarria

Artikulua, Latxa eredu guztiak, erabilitako corpusak eta proba bankuak hemen eskura daitezke: https://github.com/hitz-zentroa/latxa-instruct. Latxa ereduak “Llama License” izenekoa hartzen dute oinordetzan. Eredu horrek ikerketa eta merkataritza jarduera ahalbidetzen ditu.  

HiTZetik eskerrik beroena eman nahi diote Ebaluatoian lagundu duten pertsona guztiei, ikerketa honen ondorioak lortzeko ezinbestekoak izan dira eta. Azpimarratzekoa da ere Latxa entrenatu ahal izateko euskarazko testuak modu librean partekatzen dituzten eragileen ekarpena (Tokikom, Berria, Hitza, Wikipedia, Argia, Bilbao Hiria Irratia, Booktegi besteak beste). “Esku zabaltasun hori ezinbestekoa da euskarazko txatbotak eraikitzeko, eta HiTZen partetik esker berezia eman nahi zaie, baita Egunkariari ere”. 

Latxa Eusko Jaurlaritzak finantzatutako IKER-GAITU proiektuaren esparruan garatu da. Eraldaketa Digitalerako eta Funtzio Publikorako Ministerioak eta Suspertze, Eraldatze eta Erresilientzia Planak, Europar Batasuneko NextGenerationEUk ere finantzatu du, ILENIA proiektuarekin lankidetzan, 2022/TL22/00215335 erreferentzia duena. HiTZek errendimendu handiko konputazio azpiegitura (HPC) propioa erabili du, eta azken ereduak CINECAren Leonardo superordenagailuan entrenatu dira, EuroHPC Joint Undertaking barruan (EHPC-EXT-2024E01-042 proiektua).