Titulo - Tesis defendidas

Tesis defendidas

Contenido de XSL

Tesis defendidas del programa actual

Hizkuntza-ulermenari ekarpenak: N-gramen arteko atentzio eta lerrokatzeak antzekotasun eta inferentzia interpretagarrirako.

LOPEZ GAZPIO, IÑIGO

Dirección:
AGIRRE BENGOA, ENEKO;
MARITXALAR ANGLADA, MONTSERRAT
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2018
Resumen:

Hizkuntzaren Prozesamenduaren bitartez hezkuntzaren alorreko sistemaadimendunak hobetzea posible da, ikasleen eta irakasleen lan-karganabarmenki arinduz. Tesi honetan esaldi-mailako hizkuntza-ulermena aztertueta proposamen berrien bitartez sistema adimendunen hizkuntza-ulermenaareagotzen dugu, sistemei erabiltzailearen esaldiak modu zehatzagoaninterpretatzeko gaitasuna emanez. Esaldiak modu finean interpretatzekogaitasunak feedbacka modu automatikoan sortzeko aukera ematen baitu.Tesi hau garatzeko hizkuntza-ulermenean sakondu dugu antzekotasunsemantikoari eta inferentzia logikoari dagokien ezaugarriak eta sistemakaztertuz. Bereziki, esaldi barneko hitzak multzotan egituratuz eta lerrokatuzesaldiak hobeto modelatu daitezkeela erakutsi dugu. Horretarako, hitz solteaklerrokatzen dituen aurrekarien egoerako neurona-sare sistema batinplementatu eta n-grama arbitrarioak lerrokatzeko moldaketak egin ditugu.Hitzen arteko lerrokatzea aspalditik ezaguna bada ere, tesi honek, lehen aldiz,n-grama arbitrarioak atentzio-mekanismo baten bitartez lerrokatzekoproposamenak plazaratzen ditu.Gainera, esaldien arteko antzekotasunak eta desberdintasunak moduzehatzean identifikatzeko, esaldien interpretagarritasuna areagotzeko etaikasleei feedback zehatza emateko geruza berri bat sortu dugu: iSTS.Antzekotasun semantikoa eta inferentzia logikoa biltzen dituen geruzahorrekin chunkak lerrokatu ditugu, eta ikasleei feedback zehatza emateko gaiizan garela frogatu dugu hezkuntzaren testuinguruko bi ebaluazioeszenariotan.Tesi honekin batera hainbat sistema eta datu-multzo argitaratu diraetorkizunean komunitate zientifikoak ikertzen jarrai dezan.

Ver más...

Sentimenduen analisi automatikorantz: oinarrizko baliabideen sorkuntza eta hizkuntza maila ezberdinetako balentzia-aldatzaileen identifikazioa/Towards the automatic analsis of sentiments in Basque: the creation of basic resources and the identification of valence shifters in different language levels.

ALKORTA AGIRREZABALA, JON

Dirección:
GOJENOLA GALLETEBEITIA, KOLDOBIKA;
IRUSKIETA QUINTIAN, MIKEL
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2019
Resumen:

Tesi-lan honetan, hizkuntzalaritza aplikatuaren ikuspegitik, euskarazko sentimendu analisian lehenurratsak egin dira. Bi helburu nagusi egon dira tesi-proiektuan. Alde batetik, sentimendu analisia egitekooinarrizko baliabideak sortu ditugu euskararentzat. Zehatz esanda, Euskarazko Iritzi Corpusa, Sentitegiizeneko euskarazko sentimendu lexikoia eta dokumentu-mailako sentimendu sailkatzailea garatu ditugu.Corpusak sei domeinuetako 240 iritzi-testu biltzen ditu. RST hurbilpenaz baliatuta, corpusekodiskurtso-informazioa etiketatuta dago. Gainera, iritzi-testuen orientazio semantikoa ere etiketatuta dago.Sentimendu lexikoiari dagokionez, 1.237 hitzez osatuta dago eta bertako sarrerek -5 eta +5 artekosentimendu balentzia dute. Sentimendu lexikoia sortzeko itzulpen metodologia zehatz bat jarraitu dugu.Azkenik, dokumentu mailako sentimendu sailkatzailea ere garatu dugu. Tresnaren oinarrian aurretikaipatu dugu sentimendu lexikoia dago eta, horretaz gain, baditu beste zenbait erregela ere.Beste aldetik, sentimendu analisiaren lanketa teoriko bat ere egin dugu. Sentimendu sailkapena lexikoianoinarrituz egin nahi bada, hitzen sentimendu balentzia jakitearekin ez da nahikoa, izan ere, testuetanbadaude zenbait fenomeno hitz horien sentimendu balentzia eragiten dutenak. Horiei testuinguruzkobalentzia aldatzaileak deitzen zaie eta horiek euskaran nola agertzen diren landu dugu. Gramatika mailabakoitzeko balentzia aldatzaile mota bat landu dugu: fonologian, bustidura adierazkorra; morfologian,morfemak; sintaxian, ezeztapen-markak eta, azkenik, diskurtsoan, diskurtso erlazioak eta unitate zentrala.Emaitzek erakusten dutenez, balentzia aldatzaileek hitzen edo sintagmen sentimendu balentzia indartuedo ahuldu egiten dute. Ahultze horren intentsitatearen arabera, sentimendu balentziaren zeinuan aldaketagerta liteke, positiboa dena negatibo bilakatuz edo alderantziz. Azkenik, kasu batzuetan, balentziaaldatzaileak ez du eraginik sortzen.

Ver más...

Application of singing synthesis techniquest to bertsolaritza

SARASOLA ARAMENDIA, XABIER

Dirección:
NAVAS CORDON, EVA
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2020
Resumen:

This thesis focuses on the development of a new bertsolaritza singing voice synthesis system using as base original bertsolaritza live session recordings. The challenge of this work is not only the implementation of a singing voice synthesis system. The recorded corpus of bertsolaritza contains the transcriptions of improvised verses, but the audio files contain multiple elements that are not singing voice. As the majority of the recorded audios are live sessions, the voice of a speaker, applause of the public and noise are part of the database. In addition, the musical labeling of the singing voice is not included in the database. With a database of these properties, the aim of this work is to create methods to clean, segment and label the audios in the bertsolaritza and analyze the possibility of using them to create synthesis models for bertsolaritza singing voice synthesis.We have developed methods to automatically obtain the singing voice segments in the recordings, creating new speech and singing voice classification algorithms. The segmentation of bertso utterances and phonemes has been performed in a multi-singer database. The segmentation algorithms proposed have the capacity to align material from unseen bertsolaris in the future. After that, we analyzed the musical properties of the bertsolaritza art and compared the theoretical melodies in the database with the actual interpretation of them. We defined automatic systems to musically label the bertsolaritza singingvoice generating a fully labeled bertsolaritza database. Musical labeling included vibrato and we analyzedthe use of it in each bertsolari. We evaluated all automatic labeling systems in the process.After creating a labeled database of bertso recordings we generated singing voice synthesis systems usingHMMs and DNNs. We included fo normalization, tempo adaptation and vibrato prediction techniques inthese systems. We defined methods to automatically adapt music scores for each bertsolari consideringthe pitch range of each bertsolari. We evaluated synthesis models created for different bertsolaris in asubjective and objective way obtaining good results.The contributions of this thesis are related to bertsolaritza and singing voice synthesis. We added newinformation levels to the bertsolaritza corpus with the segmentation of singing voice, the alignment ofutterances and phonemes and the subsequent musical labeling. These labeling methods need no manualsupervision and therefore we created tools to increase the labeled database in the future. We created amulti-singer singing voice database that is considerably bigger than any state of the art singing voicedatabases. Finally we defined systems to synthesize bertsolaritza singing voice using different singers andtechnologies obtaining positive results.

Ver más...

Hitzen arteko antzekotasuna:ezagutza-baseetan oinarritutako tekniken ekarpenak

GOIKOETXEA SALUTREGI, JOSU

Dirección:
AGIRRE BENGOA, ENEKO;
SOROA ECHAVE, AITOR
Menciones:
Cum Laude
Calificación:
Sobresaliente Cum Laude
Año:
2018
Resumen:

Eredu konputazionalekin sortutako hitzen errepresentazio semantikoak gakoa dira hizkuntzarenprozesamenduko hainbat atazatan, eta errepresentazio horien kalitatea ebaluatzeko hitzen artekoantzekotasuna erabiltzen da. Antzekotasun-ataza hizkuntzaren prozesamenduaren alorrean kokatzen da,lexiko-semantikan, eta, hurrengo urratsak ditu: lehenik, hitzen arteko antzekotasuna hitzenerrepresentazioen bidez kalkulatzen da; ondoren, antzekotasun hori gizakien antzekotasun-irizpideekinkonparatzen da. Eredu konputazionalaren emaitzak zenbat eta gizakion irizpideetatik hurbilago egon, orduaneta kalitate hobea izango dute hitzen errepresentazioek. Lan honetan antzekotasunaren kasuorokorragoarekin ere lan egin dugu, ahaidetasunarekin.Hitzen errepresentazioan testu-corpusetan oinarritutako metodoak eta ezagutza-baseetan oinarritutakoakdaude. Aurreneko familian hainbat eredu daude, baina, lan honetan neurona-sareetan oinarritutakoak erabiliditugu. Metodo horiek hitzen esanahiak testuetako hitz-testuinguru agerkidetzen bidez inferitzen dituzte etabektore-espazio trinko batean kodetzen. Bigarren familiakoen artean, ezagutza-baseak grafoak balira bezalatratatzen dituztenez baliatu gara, azken horien informazio estrukturala bere osotasuenan ustiatuz. Aldebatetik, testu corpusetatik erauzitako errepresentazio trinkoek arrakasta handia izan dute hainbat atazatan,baina, antzekotasun- eta ahaidetasun-erlazioak nahastuta daude hitzen errepresentazioetan. Bestetik,ezagutza-baseetako errepresentazioak kalkulatzea konputazionalki garestia da, baina, ezagutza-baseetanantzekotasun- eta ahaidetasun-erlazioak esplizituak dira.Tesi-lan honen xedea antzekotasun-atazako emaitzak hobetzea da, eta, azken hori hitzen errepresentaziosemantiko hobeak erdiesteko teknikez burutuko dugu. Gure hipotesi nagusia testu-corpusetako etaezagutza-baseetako informazioa desberdina eta osagarria dela da. Gure aburuz, bi iturri horiek konbinatuzgero hitzen errepresentazioen arteko antzekotasun-emaitzak hobetuko dira, eta, ondorioz, errepresentaziohobeak izango ditugu. Hipotesi hori, gainera, elearteko erlazioetara hedatu dugu. elearteko antzekotasunaeta ahaidetasuna ere esploratuz. Izan ere, bi baliabide horiek antzekotasunaren edota ahaidetasunarennabardura desberdinak jasotzen dituzte, eta, konbinatuz gero, antzekotasuna eta ahaidetasuna hobetomodelatuko dute.Tesi-lan honen bitartez aurreko paragrafoko hipotesiak frogatu ditugu, eta egindako ekarpenak hurrengohirurak dira: (1) ausazko ibilbideen metodo batekin ezagutza-baseetako informazio estrukturala corpusbatean kodetzea, eta azken horren hitzen errepresentazio semantikoak kalkulatzea; (2) testuko etaezagutza-baseetako informazio semantikoa konbinatzeko hainbat metodo eta errepresentazio hibridoproposatzea; (3) aurretik proposatutako guztiak elearteko erlazioetan aplikatzea.Aipatuako metodo eta konbinaketa oro antzekotasun-atazan ebaluatu ditugu, beren emaitzak artearenegoerako metodo baliokideekin konparatuz. Gure proposamenek antzekotasun-atazako artearen egoeraberdindu edo gainditu dute, eta gure hipotesiak betetzen direla ondorioztatu dugu.

Ver más...

Medidas de distancia entre lenguas basadas en corpus/Medidas de distância entre línguas baseadas em corpus.

PICHEL CAMPOS, JOSE RAMON

Dirección:
ALEGRIA LOINAZ, IÑAKI;
GAMALLO OTERO, PABLO
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2020
Resumen:

El objetivo de esta tesis es plantear y verificar una metodología basada en corpus paracuantificar automáticamente la distancia entre lenguas y variantes de lenguas. Para ello se hapartido de las técnicas usadas y contrastadas en identificación de idiomas, buscando aquellasque son más robustas y pueden cuantificar cuánto se acerca un texto a un modelo de lenguaje.También como objetivo secundario hemos investigado el papel que juega la ortografía comofactor de divergencia y convergencia entre lenguas.El método elegido es no-supervisado y puede aplicarse al cálculo de la distancia entre idiomas,entre períodos históricos de lenguas o entre variantes de lenguas.

Ver más...

Adverse drug reaction extraction on electronic health records written in Spanish

SANTISO GONZALEZ, SARA

Dirección:
CASILLAS RUBIO, ARANTZA;
PEREZ RAMIREZ, ALICIA
Menciones:
Cum Laude
Calificación:
Sobresaliente Cum Laude
Año:
2019
Resumen:

This work focuses on the automatic extraction of Adverse Drug Reactions (ADRs) in Electronic HealthRecords (EHRs). That is, extracting a response to a medicine which is noxious and unintended and whichoccurs at doses normally used. From Natural Language Processing (NLP) perspective, this wasapproached as a relation extraction task in which the drug is the causative agent of a disease, sign orsymptom, that is, the adverse reaction.ADR extraction from EHRs involves major challenges. First, ADRs are rare events. That is, relationsbetween drugs and diseases found in an EHR are seldom ADRs (are often unrelated or, instead, related astreatment). This implies the inference from samples with skewed class distribution. Second, EHRs arewritten by experts often under time pressure, employing both rich medical jargon together with colloquialexpressions (not always grammatical) and it is not infrequent to find misspells and both standard andnon-standard abbreviations. All this leads to a high lexical variability.We explored several ADR detection algorithms and representations to characterize the ADR candidates.In addition, we have assessed the tolerance of the ADR detection model to external noise such as theincorrect detection of implied medical entities implied in the ADR extraction, i.e. drugs and diseases. Westtled the first steps on ADR extraction in Spanish using a corpus of real EHRs.

Ver más...

Speech recognition based strategies for on-line Computer Assisted Language Learning (CALL) systems in Basque/Hizketa-ezagutzan oinarritutako estrategiak, euskarazko online OBHI (Ordenagailu Bidezko Hizkuntza Ikaskuntza) sistemetarako.

ODRIOZOLA SUSTAETA, IGOR

Dirección:
HERNAEZ RIOJA, INMACULADA CONCEPCION;
NAVAS CORDON, EVA
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2019
Resumen:

Tesi honetan, euskarazko hizketa-ezagutze automatikoaren bi inplementazio aztertzen dira, Ordenagailu Bidezko Hizkuntza Ikaskuntza (OBHI) sistemetarako: Ordenagailu Bidezko Ebakera Lanketa (OBEL) eta Ahozko Gramatika Praktika (AGP). OBEL sistema klasikoan, erabiltzaileari esaldi bat irakurrarazten zaio, eta fonema bakoitzerako puntuazio bat jasotzen du bueltan. AGPn, Hitzez Hitzeko Esaldi Egiaztapena (HHEE) teknika proposatu dugu, ariketak ebatzi ahala egiaztatzen dituen sistema. Bi sistemon oinarrian, esakuntza egiaztatzeko teknikak daude, Goodness of Pronunciation (GOP) puntuazioa, adibididez.Sistema horiek inplementatzeko, eredu akustikoak entrenatu behar dira, eta, horretarako, Basque Speecon-like datu-basea erabili dugu, euskararako publikoki erabilgarri dagoen datu-base bakarra. Eredu akustiko onak lortzearren, datu-basean egokitzapenak egin behar izan dira hiztegi alternatibadun bat sortuz, eta fasekako entrenamendua ere probatu da. % 12.21eko PER (fonemen errore-tasa) lortu da hala.Lehendabiziko sistema laborategiko baldintzetan testatu da, eta emaitza lehiakorrak lortu dira.Hala ere, tesi honetako OBEL eta AGP sistemen helburua da bezero/zerbitzari motako arkitektura batean ezartzea, ikasleek edonondik atzi dezaten. Hori ahalbidetzeko, HTML5eko zehaztapenak erabili dira audioa zerbitzarira grabatu ahala bidaltzeko, eta, gainera, onlineko batezbesteko- eta bariantza-normalizazio cepstraleko (CMVN, Cepstral Mean and Variance Normalisation) teknika berri bat proposatu da erabiltzaileek grabatutako audio-seinaleen kanal desberdintasunen eragina txikiagotzeko. Teknika hori tesi honetan aurkeztutako metodo batean oinarriturik dago: normalizazio anitzeko puntuatzea (MNS, Multi Normalization Scoring), eta onlineko ahots-aktibitatearen detektagailu (VAD, Voice Activity Detector) berri bat ere proposatu da metodo horretan oinarriturik. Azkenik, parametro desberdinak ebaluatu dira neurona-sareak erabiliz, eta ondorioztatu da GOP puntuazioa dela eraginkorrena.

Ver más...

Predicate Matrix: an interoperable lexical knowledge base for predicates

LOPEZ DE LACALLE LEKUONA, MADDALEN

Dirección:
LAPARRA MARTIN, EGOITZ;
RIGAU CLARAMUNT, GERMAN
Menciones:
Cum Laude
Calificación:
Sobresaliente Cum Laude
Año:
2023
Resumen:

La Matriz de Predicados (Predicate Matrix en inglés) es un nuevo recurso léxico-semántico resultado de la integración de múltiples fuentes de conocimiento, entre las cuales se encuentran FrameNet, VerbNet, PropBank y WordNet. La Matriz de Predicados proporciona un léxico extenso y robusto que permite mejorar la interoperabilidad entre los recursos semánticos mencionados anteriormente. La creación de la Matriz de Predicados se basa en la integración de Semlink y nuevos mappings obtenidos utilizando métodos automáticos que enlazan el conocimiento semántico a nivel léxico y de roles. Asimismo, hemos ampliado la Predicate Matrix para cubrir los predicados nominales (inglés, español) y predicados en otros idiomas (castellano, catalán y vasco). Como resultado, la Matriz de predicados proporciona un léxico multilingüe que permite el análisis semántico interoperable en múltiples idiomas.

Ver más...

Multilingual sentiment analysis in social media.

SAN VICENTE RONCAL, IÑAKI

Dirección:
AGERRI GASCON, RODRIGO;
RIGAU CLARAMUNT, GERMAN
Menciones:
Cum Laude
Calificación:
Sobresaliente Cum Laude
Año:
2019
Resumen:

This thesis addresses the task of analysing sentiment in messages coming from social media. The ultimate goal was to develop a Sentiment Analysis system for Basque. However, because of the socio-linguistic reality of the Basque language a tool providing only analysis for Basque would not be enough for a real world application. Thus, we set out to develop a multilingual system, including Basque, English, French and Spanish.The thesis addresses the following challenges to build such a system:- Analysing methods for creating Sentiment lexicons, suitable for less resourced languages.- Analysis of social media (specifically Twitter): Tweets pose several challenges in order to understand and extract opinions from such messages. Language identification and microtext normalization are addressed.- Research the state of the art in polarity classification, and develop a supervised classifier that is tested against well known social media benchmarks.- Develop a social media monitor capable of analysing sentiment with respect to specific events, products or organizations.

Ver más...

Aldaera linguistikoen normalizazioa inferentzia fonologikoa eta morfologikoa erabiliz

ETXEBERRIA UZTARROZ, MARIA IZASKUN

Dirección:
ALEGRIA LOINAZ, IÑAKI;
MARITXALAR ANGLADA, MONTSERRAT
Menciones:
Cum Laude
Calificación:
Sobresaliente Cum Laude
Año:
2016
Resumen:

Tesi-lan hau hizkuntzaren azterketa eta prozesamenduaren arlokoa da eta testu ez-estandarren ikertze-lerroan garatu da, euskarazko testu ez-estandarren normalizazioa izanik lanaren gai nagusiTestu estandarrekin alderatuta, testu ez-estandarrek ezaugarri bereziak dituzte maila lexikoan, morfologikoan edota fonologikoan, eta haien prozesaketa erronka berri bat da. Testu horiek, oro har, ezin dira ohiko moduan prozesatu hizkuntza prozesatzeko tresna gehienak (NLP, Natural Language Processing tresnak) hizkuntza estandarretan idatzitako testuak prozesatzeko garatu direlako, eta testu ez-estandarrekin erabiltzen direnean asko jaisten da haien errendimendua. Halako testuak prozesatzeko interesa, ordea, asko zabaldu da azken urteetan: liburutegi digitalak, humanitate digitalak, soziolinguistika konputazionala, iritzien analisia eta abar. Testu ez-estandarrak normalizatuz gero, aukera dago NLP tresnak aplikatzeko testu horietan eta horretarako funtsezkoa da prozesu hori ahalik eta modurik eraginkorrenean betetzea. Tesi-lan honetan ikasketa automatikoan oinarritzen diren metodoak proposatzen dira euskarazko testu ez-estandarretan normalizazioaren ataza ebazteko. Horrekin batera, metodoek lortzen dituzten emaitzak konparatzen dira beste ikerketa batzuek lortzen dituztenekin, horrela metodoen egokitasuna aztertzeko. Konparazio hori egiteko gaztelaniazko zein eslovenierazko corpusak erabili dira, beste zenbait ikerlariren lankidetza baliatuz.

Ver más...

Euskal telebistaren sorrera, garapena eta funtzioa euskararen normalizazioaren testuinguruan

LARRINAGA LARRAZABAL, ASIER

Dirección:
ELORDUY URQUIZA, MIREN AGURTZANE;
ZABALA UNZALU, MIREN IGONE
Menciones:
Cum Laude
Calificación:
Sobresaliente Cum Laude
Año:
2019
Resumen:

Tesian, Euskal Telebistaren 1982tik 2018ra arteko historiaren azterketa egin dugu, euskararen normalizazioaren ikuspegitik begiratuta. Euskal Telebista 1982an eratu zen, euskal gizarteak irrikatzen zuen burujabetza neurri batean erdiesteko aukera gertatu zen testuinguru batean. Proiektua Eusko Jaurlaritzak eraman zuen aurrera, Gernikako Estatutuan jasota zeuden eskumenez baliatuta. Hedabide berriak hiru eginkizun bete behar zituen komunitatearen zerbitzuan: herritarrei informaziorako eta parte-hartze politikorako baliabide bat eskaintzea; hezkuntza-sistema osatzea, eta euskara eta euskal kultura sustatzea eta zabaltzea. Euskara sustatzeko eta zabaltzeko betekizun horretan, bi faktore izan dira baldintzatzaile nagusiak. Lehena, euskararen estandarizazioa. ETBk euskara batua hartu zuen bere hizkuntza-eredutzat lehen unetik, baina euskararen estandarizazioa hasierako urratsetan zegoen eta, gainera, literaturarako planteatua zen. Ondorioz, ETBk hainbat erronkari egin behar izan zien aurre, besteak beste, euskara telebistako komunikaziorako lantzea, euskara batua ahozko erabilerara egokitzea, eta komunikatzaileak euskara batu berri horretan aritzeko prestatzea. Bigarren faktorea teknologia digitalaren agerpena izan da, XXI. mendearen atarian mundu globalizatua ekarri diguna. Mundu horretan, hizkuntza gutxituko hedabideei erronka zailak planteatu zaizkie, hala nola, plataforma, kanal eta eragile berrien lehia; hiztunen eta komunikatzaileen hizkuntzajarrera berriak, eta hedabideak kontsumitzeko modu berriak. Erronka horien guztien aurrean ETBk zelan ¿okatu eta zelan erantzun duen aztertzea izan da tesi honen ardatza.

Ver más...

Aditza+izena unitate fraseologikoak gaztelaniatik euskarara: azterketa eta tratamendu konputazionala.

IÑURRIETA URMENETA, USOA

Dirección:
ADURIZ AGIRRE, ITZIAR;
LABAKA INTXAUSPE, GORKA
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2019
Resumen:

Unitate Fraseologikoak (UFak) hizkuntzek bere-bereak dituzten hitz-konbinazio idiomatikoak dira. Hizkuntzaren Prozesamenduko (HPko) tresnek kalitatezko emaitzak izan ditzaten, beharrezkoa da halakoak ondo tratatzea, baina lan horrek hainbat zailtasun ditu; besteak beste, hitzez hitzeko itzulgarritasun eza. Tesi-lan honetan, aditza+izena motako UFen azterketa linguistiko bat egin dugu, halakoek HPren alorrean sortzen dituzten bi arazo garrantzitsuri aurre egiten laguntzeko: batetik, corpusetan UFak automatikoki identifikatzeari, eta bestetik, UF horiek gaztelaniaren eta euskararen artean automatikoki itzultzeari. Azterketa linguistikotik ateratako informazioa bi atazetarako baliatu dugu, eta oso emaitza onak lortu ditugu bietan.Horrez gain, hizkuntza-baliabideen sorkuntzan ere, bi ekarpen egin ditugu tesi-lan honen baitan. Lehena, landutako UFak, ordainak eta haien inguruko informazio linguistikoa biltzen dituen datu-base bat sortzea eta sarean eskuragarri jartzea: Konbitzul. Eta bigarrena, euskarazko aditz-UFak corpus batean etiketatzea, PARSEME proiektu europarrak sorturiko irizpideei jarraituz; corpus hori ere publiko egin da, irizpide berberei jarraituz landutako beste 19 hizkuntzatako corpusekin batera.

Ver más...

Euskarazko denbora-egituren azterketa eta corpusaren sorrera/Analysis of Basque temporal constructions and creation of a corpus.

ALTUNA DIAZ, BEGOÑA

Dirección:
ARANZABE URRUZOLA, MARIA JESUS;
DIAZ DE ILARRAZA SANCHEZ, MARIA ARANZAZU
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2018
Resumen:

Ikerketa-lan honetan euskarazko denbora-informazioaren prozesamenduan le\-hen urratsak egin ditugu. Horretarako, beste hizkuntzetan egin diren lanetan eta euskarazko denbora-egituren analisi linguistikoan oinarritu gara. Informazio hori baliatuta, euskarazko denbora-egiturak automatikoki tratatzeko ezaugarri linguistiko esanguratsuenak identifikatu ditugu eta horiek kodetzeko EusTimeML markaketa-lengoaia sortu dugu. Era berean, EusTimeMLri jarraituta denbora-informazioa eskuz etiketatuta duen EusTimeBank corpusa sortu dugu.Corpus hori, euskarazko fenomenoak aztertzeko erabiltzeaz gain, tresna automatikoen garapenerako eta ebaluaziorako erabili dugu. Hain zuzen ere, tesi-lan honetan denbora-adierazpenak identifikatzeko eta normalizatzeko EusHeidelTime tresna garatu dugu eta denbora-lerroak automatikoki eratzeko KroniXa sistema sortu dugu. Tresna horiek euskararen prozesamendu-kateetan integratzeko eta beste tresna batzuekin uztartzeko urratsak egin ditugu, euskararen ulermen eta tratamendu automatikoan denbora-informazioa ere baliatu ahal izateko.

Ver más...

Datuen Ustiapena Itzulpen Automatikorako

AZPEITIA ZALDUA, ANDONI

Dirección:
AGIRRE BENGOA, ENEKO;
ETCHEGOYEN , THIERRY;
POZO ECHEZARRETA,MARIA ARANZAZU, DEL
Menciones:
Cum Laude
Calificación:
Sobresaliente Cum Laude
Año:
2022
Resumen:

Datuetan oinarritutako itzulpen automatikoa, azken urteotan gailendutako paradigma da. Sistema hauek datuen bidez elikatzen dira entrenamendu prozesu batean. Abantaila nagusia itzulpen berriak egin ahal izateko jakintza automatikoki erauzten dutela da, baina era berean, jakintza orokortzeko ahalmena entrenamendurako corpuseko adibideengatik mugatuta dago.Tesi honen helburu nagusia corpusen kalitatea hobetzea da hiru alderdi landuz: corpus tamaina handituz, corpusen datuak domeinura egokituz eta datu multzo zaratatsuak iragaziz. Horretarako, lau ikerlerrotan egindako ikerketak aurkezten dira. Lehendabizi, dokumentuen lerrokatzean, bi hizkuntza ezberdinetako dokumentuak lerrotzen dira. Bigarren pausu batean, esaldien lerrokatzean, aurreko pausuko dokumentu pareetako esaldi paraleloak identi katzen dira. Corpusa domeinura egokitzeko, datuen aukeraketaren bidez domeinuz kanpoko corpus handiagoetan domeinuko datu gehiago bilatzen dira. Azkenik, esaldi paraleloen iragazpenarekin entrenamendurako kaltegarriak diren itzulpenak baztertzen dira.

Ver más...

Itzulpen automatiko gainbegiratu gabea

ARTETXE ZURUTUZA, MIKEL

Dirección:
AGIRRE BENGOA, ENEKO;
LABAKA INTXAUSPE, GORKA
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2020
Resumen:

Modern machine translation relies on strong supervision in the form of parallel corpora. Such arequirement greatly departs from the way in which humans acquire language, and poses a major practicalproblem for low-resource language pairs. In this thesis, we develop a new paradigm that removes thedependency on parallel data altogether, relying on nothing but monolingual corpora to train unsupervisedmachine translation systems. For that purpose, our approach first aligns separately trained wordrepresentations in different languages based on their structural similarity, and uses them to initializeeither a neural or a statistical machine translation system, which is further trained through iterative backtranslation.While previous attempts at learning machine translation systems from monolingual corporahad strong limitations, our work¿along with other contemporaneous developments¿is the first to reportpositive results in standard, large-scale settings, establishing the foundations of unsupervised machinetranslation and opening exciting opportunities for future research.

Ver más...

Oesophageal speech:enrichment and evaluatons

RAMAN , SNEHA

Dirección:
HERNAEZ RIOJA, INMACULADA CONCEPCION;
NAVAS CORDON, EVA
Menciones:
Tésis Internacional
Calificación:
Sobresaliente
Año:
2021
Resumen:

After a laryngectomy (i.e. removal of the larynx) a patient can no more speak in a healthy laryngeal voice. Therefore, they need to adopt alternative methods of speaking such as oesophageal speech. In this method, speech is produced using swallowed air and the vibrations of the pharyngo-oesophageal segment, which introduces several undesired artefacts and an abnormal fundamental frequency. This makes oesophageal speech processing difficult compared to healthy speech, both auditory processing and signal processing. The aim of this thesis is to find solutions to make oesophageal speech signals easier to process, and to evaluate these solutions by exploring a wide range of evaluation metrics.First, some preliminary studies were performed to compare oesophageal speech and healthy speech. This revealed significantly lower intelligibility and higher listening effort for oesophageal speech compared to healthy speech. Intelligibility scores were comparable for familiar and non-familiar listeners of oesophageal speech. However, listeners familiar with oesophageal speech reported less effort compared to non-familiar listeners. In another experiment, oesophageal speech was reported to have more listening effort compared to healthy speech even though its intelligibility was comparable to healthy speech. On investigating neural correlates of listening effort (i.e. alpha power) using electroencephalography, a higher alpha power was observed for oesophageal speech compared to healthy speech, indicating higher listening effort. Additionally, participants with poorer cognitive abilities (i.e. working memory capacity) showed higher alpha power.Next, using several algorithms (preexisting as well as novel approaches), oesophageal speech was transformed with the aim of making it more intelligible and less effortful. The novel approach consisted of a deep neural network based voice conversion system where the source was oesophageal speech and the target was synthetic speech matched in duration with the source oesophageal speech. This helped in eliminating the source-target alignment process which is particularly prone to errors for disordered speech such as oesophageal speech. Both speaker dependent and speaker independent versions of this system were implemented. The outputs of the speaker dependent system had better short term objective intelligibility scores, automatic speech recognition performance and listener preference scores compared to unprocessed oesophageal speech. The speaker independent system had improvement in short term objective intelligibility scores but not in automatic speech recognition performance. Some other signal transformations were also performed to enhance oesophageal speech. These included removal of undesired artefacts and methods to improve fundamental frequency. Out of these methods, only removal of undesired silences had success to some degree (1.44 \% points improvement in automatic speech recognition performance), and that too only for low intelligibility oesophageal speech.Lastly, the output of these transformations were evaluated and compared with previous systems using an ensemble of evaluation metrics such as short term objective intelligibility, automatic speech recognition, subjective listening tests and neural measures obtained using electroencephalography. Results reveal that the proposed neural network based system outperformed previous systems in improving the objective intelligibility and automatic speech recognition performance of oesophageal speech. In the case of subjective evaluations, the results were mixed - some positive improvement in preference scores and no improvement in speech intelligibility and listening effort scores. Overall, the results demonstrate several possibilities and new paths to enrich oesophageal speech using modern machine learning algorithms. The outcomes would be beneficial to the disordered speech community.

Ver más...

Contributions to Information Extraction for Spanish Written Biomedical Text

PEREZ MIGUEL, NAIARA

Dirección:
CUADROS OLLER,MONTSERRAT;
RIGAU CLARAMUNT, GERMAN
Menciones:
Cum Laude
Calificación:
Sobresaliente Cum Laude
Año:
2023
Resumen:

Healthcare practice and clinical research produce vast amounts of digitised, unstructured data in multiple languages that are currently underexploited, despite their potential applications in improving healthcare experiences, supporting trainee education, or enabling biomedical research, for example. To automatically transform those contents into relevant, structured information, advanced Natural Language Processing (NLP) mechanisms are required. In NLP, this task is known as Information Extraction. Our work takes place within this growing field of clinical NLP for the Spanish language, as we tackle three distinct problems. First, we compare several supervised machine learning approaches to the problem of sensitive data detection and classification. Specifically, we study the different approaches and their transferability in two corpora, one synthetic and the other authentic. Second, we present and evaluate UMLSmapper, a knowledge-intensive system for biomedical term identification based on the UMLS Metathesaurus. This system recognises and codifies terms without relying on annotated data nor external Named Entity Recognition tools. Although technically naive, it performs on par with more evolved systems, and does not exhibit a considerable deviation from other approaches that rely on oracle terms. Finally, we present and exploit a new corpus of real health records manually annotated with negation and uncertainty information: NUBes. This corpus is the basis for two sets of experiments, one on cue andscope detection, and the other on assertion classification. Throughout the thesis, we apply and compare techniques of varying levels of sophistication and novelty, which reflects the rapid advancement of the field.

Ver más...

Txosten klinikoak euskararen eta gazteleraren artean itzultzen laguntzeko corpusaren bilketa eta itzultzaile automatikoaren garapena / Corpus compilation and development of a machine translation system for translating clinical reports between Basque and Spanish

SOTO GARCIA, XABIER

Dirección:
LABAKA INTXAUSPE, GORKA;
ORONOZ ANCHORDOQUI, MAITE
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2021
Resumen:

Tesi h o netan txosten klinikoak euskararen eta gazteleraren artean itzultzen laguntzekogaratutako itzultzaile automatikoak deskribatzen dira. Txosten klinikoak euskaraz idatzdaitezen sustatzeko helburuarekin, euskaratik gaztelerara itzultzeko sistemaren garapenalehenetsi da.Gure hurbilpena datuetan oinarritutakoa izan da, horretarako txosten klinikoak euskararen etagazteleraren artean itzultzeko lagungarriak izan zitezkeen corpusak bilduz. Domeinuklinikoan terminologia aberatsa izanik, hauek ere kontuan hartu dira corpusak biltzerakoan .Tesian zehar sistema desberdinak garatu dira, horietako gehienak Itzultzaile AutomatikoNeuronalak izanik. Bestalde, Itzultzaile Automatiko Estatistikoak eta ErregeletanOinarritutako Itzultzaile Automatikoak atzeranzko itzulpena egiteko ere erabili dira.Garatutako sistemen kalitatea neurtzeaz gain, atzeranzko itzulpen bidez sortutako corpusenaniztasun lexikala ere neurtu da, eta sistema batzuk garatzeko datuen hautespena ere aplikatuda.Diseinatutako aurrerapenak nazioarteko testuinguruan kokatzeko, proposaturiko metodoakaleman etik ingelesera, eta ingelesaren eta gazteleraren artean itzultzeko ere probatu dira .

Ver más...

Laburpen-gaitasunaren garapena eta eskolako laburpen-testuen prozesamendua

ATUTXA BARRENETXEA, UNAI

Dirección:
DIAZ DE ILARRAZA SANCHEZ, MARIA ARANZAZU;
IRUSKIETA QUINTIAN, MIKEL
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2022
Resumen:

Tesi honetan laburpen-gaitasunaren garapenari heldu diogu, eskolako laburpen-testuen prozesamenduaren bidez. Bi helburu nagusi izan ditugu: i) laburpen-gaitasunaren egoeraren azterketa egitea; eta, horretarako, laburpenaren oinarri teorikoak finkatu ditugu eta laburpen-testuen deskribapena egin dugu. ii) Hezkuntza- eta hizkuntza-teknologiak erabiliz laburpena eskolan lantzeko eta ebaluatzeko proposamena egitea. Helburuak erdiesteko, Hizkuntzaren Prozesamenduko teknikak (bereziki diskurtsoan oinarrituz) erabili ditugu, teknika horiei ikuspegi didaktikotik helduz. Euskarazko laburpen-corpusa biltzeko sortu dugun Compress-eus tresnarekin, LabEus corpusa bildu dugu, LHko eta unibertsitateko ikasleen 1758 laburpenez osatua. Ikasleek estrakzio- eta abstrakzio-laburpenak egingo dituzte. LabEus corpusetik, 80 laburpenekin EskoLab corpusa sortu dugu, eta, laburpenak sortzeko prozesuan gertatzen dena ulertzeko, ikerketa-galderak zehaztu eta etiketatze-lana egin dugu. Ondoren, laburpenen ebaluaziorako baliabideak eta prozedurak diseinatu eta sortu ditugu. i) Metalaburpenak eratzeko algoritmoa, ii) laburpenak egiteko eta ebaluatzeko irizpideak eta errubrika, iii) laburpenaren hierarkiaren atzeraelikadura automatikoaren bi bertsio, HIMAM eta GOM metodoetan oinarrituak. Bukatzeko, sortutako baliabideekin, laburpena lantzeko hiru tailer burutu ditugu euskaraz eta ingelesez. Bi laburpen bat egiteko behar diren irizpideak barneratuz laburpen-gaitasuna garatzeko. Hirugarrenarena, bestalde, diskurtsoan oinarrituz, laburpena lantzeko teknika ezberdinak ezagutu eta horien inguruan hausnartzeko.

Ver más...

Leveraging Feedback in Conversational Question Answering Systems

CAMPOS TEJEDOR, JON ANDER

Dirección:
AGIRRE BENGOA, ENEKO;
AZCUNE GALPARSORO, GORKA;
OTEGI USANDIZAGA, ARANTZA
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2023
Resumen:

Tesi honen helburua martxan jarri eta geroko sistemek gizakiekin duten elkarregina erabiltzeada, gizakien feedbacka sistementzako ikasketa eta egokitzapen seinale bezala erabiliz.Elkarrizketa sistemek martxan jartzerakoan jasaten duten domeinu aldaketan jartzen dugufokua. Helburu honetarako, feedback bitar esplizituaren kasua aztertzen dugu, hau baitagizakientzat feedbacka emateko seinale errazena.Sistemak martxan jarri eta gero hobetzeko, lehenik eta behin DoQA izeneko galdera-erantzunmotako elkarriketez osatutako datu multzo bat eraiki dugu. Datu multzo honekcrowdsourcing bidez jasotako 2.437 dialogo ditu. Aurreko lanekin konparatuz gero, DoQAkbenetazko informazio beharrak islatzen ditu, datu multzo barneko elkarrizketak naturalagoaketa koherenteagoak izanik. Datu multzo sortu eta gero, feedback-weighted learning (FWL)izeneko algoritmo bat diseinatu dugu, feedback bitarra bakarrik erabiliz aurretikentrenatutako sistema gainbegiratu bat hobetzeko gai dena. Azkenik, algoritmo honen mugakaztertzen ditugu jasotako feedbacka zaratatsua den kasuetarako eta FWL moldatzen dugueszenatoki zaratsuari aurre egiteko. Kasu honetan lortzen ditugun emaitza negatiboakerakusten dute erabiltzaileetatik jasotako feedback zaratsua modelatzearen erronka, hauebaztea oraindik ikerkuntza galdera ireki bat delarik.

Ver más...

Generic semantics-based task-oriented dialogue system framework for human-machine interaction in industrial scenarios

ACETA MORENO CRISTINA

Dirección:
FERNANDEZ GONZALEZ, IZASKUN;
SOROA ECHAVE, AITOR
Menciones:
Cum Laude
Tésis Industrial
Calificación:
Sobresaliente Cum Laude
Año:
2022
Resumen:

En Industria 5.0, los trabajadores y su bienestar son cruciales en el proceso de producción. En estecontexto, los sistemas de diálogo orientados a tareas permiten que los operarios deleguen las tareas mássencillas a los sistemas industriales mientras trabajan en otras más complejas. Además, la posibilidad deinteractuar de forma natural con estos sistemas reduce la carga cognitiva para usarlos y genera aceptaciónpor parte de los usuarios. Sin embargo, la mayoría de las soluciones existentes no permiten unacomunicación natural, y las técnicas actuales para obtener dichos sistemas necesitan grandes cantidadesde datos para ser entrenados, que son escasos en este tipo de escenarios. Esto provoca que los sistemas dediálogo orientados a tareas en el ámbito industrial sean muy específicos, lo que limita su capacidad de sermodificados o reutilizados en otros escenarios, tareas que están ligadas a un gran esfuerzo en términos detiempo y costes. Dados estos retos, en esta tesis se combinan Tecnologías de la Web Semántica contécnicas de Procesamiento del Lenguaje Natural para desarrollar KIDE4I, un sistema de diálogo orientadoa tareas semántico para entornos industriales que permite una comunicación natural entre humanos ysistemas industriales. Los módulos de KIDE4I están diseñados para ser genéricos para una sencillaadaptación a nuevos casos de uso. La ontología modular TODO es el núcleo de KIDE4I, y se encarga demodelar el dominio y el proceso de diálogo, además de almacenar las trazas generadas. KIDE4I se haimplementado y adaptado para su uso en cuatro casos de uso industriales, demostrando que el proceso deadaptación para ello no es complejo y se beneficia del uso de recursos.

Ver más...

Extreme multi-label deep neural classification of Spanish health records according to the International Classification of Diseases

BLANCO GARCES, ALBERTO

Dirección:
CASILLAS RUBIO, ARANTZA;
PEREZ RAMIREZ, ALICIA
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2022
Resumen:

Este trabajo trata sobre la minería de textos clínicos, un campo del Procesamiento del Lenguaje Naturalaplicado al dominio biomédico. El objetivo es automatizar la tarea de codificación médica. Los registroselectrónicos de salud (EHR) son documentos que contienen información clínica sobre la salud de unpaciente. Los diagnósticos y procedimientos médicos plasmados en la Historia Clínica Electrónica estáncodificados con respecto a la Clasificación Internacional de Enfermedades (CIE). De hecho, la CIE es labase para identificar estadísticas de salud internacionales y el estándar para informar enfermedades ycondiciones de salud. Desde la perspectiva del aprendizaje automático, el objetivo es resolver unproblema extremo de clasificación de texto de múltiples etiquetas, ya que a cada registro de salud se leasignan múltiples códigos ICD de un conjunto de más de 70 000 términos de diagnóstico. Una cantidadimportante de recursos se dedican a la codificación médica, una laboriosa tarea que actualmente se realizade forma manual. Los EHR son narraciones extensas, y los codificadores médicos revisan los registrosescritos por los médicos y asignan los códigos ICD correspondientes. Los textos son técnicos ya que losmédicos emplean una jerga médica especializada, aunque rica en abreviaturas, acrónimos y erroresortográficos, ya que los médicos documentan los registros mientras realizan la práctica clínica real. Paraabordar la clasificación automática de registros de salud, investigamos y desarrollamos un conjunto detécnicas de clasificación de texto de aprendizaje profundo.

Ver más...

Towards general attribute controllability in NLP models.

ORMAZABAL OREGI, AITOR

Dirección:
AGIRRE BENGOA, ENEKO;
ARTETXE ZURUTUZA, MIKEL
Menciones:
Cum Laude
Tésis Internacional
Calificación:
Sobresaliente Cum Laude
Año:
2024
Resumen:

Tesi honen helburua Hizkuntzaren Prozesamenduko sistemetan atributuen kontrolgarritasuna lortzea da.Hizkuntza Prozseamenduko ohiko paradigman, entrenamendu datuek eta ikasketa helburuak zehaztendute soilik sistemaren portaera, eta hauek aldatzetik at ez da existitzen sistemen irteeren atributuakkontrolatzeko mekanismorik. Tesi honetan, paradigma honetatik at Hizkuntza Prozesamenduko sistemenirteeren atributuak kontrolatzeko teknikak aztertu eta garatzen ditugu.Tesiaren lehen zatian, hiru sistema mota desberdinen atributuen kontrolagarritasunerako teknikaez-gainbegiratuak garatzen ditugu, bakoitza aplikazio desberdin batekin: i) hitz-bektoreen lerrokatzearenkontrola, hitz-bektore elebidunen sorkuntzara aplikatua, ii) kodetzaile baten informazio edukiarenkontrola, parafrasi sorkuntzara aplikatua, eta iii) hizkuntza-eredu baten metrika eta errimaren kontrola,poesia sorkuntzara aplikatua. Tesiaren bigarren zatian, berriz, hizkuntza-eredu baten egokitzerako teknikaorokor bat garatzen dugu, konputazio kostu txikiarekin edozein hizkuntza-ereduren portaera kontrolatzeaahalbidetzen duena.

Ver más...

« Services proxémiques augmentés pour le patrimoine et les pratiques touristiques » ¿Augmented proxemic services for heritage and tourism practices¿¿Ondare eta turismo praktiketarako proxemic zerbitzu areagotuak¿¿Servicios proxémicos aumentados para prácticas patrimoniales y turísticas¿

MASSON , MAXIME QUENTIN

Dirección:
AGERRI GASCON, RODRIGO;
SALLABERRY , CHRISTIAN
Menciones:
Tésis en Cotutela