XSLaren edukia

Datu Meatzaritza

Ikastegia
Informatika Fakultatea
Titulazioa
Informatikaren Ingeniaritzako Gradua
Ikasturtea
2022/23
Maila
X
Kreditu kopurua
6
Hizkuntzak
Gaztelania
Euskara

IrakaskuntzaToggle Navigation

Orduen banaketa irakaskuntza motaren arabera
Irakaskuntza motaIkasgelako eskola-orduakIkaslearen ikasgelaz kanpoko jardueren orduak
Magistrala4060
Laborategiko p.2030

Irakaskuntza-gidaToggle Navigation

HelburuakToggle Navigation

Ikaskuntzaren emaitzak:

- sailkapen gainbegiratuko teknika nagusien ezagutza

- sailkapen ez-gainbegiratuko teknika nagusien ezagutza

- sailkapen modeloen ebaluaziorako teknika nagusien ezagutza

- trebetasuna software tresna nagusien erabileran sailkatzaile gainbegiratu eta ez-gainbegiratuen ikasketa eta ebaluaziorako



Teknika nagusien ulermen teorikoaz gain, software askeko tresnen erabileran trebatuko da ikaslea, teknika hauen aplikazioak burutu ditzan: hau, gai-zerrendako gai bakoitzerako egingo da. Diziplina honen ingelesez idatzitako testuak, bere terminologia eta estekak ezinbestekoak izango dira irakasgaian zehar.





Irakasgai-zerrendaToggle Navigation

1. Datu Meatzaritzarako sarrera

Sarrera gisa, aplikazio errealak aurkeztuko dira, beti ere irakasgai hau beste arlo batzurekin erlazionatuz, hala nola Adimen Artifiziala, Estatistika, eta abar.



2. Distantzian Oinarritutako Sailkatzaileak: Auzokide hurbilenaren sailkatzailea, K-NN (K-nearest neighbour)

Sailkatzaile honen intuitibotasunak eta ulerterraztasunak egokia egiten du Datu Meatzaritzako lehen teknika gisa plazaratzeko. Bere oinarrizko funtzionamendua, hala nola bere parametro eta erabilerarik arruntenak plazaratuko dira. Gomendatze-sistemen oinarria dira. Ondoko aplikazioak topatzen dira era honetako teknikekin: errekomendazio sistemak ("recommender systems"), karaktereen eta aurpegien errekonozimendua ("object character recognition", "face recognition").



3. Gainbegiratutako sailkatzaileen ebaluazioa.

Ezinbestekoa da, sailkatzaile eta teknika gehiago aurkeztu baino lehen, sailkatzaileen egokitasuna eta doitasuna neurtzeko dauden teknikak ezagutzea.



4. Sailkapen-zuhaitzak.

Datu meatzaritzako teknika klasikoa dira, ulerterrazak eta intuitibotasun handikoak. Bere aldaerarik oinarrizkoenak plazaratuko dira. Ematen duten interpretaziorako aukeragatik, teknika hau oso aproposa da adituekin elkarlanean jarduteko. Medikuntzan eta banketxeetan oso erabiliak dira.



5. Sailkatzaile Bayestarrak.

Probabilitate teorian oinarritzen den teknika hau gaur egun ospe eta erabilera handikoa da. Teknika honek ere datuen interpretaziorako aukera handiak ematen ditu, eta oso egokia da adituekin elkarlanean erabiltzeko. Sailkatzaile honen aldaera nagusiak aztertuko dira, datubaseko aldagaien arteko erlazioen konplexutasun maila ezberdinetarako. Bioinformatikan eta industria munduan ospe handia lortu dute. Ondoko aplikazioak topatzen dira era honetako teknikekin: medikuntzan diagnostiko eta pronostiko modeloak ("medikuntza konputazionala").



6. Sailkatzaileen konbinaketa.

Zenbait problematan, sailkatzaile bakar bat erabili beharrean, iragarpen hobeak lortu daitezke hainbat sailkatzaile konbinatuz. Sailkatzaile ezberdinak konbinatzeko dauden erregela eta ideia nagusiak plazaratuko dira.



7. Aldagai-aukeraketarako teknikak.

Problema baterako sailkatzailea eraikitzen hasi aurretik, datubasea aztertzea ezinbestekoa gertatzen da, aldagai iragarleen artean egon daitezkeen erredundantziak eta aldagai iragarleek klasearekiko duten garrantzia maila neurtzeko. Hau burutzeko ikasketa automatikoan dauden aldagai aukeraketarako teknika nagusiak aurkeztuko dira. Interneteko eta bioinformatikako datuak aztertzeko behar-beharrezkoak dira teknika hauek. Ondoko aplikazioak topatzen dira era honetako teknikekin: gaixotasun bat eraginda izan daitekeen geneen detekzioa (bioinformatikaren arlo berria).



8. Sailkapen ez-gainbegiratua, clustering

Datubasearen ezaugarriak kontutan izanda, sailkapen ez-gainbegiratuak teknika interesgarriko multzo zabal bat ematen digu, antzekotasun handiko kasuak multzokatuz. Inkestak aztertzeko ezinbestekoa gertatzen da clustering aplikatzea. Ondoko aplikazioak topatzen dira era honetako teknikekin: imaginen segmentazioa, janari taldeak beraien elikagai-ezaugarrietan oinarrituz, bezeroen segmentazioa perfil desberdinetan, marketing eta publizidade zuzendua.



9. Bilaketa heuristikoak eta algoritmo genetikoak

Adimen Artizialaren beste arlo klasiko eta ezinbesteko bati sarrera emango zaio, eta hauen artean ezagunena den algoritmo genetikoen teknika aurkeztuko da. Logistika eta optimizazio problemak ebazteko tresna aproposa da. Ondoko aplikazioak topatzen dira era honetako teknikekin: diseinuko aplikazioak (hegazkinak, mekanoak), partitura musikalen konposaketa, saltzaile bidaiariaren problema. Sarrera hau ere baliagarri izango zaizu erabakitzeko gerora izango duzun "Bilaketa Heuristikoak" irakasgaian matrikulatzeko.



10. Sare neuronalei sarrera

80. hamarkadan, "Adimen artifizial" kontzeptuaren bultzatzailetako bat sare neuronalak izan ziren. Bere aplikazio, bai sailkapen gainbegiratu eta ez-gainbegiratuak, aitzindariak izan ziren, bide berriak irekiz. Sare neuronalen ikasketak eskatzen dituzten baliabide konputazional handiek moteldu zuten beraien erabilera mendearen hasieran. Azken urteoran hala ere, baliabide konputazional handiagoekin eta "deep learning" izenpean zabaldu diren hainbat garapen metodologikoekin, beraien erabilpena biziki zabaldu da. Sarrera hau ere baliagarri izango zaizu erabakitzeko gerora izango duzun "Machine Learning and Neural Networks" matrikulatzeko.



MetodologiaToggle Navigation

Astea hiru modulotan banatzen da. Horietako bi maisu-klasetarako: oinarrizko teoriaren aurkezpena eta eskuz egiteko ariketekin. Hirugarren moduloa laborategian, ordenagailuarekin, ikusitako kontzeptuak inplementatu eta erabiltzeko.



Irakasgai hau bi zatitan dago banatuta: %66 kontzeptu teorikoak eta ariketak egiteko eskolak izango dira, eta beste %33 laborategi saioetan softwarea erabiliz ikasitako teknikak lantzeko. Bi zatietan erabiliko den irakaskuntza metodologia aktiboa izango da. Horrek esan nahi du, ikasleak modu aktiboan parte hartuko duela, bai klasean eta bai laborategietan. Ikaslearen lan autonomoa bultzatuko da.

Ebaluazio-sistemakToggle Navigation

Bi bide daude ikasgaia gainditzeko: ebaluazio globala (bukaeran), edo ebaluazio jarraitua. Ebaluazio jarraitua borondatezkoa da, eta ikaslearen parte hartze aktiboa eskatzen du; beraz, ikasleak eskoletara eta laborategietara etorri beharko du, haietan parte hartu, eta proposatutako jarduerak (ariketak, lanak, praktikak, azalpenak...) egin beharko ditu.



Ebaluazio jarraitua ikastaroaren hasieran aukeratu ahal izango da, eta behin betiko bihurtuko da adieraziko diren epeetan (ikastaroaren %60 - %80 igarota), ikasleak hala eskatuta eta irakasleak ikaslearen errendimendua egiaztatu ondoren. Epe horietan ikasleak ez badu behin betiko eskaerarik egiten, ebaluazio jarraituari uko egiten diola ulertzen da.





Era jarraituan, irakasgaiaren alde teorikoa bi azterketa partzialen bidez ebaluatuko da. Lauhilabetean zehar teoriaren 3'5 puntu (6tik) jasoko dituen azterketa egingo da. Honetan nota egoki bat lortuz gero, azken azterketa teorikoak gelditzen dien 2'5 puntuak bilduko ditu (azken honetan gutxienez puntu bat ateratzea ezinbestekoa da irakasgaia gainditu ahal izateko). Ordea, lehen azterketa partzialean nota ez-egokia lortuz gero, azken azterketa teorikoak 6 puntuak, osoki, bilduko ditu.





Alde praktikoaren ebaluazioari dagokionez, kurtsoan zehar hainbat lan praktiko indibidual burutuko dira, gai teorikoen erritmoari egokituta. Lan motzak izango dira, eta entregatze-epeak gai teorikoak bukatu adinakoak. Kurtsoaren bukaera aldera, behin datu meatzaritzako teknika gehienak "jaso" eta gero, banakako lan praktiko bat burutuko da datu meatzaritzako problema erreal baten inguruan, eta egindako lanaren emaitzak klasean aurkeztu beharko dira. Alde praktikoaren pisua azken notan %40ekoa izango da.



Era laburbilduan, ebaluazio jarraituak ondoko konposaketa du: idatzizko lanen eta softwarearen erabileraren ebaluazioa (%40), bi azterketa partzial (%60).



Ebaluazio globala: %100, azterketa teorikoa eta derrigorrezko praktiken entrega.



Irakasgaia gainditzeko, bi parteak aprobatu behar dira: teorikoa eta praktikoa.











Nahitaez erabili beharreko materialaToggle Navigation

EHU-ren eGela irakaskuntzarako plataforma laguntza handia izango da irakasgaia aurrera eraman ahal izateko. Bertan materiala eta irakasgairako interesgarri den informazioa topatuko duzue. Irakasgaiaren egunerokotasuna eramateko ezinbesteko lotura.

BibliografiaToggle Navigation

Oinarrizko bibliografia

- L. Gatto (2020). An Introduction to Machine Learning with R. https://github.com/lgatto/IntroMachineLearningWithR/

- H. Wickham, G. Grolemund (2017). R para Ciencia de Datos. https://es.r4ds.hadley.nz/

- I. H. Witten, E. Frank (2011). Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann. (Third edition)

- B. Sierra (ed.) (2006). Aprendizaje Automático: conceptos básicos y avanzados. Prentice Hall.

- E. Alpaydin (2004). Introduction to Machine Learning. MIT Press.

- T. Mitchell (1997). Machine Learning. McGraw Hill.

- J. Han, M. Kamber (2006). Data Mining: concepts and techniques. Morgan Kaufmann. (Second edition)

- J. Hernández, M. J. Ramírez, C. Ferri (2004). Introducción a la Minería de Datos. Pearson Prentice Hall.

Gehiago sakontzeko bibliografia

- O. Pourret, P. Naïm, B. Marcot (2008). Bayesian networks: a practical guide to applications. Wiley.
- L.I. Kuncheva (2004). Combining Pattern Classifiers. Wiley.
- H. Liu, H. Motoda (ed.) (2008). Computational Methods of Feature Selection. Chapman & Hall/CRC.
- C.M. Bishop (2006). Pattern Recognition and Machine Learning. Springer.
- S. Brunak, P. Baldi (2001). Bioinformatics: the machine learning approach. MIT Press. (Second edition).
- B. Liu (2006). Web Data Mining: exploring hyperlink, contents and usage data. Springer.

Aldizkariak

- Machine Learning Journal. Springer.
- Journal of Machine Learning Research. Electronic publication.
- Data Mining and Knowledge Discovery. Springer.
- Bioinformatics. Oxford University Press.

5., 6. eta salbuespenezko deialdien epaimahaiaToggle Navigation

  • AZCUNE GALPARSORO, GORKA
  • INZA CANO, IÑAKI
  • SIERRA ARAUJO, BASILIO

TaldeakToggle Navigation

16 Teoriakoa (Gaztelania - Arratsaldez)Erakutsi/izkutatu azpiorriak

Egutegia
AsteakAstelehenaAstearteaAsteazkenaOstegunaOstirala
1-15

14:00-15:30

15:30-17:00

Irakasleak

16 Laborategiko p.-1 (Gaztelania - Arratsaldez)Erakutsi/izkutatu azpiorriak

Egutegia
AsteakAstelehenaAstearteaAsteazkenaOstegunaOstirala
1-15

17:00-18:30

Irakasleak

16 Laborategiko p.-2 (Gaztelania - Arratsaldez)Erakutsi/izkutatu azpiorriak

Egutegia
AsteakAstelehenaAstearteaAsteazkenaOstegunaOstirala
1-15

17:00-18:30

Irakasleak

16 Laborategiko p.-3 (Gaztelania - Arratsaldez)Erakutsi/izkutatu azpiorriak

Egutegia
AsteakAstelehenaAstearteaAsteazkenaOstegunaOstirala
1-15

12:00-13:30

Irakasleak

31 Teoriakoa (Euskara - Goizez)Erakutsi/izkutatu azpiorriak

Egutegia
AsteakAstelehenaAstearteaAsteazkenaOstegunaOstirala
1-15

09:00-10:30

10:30-12:00

Irakasleak

31 Laborategiko p.-1 (Euskara - Goizez)Erakutsi/izkutatu azpiorriak

Egutegia
AsteakAstelehenaAstearteaAsteazkenaOstegunaOstirala
1-15

12:00-13:30

Irakasleak

31 Laborategiko p.-2 (Euskara - Goizez)Erakutsi/izkutatu azpiorriak

Egutegia
AsteakAstelehenaAstearteaAsteazkenaOstegunaOstirala
1-15

14:00-15:30

Irakasleak