euskaraespañol

Göran Kauermann, Estatistikako katedraduna

«Big Dataren aroaren erronkek asko handitu dute estatistikaren ospea»

  • Elkarrizketa

Lehenengo argitaratze data: 2018/02/22

Irudia

Göran Kauermann estatistikaren arloko izen handiko ikertzailea da. Estatistikako katedraduna da Alemanian, eta Ludwig-Maximilians-Universität München (LMU) unibertsitateko Ekonomiaren Estatistikako, Enpresen Administrazioko eta Zientzia Sozialetako katedraren arduradun da 2011z geroztik. Halaber, LMUko Datuen Zientziako Elite Master Programaren ordezkaria da.

Otsailaren 23an, ostiralean, Estatistika Aplikatuari buruzko mintegi bat emango du, Matematika Aplikatuen Euskal Zentroko (BCAM) Estatistika Aplikatuen taldeak eta UPV/EHUko Ekonomia Aplikatua III (Ekonometria eta Estatistika) eta Matematika Aplikatua, Estatistika eta Ikerkuntza Operatiboa sailek antolatuta. “Statistical Models for Network Data Analysis – A Gentle Introduction” da saioaren izenburua (Sareko datu-analisia egiteko eredu estatistikoak: sarrera samurra). Estatistikaz eta hark izan ditzakeen aplikazioez eztabaidatzeko eta dibulgatzeko ardatz eta topagune izateko helburuarekin antolatutako mintegietako bat da.

Kauermann ostiraleko hitzaldia baino lehen elkarrizketatzeko aukera izan dugu, eta hauxe esan digu estatistikari, Big Datari eta sareko datu-analisiari buruz: 

Aurrerapen teknologikoei esker, ikaragarri handitu da gaur egun biltzen den datu-kantitatea. Nola lagundu dezake estatistikak datuok analizatzen?

Gaur egungo datu-oldeak eta Big Dataren aroaren erronkek asko handitu dute estatistikaren ospea. Arrazonamendu estatistikoa eta pentsamendu estatistikoa garrantzitsuak dira, estatistikaren ohiko eremuetatik kanpo ere. Horrek eremu zientifiko berri bat ekarri du, Datuen Zientziarena. Datuen Zientziaren definizio zehatza oraindik ezarri ez den arren, nire ustez, estatistikaren eta informatikaren arteko elkargunea da. Bi jakintza-arloek bi ikuspegitatik heltzen diote datu-analisiari. Estatistikak “zer ari da gertatzen?” galderari erantzun nahi dio, eta, bestalde, datu-analisiko erreminta informatikoak (hala nola ikasketa automatikoa) predikzioaz arduratzen dira, alegia, “zer gertatuko da gero?” galderari erantzun nahi diote. Bi ikuspegiak dira beharrezkoak eta erabilgarriak, galderaren eta arazoaren arabera. Beste era batera esanda, bai, estatistikak iraultza digitalari aurre egiten lagundu dakioke eta lagundu beharko lioke, baina arrakasta izango du soilik informatikarekin batera jotzen badu Datuen Zientziaren norabide berrian. Nolanahi ere, nabarmendu nahi dut estatistikaren ohiko arloak (estatistika medikoa, ekonometria eta abar) lehen bezain garrantzitsu izaten jarraitzen dutela.

Errazagoa da datu-kantitate handiekin lan egitea edo metodo konplexuagoak behar dira horretarako?

Zalantzarik gabe, datu-kantitate oso handiak erronka dira estatistikarentzat, eta gure errutinetako askok ez dute balio Big Datarako. Baina ez dut uste metodo konplexuagorik behar denik. Atzera begira, metodo estatistikoak mugatuta egon izan dira beti ahalmen eta malgutasun konputazionalaren arabera; 50eko hamarkadako konputazio matrizial sinpletik hasi eta Big Dataren aroaren oraingo metodo konplexuagoetaraino. Hala ere, berpiztu egin dira lehengo ohiko zenbait ideia estatistiko eta konputazional. Oso erabilgarriak dira tentsore-metodoak eta aljebra linealeko hurbilketak (adibidez, balio singularretako deskonposizioa). Datu guztiak analizatu beharrean, zenbait hurbilketa erabiltzen dira. Matematikako nahikotasun kontzeptuak beste esanahi bat hartzen du. Datu guztiekin jardun beharrean, estatistiko nahikoa kalkulatzen da, zeinak datu-eskala handietarako ere balio baitu. Azken batean, lagina beste ikuspegi batetik hartzen dugu: zertarako aztertu datu-petabyte guztiak, datuetatik lagin bat atera beharrean? Horiek ez dira metodo berri edo konplexuagoak, baizik eta egokitu eta eraldatu egin dira datu-konstelazio berri eta konplexuagoen arabera.

Sareko datu-analisian aritzen zara. Nola azalduko zenuke zer den hori?

Sareko datuek oso egitura sinplea dute. Multzo bateko aktoreak (nodoak) elkarrekiko interakzioan dabiltza (ertzak). Interakzioa adiskidetasunezkoa izan daiteke, zeina zero/bat kodeketa besterik ez baita (1 = bi nodoren arteko adiskidetasuna, 0 = adiskidetasunik ez), edo baliozko interakzio bat izan daiteke, adibidez, aktoreen arteko truke-fluxua. Eta egitura sinplea bada ere, zaila da halako datuak modelizatzea, baldin eta jotzen bada ertz baten existentzia beste ertz batzuen existentziaren araberakoa dela. Alegia, baldin eta ertzak, ausazko aldagai gisa hartuz, elkarren mendekoak badira. Hori adiskidetasunezko sare baten bidez ulertzen da errazen. Bi aktorek adiskidetasun bat eraikitzeko duten posibilitatea honen araberakoa izan daiteke: bi aktore horiek zenbat lagun komun dituzten. Beste era batera esanda, beste ertzen araberakoa izango da. Elkarrekiko mendetasun horrek modelizazio-eragiketa zailtzen du.

Zer sare-datu mota analizatu ohi duzu zuk? Adibideren bat emango diguzu?

Sareko datu-analisiaren ohiko eremua dira gizarte-zientziak, non adiskidetasun-sareak adierazten baitira sareetan. Nolanahi ere, ereduak eta metodoak ez dira mugatzen sare-mota horretara. Hona hemen beste zenbait adibide: salerosketa-sareak, zientzialarien harreman-sareak, fluxu-sareak eta abar.

Zer eredu estatistiko mota erabiltzen duzu datu-mota horrekin lan egiteko?

Sareko datu-analisi estatistikoaren muina da ausazko grafo esponentzialen eredua. Ereduaren arabera, 0/1 sarrerak dituen ausazko matrizetzat hartzen da sarea, eta familia-banaketa esponentzial baten gisara modelizatzen du matrizearen probabilitatea. Horrek aukera ematen du zenbait interpretazio intuitibo egiteko, baina baditu zenbakizko trabak ere. Hori guztia azalduko dut adibideak erabiliz, ostiralean emango dudan hitzaldian.

Mintegiari eta programazioari buruzko informazio gehiago, BCAMen webgunean.