Skip to main content
gazdaságpolitikaszakirodalomtudomány

Az adatelemzés olyan munka, mint a nyomozóké

By 2024. július 14.No Comments

„Ritkán írnak magyar szakemberek olyan tankönyvet, amelyből az élvonalbeli egyetemek tucatjai – a McGilltől a Bocconiig – azonnal tanítani akarnak. Békés Gábor és Kézdi Gábor adatelemzést tanító könyve hamar nemzetközi siker lett, amelyet több Nobel-díjas is ajánl. Többek között azért, mert nulláról elkezdheti bárki, miközben egyből a mély vízbe, a valós és problémás adatok közé küldik az olvasót. Ki a legjobb fociedző az angol Premier League-ben vagy a magyar megyei bajnokságban? Miért nem elég a cégeknek felvenniük néhány őrült jó matekost, és mit számít az AI az adatelemzésben? A könyv első része nemrég megjelent magyar fordításban is, ennek apropóján beszélgettünk Békés Gáborral, a könyv társszerzőjével.

Miért lehet az, hogy húsz éve minden második közgázos hallgató stratégiai tanácsadó akart lenni, most pedig már inkább adattudós? Vagy ha nem is adattudós, legalábbis lényegesen magabiztosabban akarnak mozogni ezen a területen, annyira megnőtt az értéke.

Ezt nem tudnám pontosan megmondani, de az egyik része nyilván a kereslet, hogy mivel lehet pénzt keresni, és az milyen munka. Ennek a területnek már legalább húsz éve folyik a népszerűsítése. Emlékszem, hogy amikor tíz-tizenegy éve először kezdtük tanítani a most könyvben is kiadott tananyagunkat, az első diára Hal Varian híres idézetét tettük.

Hal Varian a világ egyik leghíresebb mikroökonómusa és tankönyvírója. Egyebek mellett a Google vezető közgazdásza 2002 óta, kulcsszerepe volt a Google adatelemzési módszereinek felépítésében. Az említett idézet a következő: „Ha olyan karriert keresel, ahol nagy lesz a kereslet a szolgáltatásaidra, akkor keress olyat, ahol ritka kiegészítő szolgáltatást nyújtasz valami olyanhoz képest, ami kezd mindenhol elterjedni, és egyre olcsóbb eközben. És mi lesz mindenhol jelen, ami olcsó? Az adatok. És mi egészíti ki az adatokat? Az elemzés. Ezért azt javaslom, hogy arról vegyél fel sok kurzust, hogy hogyan kell adatokat rendezni és elemezni: adatbázisok, gépi tanulás, ökonometria, statisztika, vizualizáció és így tovább.”

El tudom mondani viszont, hogy mi az érdekes egy ilyen adatmunkában. Itt Mr. Wolfe-hoz hasonlóan problémákat oldunk meg: valamit nem értünk, vagy furcsa mintázatot látunk, ami után az a kérdés, milyen magyarázatot lehet rá találni és hogyan lehet valamilyen érdekes összefüggést mennyiségi mutatókkal leírni. Legközelebb talán az újságírói vagy egy nyomozói munka van ehhez, mert bár nem eszközök nélkül, de megpróbálunk megragadni valamit, ami nem triviális. Ez egy intellektuálisan nagyon érdekes foglalkozás. Nyilván ez a része van a felszínen, és alatta pedig rengeteg aprólékos technikai kérdés. De van valami igazán vonzó ebben a nyomozásban: miközben statisztikát a legtöbben nem szeretnek tanulni, adatelemzést igen. Ezzel persze még mindig nem válaszoltam a kérdésre, csak egy kicsit.

Egy egyszerűbb példán keresztül felvázolná, hogy néz ki egy adatelemzési folyamat?

Szeretem a focit, ahol az például releváns kérdés, hogy egy adott bajnokságban ki a legjobb edző. Ezt meg lehet fogalmazni mondjuk úgy, hogy például az angol bajnokság elmúlt húsz évének ki volt a legjobb edzője. Ez már az első lépés – egyébként nem is csak az adatelemzésnél –, hogy a feladatot megpróbáljuk egyre pontosabban meghatározni. Ha sikerült a jól behatárolható kérdést megfogalmazni, utána azon lehet gondolkozni, hogy hogyan mérünk dolgokat: mit jelent az, hogy legjobb edző, és ezt hogyan lehet számszerűsíteni.

Egy egyszerű verzió lehet például, hogy az, aki átlagosan a legtöbb pontot szerezte a csapatával. A focibajnokságokban a győzelem három, a döntetlen egy pontot ér, ezt átlagolva lehet sorrendet kialakítani. Igen ám, de lesz néhány edző, akinek maximális, hárompontos átlaga lesz, mert például két meccse volt összesen, és mind a kettőn nyertek. Itt jön be az említett nyomozás, és hogy a statisztika egy eszköz, de igazából problémákat kell megoldani. Itt az a probléma, hogy pontosabban definiáljuk, ki a jó edző. Mondhatjuk erre, hogy például csak azokat fogjuk vizsgálni, akiknek húsz év alatt legalább húsz meccsük volt. Ekkor az fog kijönni, hogy Alex Ferguson vagy valamelyik másik nagy csapat világhírű edzője lesz az élen. De erre lehet azt mondani, hogy könnyű dolga volt, sokkal jobb játékosai voltak a csapatában, mint a legtöbbeknek. Ezért tovább kell gondolkozni, hogy hogyan lehet figyelembe venni azt is, hogy kinek milyen csapata van. Itt már elkezd elborulni a probléma, mert ezt sokféleképp meg lehet közelíteni. Már kellenek statisztikai eszközök, hogy hogyan csináljuk helyesen és hatékonyan, hogyan gyűjtsünk hozzá adatokat a játékosok jellemzőiről, piaci értékéről, a sérüléseikről vagy bármiről, amiről szeretnénk. Ezt addig lehet finomítani, amíg a határidő le nem állít. De igazából ez maga a folyamat, hogy egy nagy, tág kérdést folyamatosan szűkítünk, megpróbáljuk egyre pontosabban megtalálni, miről szól valójában.

Említette, hogy több évtizede fejlesztik a tananyagukat. Az adatelemzés terén mennyire változik gyorsan, amit tanítani érdemes?

A nagy része nem változott, hozzátéve: külön érdemes beszélni arról, hogy a ChatGPT milyen változásokat hozott. Alapvetően mi abban a bizniszben vagyunk, hogy feltételes összehasonlításokat végzünk. Végső soron minden arról szól, hogy hasonlítsunk össze olyanokat, akik valamilyen dologban hasonlók, de valamiben mások, és mennyivel fognak tovább élni, több pénzt keresni vagy mondjuk jobb munkát találni. Ez jó ideje változatlan, sőt még a technikái között is sok minden változatlan. Amikor elkezdtünk tanulni, akkor a gépi tanulás leginkább még az informatika területe volt. Voltak már akkor is egyes részei, amiket használtunk, például hogy hogyan lehet olyan adatokat kezelni, ahol viszonylag kevés megfigyelésünk van, és nagyon sok ismérvünk. Például amikor az egészségügyben csak viszonylag kevés megfigyelhető betegünk van, róluk viszont rengeteg adatot tudunk: azzal mit lehet tenni? De ezeket a megoldásokat közgazdászok vagy üzleti elemzők korábban nem használták.

Amikor elkezdtük, még a szélén volt; miközben fejlesztettük a tananyagot, egyre inkább fősodratúvá vált az a fajta gépi tanulás, amikor helyettünk a számítógép illeszt egy függvényformát az adatokra. Mire megírtuk a tankönyvünket, már a negyede erről szólt. A ma használt gépi tanulási megoldásokat egyébként a nyolcvanas és kilencvenes években kezdték fejleszteni, de az erős számítógépek és a nagy adatbázisok elterjedésével lettek népszerűek. Ami tíz-húsz éve még csak informatikusok számára volt vonzó, mára a mindennapi eszköztár része lett.

A másik fő változás, hogy a munka és kommunikáció a számítógéppel egyre fontosabbá válik. Régebben – például a bevezető statisztikánál – nagyon részletesen meg kellett tanulni a mintavételt. Ma már sokszor a mintavétel csak az egyik adatszerzési lehetőség a web scraping (egy netes felület információinak összegyűjtése – a szerk.) vagy máshol tárolt adatok API-n keresztül való elérése mellett. Sok esetben már nem kell mintát venni egy sokaságból, mert a sokaság összes adata rendelkezésre áll. Most már ezek a technikák sokszor fontosabbak, mint például az, hogy mindent tudjunk a mintavételezésről.

Különleges a könyvük abból a szempontból, hogy nem kell előképzettség hozzá, nulláról elkezdheti lényegében bárki, nem szükséges haladó matematikai háttér. Az ökonometria- vagy adatelemző tankönyvek jellemzően számottevő formális matekalapozással indulnak, és csak az elméleti háttér után nyúlnak bármilyen adatbázishoz. Miért gondolták, hogy ezt meg lehet fordítani?

Mintegy tíz évvel ezelőtt Kézdi Gábor szerzőtársammal, a CEU közgazdasági tanszékének akkori vezetőjével beszélgettünk arról, hogy mire a diákok eljutnak hozzánk, megtanulnak rengeteg eszközt és módszert, viszont igazából nem tudják, hogy mire jók. Elvesznek köztük, nagyon sokszor nem tudják pontosan értelmezni az eredményeket, amiket kapnak, és nem is feltétlenül érzik át a fontosságát. Először csak egy plusztantárgyban gondolkoztunk, de aztán rájöttünk, hogy ez nem így működik. A modern világban eleve úgy kellene felépíteni az oktatást az adatokról, hogy a diákok nulláról elkezdenek valóságos adatokat nézni, nem pedig az ehhez tartozó matekot tanulják, amihez a valós adatok csak egy példát jelentenek. Szerintünk ezután érdemes tanulni a levezetéseket és a formális megközelítést, utóbbiakat ráadásul nem is kell mindenkinek. Sokan nem ezt gondolják, hanem azt, hogy az a jó, ha adunk egy erős, formális megalapozást, és arra majd rá lehet tölteni a valóságot, amivel úgyis mindenfajta probléma van. Szerintem inkább nekünk van igazunk, de ez egy vélemény, nagyon sok egyetemen zajlanak ez ügyben komoly koncepcionális viták. Valószínűleg nem is fog mindenki a mi könyvünkből és világnézetünk alapján tanítani.

Mennyire fontos ehhez megtanulni valamilyen programnyelven magabiztosan kódolni?

Két évvel ezelőtt azt mondtam volna, hogy nagyon fontos egy nyelven nagyon jól kódolni, és még egy másik nyelvet kényelmesen használni, attól függően, hogy valaki milyen témában dolgozik. Ezek jellemzően az R, a Python, a közgazdászoknál például a Stata, a MATLAB és az SPSS közül az egyik. Ma már inkább érdemes megtanulni egy nyelven jól gondolkozni, de a szintaxis ismerete egyre kevésbé fontos, mert azt helyettesíti az AI. A ChatGPT és társai már most is elég jól írnak kódot. De az a képesség muszáj, hogy meglegyen az emberekben, hogy el tudják választani a rosszat a jótól, ki tudják szűrni a hibákat. Amúgy az AI azoknak segít rengeteget, akik tudnak kódolni, de igazából nem ez a szakmájuk, mert lényegében teljes feladatokat tud egyedül és elég jó megoldani. Ez a jövőben is ebbe az irányba fog fejlődni, az AI egyre jobban fog kódolni, és egyre többeknek segít majd.

A vállalatoknál lényegében már közhely, hogy jelentős haszna lenne az adatalapúbb működésnek. Mégis máig két típusú hozzáállást lehet gyakran hallani a vállalati vezetők részéről. Az egyik, hogy a mi adataink úgyis rosszak, azokra kár bonyolultabb dolgokat alapozni, inkább csak egyszerű alapműveletekre használjuk őket, azokról legalább nagyjából értjük, hogy mit jelentenek. A másik hozzáállás pedig az, hogy mindez nagyon jó, ez ám a jövő, akkor vegyünk fel profi informatikusokat, odaadjuk majd nekik az adatokat, ők meg csináljanak belőle nekünk pénzt. Mit lehet kezdeni az ilyen megközelítésekkel?

Először is elképesztően fontos az adatok minőségének megismerése. Én is azt tanítom, hogy inkább csináljunk jó minőségű adatokkal valami egyszerűbb dolgot, amit értünk. Ha egy nagyon zűrös adatbázisból próbálnánk varázsolni valamit, az úgysem lesz jó, mert nem tudjuk, mi van benne. A focis példára visszatérve: az angol Premier League adatai elég jók, de mondjuk egy magyar megyei másodosztályú bajnokság vagy egy amatőr liga adatai már sokkal kevésbé. Rengeteg olyan probléma jöhet be, hogy mondjuk nem is az volt az edző, aki oda van írva, vagy épp ketten voltak. Vagy a játékosok nem mindig a saját nevükön játszottak, vagy szezon közben jöttek-mentek, netán tönkretette az időjárás a pályát, de lejátszották a meccset. Mindezekkel együtt az első felvetésre az a válasz, hogy általában azért nem olyan rosszak azok az adatok, mint gondolják, gyakran viszont sokat kell dolgozni érte. Mondok egy másik példát. Az adócsalások megállapításához használt Panama-iratok is nagyon zajosak voltak, rengeteg problémával, de nem voltak rosszak. Itt van a legközelebb az újságírói vagy nyomozói munka az adatelemzőéhez, ahol meg kell állapítani, hogy hol és miért nem úgy van a valóságban, ahogy mondják. Ilyen adatbázis-tisztításához logikusan gondolkodó, alapos ember kell.

A másik helyzetre mit lehet mondani?

Az egy jobb alapállás, amire az a válasz, hogy az adatokon dolgozó ember nem lehet messze az iparágat ismerőktől. Ha például egy ingatlanfejlesztő cégre gondolunk, akkor fontos, hogy legyen az adatelemzőkhöz közel olyan ember, aki árazott már be lakást. Neki kell megmutatni az első eredményeket. Képzeljük el, hogy készítünk egy ingatlanokat értékelő árazási modellt. Egy ilyen ember rögtön meg tudja mondani, hogy mondjuk a lift miatt semmiképp nem ér harminc százalékkal többet egy lakás, ez messze túl sok, ha ez jött ki, akkor valami biztosan félrement a számolásban. A Corvinus egyetemen tartott könyvbemutatónkon is előkerült, hogy a legtöbb gyakorlati kudarcot az az általános probléma okozza, hogy informatikusokat vagy szuperokos fizikusokat vesznek fel.

Nekik jellemzően nagyon erős matekos és számítástechnikai hátterük van, könnyedén tudnak óriási adatbázisokkal dolgozni, de nagyon sokszor nem tudnak kérdéseket megfogalmazni vagy jól nyomozni az adatban, mert ez egy másik képességcsoport. Erre azt lehet mondani, hogy vegyenek fel szakembert – akiket egyébként a CEU-n is képzünk, üzleti adatelemzőnek hívják, de a legtöbb közgazdászprogram már most is ilyen jellegű szakembereket igyekszik képezni. Ők fognak tudni gondolkozni a vállalati problémákban, és kapcsolódni a cég embereihez, miközben kellően jól fognak bánni az adatokkal is, ha nem is olyan csúcskategóriásan, mint egy fizika PhD-s. Emellett a vállalat egyik középvezetőjét is érdemes elküldeni továbbképzésre, ahol megtanul egyfajta fogalomtárat az adatokkal való munkához. Ezek a csatlakozások nagyon fontosak, így lehet kiépíteni egy jól működő adatos csapatot a vállalat számára.

Ritka sikeres az eredetileg angolul írt tankönyvük. A McGilltől a Bocconin át a Kiotói Egyetemig szerte a világon rengeteg helyen tanítják témába vágó kurzusokon. Miért kellett vesződni a magyar fordítással?

Elsősorban hazafias szándék vezetett minket abban az értelemben, hogy ez egy kis piac, nem olyan egyértelmű, mint mondjuk a kínai fordítás, amit egyébként szintén nagyon szeretnénk, hogy elkészüljön. Azt gondoltuk, hogy a magyar diákok és elsősorban a kevésbé tehetős, nem feltétlenül kiváló angoltudással érkező diákok helyzetét szeretnénk megkönnyíteni. Magyarországon, főleg a 19-20 éves, alapszakos diákoknál jellemzően nem rajtuk múlik, hogy erős angoltudásuk van-e, hanem azon, hogy hova születettek. Demokratizálni akartuk a tudást, aminek fontos eleme, hogy ilyen embereknek is adjuk meg a lehetőséget, hogy könnyebben befogadják ezt az ismeretanyagot. Egyébként Európa legtöbb országában alapszakon elérhetővé kell tenni a tananyagot a diákok anyanyelvén, nagyon helyesen. Mesterszakon ez már sokkal kisebb probléma.

Mellékesebb indokként a magyar szaknyelv fejlődésében is szerettünk volna egy kis részt vállalni. A fordításon egy nagyobb csapat dolgozott, két tucat kollégával gondolkoztunk hetente a megfelelő kifejezéseken. Például a confounding variable legjobb fordítása az összemosó változó lett, a web scrapinget vagy a benchmarkot viszont nem érdemes lefordítani. Ez a csapatmunka külön nagyszerű dologgá vált, amiért igazán hálás vagyok. Készült egy online szótár is.

A régebbi adatelemzős könyvek jellemzően elenyésző figyelmet szántak az eredmények ábrázolására, mondván, hogy annak részleteivel foglalkozzanak a designerek, a művészlelkek. A könyvükben viszont figyelmet fordítanak a témára, amiben az adatvizualizáció egyik legnagyobb guruja, Alberto Cairo is segített. Ez személyes érdeklődésből fakadt?

Ha az a jól meghatározott célunk, hogy demokratizáljuk ezt a tudást, akkor abból következik, hogy az ábrázolással is foglalkoznunk kell. Ha eredményeket akarunk kommunikálni, akkor ez egy nagyon fontos képesség, fontosabb, mint akár három másik, ritkán használt, bonyolult módszertan ismerete. Alberto Cairót egyszer elhívtuk a CEU-ra még Pesten, ahol egy ebéd közben arra panaszkodtam neki, hogy nem értek az ábrákhoz, nincs kifejlett ízlésem ezzel kapcsolatban, hat színt ismerek, nincs véleményem arról, hogy mi néz ki jól egy ábrán, és nem is hoz lázba. Elmagyarázta – és ez mélyen áthatja a könyvet is –, hogy meg lehet és meg kell tanulni. Vannak jó szempontok és eljárások. Már azzal sokáig el lehet jutni, ha végiggondoljuk, hogy mit akarunk ábrázolni. Egyszerű szabályok betartásával annyira bárkinek elsajátítható ez a terület, hogy ha nem is díjnyertes, de pontos és szép ábrákat tudjon csinálni. Egy világos ábra hegyeket mozgathat meg, rengeteget segíthet például az említett adatelemző csapat és a vállalat összes többi része közötti kommunikációban is.

Az újságoknál világszerte sokszor a fordítottja a probléma: hogy gyönyörű az ábra, akár egy festmény, csak nem biztos benne az olvasó, hogy a szépségen túl mit kellene rajta látnia. Ha lett volna helyette mondjuk egy táblázatkezelős alapábra egy piros meg egy kék oszloppal, ahol nyilvánvalóan a kék a nagyobb, az talán világosabb üzenet lett volna.

Csak ne pirossal és kékkel, mert az a színtévesztőknek nehezen megkülönböztethető, lehet helyette mondjuk zöld és lila. De például azt a szempontot is Alberto Cairótól vettük át, hogy egy üzenethez pontosan egy jelöléstípus tartozhat, különben az ember agya azt kezdi el kutatni, hogy az új formák, színek mit jelenthetnek még. Nemrég én is fennakadtam egy ábrán, ami az uniós országok adósságát mutatta be sorrendben, és nem jöttem rá, hogy ehhez képest mit jelentenek a különböző színek. Aztán leesett, hogy csak az országok színei. Az ilyen felesleges díszítőelemek sokszor inkább hátrányosak. Ha külön színnel jelölték volna mondjuk az új és a régi EU-tagokat, annak lett volna információértéke.

A húsz évvel azelőttiekhez képest a kétezres évekre óriási ugrás történt az empirikus, adatalapú közgazdasági kutatások számában és minőségében. Volt hasonló szintű előrelépés a kétezres évektől mostanáig?

Igen, több területen is óriási ugrás tapasztalható. Egyet emelnék ki, az adatok forrásának változását. Az egyik kedvenc szakcikkem 1992-es, és arra keres választ, hogy leegyszerűsítve mitől növekednek az országok, van-e felzárkózás, és meg lehet-e indokolni a nemzetközi eltéréseket néhány fontos változóval, mint a fizikai és humán tőke felhalmozása. Megmutatták, hogy jól működik egy fontos közgazdasági elméleti keret, a Solow-modell. Van benne elmélet és adatalapú rész is, de az adatok még nemzetközi makromutatók. A kilencvenes évektől aztán elkezdett egyre inkább nőni az adatméret. A kétezres években már nem csak néhány százas makroadatokkal vagy néhány ezres iparági adatsorokkal lehetett dolgozni, hanem részletesebb, milliós vállalati szintű adatsorokkal. Nagy ugrás volt egyre mikroszintűbb adatokkal dolgozni, mert a problémák és a lehetőségek is mások ezekkel. Ezt követően elkezdtek terjedni az olyan adatok, amik már nem számként születtek, hanem szövegként. Például ahhoz, hogy megnézzük, hogyan döntenek a bírók, rengeteg bírósági anyagot lehet digitalizálni, és a szövegekből számokat készíteni. Be lehet kategorizálni adott szövegek stílusát, jellegét vagy bonyolultságát is. Ezek figyelembevételével meg tudjuk mondani, hogy egy adott bíró mennyire részrehajlóan dönt. Az adatbázisok mérete is továbbnőtt, gondolhatunk arra, mennyi mindent tanulhatunk például politikai polarizációról sok száz millió ember Facebook-adataiból. Miközben az is kiszélesedett, hogy honnan jön az adat, hiszen szinte bármiből – szövegből, videóból, szenzorokból – származó adatokat felhasználhatóan tudunk számszerűsíteni. Persze a statisztika és az ökonometria is fejlődik, egyre jobban keverednek a hagyományos és a gépi tanuláson alapuló megoldások, de ez a fejlődés kisebb, mint az, hogy honnan jönnek az adatok.

Hogy néz ki egy tankönyv utóélete? Továbbra is folyamatosan fejleszteni kell, vagy érdemesebb újat írni mondjuk tíz év múlva?

Van vele teendő. Egy új autó vagy gép kifejlesztése után is segíteni kell az adoptálást, hogy minél jobban ki tudják használni a felhasználók. Egy tankönyvnél sincs ez másképp, folyamatosan kell beszélgetni a könyvet tanítókkal. Emellett tervben van egy második kiadás, amiben apróbb változtatások és a visszajelzések beépítése mellett egy nagyobb új rész lesz arról, hogy a generatív AI – mint a ChatGPT – hogyan befolyásolja az adatelemzés folyamatát. Az AI ugyanis ötleteket és megoldásokat is tud adni, az pedig egy iteratív folyamat, hogy – egyelőre még az ember – kiválassza közülük a jó irányokat. Emellett magyarul most az angol nyelvű könyv első felének fordítása készült el. Szeretnénk, hogy a második is mielőbb elkészüljön, amihez az említett csapat már jól összeállt, de a finanszírozás még nincs meg teljesen. A második részben van a fent tárgyalt gépi tanulás, és ott van a mélyebb oksági elemzési eljárások bemutatása is. Fontos lenne, hogy ez is mielőbb kijöjjön magyarul, azon dolgozunk, hogy megvalósuljon.”

Forrás:
Az adatelemzés olyan munka, mint a nyomozóké – interjú Békés Gáborral, a sikerkönyv társszerzőjével; Szalai Bálint; Szabad Európa; 2024. július 13.
„Békés Gábor a BCE után a London School of Economicson végzett mesterképzést, 2007-ben doktorált közgazdaságtanból a CEU-n, ahol 2013 óta tanít adatelemzést is. Jelenleg a CEU docense és a HUN-REN KRTK tudományos főmunkatársa. 2021-ben jelent meg angolul az azóta elhunyt Kézdi Gáborral közösen írt Data Analysis for Business, Economics, and Policy című tankönyvük, amelyet mára harminc ország több mint kétszáz egyetemén tanítanak. A könyv első részét 2024-ben magyarul is kiadták Adatelemzés üzleti, közgazdasági és szakpolitikai döntésekhez címen.”
Lásd még korábbi cikkünket is:
Adatelemzés. Üzleti, közgazdasági és szakpolitikai döntésekhez – új könyvek; eGov Hírlevél; 2024. május 20.