gazdaságinformatika

Big Data, Mid Data, Small Data

Szerző: 2014. március 23.No Comments

„Az American Marketing Association Big Data-val kapcsolatos konferenciája után még inkább meg vagyok győződve arról, amit már korábban is gyanítottam, amikor az utóbbi években a Fortune 1000-be tartozó cégek vezetőivel tárgyaltam. Igen kevesen járnak még csak a közelében is annak, ami a Big Data lényege lenne – szerintem mondjuk nincs is szükségük erre – arról azonban el kellene gondolkodniuk, mit kezdenek az ún. Mid Data-val!” – írja blogjában Tom HC Anderson, piackutató sztárblogger és megmondóember. Lehet, hogy a piackutatók is jobban tennék, ha a Big Data helyett a Mid Data-ra koncentrálnának?

Big Data így, Big Data úgy. Úgy tűnik, mintha mindenki erről beszélne manapság, mégis igen kevés piackutató foglalkozik valóban a témával. Vajon kell-e egyáltalán foglalkozni vele?

Aki ezt a cikket olvassa, az jó eséllyel piackutató vagy üzleti elemző, aki fogyasztói insight-okkal vagy valamilyen kapcsolódó területtel foglalkozik. Nagyon itt lenne az ideje, hogy leszűkítsük a Big Data definícióját és bemutassuk a sokkal reálisabb képet adó, jóval jelentősebb Mid Data fogalmát, ami valójában jellemzi, miből is indult ki a Big Data.

Az új fogalom magyarázatának csak úgy van értelme, ha a Big Data-n és a Mid Data-n kívül eső adatokra is kreálunk egy új fogalmat, ez lesz az ún. Small Data.

Small Data
A Small Data magában foglalhat bármit az egyéni interjúktól kezdve a kvalitatív kutatásokon vagy a néhány ezer fős kérdőíves megkérdezésen alapuló kvantitatív, longitudinális tanulmányokig. Ilyen mértékű adatmennyiség esetén a kvalitatív és a kvantitatív adatok még simán értelmezhetőek együtt, hiszen nem esnek bele az általánosságban meghatározott (és bevallottan laza) Big Data kategóriába. Láthatjuk, hogy egy bizonyos méret (mintanagyság) helyett a Big Data jelenlegi definícióját a szóban forgó szervezet képességeivel összefüggésben lehet megválaszolni. Általánosságban Big Data-nak az értékelhető, amit a hagyományosan igénybe vett szoftverek segítségével lehetetlenség kiértékelni.

Képzelhetjük, hogy ez a definíció bizony egy IT szakember vagy egy hardverekkel kereskedő álma, hiszen a szituáció lényege az, hogy az adott cégnek nem állnak rendelkezésre az adatelemzéshez szükségek eszközök, a megoldás pedig az, hogy többet, jóval többet kell infrastruktúrára költenie.

Mid Data
Mi is a Mid Data? A Big Data fogalom kialakulásánál azok az adathalmazok, melyeket most Small Data-nak hívunk, könnyen válhattak volna Big Data-vá is. Például egy 30,000–50,000 adatmezőt tartalmazó, fogyasztói elégedettséget felmérő kutatás eredménye néha sikeresen, gond nélkül elemezhető olyan elérhető, népszerű elemző szoftverekkel, mint például az SPSS. Ha azonban ehhez az adathalmazhoz már a fogyasztói kommenteket (nyílt kérdéseket) is hozzávesszük, a feldolgozás folyamata jelentősen lassulhat, túl hosszúra nyúlhat vagy komoly nehézségekbe ütközhet.

A nyílt kérdésekre adott fogyasztói válaszokkal együtt az eredeti adatbázis nagyméretű növekedésen mehet keresztül. Ekkorra Big Data-ról beszélünk, amihez sokkal hatékonyabb szoftveres megoldásra lenne szükség. Ebben az esetben szerencsésebb a Mid Data fogalom bevezetése, hiszen itt még csak alakuló Big Data-ról beszélünk, és az ilyen méretű adatbázis kezelésére több elérhető áru szoftver is kínálkozik.

Big Data
Most, hogy kiharaptunk egy darabot a Big Data-ból és Mid Data-nak neveztük el, itt az ideje, hogy újradefiniáljuk a Big Data-t, de legalábbis elhatároljuk egymástól a Mid Data-t és a „valódi” Big Data-t.

A Big Data és a Mid Data közötti különbségek megállapításához tisztáznunk kell azok dimenzióit. A Gartner elemzője, Doug Laney híres-hírhedt mondata volt, miszerint a Big Data háromdimenziós, ami azt jelenti, hogy folyamatosan növekedő terjedelme, változatossága és terjedési sebessége van, ez az ún. 3V modell (van ún. 4V modell is).

A különbségek tisztázásához azonban mindössze két változót, a költséget és a hozzáadott értéket kell figyelembe venni. A megtérülést (ROI) csak a ráfordított költségben (akár idő, akár pénzköltség) és az elvárt értékben lehet mérni. Mindez a Big Data elemzési módszer gyakorlatiasságát is jelzi.

Bár tudjuk, hogy bizonyos adatok eredendően értékesebbek más adatoknál (100 emailben érkezett ügyfélpanasz például jóval többet ér, mint 1000 véletlenszerű Twitter-bejegyzés az adott kategóriában), egy dolog azonban biztos. A nem kielemzett adat értéke egyenlő a nullával.

A Mid Data-val ellentétben a Big Data, a „valódi” Big Data már pontosan az a kategóriája az elemzésnek, ami – a befektetett időt és pénzt nézve (amikor a befektetett erőforrásokkal nem arányos mértékű insigh-ok születnek) – esetleg nem éri meg, nincs értelme. A Mid Data intervallumán kívül eső elemzések sokszor elméletben és gyakorlatban is kivitelezhetetlenek a cégek számára.

Másrészről viszont a Mid Data lehet a mézes bödön a Big Data számára. Az ilyen elemzés lehetséges, értékkel bíró és belefér a költségekbe.

Mi legyen?
A Mid Data jelenti a szakma számára kínálkozó jelenlegi legnagyobb lehetőségeket. A valós, könnyen elérhető insight-okat itt lehet learatni.

A „valódi” Big Data viszont lehet, hogy már túl van azon a ponton, hogy megtérülő befektetés lenne. „Valódi” Big Data projekten dolgozó szakemberek tevékenykednek például a híres Large Hedron Collider projekten (CERN). (Ellentétben ezzel a projekttel, a fogyasztási cikkeket gyártó cégek jelentős része jelenleg még nem hajlandó semmilyen szoftver-, vagy hardverbefektetésre a Big Data elemzése céljából.) A Collider esetében az adatok nagyságrendje (150 milliónyi szenzor másodpercenként 40 milliós adatforgalmat bonyolít) miatt az elemzés nem megvalósítható, de erre nincs is szükség. Sőt, a CERN szakemberei egyáltalán nem is elemzik ki ezt a típusú Big Data-t. Helyette kiszűrik az ütközési pontok 99.999 %-át, és csak arra a másodpercenkénti 100 ütközésre koncentrálnak, ami érdekes, lényeges a számukra.

A szakma képviselői számára az a jó hír, hogy amennyiben őszinték vagyunk fogyasztóinkkal, úgy a megértésük nem különösebben bonyolult. Ma már kiváló, elérhető árú Mid Data szoftverek kaphatóak mind szöveg-, mind adatbányászatra – ezek a módszerek már nem igényelnek exabyte méretű adathalmazt vagy szerverek ezrein párhuzamosan futó szoftvereket. Bár a magazinok vagy a konferenciák felszólalói szeretnek az Amazon, a Google vagy a Facebook példájára hivatkozni, még ezek a viszonylag ritka példák is kész sci-fi-nek tűnnek az idegenek számára, és nem részletezik például a szóban forgó vállalatoknál megszokott mintagyűjtési módszereket.

Amint a CERN egyik szakembere rámutatott, sokkal lényegesebb a fontos (az érdeklődésnek megfelelő) adatok elemzése, mint a teljes adathalmaz meghódítása.

Ennél a pontnál néhányan csodálkozhatnak, hogyha a Mid Data valóban ennyivel jobb, mint a Big Data, akkor nem lehet, hogy a Small Data jobb mindkettőnél?

A különbséget nyilvánvalóan az adja, hogy az adatok növekedésével nem csak megbízhatóbb eredményekre van kilátás, de olyan összefüggéseket, motívumokat is felfedezhetünk, amely egy hagyományosan kicsi adathalmazban nem tűnnek fel. A piackutatás világában e különbség azt jelentheti, hogy az adott cég felfedez egy új niche termékötletet, vagy éppen rögvest reagál a riválisa lépésére. Gyógyászati körökben ez azt jelentheti, hogy összefüggést fedeznek fel egy kis népességű populációs alcsoport és a rák kialakulásának magasabb kockázata között, életeket mentve ezzel!

A további definíciók és gyakorlati megvalósítások csak erősíthetik a Mid Data-t. Ironikus, de néhány felsővezető már most azt kéri IT-gárdájától, hogy „gyűjtsenek be és elemezzenek minden adatot” (főleg a változóakat, a 3V modell jegyében) egy olyan folyamat részeként, amely során „valódi” Big Data adathalmazokat hoznak létre különböző Mid Data adathalmazokból. Ez a vállalati gyakorlat szemlélteti legjobban az említett megtérülés (ROI) problémáját. A Big Data „Szent Grálként” való üldözése semmilyen valós előnyt nem garantál. Mi, akik mind a Small Data, mind a Mid Data elemzése terén jól képzettek vagyunk, tökéletesen tudjuk, hogy ugyanannak az elemzésnek különböző adatbázisokon való lefuttatása általában eredménytelen.

Körülbelül annyi értelme van a számviteli adatokat a fogyasztói vélemény-adatokkal összevetni, mint az almát a körtéhez hasonlítani. A japán fogyasztókat az amerikai fogyasztókkal összemérni több okból is felesleges és eredménytelen, a kulturális különbségektől kezdve a különféle egyéb különbségekig.

A legtöbbünk számára a Mid Data lesz az, amivel érdemes foglalkozni.”

Forrás:
Big Data, Mid Data, Small Data; Piackutatás blog; 2014. március 21.