Skip to main content
informatikatávközlés

Csőstül jön az adat!

Szerző: 2010. december 5.december 7th, 2010One Comment

A kissé unalmas, szokásos webes hírek mögött bontakozik az Internet lehetőségeinek/veszélyeinek egy új megjelenési formája: az óriási adatmennyiségek (big data) világa. Az Internet elterjedése, a mobil eszközök számának sokszorozódása, a dolgok Internetének megjelenése (internetes címmel ellátott eszközök végtelen sora: hűtőgép, televízió, rádiófrekvenciás azonosítóval ellátott nyakörv stb.) hihetetlen méretű adatmennyiséget hoz létre. Ehhez új eszközök kellenek (például adatbázis-kezelők), az informatikán belül új terület lesznek fontosak, megnő a statisztika és a mesterséges intelligencia jelentősége. Az elmúlt időszak hírei közül több is ehhez a kibontakozó irányzathoz tartozott.

Van egy nagyon szemléletes angol fordulat, drinking from the firehose (tűzoltócsőből inni), amely azt jelenti, hogy valamiből hirtelen túl sokat kap az ember. Innét van az, hogy egy irgalmatlan méretű adatmennyiséget generáló szolgáltatás adataihoz való hozzáférést tűzoltócsőnek hívják. Elérhetővé vált egy friss hír szerint a Twitter teljes forgalma külső cégek számára, pontosabban ennek a fele, az ára 360.000 dollár. A hozzáférést műszakilag a Firehose alkalmazásprogramozói felület biztosítja. De ez az adatmennyiség is eltörpül a mobil távközlés adattömege mellett. Az Egyesült Államokban a mobil eszközök naponta körülbelül 600 milliárd földrajzi információval ellátott műveletet hajtanak végre. Minden hívás, SMS-üzenet, e-mail és adatátvitel egyben tartalmazza a tér- és időbeli koordinátákat is (függetlenül attól, hogy a készülékben van-e beépített GPS). Számos készülék akkor is kommunikál a hálózattal, ha éppen nem használjuk.

Ez a hatalmas adatmennyiség elvileg alkalmas ara, hogy cselekvéseink előrejelzésére használják. Meg akarja tudni, hogy egy adott embercsoport hajlandó-e utazni 20 mérföldet azért, hogy egy adott boltban vásároljon? Esetleg azt is, hogy ez hogyan változik az időben? A szakértő szerint ez nem lesz probléma, természetesen az adatok anonimizálva lesznek. Ez a lehetőség nem hagyja hidegen a Google-t sem. Szerintük egy személy üzeneteiből és földrajzi helyzetéből, a mesterséges intelligencia alkalmazásával, előre lehet jelezni, hogy mit fog csinálni. Az a véleményük, hogy a legtöbb ember nem azért használja cégük szolgáltatásait, hogy a kérdéseire választ kapjon. Azt szeretnék tudni, hogy mit kell csinálniuk. Nem ők kérdeznének, hanem csak azokra a válaszokra kíváncsiak, amelyeket a Google kérdezne helyettük.

A hatalmas adatmennyiségek világába nem pusztán a mobil eszközök által generált adatok tartoznak. Jól példázza a kibontakozó irányzatot, hogy a két nagy amerikai szolgáltató, a Verizon és az AT & T, mobil hálózatához az idén már több eszköz csatlakozik, mint amennyi az előfizetők száma.

Forrás:
Big data, Wikipédia
Twitter to Sell 50% of All Tweets for $360k/Year Through Gnip, Marshall Kirkpatrick, ReadWriteWeb, 2010. november 17
Meet the Firehose Seven Thousand Times Bigger Than Twitter’s, Marshall Kirkpatrick, ReadWriteWeb, 2010. november 18.
What is a firehose?, Quora
Az adatok tudománya, filozófia és nyelvészet, Varjú Zoltán, Számítógépes nyelvészet blog, 2010. szeptember 3.