HTML

A Big Data blogról

Big Data és Data Science az algoritmusoktól az adatvizualizáción át a gyakorlati alkalmazásokig

Hadoop platform mint felhőszolgáltatás a Netflixnél

Dátum:2013.01.11 ·  Komment: nincs  Címkék: Hadoop Pig Netflix Esettanulmány

A Netflix techblogjában jelent megy egy érdekes cikk arról, hogy az online videózás királyának számító Netflix milyen infrastuktúrát épített ki az évek során.

Az összes fontos adatot az Amazon S3 felhőben futó tárhelyszolgáltatásán tartják. Ide kell érteni azt a több milliárd eseményrekordot is, amelyet a Netflix szoftverét futtató okos tévéktől, telefonoktól és laptoktól származik.

Az adatok feldolgozására két nagy (500+) Elastic MapReduce clustert használnak, az egyiket az adatok  lekérdezésére, a másikat az ETL folyamatok futtatására. A szoftvereszközök terén népszerű a Hive, a Pig és a Python is.

Az infrastuktúra fontos része a saját fejlesztésű Genie, amely az Amazon által biztosítottnál kényelmesebb módon teszi lehetővé a Big Data elemzések futtatását. A Genie saját maga végzi a clusterek adminisztrálását és nem csak Hadoop, hanem vegyes feladatokkal is elboldogul.

A Netflix hagyományos adattárházas célokra Teradata rendszert használ, de a bejegyzés szerint érdeklődnek az Amazon új Redshift szolgáltatása iránt is.

 

A bejegyzés trackback címe:

https://bigdata.blog.hu/api/trackback/id/tr875029210

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása