A Netflix techblogjában jelent megy egy érdekes cikk arról, hogy az online videózás királyának számító Netflix milyen infrastuktúrát épített ki az évek során.
Az összes fontos adatot az Amazon S3 felhőben futó tárhelyszolgáltatásán tartják. Ide kell érteni azt a több milliárd eseményrekordot is, amelyet a Netflix szoftverét futtató okos tévéktől, telefonoktól és laptoktól származik.
Az adatok feldolgozására két nagy (500+) Elastic MapReduce clustert használnak, az egyiket az adatok lekérdezésére, a másikat az ETL folyamatok futtatására. A szoftvereszközök terén népszerű a Hive, a Pig és a Python is.
Az infrastuktúra fontos része a saját fejlesztésű Genie, amely az Amazon által biztosítottnál kényelmesebb módon teszi lehetővé a Big Data elemzések futtatását. A Genie saját maga végzi a clusterek adminisztrálását és nem csak Hadoop, hanem vegyes feladatokkal is elboldogul.
A Netflix hagyományos adattárházas célokra Teradata rendszert használ, de a bejegyzés szerint érdeklődnek az Amazon új Redshift szolgáltatása iránt is.