HTML

A Big Data blogról

Big Data és Data Science az algoritmusoktól az adatvizualizáción át a gyakorlati alkalmazásokig

A SportingBet nem a Hadoop-ot választotta

Dátum:2013.01.20 ·  Komment: nincs  Címkék: Hadoop Esettanulmány

Érdekesség olyan cikket olvasni, ami kivételesen nem a Hadoop dialalmenetéről szól.

Az online fogadásokkal foglalkozó SportingBetnél az évi 60 terabájtnyi monitorozási adat kezelésére a LogSpace megoldását választották a szokásos eszközök helyett. Az adatok forrása egyébként egy Oracle Coherence alapú rendszer volt.

via pcadvisor.co.uk

 

A Big Data az egészségügyben is fontos

Dátum:2013.01.19 ·  Komment: nincs  Címkék: Egészségügy Infógrafika

Big Data in HealthCare fejlec.png Egy újabb  infógrafika, ezúttal az orvosok és kórházak világából.

 

Hatalmas kattintási adatbázis az Indiana University-től

Dátum:2013.01.18 ·  Komment: nincs  Címkék: Akadémia Adatbánya

Az egyetem 2006 őszétől 2007 késő tavaszáig monitorozta a saját hálózatán keletkező webes forgalmat.

Az adatbázis napi 60 millió rekordot tartalmaz, így összeségében körülbelül 13 milliárd adatsorról van szó, amelynek mérete 2.5 terabájt.

Az érdeklődők ingyenesen férhetnek hozzá az adatokhoz, de a nagy mennyiség miatt csak merevlemezen lehet igényelni az adatbázist, és alá kell írni egy adatvédelmi nyilatkozatot is.

via indiana.edu

 

Topológiai adatelemzésre alakult az Ayasdi

Dátum:2013.01.18 ·  Komment: nincs  Címkék: Startup Tőkepiac

A Standord Egyetem egyik kutatási projektjéből kinőtt startup 10,25 millió dolláros tőkebefektetést kapott TDA (Topological Data Analys) alapú elemzési platformjának fejlesztésére.

A kutatási projektet többek között a DARPA is sok-sok pénzzel támogatta, így nem csoda, hogy sokat várnak az új, Insight Discovery nemű platformtól, amely évtizedes matematikai és adatvizualizációs kutatómunkára épül.

Az Ayasdi vezetője, Gunnar Carlsson professzor elmagyarázza,
mi az a Topological Data Analysis

via ayasdi.com

 

Felhőalapú adatbányászati szolgáltatást kínál az Ersatz

Dátum:2013.01.18 ·  Komment: nincs  Címkék: Startup GPU Adatbányászat

Ersatz: Deep Neural Networks in The Cloud

A jelenleg meghívásos béta állapotban lévő Ersatz nagy hatásfokú neurális hálókat kínál, amelyek egy GPU clusteren futnak.

 A felhasználók feltöltik a saját adataikat, beállítják a használni kívánt modell típusát és paramétereit, és elvégzik a szükséges betanítást.

A kapott eredményeket egyrészi vizuális eszközök segítségével vizsgálhatják, másrészt a kész modellt egy API használatával beköthetik saját alkalmazásukba is.

 

Big Data a kereskedelemben

Dátum:2013.01.16 ·  Komment: nincs  Címkék: Infógrafika

Egy infógrafika a Big Data alkalmazási területeiről a kereskedelemben.

 

A Qubole Hive alapú felhőszolgáltatást kínál

Dátum:2013.01.16 ·  Komment: nincs  Címkék: Hadoop Startup Hive

A Facebook-nál szerzett Big Data tapasztalatokra alapozva indították el a cég ex-mérnökei a Qubole startupot 2012 közepén. A Qubole arra specializálódik, hogy a Hadoop adatainak lekérdezésére szolgáló Hive nyelvet könnyen használhatóvá tegye.

gigaom.com cikke bemutatja a Quobole indulásának történetét és a szoftver által kínált hasznos szolgáltatásokat.

 

 

Adatvizualizáció R-ben

Dátum:2013.01.15 ·  Komment: nincs  Címkék: R Szerszámosláda Edukáció

A CodeSchool ingyenes tanfolyamán az R-ben történő ábra- és grafikonkészítés fogásait sajátíthatjuk el.

Via codeschool.com

 

Bedobja a közösbe keresési adatbázisát a Blekko

Dátum:2013.01.13 ·  Komment: nincs 

A webes keresési adatokkal foglalozó non-profit Common Crawl Foundation számára átadott adatbázis 140 millió website és 220 milliárd weboldal leíró információit tartalmazza.

A Common Crawl által a webről gyűjtött adatokat bárki tetszése szerint használhatja és elemezheti. A Blekko-tól kapott információk alapján pontosabban lehet majd kategorizálni és szűrni a különböző weboldalakat, így mind az adatgyűjtés, mind az adatfeldolgozás hatékonyabb lesz.

via blekko.com

 

Miért nem szexelnek az adattudósok?

Dátum:2013.01.12 ·  Komment: nincs  Címkék: Data science

Néhány dolog, ami fontosabb lehet, mint a szex:

  • a geospatiális adatok szemantikus rétege
  • Az R nyelv hatása a statisztikus közösségre
  • Az adatfederáció ROI-ja
  • a sztochasztikus feldolgozás

Megrázóan emberi helyzetkép Jill Dyche tollából, aki egyébként a következő impresszív titulussal rendelkezik: Vice President of Thought Leadership at SAS.

via jilldyche.com

 

Fogyasztók a digitális univerzumban

Dátum:2013.01.11 ·  Komment: nincs  Címkék: Infógrafika

Big data in the Digital Universe fejlec.png

Az EMC által készített rekordhosszúságú, közel 9000 pixeles infógrafika a digitális univerzum méreteit igyekszik bemutatni.

 

Hadoop platform mint felhőszolgáltatás a Netflixnél

Dátum:2013.01.11 ·  Komment: nincs  Címkék: Hadoop Pig Netflix Esettanulmány

A Netflix techblogjában jelent megy egy érdekes cikk arról, hogy az online videózás királyának számító Netflix milyen infrastuktúrát épített ki az évek során.

Az összes fontos adatot az Amazon S3 felhőben futó tárhelyszolgáltatásán tartják. Ide kell érteni azt a több milliárd eseményrekordot is, amelyet a Netflix szoftverét futtató okos tévéktől, telefonoktól és laptoktól származik.

Az adatok feldolgozására két nagy (500+) Elastic MapReduce clustert használnak, az egyiket az adatok  lekérdezésére, a másikat az ETL folyamatok futtatására. A szoftvereszközök terén népszerű a Hive, a Pig és a Python is.

Az infrastuktúra fontos része a saját fejlesztésű Genie, amely az Amazon által biztosítottnál kényelmesebb módon teszi lehetővé a Big Data elemzések futtatását. A Genie saját maga végzi a clusterek adminisztrálását és nem csak Hadoop, hanem vegyes feladatokkal is elboldogul.

A Netflix hagyományos adattárházas célokra Teradata rendszert használ, de a bejegyzés szerint érdeklődnek az Amazon új Redshift szolgáltatása iránt is.

 

Akciózható Analitika a Felhőben lévő Nagy Adatból

Dátum:2013.01.11 ·  Komment: nincs  Címkék: Dilbert

Ismét Dilbert, ezúttal némi buzzword-túlkínálattal fűszerezve.

The Official Dilbert Website featuring Scott Adams Dilbert strips, animations and more

via dilbert.com

 

Data Science kurzusok a Coursera kínálatában

Dátum:2013.01.10 ·  Komment: nincs  Címkék: Python Data science Edukáció

Az ingyenes online tanfolyamokat kínáló Coursera jó néhány Data Science tárgyú kurzust is indít 2013-ban.

A legérdekesebbnek a Bill Howe által tanított Introduction to Data Science tanfolyam ígérkezik, amely áprilisban indul majd és 10 hétig tart. 

Némi programozási előismeret persze nem árt, de szerencsére erre is vannak online megoldások, például egy komplett Python tutorial a Codecademy-től.

Via datascience101.wordpress.com

 

4,4 millió dollárnyi tőkét vont be az Appfluent

Dátum:2013.01.09 ·  Komment: nincs  Címkék: Startup Tőkepiac

Appfluent Raises $4.4M

A hírek szerint a cél itt is a további növekedés finanszírozása.

 

Python keretrendszerek Hadoophoz

Dátum:2013.01.08 ·  Komment: nincs  Címkék: Python Hadoop Szerszámosláda Cloudera

A Python programozás nyelv széles körben használatos adatfeldolgozási és elemzési feladatokhoz. A Cloudera blogja néhány olyan keretrendszert mutat be és hasonlít össze, amelyek segítségével Hadoop feladatok futtathatóak.

A cikk a következő modulokat mutatja be:

  • Hadoop Streaming
  • mrjob
  • dumbo
  • hadoopy
  • pydoop

A különböző modulok futási eredményei: 

A szerző az  egyes keretrendszerek képességeiről is készített egy tájékoztató jellegű jellegű táblázatot:

via cloudera.com

 

Data Science a Netflix-nél

Dátum:2013.01.07 ·  Komment: nincs  Címkék: Python Hadoop Pig Esettanulmány Mozgókép Data science

Az Amazon november végén megrendezett AWS re:Invent konferencián a Netflix számolt be tapasztalatairól. A világ legismertebb videókölcsönzője  nagy felhasználója a Cassandra, Hadoop, Pig + Python, and Hive technológiáknak és persze az Amazon elasztikus felhőszolgáltatásainak.

 

Big Data előrejelzések 2013-ra

Dátum:2013.01.07 ·  Komment: nincs  Címkék: Kristálygömb

James Kobelius, az IBM Big Data evangalistája szerint a legfontosabb trendek 2013-ra:

  • A hibrid  rendszerek száma nőni fog. A különböző architektúrájú - Hadoop, NoSQL, streaming, in-memory, masszívan párhuzamos stb. - rendszerek nem kiszorítják egymást, hanem együtt fognak működni.
  • Csökkeni fog a különbség a Big Data és a Small Data rendszerek között
  • Az adatkormányzás egyre fontosabb lesz a Big Data területén is
  • Data Science kompetencia centerek elterjedése várható
  • A következő legjobb akciót meghatározó rendszerek az egyik legfontosabb alkalmazási területté válhatnak.

A Datameer azt várja, hogy a 2013 lesz csak igazán a Big Data éve:

 

A varázslatos Python és R

Dátum:2013.01.06 ·  Komment: nincs  Címkék: R Python Szerszámosláda

A két népszerű adatfeldolgozó nyelv közül melyik vajon a varázslatosabb?

A Quant Pythonsta blog szerzője megpróbája  Python környezetben utánozni az R néhány egyedi szintaktikai megoldását.


via wesmckinney.com

 

2012 legizgalmasabb Big Data sztorijai

Dátum:2013.01.03 ·  Komment: nincs  Címkék: Évértékelő Gyakorlat

A tavalyi év három legemlékezetesebb Big Data alkalmazási sztorija, Obama sikeres elnökválasztási kampányától a Target terhességi botrányáig.

Az Obamát  segítő adatbányászok

A 2012-es USA  elnökválasztási kampány minden korábbinál nagyobb mértékben támaszkodott az adatfeldolgozó és -elemző szoftverekre.

 A Time Inside the Secret World of the Data Crunchers Who Helped Obama Win című írása bemutat néhány érdekes példát a kampányolás során alkalmazott módszerekből. Az elemzési területek között szerepelt az adománygyűjtés, a választói részvétel megjósolása és a politikai hirdetések megfelelő elhelyezése.

 

Big data üzleti modellek

Dátum:2013.01.03 ·  Komment: nincs 

Ray Wang cikke tucatnyi különböző üzleti modellt mutat be, amelyek a Big Data világában használhatóak:

Via blogs.hbr.org

 

Big Data: A XXI. század ipari forradalma

Dátum:2013.01.03 ·  Komment: nincs  Címkék: Infógrafika

via OnlineBusinessDegree.org

 

Ingyenes Data Science könyvek

Dátum:2013.01.02 ·  Komment: nincs  Címkék: Szerszámosláda Data science

A következő ingyenesen hozzáférhetőek könyvek hasznosak lehetnek a Data Science iránt érdeklődők számára:

Részletes, eredeti lista itt:  p-value.info

 

Big Data befektetések 2012-ben

Dátum:2013.01.02 ·  Komment: nincs  Címkék: Tőkepiac

Az év legnagyobb dobása a Splunk IPO-ja volt, amit nagy várakozás övezett, és a cég nem is okozott csalódást. A részvényeket eredetileg 11 és 14 dollár közé árazták, de végül 17 dollár lett a hivatalos kibocsátási ár.

Az IPO napján aztán igen heves kereskedés közepette 30 dollár fölé is ment az árfolyam, ami majdnem 100%-os növekedést jelent. A részvények szeptember körkényén már közel 40 dollárért cseréltek gazdát, és a bár az utolsó hónapokban aztán rendesen esett az árfolyam, az év utolsó napját 29 dollár felett zárta a Splunk.

A Wikibinonin olvasható Big Data Startup Funding By Vendor táblázatban pedig részletesen böngészhetőek az eddigi befektetések.

 

Big Data és Dilbert

Dátum:2013.01.02 ·  Komment: nincs  Címkék: Dilbert

162783.strip.sunday.gif_640x287

 

Első bejegyzésént egy Big Data képregény a  dilbert.com jóvoltából.

 

süti beállítások módosítása