HTML

A Big Data blogról

Big Data és Data Science az algoritmusoktól az adatvizualizáción át a gyakorlati alkalmazásokig

A Python Data Analysis könytára

Dátum:2013.03.05 ·  Komment: nincs  Címkék: R Python Szerszámosláda

A pandas csomag a Python nyelven adatelemzéseket végzők egyik leghasznosabb eszköze. A központi szerepet a DataFrame játszza, ami egy kétdimenziós, indexelhető adatstruktúra.

A pandas sok tekintetben hasonlít az R nyelv olyan népszerű elemző moduljaihoz, mint a data.frame, a plyr és a reshape, így a R-es fejlesztők könnyen boldogulnak vele.

Az Yhat blogja bemutatja ezeket a hasonlóságokat, számos példával illusztrálva a pandas használatát.

via blog.yhathq.com

 

Hogyan interjúzzunk Data Scientist jelölteket?

Dátum:2013.03.04 ·  Komment: nincs  Címkék: LinkedIn Data science

A LinkedIn vezető elemzője, Daniel Tunkelang a Strata konferencián arról tartott előadást, hogyan kell  interjúzni leendő Data Scientist kollégáinkat.

A legfontosabb dolgok:

  • Valóságszerű interjúfeladatok. Ne legyen táblán kódolás, elég a Fizzbuzz programozási teszt. 
  • Nem hasznosak a  sok cég által kedvelt trükkös fejtörők sem
  • Talán=Nem. Csak a biztosan jót szabad felvenni.

A teljes prezentáció a hajtás után.

 

Big Data a videójátékokban

Dátum:2013.03.02 ·  Komment: nincs  Címkék: Esettanulmány

A 2013-as Strata konferencián beszélt az Electronic Art szakértője,  Rajat Taneja arról, hogy a globálisan is népszerű  online videójátékok milyen adatelemzési kihívásokkal járnak.

 

Néhány fontos statisztika:

  • VIlágszerte több mint két milliárd ember játszik különféle játékokat
  • A Battlefieldhez hasonló igazán népszerű játékok napi 1 terabájt adatot generálnak
  • Az EA egy átlagos hónapban 2,5 milliárd játékmenetet szolgál ki, ami körülbelül 50 milliárd játékkal töltött percet jelent.

2013-03 Strata Electronic Arts.jpg

Az előadás videója a következő oldalon található.

 

 

Big Data: Ezt kell tudni havi kétmilliós fizetéshez - az USA-ban

Dátum:2013.02.27 ·  Komment: nincs 

Az Index cikkében a Dice.com állásportál által gyűjtött fizetési statisztikákat mutatja be. A Big Data itt is a legnépszerűbb területek között van.

A lista szerint Amerikában ma legjobban a Hadoop szakértőit fizetik meg (115 ezres átlagkereset), ez egy nyílt forráskódú rendszer, amivel nagy méretű adatbázisokból lehet aránylag olcsó hardveres háttérrel fontos információkat kinyerni. 

Szintén érdekes, hogy a doktori végzettség is magas keresetet ígér:

Érdekes megfigyelni, hogy a magasabb iskolai végzettség egyenes arányban van az átlagfizetéssel, vagyis hosszú távon megéri iskolába járni. A doktori végzettség átlagosan 113 ezres fizetéssel jár, utána a legmagasabb fokú közgazdász képzés, az MBA diploma következik, amivel az IT-iparban átlagosan évi 107 ezerért lehet elhelyezkedni. 

Amerikában tehát a legjobb IT karrierlehetőségek a Phd végzettségű Hadoop gurukat várják. És nálunk?

via index.hu


 

 

17,7 millió dollár tőkét vont be a Click Security

Dátum:2013.02.26 ·  Komment: nincs  Címkék: Startup Tőkepiac

A startup Big Data módszerekkel azonosítja a vállalatok ellen folyó online támadásokat, amelyhez a különböző logokat, bejelentkezési adatokat és egyéb eseményeket dolgozza fel.

A cég Real-time Security Analytics platformja valós időben szűri és elemzi a gyanús online viselkedésre utaló jeleket és szükség esetén riasztásokat ad ki.

A Click Security 2011. szeptemberében kapta  induló tőkéjét, és azóta főleg a pénzügyi, kereskedelmi és oktatási szektorban aktív.

via clicksecurity.com

 

Ingyenesen letölthető Data Science könyv

Dátum:2013.02.26 ·  Komment: nincs  Címkék: R Data science

A Syracuse University oktatója, Jeffrey Stanton készítette könyv, a Introduction to Data Science az R nyelv segítségével vezeti be az olvasókat az elemzések világába.

A könyv letölthető PDF formátumban a szerző weboldaláról, vagy interaktív formátumban az Apple iTunes boltjából (szintén ingyenes).

A Syracuse egy, a könyvre alapozó ingyenes online kurzust is indított, az 500 hely azonban igen hamar elfogyott.

 

5 millió dollár friss tőkét kap a Playnomics

Dátum:2013.02.20 ·  Komment: nincs  Címkék: Startup Tőkepiac

PLAYNOMICS CLOSES $5M IN SERIES B FUNDING FOR PLATFORM EXPANSION

A Playnomics a hagyományos, a webes és a mobil játékosok viselkedését elemzi és jelzi előre.

 

Amazon Redshift és Hadoop/Hive összehasonlítás

Dátum:2013.02.20 ·  Komment: nincs  Címkék: Hadoop Hive RedShift

A Big Data technológiával foglalkozó Hapyrus startup cég készített egy rövid összehasonlítást a Redshift és a Hadoop/Hive páros teljesítményéről.

A benchmark nem nevezhető ugyan tökéletesnek, például nem a legfrissebb Hive verziót használták hozzá, de mindenképp érdekes.

 
 
 

Obama és a Big Data újra

Dátum:2013.02.18 ·  Komment: nincs  Címkék: Esettanulmány

Ez alkalommal a MIT Technology Review készített egy alapos cikket arról, hogyan használta az Obama kampány a Big Data módszereket a választók meggyőzése során.

Néhány érdekes idézet:

  • Few events in American life other than a presidential election touch 126 million adults, or even a significant fraction that many, on a single day.
  • Carol Davidsen matched Obama 2012’s lists of persuadable voters with cable providers’ billing information.
  • Alex Lundry created Mitt Romney’s data science unit. It was less than one-tenth the size of Obama’s analytics team.

Az eredeti, meglehetősen hosszú cikk itt olvasható:

How President Obama’s campaign used big data to rally individual vote

 

Oracle Big Data videók

Dátum:2013.02.13 ·  Komment: nincs  Címkék: Oracle Mozgókép

Egy 5 klipből álló humoros reklámsorozat, ami az Oracle Big Data termékeit  népszerűsíti.

 

19 millió dollár tőkét kapott a perszonalizációra szakosodott SailThru

Dátum:2013.02.12 ·  Komment: nincs  Címkék: Startup Tőkepiac

Investing in Smart Data

A SailThru közel 300 ügyféllel rendelkezik, közte olyan nevekkel mint az AOL vagy a Huffington Post.

 

Big Data glossary

Dátum:2013.02.09 ·  Komment: nincs 

A legfontosabb Big Data eszközökről készített egy összeállítást a spanyol Pragsis csapata.

2013-02 Big Data Glossary.jpg

via bigdata-hadoop.pragsis.com

 

Hadoop teljesítményhangolás a LinkedIn-nél

Dátum:2013.02.09 ·  Komment: nincs  Címkék: Hadoop LinkedIn

A következő prezentációt a LinkedIn egyik archiktektje, Allen Wittenauer tartotta az Intel számára arról, hogy érik el az igen magas CPU kihasználtságot Hadoop rendszereiknél.

 

A DARPA a Continuum Analytics legújabb befektetője

Dátum:2013.02.07 ·  Komment: nincs  Címkék: Startup Tőkepiac

Continuum Analytics Receives $3M in DARPA XDATA Funding

A befektetés a DARPA XDATA programjának részeként jött létre.

 

3 millió dollár tőkét kapott a Think Big

Dátum:2013.02.05 ·  Komment: nincs  Címkék: Startup Tőkepiac

Think Big Raises $3M For “Big Data As A Service” To Give Customers Predictive Powers And New Business Insights

Érdekesség, hogy nem termékfejlesztő, hanem szolgáltató cégről van szó.

 

Az R és a grafikonkészítés

Dátum:2013.02.03 ·  Komment: nincs  Címkék: R Szerszámosláda

Nathan Yau cikke néhány egyszerű példát mutat be grafikonok készítésére R környezetben.

Scatter plot matrix

A példák az adatok beolvasásával kezdődnek, és egészen komplex, ám mégis néhány sor R kód segítségével előállítható ábrázolásokat is bemutatnak.

via flowingdata.com

 

DataFu: Big Data segédeszközök a LinkedIntől

Dátum:2013.02.03 ·  Komment: nincs  Címkék: LinkedIn Pig

A LinkedIn adatelemzői tették közzé azt a DataFu névre hallgató igen praktikus Pig eljárásgyűjteményt, amelynek segítségével könnyen elvégezhető számos gyakran felmerülő statisztikai és adatbányászati feladat Hadoop adatokon.

2013-02 LinkedIn Datafu.jpg

A LinkedIn  több népszerű funkciója (pl. Skills, People You May Know) is a DataFu-ra támaszkodik.

A nyílt forráskódú DataFu  letölthető a GitHub-ről és egy levelezőlista is van hozzá, ahol az aktuális kérdéseket lehet megtárgyalni.

 

Big Data Landscape

Dátum:2013.02.01 ·  Komment: nincs  Címkék: Infógrafika

Dave Feinleib elkészítette a Big Data világának szereplőit bemutató infótáblája új, 2013-as verzióját.

2013-01 The Big Data Landscape.jpg

A 2012 nyarán publikált első változat itt olvasható.

 

Graph-Tool könyvtár hálózati adatok elemzéséhez

Dátum:2013.01.31 ·  Komment: nincs  Címkék: Python Szerszámosláda

A graph-Tool segítségével Python környezetben végezhetünk hálózat szerkezetű adatokon (azaz gráfokon) elemzéseket.

A graph-Tool eljárásai segítségével létrehozhatunk és módosíthatunk gráfokat, különböző jellemzőket rendelhetünk az egyes élekhez és csomópontokhoz és számos statisztikai és topológiai algoritmus is rendelkezésre áll.

Nagy előnye a bremeni egyetemen dolgozó Tiago de Paula Peixoto által fejlesztett könyvtárnak, hogy a lényegesebb adatszerkezetek és algorimutmusok C++ nyelven készültek, így meglehetősen gyorsak.

 

12 hasznos eszköz Big Data fejlesztőknek

Dátum:2013.01.27 ·  Komment: nincs 

Derrick Harris a következő hasznos programokat és szolgáltatásokat ajánlja azoknak, akik Big Data jellegű fejlesztésekbe vágták a fejszéjüket:

  • BitDeli - Saját dashboardok és riportok fejlesztése  Python scriptekkel
  • Continuuity - Big Data alkalmazások készítése egyszerűen
  • Flurry - mobil alkalmazások készítése, forgalmazása és mérése
  • Google Prediction API - Prediktív modellek építése a Google segítségével
  • InfoChimps - Könnyen használható Big Data keretrendszer
  • Keen IO - Analitikus API mobilfejlesztőknek
  • Kontagent - mobil és szociális alkalmazások mérése
  • Mortar Data - Hadoop könnyen és gyorsan
  • Placed Analytics - helyfüggő adatok elemzése
  • Precog - Analitikus platform fejlesztőknek
  • Spring for Apache Hadoop - A jól ismert Spring keretrendszer Hadoopra adaptálva
  • Statmix - Saját dashboardok könnyen és gyorsan

via gigaom.com

 

Az R és a Python adatstruktúráinak összehasonlítása

Dátum:2013.01.23 ·  Komment: nincs  Címkék: R Python Szerszámosláda

A StatAlgo.com 2011-es írása néhány fontos különbséget mutat be a Python és az R adatkezelésében.

A listában szerepelnek az elemi adattípusok működése, az értékadás különbözősége, és a  tömbök, listák és szótárak használatának sajátosságai.

via statalgo.com

 

Recorded Future - Big Data

Dátum:2013.01.22 ·  Komment: nincs  Címkék: Mozgókép

A  VINTlabs - The Sogeti Trendlab videója a Big Data világáról

 

10 millió dollár tőkét kapott a Continuuty

Dátum:2013.01.22 ·  Komment: nincs  Címkék: Hadoop Startup Tőkepiac Felhő

Big Data App Platform Continuuity Raises $10M

A cég alapítói között korábbi Teradata, Yahoo, Facebook and Microsoft mérnökök találhatóak. A fő terméke  az  AppFabric Big Data platform, amely lehetővé teszi a felhőben futó Hadoop alapú alkalmazások fejlesztését.

 

Publikus adatgyűjtemények kutatási célokra

Dátum:2013.01.21 ·  Komment: nincs  Címkék: Adatbánya

A Bit.ly linkmegosztó szolgáltatás elemzési műhelyéből származik az a csomag, ami néhány jó minőségú, nyilvánosan elérhető, kutatási célokra is alkalmas adatforrást tartalmaz.

A listában:

  • Spam gyűjtemény
  • Flickr taxonómiák
  • Yahoo adatok
  • Facebook információk
  • Az Amazon AWS által kínált nyilvános adatok
  • Arcfelismerési adatok

....és még sok minden más. Az adatok nem feltétlenül frissek, a Facebook-féle válogatás például 2005-ből származik, de ez például algoritmusok tesztelésénél önmagában nem jelent még problémát.

via bitly.com

 

Nyílt forráskódú Big Data eszközök

Dátum:2013.01.20 ·  Komment: nincs  Címkék: Szerszámosláda Open Source

Az open source big data eszközöket bemutató ábrát készített a bigdata-startups.com:

Big Data startups.png

Az eredeti változat még jobb, mert ott az egyes cégek logói is kattinhatóak.

 

süti beállítások módosítása