HTML

A Big Data blogról

Big Data és Data Science az algoritmusoktól az adatvizualizáción át a gyakorlati alkalmazásokig

21 millió dollár a Kaggle sztárjaiból alakult DataRobotnak

Dátum:2014.08.18 ·  Komment: nincs  Címkék: Tőkepiac

A prediktív modellek fejlesztésével foglalkozó céget olyan szakértők alapították, akik rendszeresen az élen végeznek a Kaggle adatbányászati versenyein.

Az új cég most a többi piaci szereplő számára szolgáltatásként szeretné értékesíteni az alapítól adatelemzési és -modellezési tudását.

A kockázati befektetők hisznek az ötletben, hiszen többen is szívesen finanszírozták volna a DataRobotot. Az új cégül végül 21 millió dollárnyi forrást vont be, 60 millió dolláros értékelés mellett.

via blog.wsj.com

 

Amazon Redshift: HDD vagy SSD?

Dátum:2014.07.20 ·  Komment: nincs  Címkék: Redshift

Egy részletes benchmark Julien Theulier blogjából,amely az új, SSD alapú Redshift fürtök teljesítményét hasonlítja össze a hagyomány HDD alapú konfigurációk teljesítményével.

Table 3

 

REDSHIFT: BENCHMARKING DENSE STORAGE & DENSE COMPUTE CLUSTERS

 

Ez pedig a Flydata benchmarkja:

 

 

 

Redshift adatok elemzése - Excel és Tableau

Dátum:2014.07.20 ·  Komment: nincs  Címkék: Redshift Tableau

Két hasznos link Excel illetve Tableau felhasználóknak:


Setting up Excel to analyze Snowplow data

Amazon Redshift and Tableau Whitepaper 

 

 

 

Elérhetőek a Hadoop Summit előadások

Dátum:2014.07.02 ·  Komment: nincs 

http://hadoopsummit.org/san-jose/schedule/

A június elején megrendezett 2014-es Hadoop Summiton elhangzott előadások megnézhetőek.

 

Álláskeresés a Big Data korában

Dátum:2014.05.11 ·  Komment: nincs 

Big data

Job hunting is a matter of Big Data, not how you perform at an interview

via The Guardian

 

 

Az Amazon is támogatja az Impalát

Dátum:2013.12.13 ·  Komment: 1 komment  Címkék: Hadoop Cloudera

Mostantól az Amazon Elastic MapReduce  felhasználói is bevethetik a Cloudera SQL gyorsítóját az adataik lekérdezésére.

Vigyázni kell azonban arra, hogy csak a Hadoop 2.0-át futtató virtuális gépek (AMI-k) számára érhető el a szolgáltatás.

A bejelentéshez részeként megjelent egy Developer Guide, egy  FAQ és egy tutorial is.

 

Bamboo - nyílt forráskódú eseményanalitika

Dátum:2013.12.08 ·  Komment: nincs  Címkék: Python

A Bamboo REST api segítségével teszi lehetővé valós idejű kezelését és lekérdezését.

https://raw.github.com/modilabs/bamboo/master/docs/images/bamboo_dev2013.png

Az adatok tárolására MongoDB szolgál, a feldolgozást végző logika jelenleg Pythonban van megvalósítva. A Bamboo rendelkezik egy egyszerű saját lekérdezőnyelvvel is a számítások és összesítések támogatására.

bamboo.io

 

Graph databases and Python

Dátum:2013.12.08 ·  Komment: nincs  Címkék: Python

 

A Programmer's Guide to Data Mining

Dátum:2013.12.02 ·  Komment: nincs  Címkék: Python Data science Edukáció

Ron Zacharski ingyens online adatbányászati könyve, Python nyelvű kódolási példákkal.

Jelenleg a következő fejezetek vannak kész:

  • Chapter 1: Introduction
  • Chapter 2: Get Started with Recommendation Systems
  • Chapter 3: Implicit ratings and item-based filtering
  • Chapter 4: Classification
  • Chapter 5: Further Explorations in Classification
  • Chapter 6: Naïve Bayes
  • Chapter 7: Naïve Bayes and unstructured text

guidetodatamining.com

 

Big Data kihívás: Taxiutak előrejelzése Bostonban

Dátum:2013.11.15 ·  Komment: nincs  Címkék: Verseny

Az MIT Big Data Initiative versenyt hirdetett Boston taxiforgalmának előrejelzésére.

A versenyzők feladata annak megjóslása, hogy mekkora lesz a taxik iránti igény a város különböző részeiben egy adott időpillanatban. A jósláshoz rendelkezésre állnak több millió régebbi taxiút információi, amit tömegközlekedési, időjárási és szociális média adatok egészítenek ki.

A verseny november elején indult, a végső beadási határidő 2014. január 30. 

Az adatbányászati versenyhez kapcsolódik egy vizualizációs feladat is, ahol a történeti adatok látványos és informatív megjelenítése a cél. 

 

Nem kell mindig Hadoop

Dátum:2013.10.09 ·  Komment: nincs  Címkék: Python Hadoop

Chris Stucchio blogbejegyezésre arról, hogy sok gyakorlati esetben a Hadoop helyett jobban használható  egy Python/Pandas vagy PostGreSQL alapú megközelítés.

Csak az 5 terabájtot meghaladó adatmennyiségek esetében válik többé-kevésbé elkerülhetlenné a Hadoop, de ekkor sem minden feladatra optimális.

via chrisstucchio.com

 

Lambdoop Big Data alkalmazások fejlesztésére

Dátum:2013.09.05 ·  Komment: nincs  Címkék: Hadoop


A Lambdoop Java API használatával tetszőleges architetúrájú Big Data  alkalmazásokat lehet fejleszteni.

A Lambdoop egyaránt támogatja a hagyományos batch, a real-time, és a Lamda Architektúra (hibrid) jellegű alkalmazásokat.

lambdoop.com 

 

Nyílt forráskódú Hadoop menedzser a Netflixtől

Dátum:2013.06.21 ·  Komment: nincs  Címkék: Hadoop Netflix

A Genie nevű szoftver feladat- és erőforráskezelő szolgáltatásokat nyújt felhőben futó Hadoop fürtökhöz.

A Genie szolgáltatásainak egy része Hadoop feladatok távoli végrehajtását és monitorozását segíti (Executive Services). A másik fontos részterület a Configuration Services, amely a különböző fürtök konfigurációs beállításait tartja nyilván.

A Netflix a júniusi Hadoop Summit konferencián mutatja be a Genie-t. 

via netflix.com

 

Továbbra is öntik a pénzt a befektetők a Big Data startupokba

Dátum:2013.04.21 ·  Komment: nincs  Címkék: Trendek Cloudera Tőkepiac

A CB Insight adatai szerint az elmúlt 5 évben összesen közel 5 milliárd dollár befektetést kaptak az adatokra specializálódó vállalkozások.

A 2012-es év mérlege: 

  • 164 befektetés
  • 1.39 milliárd dollárnyi forrás bevonás
  • 20 sikeres exit, közte több IPO

A legtöbb pénzt kapó cégek listáján olyan jól ismert nevekkel találkozhatunk, mint  Cloudera (65 millió dollár) és 10gen (42 millió dollár) 

via cbiinsights.com és gigaom.com

 

A Big Data nagy nevei

Dátum:2013.04.20 ·  Komment: nincs  Címkék: Twitter Infógrafika

A szociális média elemzéssel és archiválással foglalkozó DataShift elkészítette a  legnépszerűbb cégeket, témákat és hírforrások ábrázolását.

2013-04  Who's big in big data head.jpg

Az infógrafika Twitter   2012-es forgalma alapján készült. Külön érdekesség, hogy az egyik legnépszerűbb cikk magával a Datasifttel foglalkozott.

 

Nyílt forráskódú Data Science eszközök a Cloudera-tól

Dátum:2013.03.26 ·  Komment: nincs  Címkék: Szerszámosláda Cloudera Data science

Az Apache licensz alatt elérhető  Cloudera ML egy Java könytár, amely az adatok előkészítésében és a modellek kiértékelésében nyújt hasznos segítséget.

A Cloudera ML által támogatott első algoritmus a K-közép clusterezési eljárás. Az aktív fejlesztés alatt lévő könyvtár hamarosan újabb funkciókkal is bővülni fog.

via blog.cloudera.com

 

Egyre jobbak a Python adatfeldolgozó eszközei

Dátum:2013.03.25 ·  Komment: nincs  Címkék: Python Szerszámosláda

Sok minden segíti azokat, akik  Pythonk környezetben szeretnék végezni adatelemzési feladataikat:

  • Jól szervezett közösség:a  PyData, SciPy, EuroSciPy konferenciák és a NumFOCUS non-profit szervezet igen hasznosak
  • Jól használható segédeszközök: AnacondaWakariPiCloud.
  • Adatvizualizációs modulok egyre szélesebb köre
  • Nagy teljesítményű, jól skálázható adatfeldolgozó algoritmusok és könytárak megjelenése

További részletek az  oreilly.com blogposztjában.

 

Mennyit keres egy Data Scientist a Facebooknál?

Dátum:2013.03.18 ·  Komment: nincs 

A Glassdoor.com szerint évi 110 és 145 ezer dollár között.

via analyticbridge.com

 

Intelligens döntések a Big Data segítségével

Dátum:2013.03.17 ·  Komment: nincs  Címkék: Infógrafika

Az SAP infógrafikája a legfontosabb tényeket szedi össze.

2013-03 Make Intelligent desicions with Big Data Head.jpg

A teljes, "Make Intelligent Decisions with Big Data" infógrafika a hajtás után található.

 

A Big Data fejlődése az amerikai nagyvállalatoknál

Dátum:2013.03.12 ·  Komment: nincs 

A Wall Street Journal cikke a Big Data üzleti hatásairól szól, számos példát hozva az adatorientált döntések különböző alkalmazási területeiről.

A cikk egyik illusztrációja a a vállalatok által kezelt adatok mennyiségét szemlélteti 1950-től napjainkig.

2013-02 WSJ Big Data.jpg

 via wsj.com

 

1 milliárd ajánlásnál tart a LinkedIn

Dátum:2013.03.10 ·  Komment: nincs  Címkék: LinkedIn Esettanulmány

A Skill Endorsements funkció csak néhány hónapja jelent meg a LinkedIn szolgáltatásai között. A felhasználók egymás  szakmai képességeiről tudnak egy-egy kattintással elismerően nyilatkozni.

2013-03 LinkedIn Endorsements.jpg

Kevesebb mint 6 hónap alatt összesen 1 milliárd ajánlást osztott ki a szolgáltatás 58 millió aktív felhasználója. 

A Skill Endorsement háttéreről a LinkedIn Strata konferencián bemutatott prezentációjából lehet többet megtudni, ami a hajtás után olvasható.

 

A nagyválllalatok Big Data hőmérséklete

Dátum:2013.03.09 ·  Komment: nincs  Címkék: Infógrafika

A Big Data Republic infógrafikája a vállalatok felkészültségét mutatja be:

3013-03 Big Data Temperature head.jpg

 

Emelkedőben a statisztika csillaga

Dátum:2013.03.05 ·  Komment: nincs  Címkék: Edukáció Infógrafika

A Wall Street Journal grafikája szerint az adatok és az adatelemzés iránti igények növekedésével egyre nagyobb a diákok érdeklődése is a terület iránt.

via @WSJGraphics

 

A Python Data Analysis könytára

Dátum:2013.03.05 ·  Komment: nincs  Címkék: R Python Szerszámosláda

A pandas csomag a Python nyelven adatelemzéseket végzők egyik leghasznosabb eszköze. A központi szerepet a DataFrame játszza, ami egy kétdimenziós, indexelhető adatstruktúra.

A pandas sok tekintetben hasonlít az R nyelv olyan népszerű elemző moduljaihoz, mint a data.frame, a plyr és a reshape, így a R-es fejlesztők könnyen boldogulnak vele.

Az Yhat blogja bemutatja ezeket a hasonlóságokat, számos példával illusztrálva a pandas használatát.

via blog.yhathq.com

 

Hogyan interjúzzunk Data Scientist jelölteket?

Dátum:2013.03.04 ·  Komment: nincs  Címkék: LinkedIn Data science

A LinkedIn vezető elemzője, Daniel Tunkelang a Strata konferencián arról tartott előadást, hogyan kell  interjúzni leendő Data Scientist kollégáinkat.

A legfontosabb dolgok:

  • Valóságszerű interjúfeladatok. Ne legyen táblán kódolás, elég a Fizzbuzz programozási teszt. 
  • Nem hasznosak a  sok cég által kedvelt trükkös fejtörők sem
  • Talán=Nem. Csak a biztosan jót szabad felvenni.

A teljes prezentáció a hajtás után.