Camus - adatok mozgatása Kafka és HDFS között
Dátum:2015.01.06 · Komment: nincs Címkék: LinkedIn Szerszámosláda
21 millió dollár a Kaggle sztárjaiból alakult DataRobotnak
Dátum:2014.08.18 · Komment: nincs Címkék: Tőkepiac
A prediktív modellek fejlesztésével foglalkozó céget olyan szakértők alapították, akik rendszeresen az élen végeznek a Kaggle adatbányászati versenyein.
Az új cég most a többi piaci szereplő számára szolgáltatásként szeretné értékesíteni az alapítól adatelemzési és -modellezési tudását.
A kockázati befektetők hisznek az ötletben, hiszen többen is szívesen finanszírozták volna a DataRobotot. Az új cégül végül 21 millió dollárnyi forrást vont be, 60 millió dolláros értékelés mellett.
via blog.wsj.com
Amazon Redshift: HDD vagy SSD?
Dátum:2014.07.20 · Komment: nincs Címkék: Redshift
Egy részletes benchmark Julien Theulier blogjából,amely az új, SSD alapú Redshift fürtök teljesítményét hasonlítja össze a hagyomány HDD alapú konfigurációk teljesítményével.
REDSHIFT: BENCHMARKING DENSE STORAGE & DENSE COMPUTE CLUSTERS
Ez pedig a Flydata benchmarkja:
Redshift adatok elemzése - Excel és Tableau
Dátum:2014.07.20 · Komment: nincs Címkék: Redshift Tableau
Két hasznos link Excel illetve Tableau felhasználóknak:
Setting up Excel to analyze Snowplow data
Amazon Redshift and Tableau Whitepaper
Elérhetőek a Hadoop Summit előadások
Dátum:2014.07.02 · Komment: nincs
http://hadoopsummit.org/san-jose/schedule/
A június elején megrendezett 2014-es Hadoop Summiton elhangzott előadások megnézhetőek.
Az Amazon is támogatja az Impalát
Dátum:2013.12.13 · Komment: 1 komment Címkék: Hadoop Cloudera
Mostantól az Amazon Elastic MapReduce felhasználói is bevethetik a Cloudera SQL gyorsítóját az adataik lekérdezésére.
Vigyázni kell azonban arra, hogy csak a Hadoop 2.0-át futtató virtuális gépek (AMI-k) számára érhető el a szolgáltatás.
A bejelentéshez részeként megjelent egy Developer Guide, egy FAQ és egy tutorial is.
Bamboo - nyílt forráskódú eseményanalitika
Dátum:2013.12.08 · Komment: nincs Címkék: Python
A Bamboo REST api segítségével teszi lehetővé valós idejű kezelését és lekérdezését.
Az adatok tárolására MongoDB szolgál, a feldolgozást végző logika jelenleg Pythonban van megvalósítva. A Bamboo rendelkezik egy egyszerű saját lekérdezőnyelvvel is a számítások és összesítések támogatására.
A Programmer's Guide to Data Mining
Dátum:2013.12.02 · Komment: nincs Címkék: Python Data science Edukáció
Ron Zacharski ingyens online adatbányászati könyve, Python nyelvű kódolási példákkal.
Jelenleg a következő fejezetek vannak kész:
- Chapter 1: Introduction
- Chapter 2: Get Started with Recommendation Systems
- Chapter 3: Implicit ratings and item-based filtering
- Chapter 4: Classification
- Chapter 5: Further Explorations in Classification
- Chapter 6: Naïve Bayes
- Chapter 7: Naïve Bayes and unstructured text
Big Data kihívás: Taxiutak előrejelzése Bostonban
Dátum:2013.11.15 · Komment: nincs Címkék: Verseny
Az MIT Big Data Initiative versenyt hirdetett Boston taxiforgalmának előrejelzésére.
A versenyzők feladata annak megjóslása, hogy mekkora lesz a taxik iránti igény a város különböző részeiben egy adott időpillanatban. A jósláshoz rendelkezésre állnak több millió régebbi taxiút információi, amit tömegközlekedési, időjárási és szociális média adatok egészítenek ki.
A verseny november elején indult, a végső beadási határidő 2014. január 30.
Az adatbányászati versenyhez kapcsolódik egy vizualizációs feladat is, ahol a történeti adatok látványos és informatív megjelenítése a cél.
Nem kell mindig Hadoop
Dátum:2013.10.09 · Komment: nincs Címkék: Python Hadoop
Chris Stucchio blogbejegyezésre arról, hogy sok gyakorlati esetben a Hadoop helyett jobban használható egy Python/Pandas vagy PostGreSQL alapú megközelítés.
Csak az 5 terabájtot meghaladó adatmennyiségek esetében válik többé-kevésbé elkerülhetlenné a Hadoop, de ekkor sem minden feladatra optimális.
Lambdoop Big Data alkalmazások fejlesztésére
Dátum:2013.09.05 · Komment: nincs Címkék: Hadoop
A Lambdoop Java API használatával tetszőleges architetúrájú Big Data alkalmazásokat lehet fejleszteni.
A Lambdoop egyaránt támogatja a hagyományos batch, a real-time, és a Lamda Architektúra (hibrid) jellegű alkalmazásokat.
Nyílt forráskódú Hadoop menedzser a Netflixtől
Dátum:2013.06.21 · Komment: nincs Címkék: Hadoop Netflix
A Genie nevű szoftver feladat- és erőforráskezelő szolgáltatásokat nyújt felhőben futó Hadoop fürtökhöz.
A Genie szolgáltatásainak egy része Hadoop feladatok távoli végrehajtását és monitorozását segíti (Executive Services). A másik fontos részterület a Configuration Services, amely a különböző fürtök konfigurációs beállításait tartja nyilván.
A Netflix a júniusi Hadoop Summit konferencián mutatja be a Genie-t.
via netflix.com
Továbbra is öntik a pénzt a befektetők a Big Data startupokba
Dátum:2013.04.21 · Komment: nincs Címkék: Trendek Cloudera Tőkepiac
A CB Insight adatai szerint az elmúlt 5 évben összesen közel 5 milliárd dollár befektetést kaptak az adatokra specializálódó vállalkozások.
A 2012-es év mérlege:
- 164 befektetés
- 1.39 milliárd dollárnyi forrás bevonás
- 20 sikeres exit, közte több IPO
A legtöbb pénzt kapó cégek listáján olyan jól ismert nevekkel találkozhatunk, mint Cloudera (65 millió dollár) és 10gen (42 millió dollár)
via cbiinsights.com és gigaom.com
A Big Data nagy nevei
Dátum:2013.04.20 · Komment: nincs Címkék: Twitter Infógrafika
A szociális média elemzéssel és archiválással foglalkozó DataShift elkészítette a legnépszerűbb cégeket, témákat és hírforrások ábrázolását.
Az infógrafika Twitter 2012-es forgalma alapján készült. Külön érdekesség, hogy az egyik legnépszerűbb cikk magával a Datasifttel foglalkozott.
Nyílt forráskódú Data Science eszközök a Cloudera-tól
Dátum:2013.03.26 · Komment: nincs Címkék: Szerszámosláda Cloudera Data science
Az Apache licensz alatt elérhető Cloudera ML egy Java könytár, amely az adatok előkészítésében és a modellek kiértékelésében nyújt hasznos segítséget.
A Cloudera ML által támogatott első algoritmus a K-közép clusterezési eljárás. Az aktív fejlesztés alatt lévő könyvtár hamarosan újabb funkciókkal is bővülni fog.
Egyre jobbak a Python adatfeldolgozó eszközei
Dátum:2013.03.25 · Komment: nincs Címkék: Python Szerszámosláda
Sok minden segíti azokat, akik Pythonk környezetben szeretnék végezni adatelemzési feladataikat:
- Jól szervezett közösség:a PyData, SciPy, EuroSciPy konferenciák és a NumFOCUS non-profit szervezet igen hasznosak
- Jól használható segédeszközök: Anaconda, Wakari, PiCloud.
- Adatvizualizációs modulok egyre szélesebb köre
- Nagy teljesítményű, jól skálázható adatfeldolgozó algoritmusok és könytárak megjelenése
További részletek az oreilly.com blogposztjában.
Mennyit keres egy Data Scientist a Facebooknál?
Dátum:2013.03.18 · Komment: nincs
A Glassdoor.com szerint évi 110 és 145 ezer dollár között.
Intelligens döntések a Big Data segítségével
Dátum:2013.03.17 · Komment: nincs Címkék: Infógrafika
Az SAP infógrafikája a legfontosabb tényeket szedi össze.
A teljes, "Make Intelligent Decisions with Big Data" infógrafika a hajtás után található.
A Big Data fejlődése az amerikai nagyvállalatoknál
Dátum:2013.03.12 · Komment: nincs
A Wall Street Journal cikke a Big Data üzleti hatásairól szól, számos példát hozva az adatorientált döntések különböző alkalmazási területeiről.
A cikk egyik illusztrációja a a vállalatok által kezelt adatok mennyiségét szemlélteti 1950-től napjainkig.
via wsj.com
1 milliárd ajánlásnál tart a LinkedIn
Dátum:2013.03.10 · Komment: nincs Címkék: LinkedIn Esettanulmány
A Skill Endorsements funkció csak néhány hónapja jelent meg a LinkedIn szolgáltatásai között. A felhasználók egymás szakmai képességeiről tudnak egy-egy kattintással elismerően nyilatkozni.
Kevesebb mint 6 hónap alatt összesen 1 milliárd ajánlást osztott ki a szolgáltatás 58 millió aktív felhasználója.
A Skill Endorsement háttéreről a LinkedIn Strata konferencián bemutatott prezentációjából lehet többet megtudni, ami a hajtás után olvasható.
A nagyválllalatok Big Data hőmérséklete
Dátum:2013.03.09 · Komment: nincs Címkék: Infógrafika
A Big Data Republic infógrafikája a vállalatok felkészültségét mutatja be:
Emelkedőben a statisztika csillaga
Dátum:2013.03.05 · Komment: nincs Címkék: Edukáció Infógrafika
A Wall Street Journal grafikája szerint az adatok és az adatelemzés iránti igények növekedésével egyre nagyobb a diákok érdeklődése is a terület iránt.
via @WSJGraphics