Du 5 au 7 mai 2015 avait lieu à Londres la conférence Strata + Hadoop World. Organisée par O’reilly et Cloudera, elle regroupe les acteurs majeurs du monde du Big Data, mais aussi de la Data Science. Nous y étions. Voici un compte rendu des thèmes majeurs abordés et des meilleurs sessions de la conférence.
Les Keynotes
Les journées de la conférence démarrent par des présentations courtes sur l’utilisation du Big Data dans différentes entreprise et l’impact de ces nouvelles technologies dans notre vie. Des intervenants de Santander Group, Teradata, Shazam, Google, The Financial Times, entre autres, nous ont exposés leur vision du Big Data.
Voici selon nous les Keynotes les plus marquantes :
Cait O’Riordan de Shazam a donné une conférence passionnante sur l’utilisation des données à Shazam. Utilisant les données de leur service, Shazam est en mesure de prédire quelles chansons vont devenir des tubes et avoir un aperçu de la structure des chansons à succès. En particulier, ils peuvent identifier les parties de chansons qui attirent le plus l’attention.
Julia Angwin (ProPublica) nous raconte le temps qu’elle a passé et l’argent qu’elle a dépensé en essayant de protéger sa vie privée. Elle nous pose la question suivante : voulons-nous vivre dans une société où seuls les riches peuvent acheter leur moyen de sortir de la surveillance omniprésente?
Tim Harford (Financial Times) nous expose, à l’aide d’histoires passionnantes de Matt Parker et Mario Capecchi, les contraintes pour rendre concrètes des idées innovantes qui apportent des améliorations marginales ou sur le long terme.
Vous pouvez retrouver l’intégralité des Keynotes de la conférence ici.
Spark, Spark, Spark et encore Spark
A en juger par le nombre de témoignages d’entreprises s’intéressant à cet outil et de sessions sur le sujet, Spark apparait désormais, s’il fallait encore en douter, comme le futur moteur standard de traitement de données distribuées.
Apache Spark: What’s new; what’s coming : par Patrick Wendell de Databricks
Dataframes : Bien qu’elle soit en pleine mutation et ne sera stable que dans la version 1.5 de Spark, l’API de Spark SQL est clairement l’un des projets les plus importants de Spark. Les Dataframes sont même destinées à remplacer à terme les RDDs comme structure de données de base manipulée par les développeurs.
L’idée est d’offrir la même souplesse et les même fonctionnalités dont bénéficient déjà les utilisateurs de R et Python. La manipulation de vos données devient encore plus simple et intuitive. Voici par example le code permettant de calculer une moyenne d’age par département en Spark core puis en Spark SQL avec les Dataframes :
Data Sources : Il s’agit d’une API pour la manipulation de données structurées dans Spark introduite dans la version 1.2 dans le cadre du paquet Spark SQL. Elle apporte une nouvelle façon de lire les données en dehors de l’API InputFormat d’Hadoop
Projet Tungsten : Il s’agit d’un vaste projet d’optimisation de Spark composés de plusieurs initiatives :
- L’utilisation de format binaire et une gestion explicite de la mémoire à l’aide de la classe sun.misc.Unsafe pour s’affranchir des limites du GC.
- mais également l’utilisation d’algorithmes et de structures de données optimisant l’utilisation des caches CPU (L1/L2/L3) ainsi que de la génération de code.
Nous pouvons nous attendre à voir les premiers résultats de ce projet dans la version 1.4 de Spark.
Spark on Mesos : présenté par Dean Wampler de Typesafe
Mesos : Spark à l’origine a été crée comme un outil “to spark an ecosystem in Mesos”.
Le projet est très activement développé (et supporté par Mesosphere). Twitter et Apple (Siri) l’utilisent en production. Toutefois, bon nombre des contributeurs originaux sont maintenant chez Databricks à l’oeuvre sur d’autres tâches. Pour certains projets, il est peut-être idéal, mais aujourd’hui la combinaison Spark + YARN est plus dynamique qui plus est pour des traitements de données stockées sur HDFS. Cependant de nombreux acteurs parient sur une future utilisation massive de Mesos (Dean Wampler prédit qu’il y aura plus de cluster Mesos que de cluster YARN dans 5 ans).
Apache Spark: The faster new execution engine for Apache Hive : par Xuefu Zhang (Cloudera) et Rui Li (Intel)
L’initiative Hive on Spark ( HIVE-7292 ) fait de grand progrès et promet l’obtention d’excellentes performances, notamment comparée à l’exécution de requêtes Hive avec MapReduce.
Machine Learning avec Spark : Sean Owen de Cloudera nous a présenté l’utilisation d’un algorithme de Machine Learning avec Spark : A taste of random decision forests on Apache Spark. Il viendra donner cette même présentation lors du Spark User Group, le 11 juin prochain à Paris.
Stream All your Data
Les pipelines de traitements de données en "temps réel" étaient dans tous les esprits des membres de la conférence. Tout le monde en parlait et voulait comprendre comment les mettre en place au sein de leur entreprise. Deux sessions furent particulièrement instructives à ce sujet et prédisaient, chacune à sa manière, la transition des traitements de données en mode batch vers des systèmes de traitements de flux de données en continu.
Systems that enable data agility: Lessons from LinkedIn : par Martin Kleppman
Martin Kleppman nous à présenté, en prenant pour exemple l’infrastructure mise en place chez LinkedIn (où furent créés Apache Kafka et Apache Samza) comment mettre en place un véritable Data Backbone au sein de son datacenter. L’idée globale est que nous devrions archiver toutes les données de nos SI, y compris celles contenues dans les bases de données (voir à ce sujet ces trois articles) en tant que logs (au sens de séquence totalement ordonnée d’événements en append-only).
Pousser ces événements en temps réel dans un outil comme Kafka rend ces flux de données rapidement disponibles pour le traitement et l’analyse, composables et permet de rejouer à volonté les traitements sur celles-ci.
Say goodbye to batch : Tyler Akidau (Google)
Tyler nous à présenté les concepts derrière Millwheel, le framework de traitements de données en temps réels massivement utilisé chez Google, rendu disponible à travers le projet Google Cloud Dataflow.
Ces concepts permettent notamment de pouvoir traiter des flux de données en se basant sur la date d’occurence d’un événement et pas de la date de traitement de celui-ci, permettant de s’affranchir de la Lambda Architecture.
Vous pouvez consulter les slides ici.
Conclusion
Cette deuxième édition de la conférence Strata+Hadoop en Europe (la première avait eut lieu à Barcelone en 2014) fut passionnante et inspirante. Y étiez-vous ? Si oui, dites nous dans les commentaires les sessions que vous avez préférées.