Data & AI

This article is part of a series designed to demonstrate the setup and use of the Confluent Platform. In this series, our goal is to build an end to end data processing pipeline with Confluent.Disclaimer: While knowledge of Kafka internals is not required to understand this series, it can sometimes help clear out some parts of the articles.INTRODUC...

Cet article est le premier d’une série sur les réseaux récurrents. Nous les introduisons ici en jouant avec du texte. Dans un prochain article, nous entrerons dans les arcanes des LSTM, avant d’exposer leur utilisation avancée sur des données de capteurs connectés.Êtes-vous nostalgiques de la période électorale ? Les grandes envolées lyriques de no...

En ce début d’année 2018, nous avons demandé à quelques Octos comment ils prévoient l’évolution de leur métier, des technologies, les ruptures, les nouvelles approches, etc. C’est un exercice de style qui ne prétend pas nécessairement dire le vrai, mais qui a le mérite de présenter certaines convictions et d’inviter au débat. Partagez avec nous vos...

Si vous souhaitez développer votre propre chatbot textuel ou vocal, vous serez confrontés à la question suivante : quel moteur de langage naturel choisir selon mes contraintes et exigences.Nous proposons de vous partager notre avis sur cinq des moteurs de langage naturel les plus répandus actuellement :Luis.aiDialogflow (anciennement api.ai)Wit.aiR...

A la fin de l’épisode précédent, nous étions capables d’exécuter une requête SQL à partir d’un plan d'exécution optimisé. Ce fut notamment l’occasion de plonger au coeur du moteur d’optimisation Catalyst.Nous allons à présent nous intéresser à une optimisation issue du moteur Tungsten, embarquée dans Spark dès la version 2.0, qui remet en cause ce ...

Victoire ! Votre nouvelle application rencontre un grand succès ! Elle collecte des données précieuses, stockées dans MongoDB. L’heure est venue de les analyser pour en tirer profit ! Malheureusement, vos analystes se trouvent bien démunis avec leurs outils SQL favoris... Mais où est donc déclaré le schéma des données ?Confrontés à de telles diffic...

Nous poursuivons aujourd'hui notre série d'articles dédiée à la démystification de Spark et plus particulièrement au moteur d'exécution Tungsten.Pour rappel, dans l'épisode précédent, nous sommes partis d'une requête SQL sous forme de que nous avons d'abord découpée en une instance de grâce à notre classe , puis en une instance d' grâce à notre c...

Spark est en évolution constante et maintient un rythme soutenu de sorties de releases, en témoigne la dernière version en date, la 2.2. Dans cette série d'articles, nous allons revenir ensemble sur différentes mécaniques actuellement en place au sein de cet outil et essayer d'en comprendre le fonctionnement.

On december 2nd was given at Telecom ParisTech the workshop : “Using Scikit-learn and Scientific Python at Scale” with top contributors from the project as speakers. This workshop was divided into four talks :Scikit-learn for industrial applications, basic research and mind reading - Alexandre GramfortDistributed computing for predictive modeling i...

If Athena only evokes this (traumatic, isn't it?) scene to you, you'll be disappointed: this blog post is dedicated to Amazon Athena, the latest analytic tool recently announced at Re:invent 2016.What is Athena?Athena is self defined as a "Serverless Interactive Query Service". Let's detail."Interactive Query Service": easy to figure out, there are...