Data & AI

Posté le 31/03/2016 par Michel Lutz, Matthieu Lagacherie

Cet article n’est pas un article sur l’histoire des sciences ou de la pensée statistique et n’a aucune prétention d’académisme ou d’objectivité. Il est le fruit d’une rencontre entre Matthieu, informaticien expert en machine learning et Michel, statisticien de formation. Ils se sont retrouvés chez OCTO par la pratique du même métier, data scientist...

Lire la suite >

Posté le 01/03/2016 par Philippe Benmoussa, Matthieu Lagacherie

Lors du précédent article, nous avions évoqué le besoin complexe de développer une approche patrimoniale envers son legacy algorithmique et de chercher à améliorer les pratiques existantes.Cet article revient sur un exemple nous venant du monde de la finance : l'algotrading et développe ensuite les clefs d'une stratégie possible pour développer le ...

Lire la suite >

Posté le 14/01/2016 par Nelly Grellier

À mettre dans les mains de tous les experts ! Préface de Doug Cutting, le créateur d’Hadoop.Hadoop, feuille de route est le dernier livre blanc né de l'expertise des consultants OCTO acquise en projets chez nos clients ainsi que l'aboutissement de 5 ans de veille active sur cette plateforme Open Source, son écosytème et les enjeux architecturaux qu...

Lire la suite >

Posté le 14/01/2016 par Nelly Grellier

We had the chance to interview Doug Cutting during the Cloudera Sessions in Paris, October 2014. Doug is the creator behind Hadoop and Cloudera's Chief Architect. Here is our exchange below:A question is: how does it feel to see that Hadoop is actually becoming the must have, the default way of storing and computing over data in large enterprise co...

Lire la suite >

Posté le 12/01/2016 par Alexandre Masselot

Where are the scientific publications coming from? Geolocalizing Medline citationsWhen and where are the scientific publications coming from? Which country are collaborating the most? To investigate those questions, we focused on Medline, the major biology and biomedical peer reviewed citations repository.Big Data is not only a buzz word. A rich ec...

Lire la suite >

Posté le 12/01/2016 par Alexandre Masselot

D’où viennent les publications scientifiques ? Une analyse géographique des articles de Medline.Où et quand ont été publié des articles scientifiques ? Quels pays collaborent-ils le plus entre eux ? Pour tenter de répondre à ces questions, nous avons choisi de nous pencher sur Medline, la base de données de référence en matière de journaux traitant...

Lire la suite >

Posté le 25/11/2015 par Issam El Alaoui

Lors d'un projet de datascience, il n'est pas rare de proposer un certain nombre de métriques pour évaluer des modèles de machine learning. Ces métriques sont censées quantifier le niveau de la prédiction et donner une idée plus ou moins précise de la qualité du pattern obtenu. Or ces métriques, issues du monde des statistiques, ne fournissent pas ...

Lire la suite >

Posté le 23/04/2015 par Vassilina Bardol

Elasticsearch est un moteur de recherche conçu dès le départ pour être distribué et gérer des volumes de données massifs. Il se base sur la librairie Apache Lucene et lui ajoute des fonctionnalités supplémentaires pour la mise en cluster, la haute disponibilité ainsi qu'une API puissante.OCTO Academy vous propose une formation sur ce sujet. Cette f...

Lire la suite >

Posté le 27/01/2015 par Simon Maby

Les géants du web sont à l'origine de Big Data et demeurent une source d'inspiration inépuisable faisant rêver le Data Scientist au fond de chacun de nous.Dernier exploit en date, l'algo de Google et Stanford capable de générer une légende à partir d'une image quelconque :Bluffant.Aussi passionnants qu'ils soient, ces progrès paraissent bien éloign...

Lire la suite >

Posté le 23/09/2014 par Benjamin Joyen-Conseil

Aujourd’hui, je vais parler d’Apache Pig, un outil de traitement type batch s’appuyant sur Hadoop, et de test unitaire. Le but de cet article est de présenter PigUnit comme potentielle solution pour nos tests et d’automatisation des développements. Sur la fin, je donne quelques tips et contournements aux bugs existants.Pourquoi tester Pig ?J’ai ch...

Lire la suite >