Deep Learning

Llama.cpp, SGLang, vLLM : quel framework d'inférence LLM choisir pour votre assistant de code ?

Posté le 11/05/2026 par Gireg Roussel, Karim Sayadi

Étude d’une architecture auto-hébergée (LiteLLM + vLLM/SGLang/llama.cpp) sur GPUs H100/L40S avec le modèle Devstral-Small-2-24B. Tests jusqu’à 200 utilisateurs via llm-grill, notre outil d'évaluation open source.

L'économie cachée des LLM

Data & AI

Posté le 24/04/2026 par Teilo Millet

Combien coûte vraiment un million de tokens quand on ne paie plus l’API, mais l’infrastructure qui les produit ? En partant du prefill, du decode, du batching, du KV cache et des modèles MoE, on estime combien de tokens une infrastructure GPU peut générer.

Détection d'anomalies visuelles automatique : faut-il apprendre du défaut ou de la normalité ?

Data & AI

Posté le 02/03/2026 par Théo Moreau

Comment bien choisir son modèle de détection d'anomalie visuelles ? La réponse dépend du coût de vos erreurs. Cet article compare deux approches sur un cas industriel, et guide votre choix selon vos contraintes opérationnelles.

Vers un auto-hébergement des modèles VLM/LLM : étude empirique sur une infrastructure entrée de gamme, défis et recommandations

Data & AI

Posté le 23/02/2026 par Karim Sayadi, Gireg Roussel

Ce papier évalue l'inférence d'un LLM (14B) et d'un VLM (7B) sur une NVIDIA T4. Avec 91% de succès sur 7310 requêtes, l'architecture prouve sa résilience malgré un matériel d'entrée de gamme. Une exploration entre coût, SLO et expérience utilisateur pour optimiser le déploiement de modèles auto-hébergés.

De 6 mois à 2 jours : La révolution LLM pour le traitement documentaire

Data & AI

Posté le 03/02/2026 par Vinorth Varatharasan

De 6 mois à 2 jours. De 100 000€ à 500€. Les LLM multimodaux (GPT-4 Vision, Gemini, Claude) révolutionnent l'OCR et l'extraction automatique de documents. Fini l'entraînement de modèles, les datasets annotés et les pipelines complexes. Un prompt et une image suffisent. Retour d'expérience sur projet IA RAD/LAD : CNI, RIB. Code et benchmarks inclus.

Les articles de blog à l’ère des LLM : les cartouches de connaissances

Data & AI

Posté le 29/01/2026 par Aurélien Massiot, Teilo Millet

Et si l'article de blog devenait un dialogue ? Avec les LLM, un texte n'est plus un chemin imposé : c'est une cartouche de connaissances à interroger, synthétiser, transformer en podcast. Le même contenu s'adapte à chaque lecteur. Découvrez ce nouveau paradigme de lecture et d'écriture.

Quand la génération synthétique permet de voir ce qui n’existe pas

Data & AI

Posté le 27/11/2025 par Vinorth Varatharasan, Simon Calarn

Comment entraîner une IA à détecter des défauts qu'elle ne voit presque jamais ? En industrie, les anomalies graves sont si rares qu'elles privent les modèles de matière d'apprentissage. La donnée synthétique offre une réponse inattendue : générer de faux défauts pour mieux reconnaître les vrais. REX sur la détection de soudures défectueuses.

Qu'est ce que le RLVR -- Reinforcement Learning from Verifiable Rewards

Data & AI

Posté le 24/10/2025 par Teilo Millet

Le Reinforcement Learning from Verifiable Rewards entraîne les LLMs à optimiser plutôt qu'imiter. Sur des tâches vérifiables (maths, code), les modèles explorent et découvrent des stratégies émergentes. Guide complet: algorithmes GRPO/PPO, applications, environnements, limites et bonnes pratiques.

Fine-Tuning d’un LLM avec la méthode PEFT : Théorie

Data & AI

Posté le 15/09/2025 par Jean-louis Debezia

Découvrez la méthode PEFT (Parameter Efficient Fine-Tuning) pour adapter efficacement un LLM avec moins de ressources et améliorer la performance des modèles de langage.

Le Chat Mistral AI : rapide, puissant et open-source – explications

Data & AI

Posté le 16/04/2025 par Wassim Labdi, Anas El Houdri

Mistral AI dévoile son modèle de chat : rapide, open-source et performant. Découvrez les raisons techniques et stratégiques derrière son succès.

12 3