← Retour aux projets

Benchmark IA — Cadrage e-commerce B2B

Outil d’aide à la décision qui score les solutions e-commerce B2B à partir de votre contexte client et d’une base documentaire analysée par IA. Scoring explicite, synthèse rédigée, sources citées.

Tester l’outil

Le problème

Choisir entre OroCommerce, Shopify Plus, Adobe Commerce, BigCommerce ou une solution headless mobilise des dizaines de critères. En agence ou chez l’intégrateur, ce travail repose sur l’expérience du consultant, des recherches manuelles et des réunions sans support commun. Le résultat est souvent subjectif, difficile à justifier en comité, et chronophage.

Cet outil automatise le premier cadrage : vous décrivez le profil client, l’outil retrouve les informations pertinentes dans sa base documentaire et produit un classement argumenté.

Comment ça marche

Ingestion du corpus

Des documents (fiches éditeurs, retours d’intégrateurs, comparatifs analystes) sont découpés en passages d’environ 500 tokens avec chevauchement pour ne pas couper une idée en deux. Chaque passage est enrichi automatiquement : solution détectée, critères couverts, tonalité. Le tout est converti en vecteur numérique (1536 dimensions) et stocké dans PostgreSQL via pgvector.

Recherche sémantique

Quand vous décrivez un contexte (textile B2B, ERP Sage X3, budget 300K€…), cette description est convertie en vecteur. PostgreSQL retrouve les passages documentaires les plus proches par similarité cosinus — pas du mot-clé, du sens. Un index HNSW garantit des temps de réponse rapides même sur un gros corpus.

Découverte dynamique

Les solutions ne sont pas codées en dur. Le système identifie automatiquement les plateformes mentionnées dans les passages retrouvés. Ajouter un document sur Saleor, Spryker ou Medusa suffit pour que la solution apparaisse dans le benchmark — zéro code à toucher.

Scoring + recommandation

Un LLM (GPT-4.1) lit les passages sélectionnés et score chaque solution de 1 à 5 sur cinq critères métier. Vous pondérez les critères selon vos priorités. Une recommandation de 3 à 5 phrases est rédigée automatiquement avec les justifications et les sources citées.

Stack technique

Brique Détail
Backend Ruby on Rails 8.1 — services objects, architecture clean, conventions strictes
Vector store PostgreSQL 15 + pgvector — embedding 1536d, index HNSW cosine, gem neighbor
LLM & embeddings GitHub Models API — GPT-4.1 (scoring), GPT-4.1-mini (reco), text-embedding-3-small
Chunking Tiktoken (cl100k_base) — découpage sémantique ~512 tokens, overlap 60 tokens
Frontend Stimulus + JavaScript vanilla — formulaire multi-étapes, affichage dynamique
Tests RSpec + WebMock — 33 specs, 0 appel API réel, factories FactoryBot
Robustesse Triple fallback (API down → JSON invalide → 0 résultats), feature flag RAG/legacy

Ce qui est démontré techniquement

Pipeline RAG complet en Rails

Ingestion → chunking sémantique → embedding → stockage vectoriel → retrieval → scoring LLM → recommandation. Chaque étape est un service isolé et testable, conforme aux conventions Rails (frozen_string_literal, early returns, méthodes < 15 lignes).

Client API centralisé

Un seul service (GithubModelsClient) gère tous les appels vers GitHub Models : chat, chat_json (retour structuré), embed, embed_batch. Retry avec backoff exponentiel, gestion des 429, timeout, rate limiting interne. Aucun autre fichier ne fait de HTTP.

Idempotence et gestion du corpus

Chaque document indexé a un hash SHA256. Réindexer le même fichier ne crée pas de doublon. La mise à jour supprime les anciens chunks et réindexe. Les rake tasks (benchmark:ingest, benchmark:seed, benchmark:stats, benchmark:search) permettent de gérer le corpus en CLI.

Scoring structuré par LLM

Le LLM retourne un JSON contraint (score 1-5 + justification + source par solution × critère). System prompt strict, parsing avec retry, fallback sur matrice de référence si le JSON est invalide. Temperature 0.2 pour maximiser la reproductibilité.

Fiabilité opérationnelle

Trois niveaux de fallback : si le token API est absent, si le retrieval ne retourne rien, si le LLM échoue. L’outil retourne toujours un résultat exploitable. Feature flag pour basculer entre RAG et scoring déterministe sans toucher au code.

Corpus de la démo

Le jeu de données mélange des contenus réalistes couvrant les 5 critères de scoring :

  • Fiches éditeurs — OroCommerce, Shopify Plus, Adobe Commerce, BigCommerce, Saleor (features B2B, pricing, intégrations)
  • Comparatif analyste — positionnement marché type Gartner/Forrester
  • Retours intégrateurs — REX migration Magento → Oro avec Sage X3, REX Shopify Plus pour PME textile

En production, le même pipeline s’applique à des cahiers des charges, notes RFP ou bases de connaissances internes.

Cas d’usage métier

Avant-vente / Sales

Premier livrable objectivé à présenter au client : grille lisible, synthèse argumentée, extraits utiles pour la proposition commerciale.

Équipe projet / MOA

Cadrage accéléré : tri cohérent des solutions, critères explicites pour l’arbitrage, traçabilité des sources pour le COMEX.

Direction technique

Évaluation rapide de la pertinence d’une solution sur des critères techniques (intégration ERP, écosystème PIM, architecture) sans mobiliser une équipe.