Benchmark IA — Cadrage e-commerce B2B
Outil d’aide à la décision qui score les solutions e-commerce B2B à partir de votre contexte client et d’une base documentaire analysée par IA. Scoring explicite, synthèse rédigée, sources citées.
Le problème
Choisir entre OroCommerce, Shopify Plus, Adobe Commerce, BigCommerce ou une solution headless mobilise des dizaines de critères. En agence ou chez l’intégrateur, ce travail repose sur l’expérience du consultant, des recherches manuelles et des réunions sans support commun. Le résultat est souvent subjectif, difficile à justifier en comité, et chronophage.
Cet outil automatise le premier cadrage : vous décrivez le profil client, l’outil retrouve les informations pertinentes dans sa base documentaire et produit un classement argumenté.
Comment ça marche
Ingestion du corpus
Des documents (fiches éditeurs, retours d’intégrateurs, comparatifs analystes) sont découpés en passages d’environ 500 tokens avec chevauchement pour ne pas couper une idée en deux. Chaque passage est enrichi automatiquement : solution détectée, critères couverts, tonalité. Le tout est converti en vecteur numérique (1536 dimensions) et stocké dans PostgreSQL via pgvector.
Recherche sémantique
Quand vous décrivez un contexte (textile B2B, ERP Sage X3, budget 300K€…), cette description est convertie en vecteur. PostgreSQL retrouve les passages documentaires les plus proches par similarité cosinus — pas du mot-clé, du sens. Un index HNSW garantit des temps de réponse rapides même sur un gros corpus.
Découverte dynamique
Les solutions ne sont pas codées en dur. Le système identifie automatiquement les plateformes mentionnées dans les passages retrouvés. Ajouter un document sur Saleor, Spryker ou Medusa suffit pour que la solution apparaisse dans le benchmark — zéro code à toucher.
Scoring + recommandation
Un LLM (GPT-4.1) lit les passages sélectionnés et score chaque solution de 1 à 5 sur cinq critères métier. Vous pondérez les critères selon vos priorités. Une recommandation de 3 à 5 phrases est rédigée automatiquement avec les justifications et les sources citées.
Stack technique
| Brique | Détail |
|---|---|
| Backend | Ruby on Rails 8.1 — services objects, architecture clean, conventions strictes |
| Vector store | PostgreSQL 15 + pgvector — embedding 1536d, index HNSW cosine, gem neighbor |
| LLM & embeddings | GitHub Models API — GPT-4.1 (scoring), GPT-4.1-mini (reco), text-embedding-3-small |
| Chunking | Tiktoken (cl100k_base) — découpage sémantique ~512 tokens, overlap 60 tokens |
| Frontend | Stimulus + JavaScript vanilla — formulaire multi-étapes, affichage dynamique |
| Tests | RSpec + WebMock — 33 specs, 0 appel API réel, factories FactoryBot |
| Robustesse | Triple fallback (API down → JSON invalide → 0 résultats), feature flag RAG/legacy |
Ce qui est démontré techniquement
Pipeline RAG complet en Rails
Ingestion → chunking sémantique → embedding → stockage vectoriel → retrieval → scoring LLM → recommandation. Chaque étape est un service isolé et testable, conforme aux conventions Rails (frozen_string_literal, early returns, méthodes < 15 lignes).
Client API centralisé
Un seul service (GithubModelsClient) gère tous les appels vers GitHub Models : chat, chat_json (retour structuré), embed, embed_batch. Retry avec backoff exponentiel, gestion des 429, timeout, rate limiting interne. Aucun autre fichier ne fait de HTTP.
Idempotence et gestion du corpus
Chaque document indexé a un hash SHA256. Réindexer le même fichier ne crée pas de doublon. La mise à jour supprime les anciens chunks et réindexe. Les rake tasks (benchmark:ingest, benchmark:seed, benchmark:stats, benchmark:search) permettent de gérer le corpus en CLI.
Scoring structuré par LLM
Le LLM retourne un JSON contraint (score 1-5 + justification + source par solution × critère). System prompt strict, parsing avec retry, fallback sur matrice de référence si le JSON est invalide. Temperature 0.2 pour maximiser la reproductibilité.
Fiabilité opérationnelle
Trois niveaux de fallback : si le token API est absent, si le retrieval ne retourne rien, si le LLM échoue. L’outil retourne toujours un résultat exploitable. Feature flag pour basculer entre RAG et scoring déterministe sans toucher au code.
Corpus de la démo
Le jeu de données mélange des contenus réalistes couvrant les 5 critères de scoring :
- Fiches éditeurs — OroCommerce, Shopify Plus, Adobe Commerce, BigCommerce, Saleor (features B2B, pricing, intégrations)
- Comparatif analyste — positionnement marché type Gartner/Forrester
- Retours intégrateurs — REX migration Magento → Oro avec Sage X3, REX Shopify Plus pour PME textile
En production, le même pipeline s’applique à des cahiers des charges, notes RFP ou bases de connaissances internes.
Cas d’usage métier
Avant-vente / Sales
Premier livrable objectivé à présenter au client : grille lisible, synthèse argumentée, extraits utiles pour la proposition commerciale.
Équipe projet / MOA
Cadrage accéléré : tri cohérent des solutions, critères explicites pour l’arbitrage, traçabilité des sources pour le COMEX.
Direction technique
Évaluation rapide de la pertinence d’une solution sur des critères techniques (intégration ERP, écosystème PIM, architecture) sans mobiliser une équipe.