Beaucoup d’organisations accumulent depuis des années des documentations, procédures, comptes-rendus, jurisprudence, FAQ internes qui contiennent une grande partie de leur expertise — mais qui restent sous-exploitées car personne n’a le temps de les parcourir. L’arrivée des modèles génératifs et des techniques de RAG (Retrieval-Augmented Generation) permet de transformer ces corpus en assistants conversationnels utiles. Notre rôle de partenaire technique est de construire ces assistants à votre côté, ancrés dans votre vraie base documentaire, avec citations vérifiables et garde-fous appropriés.
Comment on collabore
Une mission RAG démarre par un audit de votre corpus existant. Quelles sources (PDF, intranet, drive, base de jurisprudence, documentation produit) ? Quels formats ? Quelle fraîcheur ? Quel volume ? Quelles règles d’accès ? Cette cartographie révèle souvent des surprises — typiquement, un quart à un tiers des documents sont en réalité obsolètes ou redondants. Avant d’indexer, on en profite pour faire du tri.
Nous discutons ensuite des cas d’usage cibles. Un assistant support qui répond aux clients sur la base de la documentation produit n’a pas le même profil qu’un assistant juridique qui aide un avocat à trouver une jurisprudence pertinente. Le premier vise une réponse courte et précise ; le second cherche une exhaustivité raisonnée avec citations. Cette différence pilote tous les choix techniques en aval.
Ce qu’on construit ensemble
Le pipeline d’ingestion est la première brique. Nous extrayons le texte de vos sources (parsing PDF, scraping intranet, connexion API selon le cas), nous segmentons en passages cohérents (typiquement 500 à 1 500 caractères avec chevauchement), nous calculons des embeddings (OpenAI, Cohere, Voyage AI, ou modèles open source comme BGE), et nous stockons dans une base vectorielle (pgvector dans Postgres pour les cas modestes, Qdrant ou Weaviate pour les volumes importants).
La recherche utilise un mix de similarité sémantique (le sens du mot) et de recherche lexicale (les mots-clés exacts). Cette combinaison, dite hybride, donne de bien meilleurs résultats que la sémantique seule, surtout pour les requêtes contenant des termes techniques ou des références précises (numéros d’articles, codes produits, noms propres).
La génération de réponse passe par un LLM (GPT-4, Claude, Mistral selon les critères de coût, qualité, souveraineté). Le prompt contient les passages récupérés et demande au modèle de répondre exclusivement à partir de ceux-ci, en citant la source. Cette discipline réduit drastiquement les hallucinations — le modèle préfère reconnaître qu’il ne sait pas plutôt qu’inventer.
L’interface conversationnelle s’adapte à votre contexte. Web app intégrée à votre intranet, bot Slack ou Teams pour les équipes internes, widget embeddable pour un produit SaaS, parfois même une intégration directe dans votre CRM ou ticketing. Nous privilégions les canaux que vos équipes utilisent déjà plutôt que d’imposer un nouveau front.
Notre approche partenaire
Nous insistons systématiquement sur la traçabilité. Chaque réponse produite par l’assistant doit citer les sources mobilisées, avec un lien direct vers le passage exact dans le document d’origine. Cette transparence change tout : l’utilisateur peut vérifier en un clic, et la confiance dans l’outil s’installe. Sans citations, un assistant IA est juste un oracle dont personne ne sait s’il dit vrai.
Côté sécurité, nous prenons au sérieux les ACL documentaires. Si votre corpus contient des documents à diffusion restreinte (contrats, dossiers RH, données clients), nous propageons ces droits jusqu’à la couche de recherche : un utilisateur ne récupère jamais un passage auquel il n’a pas accès. Cette discipline est non négociable.
Sur les corpus très sensibles, nous orientons vers du self-hosted. Des modèles comme Llama 3.1 ou Mixtral, déployés en interne via Ollama, vLLM ou Triton, atteignent désormais des niveaux de qualité acceptables pour beaucoup de cas RAG — sans qu’aucun prompt ne quitte votre infrastructure.
Quelques réalisations
Nos missions RAG et assistants IA sont en bonne partie sous NDA. Les cas récurrents que nous traitons : assistant interne pour équipes support (base de connaissance produit), copilote juridique (sur corpus de jurisprudence et de doctrine), assistant RH (procédures internes, accord d’entreprise), recherche sémantique pour cabinets d’expertise, assistants documentaires pour éditeurs SaaS souhaitant proposer une couche conversationnelle à leur produit.
Et après le déploiement
Un assistant RAG vit avec son corpus. Si la documentation source n’est pas mise à jour, l’assistant devient progressivement obsolète. Nous mettons en place des pipelines d’ingestion incrémentale (un document modifié est ré-indexé automatiquement) et nous proposons un suivi régulier — typiquement quelques jours par trimestre — pour analyser les requêtes des utilisateurs, identifier les lacunes du corpus, ajuster le prompt système, mesurer le taux de satisfaction et de réponses traçables.