Étude menée en septembre 2025 sur un POC concret avec un réseau notarial français
Implémentation d'une solution IA, où vont vos données ?
Vous envisagez d'implémenter une solution d'IA pour traiter vos documents sensibles : certificats, actes, dossiers clients. Avant de financer le projet, une question est fondamentale : où vont vos données exactement ?
Si la réponse concerne Azure, AWS ou Google Cloud, vous serez confronté à quatre risques majeurs :
- Le Cloud Act C'est une loi américaine. Elle permet aux autorités fédérales d'exiger l'accès aux données stockées chez Azure ou AWS, peu importe la localisation du serveur.
- La souveraineté géographique : vos documents sortent du territoire. Formellement, les fournisseurs cloud respectent le RGPD. En pratique, vos données sensibles sont hébergées à l'étranger et peuvent faire l'objet de demandes d'accès.
- L'entraînement du modèle sur vos données : Avec la plupart des solutions SaaS, le modèle IA apprend de ce que vous lui fournissez. Aucune garantie que votre secret professionnel ne servira pas à entraîner d'autres modèles.
- La dépendance technologique (Vendor Lock-in) : Les conditions changent. Les tarifs augmentent. Parfois, l'entreprise change simplement de stratégie, et vous subissez ces évolutions sans recours.
Une approche alternative testée sur le terrain
En septembre 2025, nous avons mené un Proof of Concept (POC) complet avec un réseau notarial. L'objectif : automatiser le traitement de certificats en maintenant l'intégralité des flux en France.
Nous avons testé cinq solutions d'OCR (Reconnaissance Optique de Caractères) différentes. Nous avons analysé les performances sur un corpus réel et chiffré précisément les coûts d'exploitation et de développement.
Les résultats du POC
- 52 documents traités en 4 minutes 33 secondes : L'orchestration, réalisée via Apache Airflow, a permis une parallélisation complète sur un corpus réel. En utilisant une API classique, chaque document nécessite environ 15 secondes.
- Moins de 5 % de documents avec des défauts de numérisation : Pages manquantes, résolution insuffisante. Ces cas sont marginaux sur le corpus testé.
- 0,0045 € par document : C'est le coût avec l'option SaaS hébergée en France chez notre partenaire OVHcloud. Ce tarif est ferme et n'inclut aucun frais caché.
Architecture du pipeline RAG souverain
L'architecture s'articule autour de 5 étapes :
- Réception des documents via SFTP, depuis votre système d'information. C'est une brique robuste et classique.
- L'OCR transforme le PDF en texte, une étape critique. Si une défaillance survient ici, la chaîne de valeur est compromise. Nous avons testé Mistral OCR (France), LlamaOCR (Meta) et Qwen (hébergeable sur infrastructure souveraine).
- L'extraction de données par l'IA : Adresse, référence cadastrale, type de certificat. Nous avons utilisé Mistral Small 24B en auto-hébergement : aucune donnée ne sort de l'infrastructure.Observation technique : Le modèle "Small" s'est révélé plus fiable que le "Medium", atteignant 83 % de réussite contre 56 %. La performance ne dépend pas uniquement de la taille du modèle.
- Orchestration via Apache Airflow : Parallélisation automatique, relances en cas d'erreur et supervision du pipeline.
- Exposition du résultat via API REST, que votre logiciel métier appelle directement.
L'architecture est modulaire : chaque composant est remplaçable indépendamment. Ajouter un nouveau type de document nécessite entre 2 et 8 jours.
Le plafond de verre du manuscrit
Si la technologie atteint 95% de réussite sur les documents numériques natifs, elle plafonne à 60% sur le manuscrit. Cette limite impose une validation humaine pour garantir la fiabilité totale du processus. Pour un réseau notarial, ce POC a permis d'éviter un investissement risqué dans une autonomie à 100% encore prématurée techniquement.
Les deux scénarios budgétaires
Deux approches sont viables, selon votre structure.
Option A : Auto-hébergement complet
Vous disposez de votre propre infrastructure dédiée en France.
- Infrastructure : 8 064 €/mois.
- Infogérance : 1 580 €/mois.
- Développement : 29 jours.
C'est l'option recommandée pour les éditeurs de logiciels ou les groupements de cabinets importants.
Option B : Hébergement souverain mutualisé (OVHcloud)
- Pas de coûts d'infrastructure initiaux.
- Développement : 29 jours.
- Consommation : 0,0045 € par document. Pour 10 000 documents/mois, le coût est de 45 €.
L'infrastructure est incluse. C'est l'option idéale pour un cabinet indépendant ou un réseau de taille intermédiaire.
Les deux garantissent que vos données restent en France.
Les points clés à retenir
- La souveraineté est opérationnelle immédiatement avec des modèles open-source hébergés en France.
- L'OCR est le point de vigilance majeur. C'est là que les solutions marquent leur différence.
- Les modèles de taille intermédiaire peuvent surpasser les modèles massifs sur des tâches spécifiques d'extraction.
- L'architecture doit être modulaire pour éviter des refontes en cascade à chaque évolution technique.
- Le calendrier de déploiement est maîtrisé : Quatre semaines pour valider la faisabilité, 29 jours pour construire la solution.
Pour obtenir le benchmark détaillé des solutions, les schémas d'architecture et les formules de coûts complètes :
Téléchargez le guide PDF IA & Données Souveraines
Guide Décideur IA & Données Souveraines 2026 - Étude menée par Codéin en septembre 2025 - Montpellier & Strasbourg