Quai des Notaires

PoC IA : On a testé un agent IA souverain pour de la recherche documentaire

Contexte

expand-down

L'entreprise Quai des Notaires  a sollicité Codéin dans le but de déterminer la complexité que représenterait la création d’un agent IA capable d'extraire des données sur des supports variés tout en comprenant le contexte.

Le domaine du notariat nécessitant une confidentialité absolue et une souveraineté numérique totale, nous devions garantir un hébergement exclusivement basé en France.

Objectifs

expand-down
  • Réaliser un projet expérimental avec des moyens et une période restreints afin de vérifier la viabilité du projet de création d'un agent IA.
  • Identifier automatiquement le type de document réceptionné afin de les classifier sans intervention humaine.

Résultats

expand-down

Le PoC a démontré une excellente maîtrise de la recherche sémantique, confirmant la capacité de l’agent IA à traiter intelligemment les contenus numériques. 

Les tests ont toutefois révélé des limites sur les documents manuscrits, les structures non linéaires et les ratures, qui freinent encore l’automatisation complète. 

En complément de ce bilan technique, nous avons livré un rapport et un chiffrage détaillé mettant en évidence un coût d’hébergement important.

60%
de réussite globale
en incluant les scans et manuscrits
95%
de réussite
sur le flux des documents natifs numériques
60%
de réussite globale
en incluant les scans et manuscrits
95%
de réussite
sur le flux des documents natifs numériques

Le défi technique, contextualisation et déduction de la donnée

La complexité de ce PoC réside dans la compréhension de l'analyse sémantique des documents plutôt que la simple extraction des données formatées :

1- Intelligence contextuelle : L’IA doit déduire certaines données selon le contexte des échanges entre le notaire et son client (Type de demande client, historique des échanges mails, informations présentes implicitement dans certains documents, …)

Cas d'usage : La validation d'un certificat de numérotage n'est pas toujours intrinsèque au document. Si une adresse est confirmée de manière informelle dans un échange d'e-mails, l'IA doit déduire que cette confirmation valide de facto le certificat associé.

2- Multimodalité complexe : l'algorithme doit gérer des données hétérogènes difficiles pour l'OCR : 

  • Interprétation et compréhension de différentes sources en les croisant
  • Traitement de scans de dossiers papiers comportant des annotations manuscrites (ajouts au stylo, flèches de renvoi), rendant la tâche de l'OCR complexe.

Le défi technique, contextualisation et déduction de la donnée

La complexité de ce PoC réside dans la compréhension de l'analyse sémantique des documents plutôt que la simple extraction des données formatées :

1- Intelligence contextuelle : L’IA doit déduire certaines données selon le contexte des échanges entre le notaire et son client (Type de demande client, historique des échanges mails, informations présentes implicitement dans certains documents, …)

Cas d'usage : La validation d'un certificat de numérotage n'est pas toujours intrinsèque au document. Si une adresse est confirmée de manière informelle dans un échange d'e-mails, l'IA doit déduire que cette confirmation valide de facto le certificat associé.

2- Multimodalité complexe : l'algorithme doit gérer des données hétérogènes difficiles pour l'OCR : 

  • Interprétation et compréhension de différentes sources en les croisant
  • Traitement de scans de dossiers papiers comportant des annotations manuscrites (ajouts au stylo, flèches de renvoi), rendant la tâche de l'OCR complexe.

PROPOSITION

Proof of Concept
Proof of Concept (PoC)
Optical Charater Recognition
Optical Character Recognition (OCR)
Agent IA
Agent IA
Hébergement SaaS
Hébergement Saas sur une infrastructure type OVH

La contrainte de souveraineté et d'hébergement

Pour concilier confidentialité notariale (données en France) et coûts d'infrastructure, le choix s'est porté sur un cloud souverain (type OVH cloud) plutôt que sur un un serveur dédié. Cette contrainte d'hébergement a dicté le sourcing des modèles :

  • Avantages : Garantie de localisation en France, certifications de sécurité (type SecNumCloud), facturation à l'usage (Pay-per-use) et un budget estimé inférieur à celui d'une machine dédiée.

Le sourcing des modèles IA

La contrainte d'hébergement a drastiquement filtré le choix des technologies :

  • LLM : Choix d'un modèle "Open Weights" auditable et sécurisé.
  • OCR/Vision : Défi majeur du PoC, la recherche d'un modèle performant sur le manuscrit (OCR) tout en restant hébergeable en France a constitué le principal goulot d'étranglement.

La contrainte de souveraineté et d'hébergement

Pour concilier confidentialité notariale (données en France) et coûts d'infrastructure, le choix s'est porté sur un cloud souverain (type OVH cloud) plutôt que sur un un serveur dédié. Cette contrainte d'hébergement a dicté le sourcing des modèles :

  • Avantages : Garantie de localisation en France, certifications de sécurité (type SecNumCloud), facturation à l'usage (Pay-per-use) et un budget estimé inférieur à celui d'une machine dédiée.

Le sourcing des modèles IA

La contrainte d'hébergement a drastiquement filtré le choix des technologies :

  • LLM : Choix d'un modèle "Open Weights" auditable et sécurisé.
  • OCR/Vision : Défi majeur du PoC, la recherche d'un modèle performant sur le manuscrit (OCR) tout en restant hébergeable en France a constitué le principal goulot d'étranglement.
Proof of Concept AI - Codéin
Proof of Concept AI - Codéin
PoC IA - création d'un agent IA
PoC IA - création d'un agent IA

Résultats techniques

Si l'IA sémantique est performante, l'ambition d'autonomie totale se heurte aux limites actuelles de l'OCR.

Le point de blocage : l'écrit manuscrit 

L'analyse des scans révèle des difficultés majeures sur les éléments non-linéaires. Les annotations complexes (flèches de renvoi, notes en marge, ratures) perturbent la lecture de l'IA. 

Conclusion technique : Ce delta impose le maintien d'une validation humaine systématique, la technologie souveraine actuelle ne permettant pas encore l'automatisation complète sans surcoût d'entraînement.

Résultats techniques

Si l'IA sémantique est performante, l'ambition d'autonomie totale se heurte aux limites actuelles de l'OCR.

Le point de blocage : l'écrit manuscrit 

L'analyse des scans révèle des difficultés majeures sur les éléments non-linéaires. Les annotations complexes (flèches de renvoi, notes en marge, ratures) perturbent la lecture de l'IA. 

Conclusion technique : Ce delta impose le maintien d'une validation humaine systématique, la technologie souveraine actuelle ne permettant pas encore l'automatisation complète sans surcoût d'entraînement.

Organisation du PoC

Une approche agile a permis de maîtriser les coûts malgré la complexité.

  • Budget & temps : 13 jours.
  • Suivi : Un point hebdomadaire permettant d'ajuster le périmètre en temps réel.
  • Pivot : Le temps a été réalloué massivement vers l'étude de l'hébergement (hosting), car le coût.

Organisation du PoC

Une approche agile a permis de maîtriser les coûts malgré la complexité.

  • Budget & temps : 13 jours.
  • Suivi : Un point hebdomadaire permettant d'ajuster le périmètre en temps réel.
  • Pivot : Le temps a été réalloué massivement vers l'étude de l'hébergement (hosting), car le coût.
Méthodologie du PoC
Méthodologie du PoC

Bénéfices client

Le projet a parfaitement rempli son rôle d'aide à la décision. Bien que l'ambition d'une automatisation totale se heurte aux limites actuelles du traitement des manuscrits (60% de réussite globale), cette étape a permis de :

  • Définir une trajectoire technique claire : Nous avons livré un rapport complet détaillant les pistes d'amélioration pour augmenter le taux de réussite, accompagné d'un chiffrage précis pour une solution finalisée.
  • Garantir la conformité métier : L'analyse des solutions d'hébergement souverain permet au client de se projeter sur une infrastructure respectant la confidentialité et la souveraineté des données notariales, tout en anticipant les coûts opérationnels associés.
  • Sécuriser l'investissement du client : En investissant dans ce PoC, le client a pu décider de se lancer ou non dans se projet en toutes connaissances de causes (chiffrage et viabilité du projet).


 

Bénéfices client

Le projet a parfaitement rempli son rôle d'aide à la décision. Bien que l'ambition d'une automatisation totale se heurte aux limites actuelles du traitement des manuscrits (60% de réussite globale), cette étape a permis de :

  • Définir une trajectoire technique claire : Nous avons livré un rapport complet détaillant les pistes d'amélioration pour augmenter le taux de réussite, accompagné d'un chiffrage précis pour une solution finalisée.
  • Garantir la conformité métier : L'analyse des solutions d'hébergement souverain permet au client de se projeter sur une infrastructure respectant la confidentialité et la souveraineté des données notariales, tout en anticipant les coûts opérationnels associés.
  • Sécuriser l'investissement du client : En investissant dans ce PoC, le client a pu décider de se lancer ou non dans se projet en toutes connaissances de causes (chiffrage et viabilité du projet).


 

Nos autres Business cases

Un projet ?

Contactez-nous !

Votre demande a bien été transmise !
Une erreur est survenue.

Suivre l'actu Codéin ?