Besoins de l’entreprise
J’ai récemment travaillé sur l’extraction automatique d’informations à partir de documents. Mon client cherche à étendre un service de mobilité qui marche bien à de nouveaux territoires géographiques. Le passage à l’échelle est souvent un appel à revoir la façon dont les choses se font au sein de votre entreprise; gérer des tâches fastidieuses et à faible valeur ajoutée, en automatique, une occasion de tirer parti de l’#IA.
Dans ce cas, le processus existant impliquerait le traitement de milliers de documents manuellement par mois (à l’origine une 100aine sur une zone limitée). Gagner en efficacité aidera votre approche de passage à l’échelle en réussissant à faire plus avec les mêmes équipes, maintenant recentrées sur des tâches à réelle valeur ajoutée stimulantes pour l’intelligence humaine, et de laisser l’#ArtificialIntelligence faire face aux corvées et tâches mondaines et répétitives.
Changer votre processus pour répondre à vos besoins en efficacité
Quand j’ai regardé les données recueillies par mon client, il y avait beaucoup de disparités dans le format des documents (pdf, jpg, ...). Même pour le même type de document (p. ex. preuve d’assurance), il y avait beaucoup de mises en page différentes que les utilisateurs finaux soumettaient au service. Heureusement, il existe des stratégies que vous pouvez utiliser beaucoup améliorer votre qualité de données : l’éducation de vos utilisateurs, en amont, est la meilleure approche. La gestion de la qualité des données à la source aide beaucoup à simplifier ce que les algorithmes auront besoin de faire. L’autre chose c’est que vos utilisateurs vont essentiellement fournir cet effort (#CrowdSourcing) pour fournir des intrants de meilleure qualité. C’est de loin le moyen le moins cher comme stratégie pour nettoyer sa donnée.
Autre effet positif de faire travailler ses utilisateurs
Souvent, cela nécessite des ajustements simples à vos flux de travail existants, en fournissant des conseils simples à vos utilisateurs finaux. Cela peut prendre la forme d’un modèle superposer sur l’ interface de votre application mobile « Prendre une photo de votre document XYZ ». Bien qu’il semble que vous imposiez des contraintes à vos clients au début, il faut aussi penser à l’effet positif de l’accélération drastique de votre temps de réponse de service lorsque ces documents seront traités automatiquement.
Diverses possibilités de contrôle de la qualité
Peu à peu, vous pourriez également envisager de créer des modèles d’apprentissage automatique qui vérifient la qualité des documents fournis par vos utilisateurs finaux, et de fournir des commentaires en temps réel « Votre qualité de document n’est pas acceptable pour la raison ‘ABC’ ». Encore une fois, cela semble imposer à vos clients. Mais pensez au coût de retraitement manuel du même document par votre organisation. Et qu’en est-il de l’expérience utilisateur si vous revenez quelques heures plus tard (ou pire encore, jours) pour faire savoir à vos clients qu’ils doivent tout refaire à nouveau. L’instantané est la norme, mieux vaut s’assurer que vous répondez à ces attentes maintenant.
Pourquoi faut-il une stratégie utilisateurs pour nettoyer sa donnée
Maintenant, en supposant que vous avez vérifié la qualité du document et extrait automatiquement les informations de vos documents clients, comment savez-vous que l’OCR (Optical Character Recognition) n’a pas disfonctionnement? Vous savez très bien le modèle d’apprentissage automatique que vous avez développé pour traiter un type de document donné est seulement bon à ~90%. Ce qui veut dire, eh bien, vous devez faire face aux cas qui ne fonctionnent pas bien. Encore une fois ici, demander à vos utilisateurs (#CrowdSourcing) de faire l’effort de la vérification de la qualité des informations extraites est la meilleure approche. Donnez aussi à vos clients la responsabilité de corriger les quelques erreurs, le cas échéant. Ils le feront volontiers sans frais supplémentaires pour votre entreprise; il ne s’agira que d’ajouter une nouvelle « étape de vérification » dans votre demande de « partager le document ». Votre service (back-office) pourra également recouper les informations entre les différents documents fournis par vos clients; offrant à nouveau l’occasion de revenir à vos clients en temps réel, en cas d’incohérence détectée.
Humain dans la boucle
Maintenant que vos clients ont envoyé les documents dont votre processus a besoin, les informations ont été vérifiées et corrigées par eux, c’est à vous de décider à quelle fréquence votre organisation va vérifier les informations. Selon la criticité de l’information pour votre entreprise, vous pourriez avoir besoin de vérifier manuellement 50% des documents identifiés initialement comme de « mauvaise qualité ». Par rapport à un processus manuel complet, ce n’est que quelques pourcents de l’ensemble complet du processus de documents. Cela signifie plus de temps de qualité pour vos collaborateurs de se concentrer sur ces documents « différents » tandis que le flux de travail pourra tirer le meilleur parti de l’information automatiquement renseignée dans vos bases de données.
Possibilité d’apprentissage
Nous avons vu que la « qualité des documents » peut être identifiée par un « modèle de qualité » spécifique. Le modèle d’extraction de documents peut également aider, fournissant un aperçu raffiné via son propre ensemble de mesures de qualité. En fait, chaque extraction sur le terrain, tout en traitant le résultat de la reconnaissance de charactère, fournit aussi son indice de confiance, indiquant à quel point le modèle pense que le texte est pertinent pour les données apprises pour ce type de document. Selon la criticité du champ texte pour votre entreprise, vous pouvez décider de rejeter les documents si le niveau de confiance de reconnaissance d’un champ est inférieur à 95 %. Pour d’autres zones de texte, il pourrait être acceptable de laisser entrer l’information même si le niveau de confiance n’est que de 75 %. Les différentes vérifications décrites ci-dessus, leurs résultats, les documents doivent être conservés et regardés par votre équipe de science des données, comme une occasion d’améliorer vos modèles. Les systèmes d’apprentissage machine (#MachineLearning) devraient toujours être surveillés, leur performance évaluée avec les données du monde réel, et mis à jour régulièrement en fonction de l’évolution de votre contexte d’affaires et des données associées. Nouveaux produits, nouveaux besoins des clients, nouveaux types de documents, ... sont autant de raisons de remettre en question votre modèles d’#IA. Il faut être capable de détecter la nécessité de réapprendre vos modèles à partir de ces nouvelles données extraites du monde réel.
Comments