« Je crois beaucoup aux vertus de l’open data »

2018-11-14T10:44:02+00:00 7 septembre 2018|Catégories : INTERVIEW|Mots-clés : , , , , , , , |

Michaël Benesty (Diplômé d’expertise comptable, ancien avocat, ingénieur en machine learning appliqué), qui est intervenu en tant que témoin lors du tribunal des générations futures à l’occasion des universités d’été de la profession comptable francilienne, est une personnalité que l’on peut qualifier de « rare »… Ingénieur en machine learning appliqué, il a exercé pendant plusieurs années la profession, puis celle d’avocat ! Au cours d’un entretien dans le cadre du LAB 50, il nous a donné sa vision des impacts de l’IA, plus précisément du machine learning sur la profession du chiffre.

Sommaire

Partager l’article

CATEGORIES

RSS Diigo

Lab50 : Michaël Benesty, vous avez un parcours atypique puisqu’avant d’exercer le métier d’ingénieur en machine learning appliqué, vous avez travaillé dans un cabinet d’expertise comptable puis exercé la profession d’avocat…

Je suis en effet diplômé d’expertise comptable ce qui m’a permis de travailler aux Etats-Unis pendant 18 mois au sein du cabinet Deloitte. Ensuite, j’ai exercé comme avocat chez TAJ sur le contrôle fiscal informatisé. Je me suis intéressé au machine learning ce qui m’a permis de créer un algorithme relatif à l’analyse des décisions de justice. Aujourd’hui, je travaille pour le groupe ELS toujours dans le machine learning.

Le machine learning, c’est vraiment par excellence ce que l’on peut qualifier d’intelligence artificielle ?

L’intelligence artificielle ressemble parfois à un concept marketing. En réalité, ça ne veut pas dire grand-chose dans l’industrie.
Le machine learning, c’est l’algorithme apprenant. Sachant qu’il y a plusieurs types d’apprentissage possibles : supervisé, non supervisé, par renforcement…
Pour schématiser, il faut disposer de données, annotées ou non en fonction du but à atteindre. Elles sont soumises à un algorithme de machine learning qui apprend à les classer. Ce classement s’opère de manière probabiliste, en étiquetant la donnée soumise dans la catégorie qui apparaît la plus probable au regard des informations qu’elle a déjà observées. Au terme de cet apprentissage, on lui soumet de nouvelles données.
Comme je l’indiquais, les données ne sont pas nécessairement structurées, autrement dit présentées sous forme de tableau ou assimilé. Je pense par exemple aux images ou au texte.
Pour ma part, je travaille essentiellement sur du texte, en l’occurrence des décisions de justice, dans le but de les anonymiser.
Il faut comprendre que créer des jeux de données par apprentissage supervisé est très coûteux puisqu’il nécessite une intervention humaine permanente pour valider le résultat proposé par l’algorithme. Aujourd’hui, l’objectif est vraiment de développer l’apprentissage non supervisé qui, lui, est beaucoup moins cher.
Pour le texte, l’apprentissage non supervisé est bien plus simple. En effet, on dispose d’un volume considérable de texte. Je pense notamment à Wikipedia.
Le jeu consiste donc à alimenter l’algorithme de cette masse de texte. Ainsi, il apprend des représentations de chaque mot et leur donne un vecteur. Puis, il synthétise la distribution des mots qui sont autour, à droite et à gauche. Grâce à ce volume, l’algorithme va comprendre qu’il y a des associations, des connections entre les mots. Ainsi, on regarde les « n » mots précédents pour tenter de prédire les « n » mots qui suivent. Pour bien comprendre, c’est un peu le même principe lorsque vous tapez les premières lettres d’un mot sur votre smartphone : il vous propose plusieurs mots, en utilisant notamment vos saisies précédentes.
En réalité, c’est plus simple avec du texte, car le mot en tant qu’unité est porteur de sens. Pour les images, un pixel ne véhicule pas de signification particulière.
Cette technique est testée depuis 2012 et est en train de rentrer en production un peu partout. Il faut bien comprendre que, sur ce type de développement, l’enjeu économique est immense.

Venons-en précisément à la profession du chiffre. Selon vous, est-ce qu’un logiciel comptable, tel qu’on en connaît aujourd’hui, c’est de l’intelligence artificielle ?

C’est bien artificiel et c’est intelligent, donc oui. Mais en précisant qu’il s’agit d’une IA assez pauvre.
Comme je l’indiquais, l’IA appartient plus au domaine du marketing. Ce qui ne veut pas dire que ce soit un mauvais mot, mais c’est flou, ça désigne une famille.
Pour ma part, je préfère parler de machine Learning : l’algorithme apprenant.

Y’a-t-il matière, dans la profession, à exploiter le machine learning ?

Être en mesure de répondre précisément à cette question est avant tout une affaire de culture. Cela nécessite de comprendre ce que vit le client et ce dont il a besoin.

Il y a certainement des choses à faire avec le machine learning pour résoudre des pain points¹.

Le problème c’est avant tout d’identifier ces pain points et de déterminer si l’IA peut les résoudre. A mon avis, beaucoup de personnes y réfléchissent depuis longtemps. Et si personne n’arrive à trouver l’IA magique, la question est alors : ces pain points que pourraient résoudre l’IA existent-ils vraiment ?
En matière comptable quel est le pain point le plus partagé ? Celui douloureux et récurrent de la transmission des pièces par le client ? On pourrait alors imaginer un bot, une sorte de wizard², qui demanderait à étapes régulières les pièces comptables aux clients, en ayant détecté celles qui manquent. Dans ce cas de figure un algorithme très sophistiqué n’est pas nécessaire. Ou bien, peut-être plutôt sur une deuxième version. Mais en première version, on a simplement besoin de quelque chose qui trace le parcours de l’utilisateur.
Un bot qui pourrait également répondre aux questions les plus simples des clients. Car ces questions représentent un volume important et le délai de réponse génère des frustrations. Ce peut être par exemple, de renvoyer le bilan, telle ou telle pièce…

Un bot serait une solution facile à mettre en place pour un cabinet ?

Comment fonctionne un bot ? L’algorithme repère les mots, les mets dans des cases auxquelles sont liés des scenarios qui sont alors activés. Ça fonctionne plutôt bien pour les questions fermées, qui n’impliquent pas de discussions « libres ».
Ce qui coûte le plus, c’est d’écrire les scenarios. Il faut donc envisager chaque cas auquel on est en mesure de répondre de manière générique. Et si la question d’un client ne correspond pas à une question scénarisée, alors il est sorti du système pour être renvoyé vers un collaborateur.

Les experts-comptables auraient intérêt à se rassembler pour mettre en place ce système générique qui permette de répondre aux principales questions des clients en mutualisant les coûts de développement.

Ce sont finalement des outils dédiés à la communication…

En réalité, plus que la conception d’outils complexes qui coûtent très chers à développer et qui résolvent de tous petits pain points,

je crois en effet davantage à la mise en place d’outils qui améliorent la communication.

Notamment la communication interne. Un outil de type Slack par exemple…

Slack… c’est-à-dire ? 

C’est une application dédiée à la communication rapide et qui en garde les traces. On peut faire un parallèle avec l’email. Au fond, pour beaucoup d’entre nous, la boite mail ressemble à une vaste base de données : on fait ses recherches en tapant un mot clef dont on se souvient avec des résultats parfois aléatoires.
Slak fait un peu la même chose mais en beaucoup mieux, en plus rapide et en mieux intégré notamment sur son smartphone. La tout partagé par une équipe. C’est très bien fait, donc nécessairement bien utilisé. Et ça peut apporter de vrais gains de productivité.

A mon sens et en règle générale, il n’y a pas suffisamment de collaboration entre les membres d’un cabinet.

Il y a une ignorance de ce que fait ou a fait l’autre. C’est d’ailleurs assez naturel : on ne peut pas passer son temps à faire des points et des réunions de coordination. Dès lors, une mise en commun des données et une fluidification de la communication peut s’avérer très utile.
Prenons l’exemple d’un rapport de commissariat aux comptes relatif à un secteur très spécifique. Si un collègue est déjà intervenu dans ce domaine, on peut arriver à partager ce qui a déjà été fait et s’enrichir de cette expérience. On a d’ailleurs souvent plus confiance dans ce qu’a fait son collègue, qui a été confronté à la réalité, que dans le formulaire d’un éditeur.

La profession du chiffre est souvent brocardée comme l’une des plus exposée à l’IA qui pourrait rapidement remplacer les professionnels ?

Quel est le vrai métier de l’expert-comptable ? Certainement pas compter. Je crois que c’est d’être, avant tout, auprès de son client qui rencontre des obstacles et des difficultés en permanence.

Pour y faire face, il a besoin de partager, voire d’en confier la résolution à un professionnel de confiance, afin de pouvoir se consacrer sereinement à son métier.
Ces difficultés on ne les connaît pas à l’avance : il faut donc pouvoir « encaisser » n’importe quoi. D’où l’importance d’avoir des humains avec un esprit souple. L’IA en est aujourd’hui incapable.
Je vais vous donner un exemple. Dans l’industrie il y a un exercice qui se nomme, reading comprehension. On a demandé à des humains de lire des textes et de poser 5 questions très simples qui trouvent leur réponse dans le texte. Du type : « les pharmacies vendent des médicaments : que vendent les pharmacies ? ». Sur 100 000 questions ainsi soumises à un algorithme, le taux de réussite est de 80 %.
Ensuite, ont été ajouté des questions pièges. Elles ne sont pas repérées. Certains disent que les algorithmes de machine learning ne sont que des sortes de données mais approximatives (floues) : on ne peut trouver que ce qu’on a vu.
De mon point de vue, c’est la tâche la plus proche de ce que font les experts-comptables : répondre à des questions complexes. Or, on voit bien que l’IA peine déjà à le faire sur des questions ultra simples…

Si l’on vous suit, l’important finalement, c’est de renforcer cette capacité des professionnels du chiffre à répondre aux questions et à l’imprévision ?

Absolument. D’où l’importance de la communication au sein des équipes pour partager plus rapidement les solutions.
Quand on conçoit cela, il n’y a pas d’innovation fulgurante à escompter… L’outil va continuer à progresser lentement comme à l’accoutumé.

Je crois plus à des innovations sur le partage et la communication qui permettent de répondre et d’accompagner le chef d’entreprise plus efficacement.

En même temps, les clients et leur mode de consommation évoluent… Ils veulent des services plus rapides. Or, aujourd’hui, il y a des frottements sur des tâches qui paraissent simples.

Les frottements dont vous parlez, c’est sans doute l’accès immédiate du client à son information comptable et financière. Ce que l’on nomme le data easy commodity. Ça a beaucoup progressé me semble-t-il. Puisque ça peut se mettre en place d’un claquement de doigts : il suffit d’API³ et de la bonne volonté des éditeurs.
Après, pour la comptabilité en temps réel, cela dépend toujours de la transmission des pièces par le client, même s’il y a une automatisation plus importante avec la possibilité d’aller chercher les factures systématiquement chez certains fournisseurs.

En parallèle, le client fait face à des incertitudes et a besoin qu’on l’aide à décider. N’y-a-t-il pas là des sujets d’innovation ? Notamment en utilisant l’IA et les datas pour mieux prédire les évènements à venir ?

Prédire, c’est s’engager. Personne n’est vraiment à l’aise avec ça.

Mais, il est vrai que l’IA peut faire ressortir des probabilités d’évènements.

Plus naturellement dans le conseil non financier, dans la gestion, notamment celle du stock. On sait par exemple, qu’en fonction de certaines données, on est capable de prédire sur une machine l’usure d’une pièce, le moment où il faut la changer pour ne pas perdre en production. On pourrait donc imaginer que l’expert-comptable rende ce type de service à ses clients.

Cela demande une spécialisation sectorielle, mais également, une mutualisation entre cabinets, pour partager les expériences et amortir les coûts.

Les plus ambitieux le feront.

Pour ce faire, la profession possède de nombreuses données. C’est précieux. Mais le véritable enjeu est de les connecter entre elles ou de les croiser avec d’autres.

En somme, il faut les transformer et les enrichir pour pouvoir apporter un meilleur service.

L’IA ne présente-t-elle pas un risque pour la prérogative d’exercice de l’expert-comptable ? En ce sens qu’elle pourrait réaliser seule toutes les opérations de tenue et de révision de la comptabilité, jusqu’au bilan ?

Tout d’abord, je voulais juste préciser que j’ai exercé dans un cabinet aux US, là où aucune prérogative d’exercice n’existe. Cela n’empêche pas le CPA d’être très présent et reconnu sur le marché. Toutes les banques demandent des comptes revus par un CPA.
Ensuite, ce qu’il faut bien comprendre c’est la différence de logique entre l’IA et l’exercice du métier. Un algorithme, même si l’objectif est de réduire au maximum sa marge d’erreur, n’est pas fiable à 100 %. Si c’est par exemple 98 %, le 2 % d’erreurs peut avoir des conséquences immenses. Le professionnel, lui, maîtrise ses risques et ne laissent pas passer les erreurs aux conséquences les plus importantes.
Ce qu’il advient toutefois dans le cadre de l’établissement des comptes, c’est qu’une IA fait, au fur et à mesure de son évolution une part de plus en plus importante du travail mais que derrière un humain passe pour contrôler ce travail, détecter les erreurs et valider.

Les métiers du chiffre sont réglementés et soumis à une déontologie c’est-à-dire à des règles de comportement. Est-ce que l’IA, en participant au travail de l’expert-comptable peut représenter un risque en termes de conformité vis-à-vis de ces règles de comportement ? Car celui qui programme ne prête pas serment et il est difficile de contrôler l’algorithme qu’il a créé et les données soumises…

Il faut avouer que l’algorithme, on ne le maîtrise pas totalement. En machine learning, ils sont publiés en open data.
Mais il n’y a aucune garantie sur le résultat. Ce n’est que de manière empirique, en contrôlant les résultats, que l’on parvient à savoir ce qui se passe à l’intérieur et à le corriger, le cas échéant.
Donc, le problème, bien avant l’éthique du programmeur, c’est celui de la transparence. Car un programmeur peut être tout à fait éthique mais ne pas savoir comment fonctionnera l’algorithme apprenant qu’il a créé.
Le seul moyen de vérifier un algorithme consiste à le faire fonctionner sur de nouvelles données qu’il n’a jamais vu. Dès lors, on compte le nombre de fois où il se trompe. On mesure mais on ne démontre rien.
Pour aller plus loin dans l’explication, on peut prendre le parti de classer les algorithmes schématiquement en deux catégories. Il en existe de très sophistiqués, que l’on peut qualifier de black box. Si potentiellement ils donnent de meilleurs résultats, on ne sait pas dire ce qui se passe à l’intérieur. Et on peut vite dériver vers la bêtise.
Il existe également des algorithmes plus simples, plus linéaires. Ils seront certes un peu moins performants, mais au moins on est capable d’expliquer le cheminement et la raison pour laquelle on arrive au résultat.
Par exemple, il y a peu de temps, en matière judiciaire, une analyse a été menée sur des décisions en matière de licenciement de salariés du privé pour déterminer les juridictions les plus souples et les plus sévères. Ce qui a abouti à faire ressortir une cour administrative d’appel dont la compétence en la matière est réduite aux salariés protégés. Autant dire que le résultat a été passablement critiqué.

Tout ça signifie qu’il faudra toujours la présence d’humains pour choisir le modèle interprétable, documenter la création de l’algorithme et contrôler le résultat.

Il faut bien comprendre que le machine learning travaille sur des corrélations et non sur des causalités. Il faut réintroduire de la causalité avec des êtres humains si on ne veut pas aboutir à des catastrophes.
Il y a également la question des biais dans les données. Par exemple, dans les décisions de justice, il en y a beaucoup qui proviennent de Corse car les cours y sont très ouvertes et communiquent la quasi-totalité de leurs décisions. Dès lors, est-ce que cette sur représentation géographique ne comporte pas un biais ? Il faudrait pondérer.
Mais comment s’assurer que les jeux de données sont correctement calibrés ?

De votre expérience, quels sont les moyens qui permettent le mieux de développer l’IA au service d’une profession ?

Je crois beaucoup aux vertus de l’open data.

Car lorsque vous mettez à disposition vos données, à condition bien sûr que cela soit juridiquement possible, cela permet à des start-up de s’y greffer et de développer des solutions innovantes à l’usage de la profession.
Pour ma part, dans le cadre de mon activité, j’utilise notamment la jurisprudence que la cour de cassation met en ligne en open data. Je dois dire que c’est remarquablement bien fait et exemplaire. On ne peut pas en dire autant par exemple du parlement.
L’open data demande de la documentation et de la propreté.
Regardez également les GAFA : ils font de l’open data. Certes, pas sur ce qui est déterminant, c’est-à-dire le search pour Google par exemple. C’est certainement Criteo qui joue le plus le jeu de ce point de vue.
Dans le monde du droit, il y a l’association open law qui regroupe les principaux éditeurs (ELS, WK, Lexis Nexis…) la cour de cassation, le conseil d’Etat, la CNIL. Sur les différents projets en cours, dont certains en machine learning, le travail est divisé et réalisé par les différents acteurs. Et nous ouvrons toutes ces données. Il y a de nombreuses start-up qui les utilisent pour créer de nouveaux produits qui nous serviront ensuite ainsi qu’à l’ensemble des professions du droit.

Si on veut faire avancer les choses, c’est très important d’avoir cette zone, ce terrain neutre où tout le monde peut se parler.

Quand bien même certains seraient concurrents.
Il y a ensuite des conférences, des articles, de l’économie… ça génère de l’intérêt.

Et si les experts-comptables mettaient leurs données, une fois anonymisées, en open data ?

D’abord, il faut être bien sûr que l’anonymisation tienne la route. Il peut être facile d’identifier des données même anonymisées.
Si cela est donc possible, il pourrait être intéressant d’ouvrir l’accès des données agrégées aux professionnels ou à des accounting tech autorisées par la profession après avoir indiqué l’objectif de l’utilisation.
C’est tout l’intérêt de faire travailler des start-uper qui rêvent de créer le produit magique et rentable. En laissant libre court à la créativité, le résultat est souvent bien meilleur comparé à celui d’un intervenant travaillant dans le cadre d’une commande précise et dont le montant des honoraires est prédéfini. Et quand bien même des projets ne seraient pas rentables, d’autres viendront ensuite pour reprendre et améliorer le bout de chemin déjà accompli. En laissant faire le marché, on en tire toujours profit indirectement. C’est un peu la nouvelle façon de penser et de faire.
Pourquoi Google donne-t-il son algorithme ? Tout simplement parce qu’il en tire avantage indirectement. En matière de recrutement notamment : ceux qu’il embauche ont moins besoin d’être formés et sont immédiatement efficaces.

Notes

¹ Dans le domaine du marketing, l’expression anglaise « pain point » désigne un point de douleur ou un irritant client. Les pain points peuvent jouer un rôle important dans l’expérience d’usage ou d’achat du client en la dégradant.

Nos articles récents

« Notre préoccupation majeure est celle du respect du secret professionnel »

16 novembre 2018|

Rencontre avec lAudit, la start-up qui promet une révolution !

18 octobre 2018|

« Je crois beaucoup aux vertus de l’open data »

7 septembre 2018|

Imprimer cet article

Laisser un commentaire