Covid-19 : Quand Excel fausse les chiffres

C’est bien connu : dans les entreprises, tout le monde déteste Excel, mais personne ne peut s’en passer. C’est le fameux “Spreadsheet Paradox”, gros pourvoyeur de débat entre les services métiers (pour qui les tableurs sont une seconde langue maternelle) et la Direction des Systèmes d’Information (en mode : “le jour où ça explosera, ne venez pas vous plaindre”).

Malheureusement, lorsque “ça explose”, il arrive que les conséquences dépassent largement les frontières d’une douillette salle de réunion pour provoquer de véritables drames. De Kodak à Barclays, du Comité Olympique au célèbre MI5, on ne compte plus les millions de dollars perdus à cause d’une erreur de copier/coller, d’un mauvais formatage ou d’une formule mal répliquée.

Aujourd’hui, la liste s’allonge d’un nouveau cas, dont les conséquences pourraient malheureusement se situer au-delà de la finance. Le Daily Mail nous apprend en effet que près de 16 000 cas positifs à la Covid-19 n’ont pas été répertoriés à cause d’un “problème Excel”. Dans le détail, il apparait que les données collectées par les laboratoires effectuant les tests étaient transmises au Public Health Service à l’aide de classeurs Excel. Une fois centralisés, ces fichiers étaient eux-mêmes consolidés… dans un classeur Excel. Or, comme vous le savez, le Royaume-Uni a récemment connu une forte hausse du nombre de cas de Covid-19. Cette augmentation s’est évidemment répercutée dans les fichiers transmis… Jusqu’au moment où la taille du fichier consolidé a fini par dépasser les limites d’Excel. Une fois cette limite atteinte, les nouvelles données ont été simplement ignorées. C’est ainsi que, entre le 25 septembre et le 2 octobre, 15 841 cas n’ont pas été répertoriés.

La conséquence de cette erreur n’est pas seulement statistique : ces cas non répertoriés n’ont pas pu faire l’objet d’une recherche de cas contacts et le temps perdu dans ce traçage risque de retarder l’isolement des patients concernés, et d’occasioner un surcroit de contaminations. Informé, le Secrétaire d’Etat à la Santé (Health Secretary) Matt Hancock a tenu une réunion d’urgence au cours de laquelle il a affirmé que le problème avait été réglé… En répartissant les données sur davantage de fichiers Excel.

Sans polémiquer, quelles conclusions tirer de cet incident ?

Une première recommandation pourrait être la suivante : lorsqu’un service vous dit qu’il stocke ses données dans “une base de données”, vérifiez qu’il s’agit d’une “vraie” base, et pas d’un fichier Excel.

La seconde recommandation est plus drastique : si Excel est un formidable outil pour créer des documents, ce n’est pas une solution de collecte de données efficace. Les risques sur la qualité des données sont considérables pour 2 raisons principales :

Il n’est tout simplement pas possible d’empêcher un utilisateur de transmettre un fichier contenant des données incomplètes incohérentes : il lui suffit de cliquer sur “enregistrer sous”

Excel ne contient aucune structure de données pouvant être synchronisée. D’où le règne des copier/coller plus ou moins automatisés

Tout processus métier impliquant une collecte de données à l’aide de fichiers Excel (et cela vaut évidemment pour tous les autres tableurs : Google Sheets, Zoho et les autres “me-too“) doit être décommissionné au plus tôt et remplacé par un processus garantissant la qualité des données et leur interopérabilité avec les outils d’aide à la décision.

Mais ce décommissionnement se heurte souvent aux utilisateurs qui, s’ils reconnaissent volontiers les limites de leur tableur, ne sont pas pour autant prêts à l’abandonner (vous vous rappelez du “Spreadsheet Paradox” ?). Et vous savez bien qu’en leur interdisant d’utiliser leur tableur favori, vous ne ferez que les pousser à l’utiliser encore plus, mais plus discrètement, générant ainsi un “shadow IT”, véritable bombe à retardement pour les données de l’organisation.

Que faire alors ? Utiliser la seule solution du marché spécifiquement dédiée à cette problématique : Gathering Tools.

Related posts: