
Le constat
En cherchant des statistiques sur l'utilisation de Linux, je suis tombé sur cet article. Bien documenté et riche en informations, il semble à première vue fiable, avec des sources consultables en bas de page.
Mais un détail cloche. L'article affirme que 47 % des développeurs utilisent Linux, 61 % préfèrent Windows, et 44 % optent pour Mac OS. Un graphique illustre cette répartition :
{ type: 'pie', data: { labels: 'Linux 47 %', 'Windows 61 %', 'Mac OS 44 %', 'Autres 1 %', datasets: { data: 31, 40, 29, 1 } }, options: { plugins: { legend: { position: 'right' } } } }
Vous voyez le problème ?
Intrigué, je vérifie la source : un lien vers Statista en bas de page. Les chiffres sont bien là, mais le titre diffère légèrement : "Distribution des systèmes d'exploitation PC pour le développement de logiciels dans le monde de 2018 à 2023".
En remontant la piste des sources, je découvre que l'origine est une étude de JetBrains. Et là, tout s'éclaire : le titre original est "Sur quels systèmes d'exploitation se trouvent vos environnements de développement ?".
Les chiffres sont corrects, mais le contexte s'est perdu en route, rendant les résultats présentés erronés.
Le problème s'aggrave lorsqu'on interroge ChatGPT, d'autres LLMs ou des moteurs de recherche sur l'utilisation de Linux. Les mêmes chiffres et illustrations ressortent, souvent sans sources.
L'article initial a été repris, intégré aux LLMs, qui ont eux-mêmes alimenté de nouveaux sites, créant un cercle vicieux. Ces données déformées sont devenues la référence.
L'automatisation de l'entraînement des LLMs et la génération de contenu posent un nouveau défi : une information, même erronée, se propage et se multiplie.
Il est donc crucial de maîtriser la qualité des sources que nous utilisons pour éviter cet effet boule de neige dans nos systèmes modernes. Il est également essentiel de s'assurer qu'aucune information n'est perdue ou déformée pendant les transformations. Cela demande des connaissances métier sur les données et une méthode d'observabilité des données pour garantir la qualité de bout en bout.
Heureusement, des chiffres bruts et fiables existent. Dans cet exemple, ils sont disponibles sur JetBrains, W3Counter ou StatCounter. Ces dernières plateformes se basent sur les données remontées par les navigateurs Web pour la consultation des sites Internet. Cependant, ces données demandent une analyse plus poussée pour être correctement interprétées.