Collecte de données informatiques

La collecte des données dispersées (ou réduction de l'entropie numérique)
Les données numériques font désormais partie de la vie et du fonctionnement de tout projet et de tout business. Au fil du temps ces données voient leurs volumes augmenter, sont manipulées et modifiées, transmises et réexploitées, éclatées ou regroupées, et parfois rendues obsolètes par l'arrivée d'un nouveau processus ou d'une nouvelle application informatique. A moins d'une gestion rigoureuse l'état général des données devient chaotique, inconsistant, non fiable. On peut voir cela comme de l'entropie « numérique » (augmentation progressive du désordre).
La décision de collecter et redonner de la cohérence aux jeux de données part souvent d'un impératif : l'obligation de "faire le ménage" dans les données, l'obligation de fiabiliser les données, le besoin d'injecter les données dans un nouveau progiciel ou un nouvel ERP, le regroupement des données lors de la réunion de services ou de secteurs d'une Entreprise, le besoin de concentrer des données pour effectuer son reporting (analyse statistique avec synthèse des résultats et génération d'indicateurs)... etc.
Le défi de la récupération et du tri des données
Lorsque le feu vert est donné pour la récupération des données, les Directions métiers et la Direction Informatique s'aperçoivent généralement de l'ampleur de la tâche, des difficultés techniques pour intégrer les données en provenance des nombreuses sources hétérogènes, et pour réussir à trier et fiabiliser tout ce qui est récupéré. La tâche est d'autant plus stressante que le timing est serré, et que l'expertise Data manque.
La mission de collecte est à géométrie variable. Le processus de collecte peut être « One Shot » (une seule exécution) ou programmé pour s'exécuter avec récurrence. La mission peut comprendre des interventions supplémentaires, comme la conception de processus ETL et passerelles d'échange des données vers d'autres systèmes (intégration de systèmes), ou la création d'une couche applicative destinée à contrôler les données récupérées.