vendredi 19 mai 2017

Les inventaires Spéléologiques avec Talend


Talend est un logiciel de Business Intelligence : il permet de traiter de grands volumes de données informatiques afin de faire de l'analyse et de donner des informations utiles pour la prise de décision en entreprise.

Talend propose une version "Community" que vous pouvez utiliser gratuitement et qui offre des possibilités très utiles si vous souhaitez traiter les données dont vous disposez dans vos inventaires spéléologiques.

C'est le module Data Intégration que j'ai utilisé. Il n'y a pas d'installation du logiciel qui fonctionne sur toutes les plateformes. Voila quelques fonctions que j'ai pu utiliser

Extraction de données
Talend vous permet de récupérer des données provenant de nombreuses bases de données, de fichier texte, de tableaux, de site internet, de mel, d'un ensemble de fichiers contenus dans un répertoire.
Pour ma part je me suis connecté à une base de donnée MySQL et j'ai récupéré des fichiers xls et csv : cela fonctionne parfaitement.

Sélection, tri, rapprochement de données : plusieurs outils sont disponibles

TSortRow permet de retirer les valeurs qui correspondent (ou ne correspondent pas) à un critère. Ici j'ai supprimé de l'analyse toutes les lignes pour lesquelles je n'avais pas de coordonnées


TMap est le couteau Suisse du module Data Intégration, Je m'en suis servi pour rajouter le nom des organisations présentes dans Grottocenter dans une tableau où je n'avais que leur identifiant.

Normalisation des indications géographiques
Souvent nous avons des informations qui sont incomplètes, imprécises et il arrive que les communes ou les régions changent de nom. Comment faire pour avoir des informations complètes et justes ?
La solution que j'ai retenue est de partir des coordonnées et de récupérer les indications en utilisant une API de "Reverse GeoCoding"
Talend propose des solutions dans sa version payante mais il est possible de créer son propre script en utilisant  les API proposées par Google ou par OpenStreetMap : Google limite l'utilisation de son API a 2500 requêtes par 24h, Nominatim (OpenStreetMap) est utilisable 1 fois par seconde.


Nominatim retourne une réponse au format xml qu'un composant Talend permet de traiter pour récupérer les champs de localisation. Pour traiter les 50000 cavités de Grottocenter il a fallu laisser la machine tourner durant une bonne journée.... Mais cela permet d'avoir des informations justes et complètes

Changement de système de coordonnées
là encore une solution peut être mise en oeuvre : Clément Rozon qui a développé Grottocenter, a créé le site TWCC et propose une API permettant de réaliser des conversions en ligne
J'ai pu ainsi transformer un jeu de données exprimées en Lambert 2

Le code correspondant aux différents systèmes de coordonnées est indiqué sur TWCC.

En conclusion
Il doit également être possible de réaliser des opérations de rapprochement afin de supprimer les doublons,  de récupérer des données à partir de documents textes ou de sites internet..Plus le volume de données à traiter est important plus il est intéressant d'utiliser ce type d'outil, Talend ayant le mérite de bien fonctionner, d'être très riche et de proposer une aide en ligne importante.





Libellés : ,

0 commentaires:

Publier un commentaire

Abonnement Publier les commentaires [Atom]

<< Accueil