Accéder au contenu principal

Les inventaires Spéléologiques avec Talend


Talend est un logiciel de Business Intelligence : il permet de traiter de grands volumes de données informatiques afin de faire de l'analyse et de donner des informations utiles pour la prise de décision en entreprise.

Talend propose une version "Community" que vous pouvez utiliser gratuitement et qui offre des possibilités très utiles si vous souhaitez traiter les données dont vous disposez dans vos inventaires spéléologiques.

C'est le module Data Intégration que j'ai utilisé. Il n'y a pas d'installation du logiciel qui fonctionne sur toutes les plateformes. Voila quelques fonctions que j'ai pu utiliser

Extraction de données
Talend vous permet de récupérer des données provenant de nombreuses bases de données, de fichier texte, de tableaux, de site internet, de mel, d'un ensemble de fichiers contenus dans un répertoire.
Pour ma part je me suis connecté à une base de donnée MySQL et j'ai récupéré des fichiers xls et csv : cela fonctionne parfaitement.

Sélection, tri, rapprochement de données : plusieurs outils sont disponibles

TSortRow permet de retirer les valeurs qui correspondent (ou ne correspondent pas) à un critère. Ici j'ai supprimé de l'analyse toutes les lignes pour lesquelles je n'avais pas de coordonnées


TMap est le couteau Suisse du module Data Intégration, Je m'en suis servi pour rajouter le nom des organisations présentes dans Grottocenter dans une tableau où je n'avais que leur identifiant.

Normalisation des indications géographiques
Souvent nous avons des informations qui sont incomplètes, imprécises et il arrive que les communes ou les régions changent de nom. Comment faire pour avoir des informations complètes et justes ?
La solution que j'ai retenue est de partir des coordonnées et de récupérer les indications en utilisant une API de "Reverse GeoCoding"
Talend propose des solutions dans sa version payante mais il est possible de créer son propre script en utilisant  les API proposées par Google ou par OpenStreetMap : Google limite l'utilisation de son API a 2500 requêtes par 24h, Nominatim (OpenStreetMap) est utilisable 1 fois par seconde.


Nominatim retourne une réponse au format xml qu'un composant Talend permet de traiter pour récupérer les champs de localisation. Pour traiter les 50000 cavités de Grottocenter il a fallu laisser la machine tourner durant une bonne journée.... Mais cela permet d'avoir des informations justes et complètes

Changement de système de coordonnées
là encore une solution peut être mise en oeuvre : Clément Rozon qui a développé Grottocenter, a créé le site TWCC et propose une API permettant de réaliser des conversions en ligne
J'ai pu ainsi transformer un jeu de données exprimées en Lambert 2

Le code correspondant aux différents systèmes de coordonnées est indiqué sur TWCC.

En conclusion
Il doit également être possible de réaliser des opérations de rapprochement afin de supprimer les doublons,  de récupérer des données à partir de documents textes ou de sites internet..Plus le volume de données à traiter est important plus il est intéressant d'utiliser ce type d'outil, Talend ayant le mérite de bien fonctionner, d'être très riche et de proposer une aide en ligne importante.





Posts les plus consultés de ce blog

Grottocenter Mobile

 Benjamin vient de publier l'application Grottocenter Mobile qui est maintenant disponible sur le Play Store de Google. Nous en sommes très fiers https://play.google.com/store/apps/details?id=org.grottocenter.mobile&hl=fr&gl=FR Elle vous permet de travailler sur le terrain, avec ou sans connexion à internet. Si vous êtes connecté à Grottocenter cela vous permet de mettre à jour les informations sur le site, soit directement, soit de manière différée, quand vous avez un accès à internet. Merci de la télécharger, de la tester et de mettre un avis sur le Play Store

Les données de Grottocenter sur VMap

 Laurent Blum a mis en place une application pour gérer les cavités Après quelques échanges avec l'association Wikicaves,il a mis en place une solution permettant de visualiser les données issues de Grottocenter. Nous souhaitions que les données restent librement accessibles, pour cela il a créé un utilisateur générique que vous pouvez utiliser URL du site : https://vmapspeleo.fr/vmap/ identifiant : grottocenter mot de passe : grottocenter

Mise à jour du moteur de listes de diffusion

Vous avez peut-être remarqué des disfonctionnements dans l'acheminement des messages sur les listes de diffusion qui sont hébergées par l'association Wikicaves. Benjamin a pris en main le problème rapidement, en réalisant une mise à jour des logiciels,en augmantant la mémoire disponible et en affinant les paramètres. Tout semble être rentré dans l'ordre