Accéder au contenu principal

Les inventaires Spéléologiques avec Talend


Talend est un logiciel de Business Intelligence : il permet de traiter de grands volumes de données informatiques afin de faire de l'analyse et de donner des informations utiles pour la prise de décision en entreprise.

Talend propose une version "Community" que vous pouvez utiliser gratuitement et qui offre des possibilités très utiles si vous souhaitez traiter les données dont vous disposez dans vos inventaires spéléologiques.

C'est le module Data Intégration que j'ai utilisé. Il n'y a pas d'installation du logiciel qui fonctionne sur toutes les plateformes. Voila quelques fonctions que j'ai pu utiliser

Extraction de données
Talend vous permet de récupérer des données provenant de nombreuses bases de données, de fichier texte, de tableaux, de site internet, de mel, d'un ensemble de fichiers contenus dans un répertoire.
Pour ma part je me suis connecté à une base de donnée MySQL et j'ai récupéré des fichiers xls et csv : cela fonctionne parfaitement.

Sélection, tri, rapprochement de données : plusieurs outils sont disponibles

TSortRow permet de retirer les valeurs qui correspondent (ou ne correspondent pas) à un critère. Ici j'ai supprimé de l'analyse toutes les lignes pour lesquelles je n'avais pas de coordonnées


TMap est le couteau Suisse du module Data Intégration, Je m'en suis servi pour rajouter le nom des organisations présentes dans Grottocenter dans une tableau où je n'avais que leur identifiant.

Normalisation des indications géographiques
Souvent nous avons des informations qui sont incomplètes, imprécises et il arrive que les communes ou les régions changent de nom. Comment faire pour avoir des informations complètes et justes ?
La solution que j'ai retenue est de partir des coordonnées et de récupérer les indications en utilisant une API de "Reverse GeoCoding"
Talend propose des solutions dans sa version payante mais il est possible de créer son propre script en utilisant  les API proposées par Google ou par OpenStreetMap : Google limite l'utilisation de son API a 2500 requêtes par 24h, Nominatim (OpenStreetMap) est utilisable 1 fois par seconde.


Nominatim retourne une réponse au format xml qu'un composant Talend permet de traiter pour récupérer les champs de localisation. Pour traiter les 50000 cavités de Grottocenter il a fallu laisser la machine tourner durant une bonne journée.... Mais cela permet d'avoir des informations justes et complètes

Changement de système de coordonnées
là encore une solution peut être mise en oeuvre : Clément Rozon qui a développé Grottocenter, a créé le site TWCC et propose une API permettant de réaliser des conversions en ligne
J'ai pu ainsi transformer un jeu de données exprimées en Lambert 2

Le code correspondant aux différents systèmes de coordonnées est indiqué sur TWCC.

En conclusion
Il doit également être possible de réaliser des opérations de rapprochement afin de supprimer les doublons,  de récupérer des données à partir de documents textes ou de sites internet..Plus le volume de données à traiter est important plus il est intéressant d'utiliser ce type d'outil, Talend ayant le mérite de bien fonctionner, d'être très riche et de proposer une aide en ligne importante.





Posts les plus consultés de ce blog

Réunion à Narbonne

Christophe Bès a organisé ce jeudi à Narbonne une réunion destinée à préparer la mise en ligne des topos du Département de l'Aude. Dominique vous propose un compte rendu de cette rencontre qui a donné l'occasion d'échanger autour de Grottocenter / Wikicaves Compte-rendu de la réunion CDS11 du 24/10/2013 à la MJC de Narbonne Un accueil chaleureux Arrivés aux environs de 19h dans les locaux de la MJC de Narbonne place Salingro, les participants, après de rapides présentations et quelques bises, se retrouvent dans une grande salle de réunion à l’étage équipée de matériel informatique et connectée au réseau. La réunion à laquelle nous avons été aimablement conviés est destinée à présenter le projet Grottocenter et l’association Wikicaves qui le gère, mais aussi à initier un travail (complémentaire à la mise en ligne du fichier de cavités terminé le mois dernier) par l’adjonction de nombreuses topographies issues des archives du CDS11. Liste des pa

Les données de Grottocenter sur VMap

 Laurent Blum a mis en place une application pour gérer les cavités Après quelques échanges avec l'association Wikicaves,il a mis en place une solution permettant de visualiser les données issues de Grottocenter. Nous souhaitions que les données restent librement accessibles, pour cela il a créé un utilisateur générique que vous pouvez utiliser URL du site : https://vmapspeleo.fr/vmap/ identifiant : grottocenter mot de passe : grottocenter

Grottocenter V3 : cavités en vue !

 Le développement de la nouvelle version de Grottocenter commence à prendre forme avec désormais du travail visible pour les utilisateurs que nous sommes.   Depuis quelques jours l'ensemble des données sur les cavités est accessible dans la nouvelle version, je vous propose quelques liens pour le découvrir mais naturellement toutes les cavités sont librement accessibles sans se connecter https://beta.grottocenter.org/ ui/entrances/766 https://beta.grottocenter.org/ ui/entrances/37807 https://beta.grottocenter.org/ ui/entrances/37351 https://beta.grottocenter.org/ ui/entrances/23739