Post-it-BI: mai 2011

vendredi 27 mai 2011

Collaboration Intelligence

Log des emails + Business intelligence = Collaboration intelligence !

Dans la continuité du billet sur la location intelligence (ici), Sur le site http://tryane.com/, on voit quel usage il peut être fait des emails avec la bonne représentation !

Dixit la société, cela permet de voir les départements qui communiquent avec qui et dans quelle volumétrie. C'est intéressant à plus d'un titre :

1 - la représentation sous forme de graphe est bien plus intéressante que tous les objets classiques (histogramme, courbe, pie, etc...). Au delà des relations, l'exploitation des couleurs et de l'épaisseur des traits densifie fortement la valeur informative du graphique. La longueur des traits pourrait aussi être utilisée pour représenter un autre indicateur.

2 - Cela me rappelle fortement les bases de données orientées graphe et les possibilités attachées http://neo4j.org/ - regarde les schémas qui bougent. Il est clair que des bases de données dédiées à ce type de thématique peuvent se révéler beaucoup plus efficace qu'une simple base de données relationnelle.

2 - On voit qu'exploiter des données aussi frustres que les logs de votre serveur de messagerie peut apporter des choses à valeur ajoutée pour une entreprise. Et d'être persuadé qu'il y'a beaucoup de données de ce type qui ne sont pas exploitées pour plein de raisons (volumétrie, data visualisation appropriée, objectifs business).

jeudi 26 mai 2011

Le dataware façon... Facebook !

S'il y'a bien une société qui doit avoir des problèmes de volumétrie pour gérer son datwarehouse... c'est Facebook ! Dans l'article que l'on trouve sur le blog de Facebook Engineering (ici), on parle d'un dataware d'un Petabyte (1 000 to) et d'une mise à jour quotidienne de 15 to de données par.... jour. Les connaiseurs apprécieront la performance... Si vous voulez savoir ce que cela représente, je vous recommande la vidéo (ici)... et le petit tableau ci-dessous

Un éléphant en peluche...
Si l'on en croit le film "The social Network", on y voit des geeks qui codent toute la journée et on se doute bien qu'ils n'utilisent pas un logiciel commercial. Quand on porte des tongs, on ne fait pas ses courses chez Microsoft, IBM, SAP ou Oracle ! Mais de là à choisir une solution Open Source dont le logo est un éléphant parce que c'était la peluche préférée du gamin du créateur... Il y'a un grand pas. Oui, on parle bien de Hadoop. Et pour parfaire la légende, il est aussi dit que ce soit aussi son gamin qui ait trouvé le nom parce qu'il avait encore du mal à prononcer certains mots ^^

Le monde étrange de l'open source

Ce qui m'occupe depuis plusieurs semaines, c'est la découverte du monde de l'open source ! C'est assez paradoxal d'avoir à la fois une tonne d'information (document, vidéos, présentations, etc...) et de ne pas trouver une présentation simple avec une vue d'ensemble. Bref c'est vraiment tout le contraire du logiciel commercial où l'on a que des présentations générales et très peu de document technique. Autre fait marquant, c'est l'omniprésence du code et des lignes de commandes. On est loin d'un monde fait de clicks et de simplicité.

Hadoop c'est quoi ?
La première chose qu'il faut expliquer c'est que l'on parle d'un monde où l'informatique est distribuée. Plutôt que d'aller acheter le serveur le plus puissant du monde, on préfère une tactique qui consiste à acheter des serveurs d'entrée de gamme mais en très grand nombre. Vous voulez étendre votre capacité informatique... il suffit d'ajouter des serveurs.

Encore faut-il le logiciel qui va avec et c'est là que vous avez besoin d'Hadoop dont la première composante est un système de gestion de fichier. Vous avez un énorme fichier de données, il va le "couper" en bout pour le répartir sur l'ensemble des serveurs. C'est toujours la problématique d'avoir des serveurs de petite taille avec des capacités de stockage unitaire limitée.

La deuxième composante d'Hadoop, ce sont deux fonctions très simples Map et Reduce qui va permettre via programmation d'effectuer des traitements sur vos données que ce soit des filtres, comptages, regroupements etc... Mais et le mais est important, ces deux fonctions permettent que ces traitements soient totalement distribués sur l'ensemble de vos serveurs. La meilleure explication que j'ai trouvé est ici si vous voulez approfondir votre compréhension. On y explique comment ces deux fonctions vont vous permettre de "coordonner" 50 000 personnes si elles devaient faire le comptage du nombre de mots dans un site de blogs en fonction de leur longueur de caractères ^^

Et comme souvent dans ce monde d'open source, on y ajoute une composante complémentaire (HIVE) qui va permettre à des non initiés de pouvoir requêter en SQL - cette composante se chargeant de décomposer la requête en "jobs" enchainés Map et Reduce !

Et alors ?
Quand on regarde les vidéos, c'est incroyablement rudimentaire d'un point de vue utilisateur mais c'est aussi incroyablement puissant de... simplicité et d'efficacité d'un point de vue architecture. Il n'est pas étonnant de voir les IBM ou Teradata proposer ce type d'offre et d'architecture. C'est d'une rare efficacité sur par exemple des données semi-structurées (logs, adresse url, etc...) ou non structurées (voir l'exemple du comptage des mots). Et il n'est pas non plus étonnant que toutes ces idées vienent de problèmes et travaux effectués chez Google.

Et de penser personnellement, qu'il y'a un avant et un après... Mais que dans cet après, il faut encore trouver la valeur additionnelle que l'on peut tirer de ces possibilités !

samedi 21 mai 2011

Recherche appartement à NY...

Il semble que l'immobilier soit un terrain fertile à l'exploitation de données et à la visualisation. Ma dernière pépite trouvée au détour d'une vidéo - le site chez Trulia avec en pré-sélection New York si vous êtes actuellement à la recherche d'un appartement... http://snapshot.trulia.com/NY/New_York/

C'est vraiment pas mal ce truc... vous avez la possibilité de naviguer au sein de photos et de critères de prix et la localisation est matérialisée par la carte - En terme d'ergonomie et de densité de l'information, c'est très très élevé. Et donc cela m'a permis (si je gagne à l'euromillions + le PMU) de trouver qu'il est pas mal cet appartement là par exemple http://www.stribling.com/propinfo.asp?webid=1225369&type=SALE

PS : Le billet est à lire du début jusqu'à la fin au second degré - je prends les précautions d'usage, on ne sait jamais ^^

dimanche 15 mai 2011

Collaboratif... et Décisionnel

C'est la dernière trouvaille de mon "fondu" sur la collaboration !

Je l'ai utilisé pour regrouper un post vu sur Linkedin qui regroupe tous les outils de visualisation (ici)... ca fait une sacré collection !