vendredi 29 juillet 2011

Funny picture of the day


You can find this picture here - Read the comments - Below is my version ;-) 

vendredi 22 juillet 2011

Quel outil BI fait cela ?



Appuyez sur le bouton play... Et de constater :

- L'utilisation des dégradés de couleurs pour montrer un ranking
- L'utilisation des formes pour avoir une valeur absolue versus une moyenne (pour remettre en perspective des pays avec des tailles différentes)
- Utilise le positionnement de gauche à droite pour faire un classement et l'évolution dans le temps avec le bouton sélection de l'année avec lequel on peut faire défiler les années.
- le "mouse over" pour avoir l'évolution de chaque pays dans un micro-chart
- Intégration dans un site web en moins de 5 secondes

C'est fait en Flash - Il y'a quelques défauts (légende, non utilisation optimale) et aucune idée du temps que cela a pris à Gregor Aish qui tient un blog ici.

Et de reposer la question : quel outil BI fait cela ?

La réponse est aucun... Cet exemple m'interpelle plus que les autres parce que cela ressemble vraiment à une interface d'un outil de reporting ^^

lundi 18 juillet 2011

The stories behind elegant data solutions

Ma lecture du moment " Beautiful Data - The Stories Behind Elegant Data Solutions By Toby Segaran, Jeff Hammerbacher" !

C'est une compilation de 20 articles qui racontent comment une solution a été trouvée face à des données complexes que ce soit dans leur nature ou volumétrie. Le chapitre qui a retenu toute mon attention est le chapitre 5 - Il y est raconté par Jeff Hammerbacher comment Facebook a géré ses données. 

Thefacebook
C'est en 2005 - ca s'appelle encore thefacebook et il vient de prendre un virage important avec l'ouverture des comptes à tout le monde et non plus uniquement aux étudiants des universités. Jeff Hammerbacher est alors embauché comme "research scientist" auprès du directeur du reporting & analytics. 

MySQL... et quelques scripts ^^
Leur premier reflexe est de choisir MySQL comme base de données. Ils vont alors développer en Python des scripts d'alimentation, quelques scripts SQL pour retraiter l'information et au bout du bout du PHP pour envoyer à l'ensemble des utilisateurs du reporting sur l'activité Facebook. L'auteur reconnaîtra que sans le savoir, ils venaient tout simplement d'écrire un système BI... Enfin, d'un genre un peu particulier puisqu'il est totalement basé sur de l'open source !

Le double crash...
Quelques centaines de gigaoctet plus tard... les scripts durent maintenant des jours. L'auteur reconnait alors qu'il se disait que c'était normal vu la volumétrie des données et la complexité des requêtes. Et puis un jour le traitement s'arrête en plein milieu...la base de données vient de jeter l'éponge !

C'est là que cela devient intéressant... Conseillé par des vétérans de la BI (les conseilleurs ne sont pas les payeurs), ils décident de passer sur du Oracle : une vrai base de données professionnelle avec un serveur Sun et des disques optimisés (chers bien sûr). En prime, ils gagnent un projet de migration parce que la grammaire SQL d'Oracle n'est pas tout à fait la même que MySQL - qu'il faut aussi s'appuyer sur les fonctionnalités standards de la base notamment en matière d'alimentation. Le projet est douloureux mais voilà ils ont un datawarehouse digne de ce nom.

Le premier jour de ce nouveau datawarehouse commence avec l'alimentation de 400 go de données pour une journée (c'est très très respectable !) et là mauvaise surprise... l'alimentation dure très au delà de 24h. Bref, c'est déjà mort alors que cela venait de commencer... C'est un deuxième crash.

Sauvé par un... éléphant 
Le premier réflexe de l'équipe sera de traiter une partie des informations en dehors de la base de données et d'écrire une "synthèse" uniquement dans la base de données. Ainsi ils ramèneront à 2h le traitement mais avec plein de problèmes qui est de ne pas pouvoir requêter dans les données de détail. La suite est dans mon article sur le datawarehousing façon Facebook  où avec Hadoop ils vont résoudre l'ensemble de leurs problèmes ! En moins d'un 1 an, ils vont tout migrer sur cette solution. L'auteur donne quelques chiffres : 2.5 petabytes de données, 15 To de données quotidienne - 3000 jobs quotidiens qui "bougent" 55 to de données ^^

Certains sont sceptiques du phénomène "big data"... Je m'imagine juste à la place des personnes chez Facebook et je me dis que les lignes sont en train de changer fortement quand je vois la solution à laquelle ils sont arrivés - relisez chaque étape de leur développement, c'est riche d'enseignement et pas simplement parce que Facebook gère beaucoup de données !

jeudi 14 juillet 2011

Dona Wong

C'est quelqu'un que je ne rencontrerai certainement jamais mais c'est certainement quelqu'un de très intéressant si on regarde  les quelques "traces" de sa présence sur internet.

Elle est l'auteur d'un ouvrage "The Wall Street Journal Guide to Information Graphics: The Dos and Don'ts of Presenting Data, Facts, and Figures" : un ouvrage tout simple avec plein de bon sens dedans et des remarques pertinentes.

Elle explique par exemple combien bien utiliser le fameux camembert avec un principe qui est de partir à midi et de positionner à droite la part la plus importante et à gauche le reste en ordre décroissant. Pour la citer "reading a pie chart is like reading a clock. It's intuitive to start at 12 o'clock and go clockwise". C'est évident me direz-vous... Je vous invite juste à clicker ici et vous verrez dans la collection google qu'aucun ne respecte cette règle sur la première page.

Son parcours explique assez bien comment elle en est arrivée là. Elle a étudié à Yale section "Fine arts" - c'est assez loin de la business intelligence et de l'informatique... Elle y a croisé Edward Tufte (l'inventeur des sparklines) et qui a été son directeur de thèse. Elle a commencé chez Deloitte en tant que consultante sur des données financières complexe pour ensuite travailler successivement pour le NY Times et le Wall Street Journal avec un rôle de définition de la charte des graphiques d'information. Elle est aujourd'hui chez Siegel+Gale une société de conseil en marketing de marque dans la practice "Simplification" où maintenant son job est "to use her expertise in design and data visualization to build state-of-the-art communication solutions for clients, reinforcing our long legacy of leadership in this area."


Comme quoi faire des camemberts - le pire graphique de l'histoire des graphiques - peut vous entraîner assez loin non ?


PS : le livre à acheter (ici) - son site web - sa "page" sur Siegel+Gale et son blog avec un seul article dedans mais qui montre tout son caractère !