mardi 22 novembre 2011

Tableau : Hadoop... Time series

Ce type d'annonce va se démultiplier mais voilà Tableau 6.1 now supports Hadoop et plus précisément avec la distribution Hadoop de Cloudera qui est en passe de devenir en quelques mois le référent sur le sujet !

Mais pour faire quoi me direz vous... La vidéo est un peu longue mais c'est très impressionnant ce qui peut être fait sur l'analyse temporelle en quelques clics !


Ca me permet de ressortir un vieux post sur la particulier de l'axe temps pour la BI qui n'a pas trop vieilli. 

L'analyse temporelle reste quelque chose de particulier pour la BI !  


samedi 12 novembre 2011

la récré du WE 15ème épisode !


Le stratège
Le film à aller voir si vous vous demandez à quoi 
cela peut servir de stocker des données et faire des statistiques dessus !

"On peut pas monter une équipe avec un ordinateur..."
"... Si on gagne avec cette équipe, on aura révolutionné ce sport"

PS : le film sort le 16 novembre.

Big data... at CBS !

Hadoop in a Mission Critical Environment - Jim Haas - CBSi
View more presentations from Cloudera, Inc.

Les trucs à retenir :

- 242 millions de visiteur unique... 300 milliards d'évènements par an, le problème de départ est effectivement BIG
- Plus qu'un ROI, c'est surtout une très forte économie s'il avait fallu collé tout ca dans une technologie base de données traditionnelle... voir même est-ce que cela aurait été possible !
- Il reste un dataware... pour faire du reporting (slide 30) !
- Cela pose tout le problème des solutions de web analytics et le choix entre faire faire et faire soi-même...



jeudi 10 novembre 2011

Big data...mais c'est quoi BIG #1 ?

Un premier repère :
La plus grande bibliothèque du monde

lundi 7 novembre 2011

Big data et... efficacité des dépenses publiques !

Un article de circonstance...

Ce schéma est tiré de l'étude McKinsey sur le Big Data.


Le pôle emploi allemand... c'est 120 000 employés pour un budget total de 54 milliards d'€. Le poste "Service client" représentait en 2003 13.5 milliards d'euros (la première colonne du schéma ci-dessous). Et l'on voit que ces dépenses ont été divisées par 3 grâce à... une stratégie Big data dixit Mckinsey !

En effet, l'analyse de toutes ces recommandations et de leur succès en relation avec le profil des personnes a permis d'améliorer sensiblement le "taux de recommandation" !

Bref, en développant une approche "segmentée", l'efficacité a été bien meilleure - et confirmée via un sondage auprès des personnes venant au pôle emploi allemand.

Les esprits chagrins (comme moi) pourraient aussi argumenter que moins de chômeurs... c'est forcément moins de dépenses... cqfd... mais la réduction entre 2004 et 2005 est impressionnante.

10 milliards d'économie... c'est 10% de ce qu'il faudra économiser d'ici 2016 pour arriver à l'équilibre confère les annonces du jour de François Fillon ^^

De là à recommander à François Fillon de plutôt se lancer dans le big data ;-)

samedi 5 novembre 2011

La récré du WE 14ème épisode !

Zettabyte from MFG Labs on Vimeo.

14 déclinaisons possibles pour votre BI

1. Le reporting papier
Un reporting... ca s'imprime. Dans un monde de plus en plus numérique, c'est peut être de moins en moins le cas mais cela reste encore la première destination. A noter que la problématique est loin d'être triviale : respect du format papier, auto-ajustement des tailles... Les logiciels de BI ne sont pas des logiciels de PAO et pourtant cela serait bien nécessaire parfois.

2 - La messagerie
L'outil numéro 1 plébiscité par les utilisateurs en entreprise. Cela devrait être aussi une évidence mais tout comme le premier, c'est loin d'être simple. Cela nécessite une fonction de composition de mail et d'automatisation des envois. Cette fonction est encore très "humaine"...

3 - Le powerpoint 
Cela me permet de déterrer un vieux post que j'avais fait sur le fait qu'il manquait toujours 2 mètres dans les outils de BI pour être vraiment au plus près des utilisateurs... les 2 mètres en question s'appellent souvent powerpoint !


4 - Le fichier PDF
Au delà d'être la version électronique du premier, c'est surtout un standard. Un format de document qui peut être lu par tout le monde. Et surtout ce standard devient de plus en plus riche de version en version.

5. Le format flash
On reste chez Adobe avec le format Flash - c'est à dire la possibilité de créer des animations et de l'interaction avec les schémas et de remettre le tout dans...un format PDF. Information builders fait ca très bien - C'est clairement une fonctionnalité totalement sous-estimé qui résout beaucoup de problème opérationnel (mode offline, gains sur les requêtes sur la base de données).

 6. Le widget
... rime trop avec gadget ? Et pourtant, un widget en temps réel sur les ventes de l'entreprise aurait certainement du sens non ? Les mini-apps sur un iphone sont une forme de widget. On parle de quelque chose de très simple et à porté de clic.

7. Le mobile 
Toujours pas vu LE retour client pour qui son projet mobile BI a tout changé... Mon post du 11 janvier 2011 est toujours valable. Mais bon, il est dans la liste quand même.

8 - La tablette
On pourrait aussi dire qu'on a pas vu LE retour client sur tablette également mais quand on voit l'évolution de ce marché versus celui du PC, on se dit qu'il y'a forcement un avenir.

9 - L'objet communiquant
Celui là, il faut prendre des substances illicites pour y croire... Et c'est donc mon préféré ! Le lapin est connecté à internet via le wifi et les couleurs qu'ils affichent représentent la météo ou dans notre cas de figure vos ventes versus le budget. Placé sur votre bureau, il vous permet en un coup d'oeil de savoir la situation en particulier si les données sont actualisées en temps réel. Je profite pour faire un cocorico puisque c'est une société française Karotz qui a inventé le lapin  !

10 - Le browser web
On revient sur du classique avec le browser web.  Je me rappelle encore de l'argumentaire : "faciliter le déploiement". Humm... quand on sait ce que représente un projet de montée de version du browser web en entreprise et ses impacts, on se dit déjà que c'est beaucoup moins facile !

11 - Le portail d'entreprise collaboratif
Je ferai un post dessus mais de penser vraiment que la BI toute seule dans un browser web n'a aucun sens. Un portail collaboratif peut apporter tout ce qu'il manque et de citer par exemple un wiki pour tenir à jour vos définition d'indicateurs métier ou encore un forum pour commenter le dernier rapport, etc.

12 - La BI intégrée dans les application d'entreprise
Il y'a de forte chance que votre application de CRM ou de supply chain soit maintenant accessible dans un browser web. L'avenir de la BI est certainement d'être de plus en plus intégrée avec vos applications et non plus comme une application isolée.

13 - Le client lourd 
On lui prédisait une mort certaine... Il est toujours là et bien là. Et franchement, il n'est pas prêt de disparaître. En particulier si votre outil BI est riche en fonctionnalités comme un outil statistique par exemple.





14 - Excel
Il était déjà à lui seul un outil BI.  Hyperion Essbase a construit tout son succès avec le meilleur addin possible pour Excel. Microsoft est en train doucement mais surement de le repositionner comme un outil d'accès à la BI (powerpivot, SQL server). Tous les éditeurs finissent toujours pas développer un addin. Bref, ill est comme Highlander... S'il doit en rester un, c'est lui !

Si quelqu'un me trouve le 15ème... Il gagne une bière du coté de la défense après le bureau !

samedi 3 septembre 2011

Defeat terrorism...

Un petit zoom sur la dernière acquisition d'IBM dans une video avec une petite musique façon année 80. La vidéo est longue... surtout les 30 premières secondes. Donc il faut s'accrocher mais après c'est fort intéressant avec en vrac :

- la possibilité de personnaliser les infos avec des images / représentations.
- l'analyse des liens entre les personnes
- l'analyse temporelle (la barre du bas) avec une fonction vidéo
- spéciale dédicace sur la fonction "qui appelez avec vous" avec votre mobile !
- L'analyse des réseaux sociaux... mais qui est le point central dedans !

C'est pas fou ce truc non ?




mardi 23 août 2011

10 Lessons Learned By Big Data Pioneers

Un petit article par InformationWeek qui a retenu mon attention ici. Les Yahoo, Facebook, Netflix et Google sont devenus des référents en matière de gestion de leur centaines de teraoctet de données... Mais ce qui est étonnant, c'est leur façon de faire de par leur origine et leur histoire.



L'optimisation... comme principe directeur
La vitesse des requêtes est LE critère à prendre en compte (Lesson 1 - Fast querying ensures productivity and timeliness) et pour cela il ne faut pas hésiter à compresser les données (Lesson 3 - Compression cuts storage cost) et même ranger les données pour que cela optimise cette compression (Lesson  4 - Sorting improves compression, cuts processing time). S'il le faut, il vaut mieux avoir moins de données pour des aspects de performance (Lesson 7 - In many industries, speed trumps scale). 

L'énorme dataware où l'on met tout en vrac avec une profondeur historique maximale et sur lequel on requête pendant des heures.... Cela n'arrive jamais...

La prévision devient une "science" vitale.
Regarder juste le nombre de lignes et projeter dans le futur la croissance ne va pas suffire (Lesson 2 - Be careful what you count when measuring Data growth). Il faut prendre en compte tous les facteurs d'évolution qui pourrait influer sur votre prévision. L'article cite que si le nombre de patient est resté stable pour la Harvard Medical School... la richesse du dossier médical a considérablement augmenté la taille des bases. Un autre point également intéressant est de regarder le sujet sous 6 critères (10 - Consider all dimensions of scalability)

  • Taille des données
  • Complexité des données
  • Nombre d'utilisateurs
  • Nombre de requêtes
  • Complexité des requêtes
  • Le temps de réponse souhaité

La tentation Hadoop...  
La première chose à comprendre d'Hadoop, ce n'est pas tant dans sa performance en tant que telle mais plutôt le rapport volumétrie traitée vesus prix (Lesson 5 - Hadoop appeal includes low cost and unstructured Data processing). Si vous cherchez à agréger des centaines de To de log... Il est clair qu'une base de données est une solution logicielle et matérielle bien trop coûteuse pour faire cela. Et surtout, dans sa nature même, il va vous éviter de "charger dans" une base de données (Lesson 6 - Hadoop helpers ease loading and processing pains).


Midi à... 14 heures
Le dernier point est plus étonnant... ou intéressant et que je résume par faut-il chercher midi à 14h ? Big Data ne veut pas forcément être en rupture avec tout l'acquis et ce qu'on maîtrise (Lesson 8 - Go with what you know if it fits). Et qu'il vaut mieux s'appuyer sur des succès passés (Lesson 9 - Build on success)... plutôt que succomber à des "nouvelles" sirènes !

samedi 13 août 2011

Tableau et la dette américaine !




1 - Où l'on voit "la contribution" de chaque président américain... et en particulier républicains versus démocrates...
2 - Où l'on voit la facilité d'intégrer dans une page web un "objet" tableau à partager !

la récré du WE 13ème épisode !

Une petite vidéo sympa !


vendredi 29 juillet 2011

Funny picture of the day


You can find this picture here - Read the comments - Below is my version ;-) 

vendredi 22 juillet 2011

Quel outil BI fait cela ?



Appuyez sur le bouton play... Et de constater :

- L'utilisation des dégradés de couleurs pour montrer un ranking
- L'utilisation des formes pour avoir une valeur absolue versus une moyenne (pour remettre en perspective des pays avec des tailles différentes)
- Utilise le positionnement de gauche à droite pour faire un classement et l'évolution dans le temps avec le bouton sélection de l'année avec lequel on peut faire défiler les années.
- le "mouse over" pour avoir l'évolution de chaque pays dans un micro-chart
- Intégration dans un site web en moins de 5 secondes

C'est fait en Flash - Il y'a quelques défauts (légende, non utilisation optimale) et aucune idée du temps que cela a pris à Gregor Aish qui tient un blog ici.

Et de reposer la question : quel outil BI fait cela ?

La réponse est aucun... Cet exemple m'interpelle plus que les autres parce que cela ressemble vraiment à une interface d'un outil de reporting ^^

lundi 18 juillet 2011

The stories behind elegant data solutions

Ma lecture du moment " Beautiful Data - The Stories Behind Elegant Data Solutions By Toby Segaran, Jeff Hammerbacher" !

C'est une compilation de 20 articles qui racontent comment une solution a été trouvée face à des données complexes que ce soit dans leur nature ou volumétrie. Le chapitre qui a retenu toute mon attention est le chapitre 5 - Il y est raconté par Jeff Hammerbacher comment Facebook a géré ses données. 

Thefacebook
C'est en 2005 - ca s'appelle encore thefacebook et il vient de prendre un virage important avec l'ouverture des comptes à tout le monde et non plus uniquement aux étudiants des universités. Jeff Hammerbacher est alors embauché comme "research scientist" auprès du directeur du reporting & analytics. 

MySQL... et quelques scripts ^^
Leur premier reflexe est de choisir MySQL comme base de données. Ils vont alors développer en Python des scripts d'alimentation, quelques scripts SQL pour retraiter l'information et au bout du bout du PHP pour envoyer à l'ensemble des utilisateurs du reporting sur l'activité Facebook. L'auteur reconnaîtra que sans le savoir, ils venaient tout simplement d'écrire un système BI... Enfin, d'un genre un peu particulier puisqu'il est totalement basé sur de l'open source !

Le double crash...
Quelques centaines de gigaoctet plus tard... les scripts durent maintenant des jours. L'auteur reconnait alors qu'il se disait que c'était normal vu la volumétrie des données et la complexité des requêtes. Et puis un jour le traitement s'arrête en plein milieu...la base de données vient de jeter l'éponge !

C'est là que cela devient intéressant... Conseillé par des vétérans de la BI (les conseilleurs ne sont pas les payeurs), ils décident de passer sur du Oracle : une vrai base de données professionnelle avec un serveur Sun et des disques optimisés (chers bien sûr). En prime, ils gagnent un projet de migration parce que la grammaire SQL d'Oracle n'est pas tout à fait la même que MySQL - qu'il faut aussi s'appuyer sur les fonctionnalités standards de la base notamment en matière d'alimentation. Le projet est douloureux mais voilà ils ont un datawarehouse digne de ce nom.

Le premier jour de ce nouveau datawarehouse commence avec l'alimentation de 400 go de données pour une journée (c'est très très respectable !) et là mauvaise surprise... l'alimentation dure très au delà de 24h. Bref, c'est déjà mort alors que cela venait de commencer... C'est un deuxième crash.

Sauvé par un... éléphant 
Le premier réflexe de l'équipe sera de traiter une partie des informations en dehors de la base de données et d'écrire une "synthèse" uniquement dans la base de données. Ainsi ils ramèneront à 2h le traitement mais avec plein de problèmes qui est de ne pas pouvoir requêter dans les données de détail. La suite est dans mon article sur le datawarehousing façon Facebook  où avec Hadoop ils vont résoudre l'ensemble de leurs problèmes ! En moins d'un 1 an, ils vont tout migrer sur cette solution. L'auteur donne quelques chiffres : 2.5 petabytes de données, 15 To de données quotidienne - 3000 jobs quotidiens qui "bougent" 55 to de données ^^

Certains sont sceptiques du phénomène "big data"... Je m'imagine juste à la place des personnes chez Facebook et je me dis que les lignes sont en train de changer fortement quand je vois la solution à laquelle ils sont arrivés - relisez chaque étape de leur développement, c'est riche d'enseignement et pas simplement parce que Facebook gère beaucoup de données !

jeudi 14 juillet 2011

Dona Wong

C'est quelqu'un que je ne rencontrerai certainement jamais mais c'est certainement quelqu'un de très intéressant si on regarde  les quelques "traces" de sa présence sur internet.

Elle est l'auteur d'un ouvrage "The Wall Street Journal Guide to Information Graphics: The Dos and Don'ts of Presenting Data, Facts, and Figures" : un ouvrage tout simple avec plein de bon sens dedans et des remarques pertinentes.

Elle explique par exemple combien bien utiliser le fameux camembert avec un principe qui est de partir à midi et de positionner à droite la part la plus importante et à gauche le reste en ordre décroissant. Pour la citer "reading a pie chart is like reading a clock. It's intuitive to start at 12 o'clock and go clockwise". C'est évident me direz-vous... Je vous invite juste à clicker ici et vous verrez dans la collection google qu'aucun ne respecte cette règle sur la première page.

Son parcours explique assez bien comment elle en est arrivée là. Elle a étudié à Yale section "Fine arts" - c'est assez loin de la business intelligence et de l'informatique... Elle y a croisé Edward Tufte (l'inventeur des sparklines) et qui a été son directeur de thèse. Elle a commencé chez Deloitte en tant que consultante sur des données financières complexe pour ensuite travailler successivement pour le NY Times et le Wall Street Journal avec un rôle de définition de la charte des graphiques d'information. Elle est aujourd'hui chez Siegel+Gale une société de conseil en marketing de marque dans la practice "Simplification" où maintenant son job est "to use her expertise in design and data visualization to build state-of-the-art communication solutions for clients, reinforcing our long legacy of leadership in this area."


Comme quoi faire des camemberts - le pire graphique de l'histoire des graphiques - peut vous entraîner assez loin non ?


PS : le livre à acheter (ici) - son site web - sa "page" sur Siegel+Gale et son blog avec un seul article dedans mais qui montre tout son caractère ! 

mardi 14 juin 2011

la récré du WE 12ème épisode !



Bon ok on est mardi... Excellente publicité... qui parle de tout sauf  du produit - voir même on a totalement oublié  le sujet évoqué... ah si ca parle de BI^^



dimanche 5 juin 2011

Where no man has gone before... Big Data (#1)

... pour reprendre la phrase d'introduction de la série Star Trek. Il commence à se passer des choses intéressantes sur ce sujet qui va maintenant au delà des incantations du marketing des acteurs de la BI.

Big Data n'a de sens que si l'on parle de données que l'on n'utilise pas encore soit parce qu'on ne peut pas les capturer, soit elles sont impossibles à traiter du fait de leur volumétrie ou encore non compréhensibles avec nos outils actuels...

Capturer la... voix
Sur YouTube, il y'a depuis peu une fonction béta qui permet à la volée de convertir la voix en... sous-titre. C'est le bouton en rouge avec les lettres "CC" pour closed caption. On voit sur l'image le discours de Steve Jobs retranscrit à la volée.


Il y'a encore des erreurs - j'aurais dit 10% - mais c'est assez bluffant pour tout dire. Mes amis grincheux m'ont déjà dit que ca ne sert à rien si tu comprends l'anglais... mais bon ^^ Mais on est tous d'accord que cela ouvre le champ de données disponible de façon tout à faire considérable non - Imaginez toutes les conversations humaines converties... en une donnée informatique !

Convertir les conversations téléphoniques en données pour analyser votre service client !
Imaginons maintenant que l'ensemble des conversations téléphoniques de votre service client soient "capturées" de cette façon - que ce flux de données soit également rapproché de données de contexte comme des évènements ou encore les caractéristiques clients - que l'on trouve le bon algorithme ou traitement pour y trouver les mots clés - le tout en temps réel malgré cette volumétrie de données ! On pourrait alors avoir quelque chose comme sur le site http://www.infomous.com avec les mots et leur relations.


Mais cela serait encore insuffisant... cela ne donnerait qu'à un instant T ce qui se passe. Il serait plus intéressant de savoir ce qui s'est passé et surtout ce qui va se passer. C'est un peu la même idée que Twitter serait capable de prédire... la bourse (ici l'étude).

Je n'ai qu'une conviction qui est qu'il faut beaucoup plus de données pour comprendre notre environnement. Que l'indicateur qui compte par exemple le nombre d'appels à un service client même au croisement de 30 axes est une trop grande réduction de la réalité...

Mais tout est à faire... il faudra résoudre le problème du traitement de ces données (le plus simple à mon avis et de très loin !), trouver le bon traitement statistique ou le bon algorithme et avoir des outils de visualisation des résultats.

Bref, on est encore très loin de parcourir la galaxie de données qui s'offre à nous...

vendredi 27 mai 2011

Collaboration Intelligence

Log des emails + Business intelligence = Collaboration intelligence !


Dans la continuité du billet sur la location intelligence (ici), Sur le site http://tryane.com/, on voit quel usage il peut être fait des emails avec la bonne représentation !




Dixit la société, cela permet de voir les départements qui communiquent avec qui et dans quelle volumétrie. C'est intéressant à plus d'un titre :

1 - la représentation sous forme de graphe est bien plus intéressante que tous les objets classiques (histogramme, courbe, pie, etc...). Au delà des relations, l'exploitation des couleurs et de l'épaisseur des traits densifie fortement la valeur informative du graphique. La longueur des traits pourrait aussi être utilisée pour représenter un autre indicateur.

2 - Cela me rappelle fortement les bases de données orientées graphe et les possibilités attachées http://neo4j.org/ - regarde les schémas qui bougent. Il est clair que des bases de données dédiées à ce type de thématique peuvent se révéler beaucoup plus efficace qu'une simple base de données relationnelle.

2 - On voit qu'exploiter des données aussi frustres que les logs de votre serveur de messagerie peut apporter des choses à valeur ajoutée pour une entreprise. Et d'être persuadé qu'il y'a beaucoup de données de ce type qui ne sont pas exploitées pour plein de raisons (volumétrie, data visualisation appropriée, objectifs business).

jeudi 26 mai 2011

Le dataware façon... Facebook !


S'il y'a bien une société qui doit avoir des problèmes de volumétrie pour gérer son datwarehouse... c'est Facebook ! Dans l'article que l'on trouve sur le blog de Facebook Engineering (ici), on parle d'un dataware d'un Petabyte (1 000 to) et d'une mise à jour quotidienne de 15 to de données par.... jour. Les connaiseurs apprécieront la performance... Si vous voulez savoir ce que cela représente, je vous recommande la vidéo (ici)... et le petit tableau ci-dessous



Un éléphant en peluche...
Si l'on en croit le film "The social Network", on y voit des geeks qui codent toute la journée et on se doute bien qu'ils n'utilisent pas un logiciel commercial. Quand on porte des tongs, on ne fait pas ses courses chez Microsoft, IBM, SAP ou Oracle ! Mais de là à choisir une solution Open Source dont le logo est un éléphant parce que c'était la peluche préférée du gamin du créateur... Il y'a un grand pas. Oui, on parle bien de Hadoop.  Et pour parfaire la légende, il est aussi dit que ce soit aussi son gamin qui ait trouvé le nom parce qu'il avait encore du mal à prononcer certains mots ^^

Le monde étrange de l'open source
Ce qui m'occupe depuis plusieurs semaines, c'est la découverte du monde de l'open source ! C'est assez paradoxal d'avoir à la fois une tonne d'information (document, vidéos, présentations, etc...) et de ne pas trouver une présentation simple avec une vue d'ensemble. Bref c'est vraiment tout le contraire du logiciel commercial où l'on a que des présentations générales et très peu de document technique. Autre fait marquant, c'est l'omniprésence du code et des lignes de commandes. On est loin d'un monde fait de clicks et de simplicité.

Hadoop c'est quoi ?
La première chose qu'il faut expliquer c'est que l'on parle d'un monde où l'informatique est distribuée. Plutôt que d'aller acheter le serveur le plus puissant du monde, on préfère une tactique qui consiste à acheter des serveurs d'entrée de gamme mais en très grand nombre. Vous voulez étendre votre capacité informatique... il suffit d'ajouter des serveurs.

Encore faut-il le logiciel qui va avec et c'est là que vous avez besoin d'Hadoop dont la première composante est un système de gestion de fichier. Vous avez un énorme fichier de données, il va le "couper" en bout pour le répartir sur l'ensemble des serveurs. C'est toujours la problématique d'avoir des serveurs de petite taille avec des capacités de stockage unitaire limitée.

La deuxième composante d'Hadoop, ce sont deux fonctions très simples Map et Reduce qui va permettre via programmation d'effectuer des traitements sur vos données que ce soit des filtres, comptages, regroupements etc... Mais et le mais est important, ces deux fonctions permettent que ces traitements soient totalement distribués sur l'ensemble de vos serveurs. La meilleure explication que j'ai trouvé est ici si vous voulez approfondir votre compréhension. On y explique comment ces deux fonctions vont vous permettre de "coordonner" 50 000 personnes si elles devaient faire le comptage du nombre de mots dans un site de blogs en fonction de leur longueur de caractères ^^

Et comme souvent dans ce monde d'open source, on y ajoute une composante complémentaire (HIVE) qui va permettre à des non initiés de pouvoir requêter en SQL - cette composante se chargeant de décomposer la requête en "jobs" enchainés Map et Reduce !

Et alors ?
Quand on regarde les vidéos, c'est incroyablement rudimentaire d'un point de vue utilisateur mais c'est aussi incroyablement puissant de... simplicité et d'efficacité d'un point de vue architecture. Il n'est pas étonnant de voir les IBM ou Teradata proposer ce type d'offre et d'architecture. C'est d'une rare efficacité sur par exemple des données semi-structurées (logs, adresse url, etc...) ou non structurées (voir l'exemple du comptage des mots). Et il n'est pas non plus étonnant que toutes ces idées vienent de problèmes et travaux effectués chez Google.

Et de penser personnellement, qu'il y'a un avant et un après... Mais que dans cet après, il faut encore trouver la valeur additionnelle que l'on peut tirer de ces possibilités !

samedi 21 mai 2011

Recherche appartement à NY...

Il semble que l'immobilier soit un terrain fertile à l'exploitation de données et à la visualisation. Ma dernière pépite trouvée au détour d'une vidéo - le site chez Trulia avec en pré-sélection New York si vous êtes actuellement à la recherche d'un appartement... http://snapshot.trulia.com/NY/New_York/


C'est vraiment pas mal ce truc... vous avez la possibilité de naviguer au sein de photos et de critères de prix et la localisation est matérialisée par la carte - En terme d'ergonomie et de densité de l'information, c'est très très élevé. Et donc cela m'a permis (si je gagne à l'euromillions + le PMU) de trouver qu'il est pas mal cet appartement là par exemple http://www.stribling.com/propinfo.asp?webid=1225369&type=SALE

PS : Le billet est à lire du début jusqu'à la fin au second degré - je prends les précautions d'usage, on ne sait jamais ^^

dimanche 15 mai 2011

Collaboratif... et Décisionnel

C'est la dernière trouvaille de mon "fondu" sur la collaboration !


Je l'ai utilisé pour regrouper un post vu sur Linkedin qui regroupe tous les outils de visualisation (ici)... ca fait une sacré collection !

mardi 26 avril 2011

Le cloud... expliqué par un dessin

Si vous ne connaissez pas l'ouvrage à gauche, je vous le recommande absolument !

L'idée défendue par l'auteur est qu'on peut résoudre tout problème avec... une image ! Ce qui est intéressant, c'est de retrouver les "charts" que l'on trouve dans tout outil décisionnel mais remis dans la perspective de la résolution d'une question ou d'un problème.

L'ouvrage est aujourd'hui une référence et la vidéo ci-dessous s'inspire clairement de l'ouvrage de Dan Roam.

La vidéo explique de façon très claire Windows Azure l'offre cloud de Microsoft - C'est d'une rare efficacité !



Pour le prix, c'est étonnant... cela sera facturé en fonction de l'usage et on doit parler de quelques centaines d'euros par mois.

samedi 23 avril 2011

la récré du WE 11ème épisode


Une petite vidéo pour geek en récré du WE... la bande de frappés ci-dessus montre ce qu'on peut faire avec les fameux disque dur SSD...



Mais quel lien avec la BI me direz vous ou comment passer du rigolo à la très sérieuse analyse du crédit suisse sur le "shift" technologique associé ICI - On en reparle dans la semaine de cette analyse.

jeudi 21 avril 2011

A-t-on encore besoin de chiffres dans un tableau ?

Je suis en plein dans ma période... du logiciel de gauche. Et de faire un post "provocateur" sur l'inutilité des chiffres dans un tableau !

Je pose le contexte :
- 2 mesures (le chiffre d'affaires et les profits associés)
- Par région (east, west, north, south)
- Par catégorie de produits (furniture, Office supply et Technologie
- Par an sur 4 ans

Dans un superbe tableau croisé dynamique... ca donne cela


Cela nous fait... 104 valeurs y compris le total !

Un petit tour de Tableau et hop



La taille de chaque "pie" est proportionnelle au chiffre d'affaires et vous avez à l'intérieur la répartition des profits par "product category"... Et là on commence à y voir des choses :

- L'évolution des "product category" sur 4 ans... et de voir que c'est une tendance générale toute région.
- On peut voir les "contrastes" région par région versus le total (South est très Technology versus Central)
- La taille des cercles nous renseigne sur le niveau d'activité (2007 et 2008 plus petits que 2009)
- Le poids des région (où West devient plus petit que les autres).

Si je veux voir les valeurs, un simple passage de la souris sur chaque cercle me permet d'avoir le détail - Et ainsi on vient de passer de 104 à... 20 signes !

Simple mais efficace non ?



lundi 18 avril 2011

Tableau software : pourquoi est-il différent ?

Plus je le regarde et plus il m'épate - Et de vous expliquer en quoi il est totalement différent de tout ce qui existe sur le marché.

1 - L'absence de typologie de graphique
Dans tout outil, vous allez "entrer" par le type de graphique (courbe, histogramme, etc..) - Dans Tableau, vous avez un ensemble de fonctionnalités qui vous permettent de faire des graphiques mais pas de typologie pré-définie. Cela permet de faire des choses totalement différentes. Sur ce premier graphique, on met en évidence la rapidité de progression du chiffre d'affaires des sociétés.

Sur ce second graphique, on localise la position moyenne des joueurs de deux équipes de foot pendant tout un match.


Je vous recommande la "gallery" (ici)... il y' une richesse incroyable et surtout, on est incapable de dire à coup sur que tous ces graphiques sortent du même outil...

2 - Il "sublime" les données 
Le tableau en dessous montre le delta de victoire équipe par équipe de basket... c'est  un non sens en terme d'utilisation brute - Qui irait ranger ses données comme cela ?


Et pourtant cela permet de faire le graphique suivant  qui montre en vert sur la première ligne que l'équipe de Boston écrase tout le monde ou presque (vert) sauf... deux équipes (les deux ronds rouges) !


3 - Il vous aide et vous propose des représentations !
Sélectionnez vos mesures et axes d'analyse et avec le bouton "show me", il va vous proposer des représentations... quand on regarde ce qu'il fait, on aurait jamais représenté de cette façon là les données. 


Il y'a une vrai surprise à chaque graphique et un "sens" différent qui peut être tirer des données alors que ce sont les mêmes représentées sous un autre angle !

Un dernier pour vous convaincre - ce sont le déplacement des ouragans de l'année 2005 avec leur intensité, les zones balayées et leur point de départ !


Quand je vous dis qu'il m'épate... pas vous ?

vendredi 8 avril 2011

la récré du WE : 10ème épisode


Un site qui fait le buzz via Twitter... 
Intéressante cette combinaison : story - data - design !
Ils ont fait une vidéo de moins de 2 minutes plutôt réussie


C'est beau le marketing parfois ;-)

mercredi 6 avril 2011

Story Telling... le test !

Un petit post dans la suite de celui consacré au storytelling et de vous proposer un petit jeu : http://www.thestorytest.com/ - vous aurez 10 textes et vous devez répondre à une question simple : "is this a story ?". Je vous conseille de faire le jeu d'abord avant de lire la suite ;-)


Vous avez mon score... mais surtout à la fin du test, il y'a un petit lien qui explique ce qui définit une histoire et notamment les critères à retrouver.


Le lien avec la Business Intelligence ?
C'est un bel objectif de se dire que votre projet décisionnel devrait être capable de raconter une histoire non ?  

Votre projet décisionnel ou datamarts contiennent déjà à coup sur un axe temps - Il est aussi fort probable que l'on trouve la notion de lieu géographique

La notion de "personnage" est très certainement à développer - On peut retrouver le chiffre d'affaires par clients ou commercial - mais il serait encore plus intéressant de voir l'ensemble des acteurs en jeu dans l'analyse d'une activité.  

La notion d'évènements est vraiment intéressante - On a quelque peu noyé cette notion à travers des mesures (ventes, achats, livraison) qui mesure (sic) l'évènement réalisé mais on gagnerait en analyse si on ajoutait : 
- les évènements de lancements d'offre que ce soit par nous ou la concurrence... 
- des évènements extérieurs (crise économique, catastrophe naturelle)
- l'ensemble des évènements antérieurs à la réalisation de la vente (prospection, avant-vente, etc...)

On gagnerait certainement en finesse d'analyse de nos mesures et du pourquoi de leur variation dans le temps.

Le dernier challenge restera d'exploiter dans une visualisation toutes ces données pour que cela raconte justement une histoire. C'est peut être aussi une façon de vérifier la pertinence des données dans vos datamarts... Sont-ils capable de raconter une histoire ? Ou encore de peut-être s'interroger sur certains reporting qui racontent souvent une histoire partielle parce qu'il manque un ou plus des 4 attributs clés (évènements, personnage, lieu, temps). 

lundi 4 avril 2011

User Centric BI

Il y'a beaucoup à reprendre dans les technologies du search si l'on veut s'orienter vers une BI centrée sur l'utilisateur. Une des particularités du Search réside dans le schéma ci-dessous


La surcharge de la requête
Quand on est dans des temps inférieurs à la seconde... on peut se permettre de "surcharger" la requête initiale de l'utilisateur, c'est à dire rajouter des conditions qui n'étaient pas dans la requête de départ et qui vont permettre d'affiner la pertinence.

Les caractéristiques de l'utilisateur
On ne cherche pas la même chose si l'on appartient à telle ou telle direction ou que l'on a tel ou tel rôle... C'est une évidence mais les outils BI font comme si tout le monde était identique. S'il appartient à la direction du marketing, il est plus intéressant de privilégier la recherche dans son domaine plutôt que celles de la direction financières. Cela permet également de ramener en priorité ce que ses pairs ont consulté ou consultent régulièrement. C'est dans ce "passage" de périmètre que l'on peut affiner de façon importante la pertinence des résultats.

Le contexte de recherche
Si vous venez juste d'analyser le chiffre d'affaires de janvier 2010 sur telle zone géographique et que vous vous interrogiez sur la répartition par produit - il semble naturel de retrouver en haut de la liste cette décomposition sur le mois de janvier et la zone géographique concernée. C'est l'exploitation du "où" est l'utilisateur dans sa recherche plutôt que de repartir du début.

La sécurité
Une des forces des technologies du Search est de pouvoir indexer la sécurité et de rajouter une "colonne" supplémentaire qui donne les autorisations possibles. Dès lors qu'une personne requête, il est rajouté une clause de "sécurité" qui va filtrer uniquement les résultats auxquels l'utilisateur a droit !

Et d'imaginer une BI inspirée du search où :

- les requêtes sont dans un langage naturel proche de ce que l'on tape dans les moteurs de recherche
- où la pertinence de ce qui est ramené dépend de son profil et de sa sécurité, voir de son historique de navigation
- où les recherches successives tiennent compte du contexte et du résultat des recherches précédentes

Bref, une BI centrée sur la personne... et non sur les données où l'outil de requetâge.. et où la pertinence devient un critère d'évaluation !