mardi 17 août 2010

Dataware 2.0... par Bill Inmon

Notre ami Bill est... selon Wikipedia le père du Datawarehouse et d'être à l'origine de la définition "a subject oriented, nonvolatile, integrated, time variant collection of data in support of management's decisions".

Quand vous tapez dataware + failure dans google, les deux premières pages sont une belle collection de raisons d'echec (top 5, les 12 raisons, etc...). Et la statistique dont personne ne sait d'où elle vient mais que tout le monde répète "More than 50 per cent of data warehouse projects during the next two years are doomed to outright failure or will have only limited acceptance, industry analysts warned today."

Du coup, notre ami Bill (je ne suis pas intime avec lui mais quand on s'appelle Bill, ca appelle tout de suite à une certaine convivialité) a sorti un livre en 2008... "DW 2.0: The Architecture for the Next Generation of Data Warehousing".

Ce qui est intéressant, c'est qu'il ré-explique le fondamental du datawarehouse. Il refait l'histoire de l'informatique marquée par le fait que la couverture de l'informatique en terme de domaine s'est considérablement étoffé pour arriver à un "spider web environment".


En français, on aurait dit le plat de nouilles... mais en anglais ca devient la toile d'araignée - c'est une autre image... Là où c'est fort de café, c'est que Bill nous explique que le datawarehouse avait pour vocation justement de transformer ce "big mess" en un objet organisé, orienté sujet... permettant de prendre des décisions !!

Je crains Bill que le plat de nouilles se soit retrouvé dans le dataware... avec des toiles d'araignées en plus sur toutes les choses pas utilisées mais qu'on charge tous les mois.

Mais il se démonte pas, il encaisse les critiques ou plutôt d'argumenter que le monde a changé. Il pose comme 1er principe du datawarehouse 2.0 la notion de cycle de vie de l'information.


En fonction de la fréquence d'accès qui diminue dans le temps, on trouve pas moins 4 "secteurs" dans le dataware 2.0 et de faire une relation entre volumétrie et fréquence d'accès.

2ème principe, il propose l'inclusion en transverse de ces secteurs, des Metadata pour ne pas "perdre" l'information... pour Bill, une des raisons que certaines zones du dataware ne sont plus utilisées est parce qu'on a perdu l'information. Non pas qu'elle ait disparu du dataware mais on ne sait plus à quoi ca correspond. Comme si dans votre entrepôt physique, des palettes entières de choses sont stockées mais vous n'avez plus l'étiquette dessus - ca m'a fait beaucoup rire, non pas que que soit faux mais l'image est intéressante !

3ème principe, l'inclusion de données non structurée... ca c'est la tarte à la crème du moment. Très vrai mais déjà qu'on a du mal avec les données structurées... et puis il faut encore pouvoir requêter dessus sur les deux à la fois sinon j'en vois pas l'intérêt (cf Search Based Application mais c'est encore tout neuf ).

Et enfin, 4ème principe, les fondements technologiques du dataware doivent pouvoir évoluer dans le temps pour s'adapter à l'évolution du business.

Si ca vous donne envie d'aller plus loin, je vous invite à au moins jeter un coup d'oeil à l'ouvrage.

Aucun commentaire:

Enregistrer un commentaire