Microsoft BI, BIG DATA, HADOOP, HIVE, SQOOP – Kézako

Le monde de la Business Intelligence évolue et les solutions s’adaptent. Des mots comme BIG DATA, HADOOP, HIVE, SQOOP sont utilisés dans certains discours.
Cet article aura pour but d’expliquer succinctement ces termes, une sorte de mini sensibilisation.

BIG DATA

Le BIG DATA n’est rien d’autre qu’ un concept. Les défintions sont variées car ce concept évolue ce qui a pour effet de flouter ses caractéristiques.
A l’origine BIG DATA est associé à un très très grand volume de données, on parle là de plusieurs Teraoctets, des Peta et voir plus encore.
Les premiers acteurs du BIG DATA sont les moteurs de recherches dont Google est l’un des premiers précurseurs.

Les données quant à elles sont de nature différentes : on a d’un côté les données structurées, traditionnellement stockées dans les bases de données relationnelles et multi dimensionnelles. Et d’un autre côté des données non structurées qui sont plus difficiles à traiter, on y trouve des fichiers (pdf, mail, ppt, vidéos etc…), Internet : des informations des réseaux sociaux, informations dans le cloud etc.

Pour faire simple le BIG DATA représente la gestion et la manipulation de l’ensemble des données structurées et non structurées qu’une compagnie possède, génère et recherche.

Note : On peut aussi entendre le concept de No-SQL qui signifie Not Only SQL. Cela signifie que les données sont  traitées d’une manière différente que dans un schéma relationnelle classique. On parle alors d’une structure de base de données capable de traiter les gros volumes de données, le fameux BIG DATA.

HADOOP : HIVE, SQOOP

HADOOP est un projet Open Source d’ Apache écrit en JAVA. C’est un framework libre qui permet de gérer le BIG DATA à travers de différents outils. HADOOP stocke les données dans le système de fichier en utilisant HDFS (Hadoop Distributed File System). Plusieurs composants existent dans HADOOP : HIVE, SQOOP, HDFS, Pig, MapReduce, MAHOUT etc. et chacun assure une fonction.

HIVE permet de centraliser du BIG DATA, il joue le rôle de source de données principale de type data warehouse (en File System). On a la possibilité de chercher des informations grâce à des rêqûetes HiveQL.

SQOOP permet d’échanger des données entre entre HADOOP et SQL Server. Microsoft propose des connecteurs HADOOP, vous pouvez les télécharger à partir du lien ci-dessous :

http://www.microsoft.com/download/en/details.aspx?id=27584

Avec des lignes de commande on pourra soit exporter des données depuis HADOOP soit importer des données de SQL Server dans HADOOP. D’après le guide d’utilisations les actions permises sont les suivantes :

With SQL Server-Hadoop Connector, you import data from:

  • tables in SQL Server to delimited text files on HDFS
  • tables in SQL Server to SequenceFiles files on HDFS
  • tables in SQL Server to tables in Hive*
  • result of queries executed on SQL Server to delimited text files on HDFS
  • result of queries executed on SQL Server to SequenceFiles files on HDFS
  • result of queries executed on SQL Server to tables in Hive*

Note: importing data from SQL Server into HBase is not supported in this release. With SQL Server-Hadoop Connector, you can export data from:

  • delimited text files on HDFS to SQL Server
  • sequenceFiles on HDFS to SQL Server
  • hive Tables to tables in SQL Server

Une réflexion sur “Microsoft BI, BIG DATA, HADOOP, HIVE, SQOOP – Kézako

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s