Pig et Hive, les “écrous et boulons” du Big data

Le 27 Jan 2015

Par Judith Tripard, consultante senior chez Clémentine, publié le 27 janvier 2015.

Pig and Hive logo in big data

Le big data est associé à énormément d’autres termes qui peuvent prêter à confusion si vous n’êtes pas un expert en informatique. Heureusement, il n’est pas indispensable de connaître tous les détails techniques pour comprendre comment le big data peut vous aider à apporter de la valeur. Cependant, un aperçu des termes les plus courants est très utile pour les managers qui seront très probablement en lien étroit avec les experts techniques au moment de l’élaboration d’une stratégie de données.

Voici une explication des deux termes que vous pourriez rencontrer fréquemment une fois que vous plongez dans les “écrous et boulons” du Big data – Pig et Hive. Le concept de Big Data inclut la collecte, le stockage et l’analyse de grandes quantités d’informations. Pig et Hive entrent en jeu lors de la dernière (mais en aucun cas moins importante) étape de ce processus – la phase d’analyse. C’est à ce moment là que vos données sont “nettoyées”, et mises dans un format à partir duquel ces données peuvent être utilisées.

À bien des égards, Pig et Hive font tous les deux la même chose – les spécialistes des données les utiliseront dans des circonstances différentes – mais en général pour atteindre les mêmes objectifs. Les deux sont open-source – sous la bannière de la fondation Apache – ce qui signifie qu’ils sont complètement libres d’utilisation, et peuvent être modifiés par n’importe qui afin de créer des versions ad hoc adaptées à des problématiques spécifiques.

Le principe de l’Open Source est important – en fait, fondamentale – au Big data, puisque cela signifie que les technologies sont disponibles pour n’importe qui, n’importe où dans le monde, à moindre coût.

Alors, que font Hive et Pig? Ils permettent aux développeurs de créer des outils qui peuvent être utilisés pour interroger et analyser des volumétries importantes de données, réparties sur différents serveurs, très rapidement et efficacement. Les données peut être structurées(l’information est organisée en lignes et en colonnes dans des tableaux) ou non structurées (texte, images, vidéo ou sonore)

Pig and Hive effectuent une fonction d’Hadoop qu’on appelle « MapReduce », qui permet de structurer les données non structurées et ainsi les rendre compréhensibles par les ordinateurs.

MapReduce, consiste à identifier les données à partir d’une base de données et les mettre dans un format particulier. Par exemple, quelles données se réfèrent aux notations de satisfaction des clients? Lesquelles se réfèrent à l’âge des clients? Etc.

Mapreduce permet ensuite d’effectuer des opérations mathématiques sur ces données afin de les quantifier. En reprenant ce même exemple, vous seriez en mesure de quantifier le nombre de clients de moins de 35 ans qui ont apprécié vos services ou produits.

Mapreduce atteint ses limites dès qu’il s’agit d’implémenter des traitements complexes. Hive et Pig offrent tous deux des systèmes permettant de réaliser des fonctions de MapReduce et de présenter les résultats des analyses. Les deux utilisent leurs propres langages de programmation et permettent d’accéder plus rapidement à la fonction Mapreduce de Hadoop.

Hive pourrait être un peu plus facile à utiliser car HiveQL est un langage déclaratif basé sur SQL, qui est plus familier aux développeurs. Pig Latin, d’autre part, est un langage de programmation impératif plus complexe.

DERNIERS ARTICLES

Rechercher des articles

CANDIDATS

CONFIEZ-NOUS VOTRE RECHERCHE