Big data est devenu synonyme de Hadoop et de son écosystème très riche : Sqoop, Flume, Pig, Hive, Hbase, Spark, Hue, Oozie, Zookeeper, Ambari, etc. C'est un cadre logiciel ouvert et libre pour faciliter la gestion et l'utilisation d'un environnement technologique pour le stockage, le traitement et l'analyse de mégadonnées.
L'environnement « Big Data » doit être hautement distribué, extensible et tolérant aux pannes. On parle donc d'une infrastructure composée d'un pool important de ressources de calcul, mémoire, stockage et communications et hautement performantes. Cette infrastructure représente une rupture par rapport à la tendance de la virtualisation récemment maîtrisée à l'interne par les entreprises. Les exigences de performance éliminent les solutions de virtualisation ou de toutes composantes pouvant ralentir les traitements. Les outils Big Data doivent être installés le plus près des composantes physiques.
En effet, les volumes de données sont en général de l'ordre de péta ou exaoctets, bien au-delà des volumes habituels de données des systèmes d'entreprise. Ces données ne seront pas nécessairement conservées sur une longue période selon leur valeur dans le temps. Souvent, seules les données agrégées seront conservées. Par exemple, il n'y a pas d'intérêt à conserver au-delà d'une courte période le détail de lecture de tous les capteurs d'un réseau de distribution électrique. Néanmoins, les volumes, même éphémères, feront que des ressources de stockage gigantesques devront être disponibles pour une courte période.
Dans le contexte du Big Data, les données peuvent aussi arriver à des débits très élevés et s'accumuler très rapidement en d'énormes ensembles de données sur de très courtes périodes. Ces débits peuvent aussi varier dans le temps, un peu comme une heure de pointe de transactions boursières. La vélocité des données se traduit pour l'entreprise en capacité de traitement hautement élastique et disponible avec les capacités de stockage correspondantes. Selon des chiffres de 2015, il se créait en une seule minute plus de 350 000 tweets sur Twitter, plus de 300 heures de vidéo sur YouTube, 171 millions de courriels sur Gmail. En référence, un moteur d'avion peut générer plus de 330 gigaoctets de données de lecture dans ce même laps de temps.
De plus, il ne faut pas négliger le fait que les données proviennent de sources et de formats très variés; bases de données relationnelles, fichiers binaires, documents texte, chiffriers, vidéos, images, audio, etc. Cette grande variété des données représente un défi pour les entreprises en termes d'intégration, de transformation, de traitement et de stockage.
Il est donc devenu essentiel de considérer une infrastructure qui devra être extrêmement performante, agile et efficace dans l’utilisation de ses ressources matérielles.
On peut facilement imaginer le casse-tête que représente le Big Data et rendre nerveux tout CIO qui se respecte. Les impacts sur le parc informatique sont loin d'être négligeables. Quelles quantités de ressources faut-il se procurer? Lesquelles? Comment est-ce qu'on gère ces nombreuses ressources? Est-ce que l'entreprise est en mesure d'offrir les niveaux de services? À quel coût?
Alors que les organisations TI se sont dotées de pratiques exemplaires en gestion des opérations basées sur des modèles de référence comme ITIL, faut-il recommencer sur une autre base? Bien que des distributions ou solutions Hadoop soient disponibles sur le marché, comme Hortonworks, Cloudera ou MapR, leur stabilité représente un enjeu important pour les opérations en matière de gestion des changements technologiques. De plus, certaines distributions introduisent des composantes propriétaires de leur cru pour étendre les fonctionnalités à titre de valeur ajoutée, mais au détriment de la compatibilité avec d'autres distributions. Pour les entreprises qui hésitent à profiter des innovations potentielles apportées par cette technologie en raison des enjeux de gestion, il existe aussi des solutions en mode infonuagique (SaaS) telles que Databricks et Seldon. Ce sont quelques embûches à considérer lorsque vient le temps de choisir la solution.
Dans le prochain article de ce dossier, nous aborderons de façon plus précise l'exploitation d'un environnement Big Data en analysant les différentes alternatives ou scénarios possibles, soit en mode local, infonuagique, hybride ou services gérés.
Lire l'article suivant de notr dossier Big Data : 1, 2, 3... Comment j'opère tout ça ?