mercredi 16 décembre 2015

Création d'un cluster hadoop 8 noeuds

Dernièrement, dans un data lab, j'ai créé un cluster hadoop à 8 noeuds, 3 noeuds pour gérer la haute disponibilité du namenode et 5 noeuds pour les data. Ce cluster a été construit sur une architecture de type commodity hardware, 8 PC dont la configuration est la suivante: 4 threads, 32 GB RAM et qqes TB de disque magnétique. L'OS installé est Ubuntu ( 12.04 pour les master nodes, un ancien cluster Cassandra reconverti et 14.04 pour les data nodes ). En production, pour rappel, chaque noeud doit être configuré de manière identique. Quant aux JVM, elles se basent sur openjdk-7-jre.

Pour ce faire, je me suis basé sur les liens suivants:
- Installation d'un cluster hadoop sans ha sur Ubuntu;
- Installation d'un cluster hadoop en mode ha;
- HDFS haute disponibilité: howto.

Comme toute installation a toujours son lot de surprises, en particulier sur un environnement expérimental, voici le répertoire google drive où j'ai mis mes notes sur l'installation ainsi que les fichiers de configuration hadoop.

Par la suite, j'ai fait qqes tests de map-reduce sur un wordcount perso et le cluster a parfaitement bien répondu. Quelques screenshots sont disponibles dans le répertoire de partage.