Après un an et demi de développement, l'Apache Software Foundation a publié le lancement de la nouvelle version de Apache Hadoop 3.3.0, version dans lequel il a ajouté des améliorations pour les plates-formes ARM, prise en charge de la planification des lancements de conteneurs et autres.
Apache Hadoop se positionne comme une plateforme gratuite pour organiser le traitement distribué de grandes quantités de données en utilisant le paradigme mapper / réduire, dans lequel une tâche est divisée en plusieurs petits morceaux isolés, dont chacun peut s'exécuter sur un nœud de cluster distinct.
Stockage basé sur Hadoop il peut s'étendre sur des milliers de nœuds et contenir des exaoctets de données.
À propos d'Apache Hadoop
Hadoop inclut une implémentation du système de fichiers distribué Hadoop (HDFS), qui assure automatiquement la redondance des données et est optimisé pour les applications MapReduce.
Une fonctionnalité clé est que pour une planification efficace des travaux, chaque système de fichiers doit connaître et fournir son emplacement, le nom du rack (plus précisément, du commutateur) où se trouve le nœud de travail.
Les applications Hadoop peuvent utiliser ces informations pour exécuter des travaux sur le nœud où se trouvent les données et, à défaut, sur le même rack / commutateur, réduisant ainsi le trafic réseau.
Pour simplifier l'accès aux données dans le stockage Hadoop, La base de données HBase et le langage Pig de type SQL ont été développés, qui est un type SQL pour MapReduce, dont les requêtes peuvent être parallélisées et traitées par diverses plates-formes Hadoop.
Le projet est évalué comme étant complètement stable et prêt pour l'exploitation industrielle. Hadoop est activement utilisé dans les grands projets industriels, offrant des capacités similaires à la plate-forme Google Bigtable / GFS / MapReduce, tandis que Google a officiellement délégué Hadoop et d'autres projets Apache sont autorisés à utiliser des technologies brevetées liées à la méthode MapReduce.
Hadoop se classe au premier rang des référentiels Apache en termes de nombre de modifications apportées et à la cinquième plus grande base de code (environ 4 millions de lignes de code).
Quoi de neuf dans Apache Hadoop 3.3?
Cette nouvelle version de Hadoop se positionne comme la première version à avoir el prise en charge des plates-formes basées sur ARM, avec lequel ceux qui souhaitent pouvoir implémenter cette plate-forme pourront trouver le binaire pour ARM déjà disponible.
Un autre des principaux changements présentés dans cette nouvelle version est le implémentation de la nouvelle version du format Protobuf (Tampons de protocole) utilisés pour sérialiser les données structurées a été mis à jour à la version 3.7.1 en raison de la fin du cycle de vie de la branche protobuf-2.5.0.
En plus de cela, aussi les capacités du connecteur S3A ont déjà été étendues qui l'a maintenant ajout de la prise en charge de l'authentification à l'aide de jetons, prise en charge améliorée de la mise en cache des réponses avec un code 404, des performances S3guard plus élevées et une fiabilité opérationnelle améliorée.
Aussi Ajout du service de résolution DNS pour que le client détermine les serveurs via DNS par nom d'hôte, ce qui permet de se passer de la liste de tous les hôtes de la configuration.
Aussi bien que prise en charge de la planification des lancements de conteneurs via un gestionnaire de ressources centralisé (ResourceManager), même avec la possibilité de distribuer des conteneurs en tenant compte de la charge de chaque nœud.
Des autres changements qui ressortent de cette nouvelle version:
- Les problèmes de réglage automatique ont été résolus dans le système de fichiers ABFS.
- Ajout de la prise en charge native du système de fichiers Tencent Cloud COS pour accéder au stockage d'objets COS.
- Le support complet de Java 11 a été ajouté.
- Stabilisation de l'implémentation HDFS RBF (Router Based Federation). Des contrôles de sécurité ont été ajoutés au routeur HDFS.
- Recherche dans le répertoire d'application YARN (un autre négociateur de ressources) ajouté.
Enfin, si vous souhaitez en savoir plus, vous pouvez consulter les détails de la nouvelle version sur le message d'origine.
Pour ceux qui souhaitent pouvoir obtenir la nouvelle version, ils peuvent télécharger les binaires préparés dans le lien suivant.