Een snel overzicht van het Apache Hadoop Framework

Hadoop, nu bekend als Apache Hadoop, is vernoemd naar een speelgoedolifant die toebehoorde aan de zoon van mede-oprichter Doug Cutting. Doug koos de naam voor het open-sourceproject omdat het gemakkelijk te spellen, uit te spreken en te vinden was in zoekresultaten. De originele gele opgezette olifant die de naam inspireerde, verschijnt in het logo van Hadoop.

Wat is Apache Hadoop?

De Apache Hadoop-softwarebibliotheek is een raamwerk dat de gedistribueerde verwerking van grote gegevenssets over clusters van computers mogelijk maakt met behulp van eenvoudige programmeermodellen. Het is ontworpen om op te schalen van enkele servers naar duizenden machines, elk met lokale berekeningen en opslag. In plaats van te vertrouwen op hardware om hoge beschikbaarheid te leveren, is de bibliotheek zelf ontworpen om fouten op de applicatielaag te detecteren en af ​​te handelen, zodat een service met hoge beschikbaarheid wordt geleverd bovenop een cluster van computers, die elk vatbaar zijn voor storingen.

Bron: Apache Hadoop

In 2003 bracht Google hun paper uit over het Google File System (GFS). Het beschrijft een eigen gedistribueerd bestandssysteem dat bedoeld is om efficiënte toegang te bieden tot grote hoeveelheden gegevens met behulp van standaardhardware. Een jaar later bracht Google nog een paper uit met de titel "MapReduce: Simplified Data Processing on Large Clusters." Doug werkte toen bij Yahoo. Deze papieren vormden de inspiratie voor zijn open-sourceproject Apache Nutch. In 2006 verlieten de projectcomponenten die toen bekend stonden als Hadoop, Apache Nutch en werden ze vrijgegeven.

Waarom is Hadoop nuttig?

Elke dag worden miljarden gigabytes aan gegevens gecreëerd in verschillende vormen. Enkele voorbeelden van veelgebruikte gegevens zijn:

  • Metadata van telefoongebruik
  • Website-logboeken
  • Transacties met creditcardaankopen
  • Social media berichten
  • Videos
  • Informatie verzameld van medische apparaten

"Big data" verwijst naar datasets die te groot of te complex zijn om te verwerken met traditionele softwareapplicaties. Factoren die bijdragen aan de complexiteit van gegevens zijn de grootte van de gegevensset, de snelheid van beschikbare processors en het gegevensformaat.

Ten tijde van de release was Hadoop in staat om gegevens op grotere schaal te verwerken dan traditionele software.

Core Hadoop

De gegevens worden opgeslagen in het Hadoop Distributed File System (HDFS). Met behulp van kaartreductie verwerkt Hadoop gegevens in parallelle brokken (waarbij meerdere delen tegelijkertijd worden verwerkt) in plaats van in een enkele wachtrij. Dit vermindert de tijd die nodig is om grote datasets te verwerken.

HDFS werkt door grote bestanden op te slaan die in stukjes zijn verdeeld, en deze over veel servers te repliceren. Het hebben van meerdere kopieën van bestanden zorgt voor redundantie, die bescherming biedt tegen gegevensverlies.

Hadoop-ecosysteem

Er zijn veel andere softwarepakketten die Hadoop aanvullen. Deze programma's omvatten het Hadoop-ecosysteem. Sommige programma's maken het gemakkelijker om gegevens in het Hadoop-cluster te laden, terwijl andere het gebruik van Hadoop vergemakkelijken.

Het Hadoop-ecosysteem omvat:

  • Apache Hive
  • Apache Pig
  • Apache HBase
  • Apache Phoenix
  • Apache Spark
  • Apache ZooKeeper
  • Cloudera Impala
  • Apache Flume
  • Apache Sqoop
  • Apache Oozie

Meer informatie:

  • Apache Hadoop