+++ Die kostenlosen Online Live Webinare 2023 - Trading, Finanzen, Geldanlage & Vermögen +++

Hadoop – der Elefant für große Datenmengen

Inhaltsverzeichnis

Big Data ist eines der großen Trendthemen dieses Jahrzehnts. Dabei geht es vor allem um die Verarbeitung und Auswertung von großen, unstrukturierten Datenmengen, um Entscheidungsfindungen zu erleichtern.

In diesem Zusammenhang fällt immer wieder der Begriff Hadoop, doch nur wenige Laien und Anleger wissen, was es mit dem Begriff wirklich auf sich hat. Ein Grund mehr, einen genaueren Blick auf Hadoop zu werfen.

Was ist Hadoop?

Bei Hadoop handelt es sich zunächst um eine Open Source Softwareumgebung, die in Java programmiert ist. Mithilfe dieser können riesige Datenmengen verarbeitet werden.

Das hat den Vorteil, dass selbst komplexe Rechenaufgaben bearbeitet werden können, ohne dass den Firmen dadurch hohe Kosten entstehen. Der Grund hierfür ist, dass Hadoop Open Source ist, was bedeutet, dass zunächst keine Lizenzkosten anfallen und auch keine besonders teure Hardware erforderlich ist.

Wie funktioniert Hadoop?

Hadoop besteht aus 3 Kernkomponenten, die im Zusammenhang mit der Verarbeitung großer Datenmengen (Big Data) zum Einsatz kommen. Eine wichtige Komponente ist dabei das Dateisystem Hadoop Distributed File System (HDFS), wodurch große Datenmengen über mehrere Rechnerknoten verteilt gespeichert werden.

Das Besondere an Hadoop ist der sogenannte Map-Reduce-Ansatz, dem Google zu großer Popularität verholfen hat. Dadurch werden die Rechneraufgaben in kleine Teilaufgaben zerlegt und verteilt einer parallelen Verarbeitung zugeführt. Praktisch heißt das in etwa, dass mehrere Rechner gleichzeitig an einer Aufgabe arbeiten und dadurch Zeit sparen. Anschließend wird das Ergebnis wieder zusammengeführt.

Die dritte wichtige Komponente bildet YARN, eine Art Datenbetriebssystem. Dadurch können verschiedene Cluster-Ressourcen und Daten-Streams verwaltet werden.

Die Vorteile von Hadoop

Der große Vorteil von Hadoop gegenüber herkömmlichen Datenbanken ist der, dass Daten unterschiedlichster Struktur gespeichert und verteilt weiterverarbeitet werden können. Damit ist die Basis für eine schnelle Durchsuchbarkeit und Verarbeitung der Daten gelegt.

Egal ob E-Mails, Maschinen- oder Sensordaten, Hadoop kann nahezu jedes Format verarbeiten. Da Hadoop auch auf Standard-Servern läuft, spart ein Unternehmen nicht nur Lizenz-, sondern auch Hardwarekosten.

Hadoop und der Einsatz in der Praxis

Der Wert unstrukturierter Daten gewinnt immer mehr an Bedeutung, können Firmen so weitere Daten aus der Produktion oder aus dem Vertrieb gewinnen, die ansonsten verborgen blieben.

Facebook nutzt zum Beispiel seit Jahren Hadoop, um Web-Analysen durchzuführen und diese für die weitere Verarbeitung zu speichern. Bei Yahoo setzt man im Zusammenhang mit der Web-Suche auf Hadoop. Beim Online-Auktionshaus eBay ist Hadoop ebenfalls nicht mehr wegzudenken.

Ein klassischer Einsatzbereich von Hadoop ist auch die Auswertung von Aktivitäten in sozialen Netzwerken wie Twitter, Facebook und anderen Social-Media-Plattformen. Dadurch können Firmen zum Beispiel ermitteln, welche Grundstimmung gegenüber dem Unternehmen bzw. zu einem spezifischen Produkt herrscht.

Fazit: Hadoop bietet Chancen für Unternehmen und Anleger

Hadoop ist für Firmen eine kostengünstige Alternative zu traditionellen Datenbanken, um unstrukturierte Daten kosteneffizient zu verarbeiten und auszuwerten. Vor allem durch die erweiterte Datenanalyse ergeben sich für Unternehmen völlig neue Möglichkeiten Kunden zu erreichen.

Aber auch für Anleger ist das Thema Hadoop und Big Data interessant. Einige an der Börse notierte Firmen wie zum Beispiel Hortonworks haben längst Geschäftsmodelle rund um Hadoop entwickelt. Andere Spezialisten wie Splunk sind ebenfalls aufgesprungen und bieten Analyseplattformen (Hunk) rund um Hadoop an.

Auch Intel hat ein eigenes Hadoop-Projekt (Rhino) angestoßen, um die Sicherheit rund um die Big Data Plattform zu verbessern. Dabei hat Intel Sicherheitsfunktionen (Mehrfaktor-Authentifizierung) in seine eigene Hadoop-Distribution integriert, wodurch auch Intel vom Hadoop-Boom profitieren könnte.