Big Data - Teil 1

Technischer Fortschritt Sep. 11, 2020

Blogautor: Let's Catch Vuca Technikleitung - Fabio Anzola

Was ist Big Data?

In der jetzigen Zeit gibt es enorm große, schnelllebige und extrem komplexe Datenbestände, welche sich mit den allseits bekannten Methoden nur schwer schnell und einfach verarbeiten lassen. Das Problem, schnell auf große Datenmengen (für zum Beispiel Analysezwecke) zugreifen zu wollen, ist jedoch kein Neues. Schon in den frühen 2000er Jahren gewann der Begriff an Bedeutung. Auslöser dafür war, dass der Branchenanalytiker Doug Laney die heute bekannte Definition von Big Data in seinem Modell erklärte.

3-V Modell von Doug Laney

Das 3-V Modell umfasst 3 Faktoren: Volume – Velocity – Variety
Also auf Deutsch: Masse – Geschwindigkeit – Vielfalt

Volume

Lasst uns als Beispiel den Social Media Bereich nehmen. Volume würde sich hier auf den Umfang aller generierten Daten beziehen. Also alle Daten, die durch Webpages, Portale und/oder Online Portale erzeugt wird. Im Allgemeinen kann man sagen, dass B2C (Business to Consumer) Firmen die Datenmengen hier enorm vorantreiben. Wenn man überlegt, dass Facebook alleine 2 Milliarden (2.000.000.000), YouTube 1 Milliarde (1.000.000.000), Twitter 350 Millionen (350.000.000) und Instagram 700 Millionen (700.000.000) User hat, bekommt man langsam eine Ahnung um welche riesigen Datenmengen es sich hier handelt. Diese Datenmenge wird natürlich von Sekunde zu Sekunde größer und größer, egal ob es sich jetzt um Bilder, Videos, Posts, Tweets, Kommentare o.a. handelt.

Velocity

Mit Velocity spricht man über die Geschwindigkeit, in welcher diese Daten generiert werden. Wenn wir jetzt bei obigem Beispiel bleiben, dann werden zum Beispiel täglich über 900 Millionen (900.000.000) Bilder auf Facebook, 500 Millionen (500.000.000) Tweets oder 0.4 Millionen Stunden Videomaterial auf YouTube hochgeladen. Auf der Suchplattform Google werden täglich mehr als 3.5 Milliarden (3.500.000.000) Suchanfragen gestellt. Eine davon kam wahrscheinlich gerade von dir und hat dich zu diesem Beitrag geleitet.

Big Data hilft Firmen, unter anderem den oben genannten, diesen enormen einkommenden Datenverkehr einzulesen und diesen auch gleichzeitig zu verarbeiten, um keine sogenannten „Bottlenecks“ (=Flaschenhals) zu erzeugen.

Variety

Mit Variety spricht man über die Vielfältigkeit der eingehenden Daten. Hier gibt es sowohl strukturierte Daten - wie zum Beispiel Texte, Tweets, usw., - als auch unstrukturierte Daten - wie Emails, Voicemails, usw..

Bei Variety ist es am wichtigsten, die eingehenden Daten zu klassifizieren, Strukturen zu erkennen und sie Kategorien zuzuordnen.

The-3Vs-of-big-data
(https://www.whishworks.com/hs-fs/hubfs/Blog/The-3Vs-of-big-data.png?width=618&name=The-3Vs-of-big-data.png)

5-V Modell

Wobei in vergangen Jahren Big Data durch das 3V Modell definiert wurden, wurde es kürzlich durch ein neues Modell abgelöst; Das 5V Modell.
Wobei die ersten drei Faktoren gleichbleiben, kommen zwei weitere dazu. Alle fünf Faktoren sind jetzt also: Volume, Velocity, Variety, Veracity und Value.
Auf Deutsch: Masse – Geschwindigkeit – Vielfalt – Richtigkeit – Gewichtung

Veracity

Mit Veracity, also der Richtigkeit, bezieht man sich auf die Inkonsistenz, die bei großen Datenmengen auftritt. Auch bei Big Data kann es vorkommen, dass die Qualität der Daten abnimmt, genauso wie die Genauigkeit.

Die Qualität bei Big Data ist stark von einer Variable abhängig, nämlich der Qualität der Daten der vielen verschiedenen Quellen. Oft sind die Quelldaten einfach schlampig, inkonsistent oder gar falsch im Ausgangsystem gespeichert. Das ist leider eine Variable, die man nicht selber steuern kann.

Value

Value steht für den Wert der Daten für die Firma bzw. die Gewichtung der Daten. Hier muss also wirklich stark unterschieden werden welche Daten für eine Firma von Wert sind - und welche nicht.

Daten alleine sind aber natürlich nichts wert. Es kommt ganz darauf an, was man aus den Daten macht. Bei der Auswertung von Daten sollte man also immer mit dem Wert der Daten starten. Dieses ´V´, ist wahrscheinlich das Wichtigste von allen.

Anwendung

Da Big Data ein so enorm flexibles, anpassbares und weitnutzbares Tool ist, kann es fast überall einen Nutzen finden. Folgende sind jedoch die Bereiche, in denen Big Data am häufigsten Verwendung findet:
· Bildungswesen
· Forschung
· Finanzwesen
· Micro-Targeting
· Politik (Wahlkampagnen)
· Wirtschaftsanalysen

Quellen finden Sie im zweiten Teil des Blogthemas.

Fabio Anzola

Hi, my name is Fabio and I'm the project management assistance and leader of the admin & technology team