Der Grund für die Unzulänglichkeit konventioneller IT im Bereich Big Data geht auf die Größe der betreffenden Datensets zurück. Herkömmliche Tools werden mit der steigenden Masse an Daten kaum noch fertig: Sie versagen am Volumen, sind zu langsam und haben Probleme mit den verschiedenen vorhandenen Datenformaten. Die traditionelle IT ist also ungeeignet, um die Flut an unstrukturierten Daten effektiv zu erfassen und auszuwerten.
Die als Big Data bezeichneten Daten können aus ganz unterschiedlichen Bereichen stammen. Dazu gehören Internet und Mobilfunk, Finanzindustrie ebenso wie Energiewirtschaft, Gesundheitswesen und Verkehr. Auch Kredit- und Kundenkarten, soziale Medien, Überwachungskameras sowie Flugzeuge und Autos können Quellen einer Unmenge an Daten sein. Speziell entwickelte Big Data-Lösungen sind in der Lage, diese Daten zu speichern und auszuwerten.
80 Prozent der in Unternehmen gesammelten Daten sind sogenannte unstrukturierte Daten – also Informationen, die in digitalisierter, allerdings nicht formalisierter Form vorliegen und auf die man daher nicht, etwa anhand eines Computerprogramms, über eine einzelne Schnittstelle zugreifen kann. Herkömmliche Unternehmenssoftwares können die Daten aufgrund ihrer fehlenden Struktur – hier ist auch häufig von polystrukturierten Daten die Rede – und der unterschiedlichen Formate, in denen sie vorhanden sind, nicht nutzbringend verarbeiten. Das liegt daran, dass konventionelle Softwares auf die Verarbeitung klar strukturierter und vereinheitlichter Daten ausgelegt sind. Um die in Unternehmen anfallenden Daten für die Verarbeitung aufzubereiten, sind also vorab zeitintensive Extraktions-, Ladungs- und Transaktionsprozesse (ETL) nötig – die aber mit der heutigen Menge an anfallenden Daten sowie der fehlenden Strukturierung nicht mehr vereinbar sind. Bisher übliche Technologien wie herkömmliche Datenbanken, Data Warehouse- oder Reporting-Lösungen reichen hierfür längst nicht mehr aus.
Big Data dient also unterschiedlichen Zwecken, die sich in den drei Bereichen Datenmenge, -geschwindigkeit und -vielfalt verorten lassen:
- Verarbeitung großer Datenvolumen und unterschiedlicher Datensätze
- schnelleres Aufrufen und Selektieren von Daten
- Strukturierung der Daten und Verwaltung verschiedener Datentypen
Während Big Data Analytics die gesamte Technologie meint, die zur Datengewinnung und danach zur Auswertung der Daten verwendet wird, steht der Begriff Big Data Analysis für den Prozess der Datenanalyse selbst, also das aktive Untersuchen bestimmter Datensätze. Bei Big Data Analytics handelt es sich also um einen Überbegriff für verschiedene Modelle zum Gewinnen großer Datenaufkommen. Zu diesen gehören neben der Big Data Analysis das Data Mining und die Data Transformation.
Nachdem durch die Verwendung von Big-Data-Softwares Sets an Daten gesammelt wurden, helfen in einem zweiten Schritt statistische Verfahren, die Daten zu analysieren und zu visualisieren. Denn nur dann sind sie für die verschiedenen Geschäftsbereiche verwertbar und können zu Erkenntnissen hinsichtlich der Optimierung von Geschäftsprozessen führen.
Ein wichtiges Gebiet, in dem die digitale Transformation und damit die Nutzung von Big Data einen wirklichen Unterschied macht, ist die Wirtschaft. Die Digitalisierung hat dazu geführt, dass Unternehmen Daten in immer größerem Umfang speichern, verarbeiten und analysieren und ihre Mehrwerte daraus ziehen. Dadurch erhoffen sie sich beispielsweise neue Erkenntnisse über ihre Kunden, etwa ihr Kaufverhalten und Risikopotenzial. Außerdem hilft Big Data, die Produktion im Sinne von Industrie 4.0 zu vereinfachen und zu beschleunigen und damit Unternehmen letztendlich, sich eine bessere Position auf dem Markt zu verschaffen.
Big-Data-Komplettlösungen können auf dem Weg von den Rohdaten über ihre Verarbeitung zu geschäftsrelevanten Ergebnissen in einzelne Phasen unterteilt werden:
- Datenhaltung
- Datenzugriff
- analytische Verarbeitung
- Visualisierung
Weitere Bereiche, die durch die digitale Transformation immer mehr an Wichtigkeit gewinnen, sind Daten-Integration und Daten-Governance sowie die Daten-Sicherheit.
Big-Data-Anwendungen sind nicht auf eine einzige Technologie beziehungsweise Innovation zurückzuführen, sondern sind im Grunde eine Kombination verschiedener technischer Lösungen. Für jeden Anwendungsfall aber gibt es eine individuelle Lösung.
Vor einer Big-Data-Analyse sollten sich die Anwender über die Art und den Umfang ihrer Daten sowie die Ziele ihrer Analyse bewusst werden. Welche konkreten Bedarfe gibt es überhaupt? Und welche Daten gibt es im Unternehmen? Wo sind die Daten hinterlegt? Handelt es sich dabei auch um unstrukturierte Datenquellen? Gerade die Definition von Zielsetzungen fällt oftmals schwer, denn in vielen Fällen ist es kaum möglich, schon so früh zu wissen, welche Daten im weiteren Verlauf wichtig werden könnten. Viele Unternehmen beziehen daher immer mehr unstrukturierte Daten sowie Datenquellen in die Analysen ein.
Verfahren zur Datenanalyse lassen sich in vier Kategorien unterteilen:
- Die Standardisierte Datenanalyse ist besonders für Anwendungen geeignet, die eher geringe Ansprüche an Zeit und Vielfalt der Datenformate stellen.
- In-Memory-Technologien eignen sich für die Auswertung sehr großer Datenmengen.
- Hadoop-Lösungen sind insbesondere für die parellele Verarbeitung vieler verschiedener Datenformate zu empfehlen. Als Open-Source-Framework ist Hadoop fähig, große Volumen vielfältig strukturierter Daten zu speichern und zu verarbeiten.
- Complex-Event-Processing und -Streaming eignen sich dann für Anwendungen, wenn die Daten kontinuierlich und zeitnah, also während ihres Entstehens ausgewertet werden müssen.
Bildmaterial:
morganimation/stock.adobe.com