Data Mesh: Analytischer Datenarchitekturansatz mit Zukunft
Mithilfe von Data Mesh lassen sich große Datenmengen einfach strukturieren. Daten sind schneller auffindbar, allgemein zugänglich und sicher. Dieser Architekturansatz hilft zudem Unternehmen bei der Entscheidungsfindung und sorgt für eine schnellere Wertschöpfungskette. Erfahren Sie hier alles Wissenswerte rund um das Thema Data Mesh und seine Bedeutung im Analytics-Bereich.
Was ist Data Mesh?
Data Mesh ist ein 2018 entwickelter Datenarchitekturansatz von Zhamak Dehghani, Director of Emerging Technologies bei dem führenden Softwareberatungsunternehmen Thoughtwork. Nutzer können mit ihm auf wichtige Daten zuzugreifen – ohne sie in einen Data Lake oder ein Data Warehouse zu exportieren. Die wesentlichen Schwerpunkte von Data Mesh sind die Folgenden:
- Datendezentralisierung
- Datenverteilung
- Datenverwaltung
Data Mesh stellt einen Paradigmenwechsel im Big-Data-Management in Richtung Datendezentralisierung dar und verdrängt immer mehr vorherrschende Architekturmodelle.
Data Mesh Architecture: 4 Säulen
Data Mesh nutzt eine domänengesteuerte Self-Service-Dateninfrastruktur. Mit dieser verbessert sich die Datenarchitektur, damit Unternehmen schneller und einfacher auf Daten zugreifen können. Wie auch bei der Microservice-Architektur, unterstützt der Data-Mesh-Ansatz die Datendemokratisierung, d. h. die Daten so vielen Mitarbeitern in einem Unternehmen wie möglich zugänglich zu machen.
Data Mesh basiert laut Zhamak Dehghanie auf vier Säulen:
- Domain Ownership – gemäß der domänengesteuerten Architektur werden analytische und operative Daten auf die Domänenteams verlagert, weg vom zentralen Datenteam.
- Data as a Product – Daten als Produkt unabhängig und sicher verwalten, um Engpässe und Silos im Datenmanagement zu reduzieren und die Skalierbarkeit zu erhöhen.
- Federated Governance – Daten unabhängig vom Datenvolumen, Zeitpunkt des Datenzugriffs oder steigenden Reaktionszeiten für die beabsichtigte Nutzung, Entscheidungsfindung und Planung bereitstellen und ein Datenökosystem schaffen.
- Self-serve Data Platform – effektives und einfaches Datenmanagement mit Self-Service-Charakter für eine bessere Zusammenarbeit innerhalb der Teams
Was sind die Ziele des Data-Mesh-Ansatzes?
Data Mesh verbindet in Silos gespeicherte Daten, sodass Unternehmen in großem Umfang automatisierte Analysen durchführen können. Es ermöglicht Unternehmen, betriebliche Ineffizienzen monolithischer Systeme zu reduzieren und sich vor massiven Betriebs- und Speicherkosten zu schützen. Dieser neue, verteilte Ansatz zielt darauf ab, die Datenzugriffsengpässe des zentralisierten Datenbesitzes zu beseitigen, indem die Datenverwaltung und Datenverantwortung an domänenspezifische Geschäftsteams übergehen.
Welche Probleme lassen sich mit Data Mesh lösen?
Datenarchitekturen verbessern sich kontinuierlich, um den wachsenden Anforderungen der Datenverwaltung zu genügen. Die Datenzentralisierung ist besonders schwierig umzusetzen – unabhängig davon, wo die Daten gespeichert sind. Um diese Herausforderung zu bewältigen, eignen sich z. B. Data Lakes. Jedoch liegen bei dieser kostengünstigen Datenarchitektur die Nachteile auf der Hand:
- Hohe Anforderungen beim Datenschutz und bei der Datensicherheit
- Langsamer und eingeschränkter Datenzugriff sowie eine erschwerte -verarbeitung je nach Auslastung des Netzwerks
- Steigende Kosten durch Speicherplatz, Software und Datenteams, um Daten zu verschieben und zu kopieren sowie Datenpipelines zu warten
Data Mesh geht diese Probleme an und bringt viele Mehrwerte für den Datenproduzenten und Datenkonsumenten.
Vorteile von Data Mesh im Datenmanagement
Die verteilte Datenarchitektur bei Data Mesh betrachtet Daten als Produkt mit separatem Domain Ownership für jede Geschäftseinheit. Zudem ergeben sich weitere wichtige Vorteile:
- Agilität und Skalierbarkeit: Data Mesh unterstützt die dezentrale Datenverwaltung und verbessert die Skalierbarkeit und Agilität der Geschäftsdomäne.
- Flexibilität und Unabhängigkeit: Unternehmen, die sich für eine Data-Mesh-Architektur entscheiden, sind nicht an eine Datenplattform oder ein Datenprodukt gebunden.
- Schnellerer Zugriff auf kritische Daten: Data Mesh bietet einfachen Zugriff auf eine zentralisierte Infrastruktur mit einem Self-Service-Modell, das einen schnelleren Datenzugriff und SQL-Abfragen ermöglicht.
- Höhere Datenqualität: Operative Teams führen selbstständig Analysen durch und bieten kuratierte analytische Datenprodukte an.
- Bessere Zusammenarbeit: Data Mesh dezentralisiert den Datenbesitz und verteilt ihn auf funktionsübergreifende Domänenteams. Jedes Team kennt seine Daten genau. Der Eingriff von zusätzlichen Datenexperten ist nicht erforderlich.
- Bessere Entscheidungsfindung: Indem Daten aus verschiedenen Domains miteinander verknüpft sind, lassen sich schnelle Entscheidungen zur Weiterentwicklung operativer Systeme treffen.
- Geringe Kosten und weniger Zeitaufwand: Dank dezentraler Datenverteilung sind Daten für alle schnell verfügbar. Der Export der Daten in ein anderen Datenspeicher ist nicht erforderlich. Das spart wichtige Ressourcen.
Data Mesh in der Praxis
Data Mesh eignet sich meist als Bottom-Up-Ansatz mit einem gemeinsam definierten Ziel. Doch wie lässt sich dieser Ansatz in die Praxis umsetzen? Folgende Schritte sind dazu nötig:
1. Teams zusammenstellen
Zuerst sind ein oder mehrere Teams für Datenanalysen zusammenzustellen. Sie einigen sich idealerweise auf eine Datenplattform wie z. B. Google BigQuery, AWS S3, Azure Synapse Analytics oder Snowflake. Alternativ bietet sich auch eine PostgreSQL-Datenbank kombiniert mit einem Visualisierungstool wie Metabase oder Redash für einen einfachen Einstieg an. Die logische und domaingesteuerte Data Mesh Architecture definiert bestimmte Bereiche für jedes Team, in denen sich die analytischen Daten speichern lassen.
2. Daten einfügen
Im nächsten Schritt fügt das Team die Daten aus dem operativen System in die Datenplattform ein. Problem: Die Daten sind dann meist unstrukturiert. Integrationen wie Kafka Connect lösen dieses Problem. Alternativ implementiert das Team einen eigenen Consumer, der die Streaming-Ingestion-API der jeweiligen Plattform aufruft. Datenbank-Exports via ETL-Batches sind möglichst zu vermeiden. Diese wirken sich schlecht auf Echtzeit-Analysen aus.
3. Daten bereinigen
Danach erfolgt die Datenbereinigung. Dafür gilt es, Duplikate zu entfernen. Die bereinigten Datensätze sind entscheidend für die internen Datenanalysen des Teams. Mittels SQL-Abfragen können Teams unveränderliche Events und die sich im Laufe ändernden Stammdaten-Entities analysieren.
4. Visualisierungstool nutzen
Anhand von Visualisierungen sind Daten greifbarer und besser verständlich. Die genutzte Datenplattform sollte daher ein dazu geeignetes Tool zur Verfügung stellen. Um die Daten veranschaulichen zu können, ist ein Zugriff auf die Tabellen oder die entsprechenden Queries Voraussetzung. Die Aggregation der Daten lässt sich direkt im Tool steuern.
5. Daten bereitstellen
Zum Schluss sind die Daten auch anderen Teams als Datenprodukte bereitzustellen. Dabei empfiehlt es sich, einen ganzheitlichen View zu verwenden, der auch aufzeigt, wann sich Datensätze ändern. Haben die anderen Teams eine Berechtigung für diese Datenansicht erhalten, können sie per SQL-Query auf die Daten zugreifen. Die Datensätze sind immer nach festgelegten Standards zu dokumentieren, z. B. in einem Wiki oder Git-Repository. Ein Data Catalog stellt im fortgeschrittenen Modus die beste Lösung dar. Er dokumentiert detailliert Metainformationen und einzelne Felder zum Datensatz.
Data-Mesh-Ansatz mit Talend integrieren
Data Mesh eröffnet Unternehmen unzählige Möglichkeiten in verschiedenen Nutzungsszenarien – einschließlich der Verhaltensmodellierung, Datenanalyse und Business Intelligence. Von der Entwicklung bis zur Produktion – alle Teams profitieren von diesem dezentralen Architekturmodell.
Mithilfe unseres Tools Talend Data Fabric treffen Sie die richtigen Entscheidungen. Entdecken Sie unsere clevere Lösung und erhalten Sie zuverlässige und vertrauenswürdige Daten.
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- IT-Modernisierung: Definition, Vorteile und relevante Schritte
- Digitale Transformation: Startschuss für die Zukunft Ihres Unternehmens
- Data Fabric: Definition, Funktionen und Vorteile
- Digitale Transformation in Unternehmen: Strategie und Erfolgsfaktoren
- Stammdatenmanagement: Was ist das eigentlich?
- Was ist eine Data Pipeline?