Technologie

Kafka 101 Tutorial - Real-Time-Dashboarding mit Druid und Superset

10. Mai 2023

💡 Einführung

In diesem neuen Blogbeitrag (oder GitHub-Repository) bauen wir auf allem auf, was wir bisher in dieser Kafka 101 Tutorial-Serie gesehen haben, nämlich:

und wir werden sehen, wie wir unsere Streaming-Daten in eine echtzeitfähige Datenbank, Apache Druid, einfließen lassen können! Darüber hinaus werden wir sehen, wie wir die Daten, die wir erzeugen (entweder aus unserem Rohdatenstrom oder unserem Flink-aggregierten Strom), mithilfe von echtzeitfähigen Dashboards, die von Apache Superset unterstützt werden, visualisieren können. Beachten Sie, dass wir bisher nur Apache-Technologien verwenden. Das liegt daran, dass wir uns für die Open-Source-Community 🤗 engagieren.

Die beiden neuen Dienste, die wir in diesem Artikel vorstellen, sind etwas weniger bekannt als das, was wir bisher verwendet haben, daher werde ich sie nur kurz vorstellen.

🧙‍♂️ Apache Druid

Druid is a high performance, real-time analytics database that delivers sub-second queries on streaming and batch data at scale and under load.

Druid ist ein spaltenorientierter Datenspeicher, was bedeutet, dass Daten spaltenweise und nicht zeilenweise gespeichert werden. Dadurch ermöglicht es eine effiziente Komprimierung und schnellere Abfrageleistung.
Druid ist auf OLAP (Online Analytical Processing) Abfragen optimiert, was bedeutet, dass es für komplexe Abfragen auf großen Datensätzen mit geringer Latenzzeit ausgelegt ist.
Druid unterstützt sowohl die Stapelverarbeitung als auch die Echtzeit-Datenübernahme, sodass es sowohl historische als auch Streaming-Daten verarbeiten kann.
Druid enthält eine SQL-ähnliche Abfragesprache namens Druid SQL, mit der Benutzer komplexe Abfragen gegen ihre Daten schreiben können.
Druid integriert sich mit einer Vielzahl anderer Datenverarbeitungs- und Analysetools, darunter Apache Kafka, Apache Spark und Apache Superset.

♾ Apache Superset

Apache Superset ist eine moderne, Open-Source-Business-Intelligence-(BI)-Plattform, die es Benutzern ermöglicht, ihre Daten in Echtzeit zu visualisieren und zu erkunden.

Superset is fast, lightweight, intuitive, and loaded with options that make it easy for users of all skill sets to explore and visualize their data, from simple line charts to highly detailed geospatial charts.

Superset wurde ursprünglich von Airbnb entwickelt und später als Open Source an die Apache Software Foundation gespendet.
Superset ist darauf ausgelegt, eine Vielzahl von Datenquellen anzubinden, darunter Datenbanken, Data Warehouses und Big Data-Plattformen.
Superset umfasst eine webbasierte GUI, mit der Benutzer Diagramme, Dashboards und Datenvisualisierungen mithilfe einer Drag-and-Drop-Oberfläche erstellen können.
Superset bietet eine Vielzahl von Visualisierungsoptionen, darunter Balkendiagramme, Liniendiagramme, Scatterplots, Heatmaps und geografische Karten.
Superset enthält eine Reihe von integrierten Funktionen für die Datenexploration und -analyse, darunter SQL-Editoren, Tools zur Datenprofilerstellung und interaktive Pivot-Tabellen.

🐳 Anforderungen

Um dieses Projekt zum Laufen zu bringen, benötigen Sie lediglich minimale Voraussetzungen: Sie müssen Docker und Docker Compose auf Ihrem Computer installiert haben.

Die Versionen, die ich für den Aufbau des Projekts verwendet habe, sind:

1
2
3
4
5
6
7
## Docker
docker --version
> Docker version 23.0.6, build ef23cbc431

## Docker Compose
docker-compose --version
> Docker Compose version 2.17.3

Falls Ihre Versionen unterschiedlich sind, sollte das kein großes Problem darstellen. Es könnte jedoch vorkommen, dass einige der folgenden Schritte Warnungen oder Fehler verursachen, die Sie selbst beheben müssen.

🏭 Infrastruktur

Um alles zum Laufen zu bringen, müssen Sie den gesamten Producer-Teil (das Repository aus dem vorherigen Artikel) sowie Druid und Superset zum Laufen bringen. Gehen Sie dazu wie folgt vor:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
## Clone the repo
git clone https://github.com/theodorecurtil/flink_sql_job.git

## cd into the repo
cd flink_sql_job

## docker-compose the infra
docker-compose up -d

## go back to previous level
cd ..

## Clone the new repo
git clone git@github.com:theodorecurtil/real_time_dashboarding.git

## cd into the repo
cd real_time_dashboarding

## start the infrastructure
./start.sh

⚠ Es kann sein, dass Sie das Skript start.sh erst ausführbar machen müssen, bevor Sie es ausführen dürfen. Wenn dies der Fall ist, geben Sie einfach den folgenden Befehl ein:

1
chmod +x start.sh

Der Druid docker-compose-Datei geht davon aus, dass der Kafka-Cluster im Docker-Netzwerk flink_sql_job_default läuft. Dies sollte der Fall sein, wenn Sie das Repository flink_sql_job geklont und die Infrastruktur mit den zuvor aufgeführten Befehlen gestartet haben. Andernfalls passen Sie einfach die Verweise auf das Docker-Netzwerk flink_sql_job_default in der docker-compose-Datei an.

Überprüfung der Funktionsfähigkeit

Um zu überprüfen, ob alle Dienste ausgeführt werden (Sie werden feststellen, dass jetzt viele Docker-Container ausgeführt werden), besuchen Sie die folgenden URLs und überprüfen Sie, ob alle Benutzeroberflächen ordnungsgemäß geladen werden:

Kafka: http://localhost:9021
Flink: http://localhost:18081
Druid: Benutzername ist druid_system und das Passwort lautet password2 http://localhost:8888
Superset: Benutzername ist admin und das Passwort lautet admin http://localhost:8088

Sie sollten etwas Ähnliches sehen wie:

Druid, Confluent, Flink and Superset User Interfaces

Die Beziehung zwischen allen Diensten wird mit dem folgenden Flussdiagramm veranschaulicht.

Diagram of the streaming analytics infrastructure

In den folgenden Abschnitten werden wir sehen, wie wir die Stream-Einbindung von Apache Druid aus unserem Kafka-Cluster einrichten und dann Druid mit Superset verknüpfen, um Echtzeit-Dashboards zu erstellen!

🌀 Druid Streaming-Datenübernahme

Der Kafka-Producer, den wir gestartet haben, erzeugt Nachrichten im Topic SALES. Dabei handelt es sich um künstlich erzeugte Verkaufsvorgänge, die jede Sekunde mit dem folgenden Schema erzeugt werden:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
{
    "type": "record",
    "name": "StoreSale",
    "namespace": "com.acosom",
    "fields": [
        {
            "name": "store_id",
            "type": {
                "type": "string",
                "avro.java.string": "String"
            },
            "doc": "ID of the store where the sale was made."
        },
        {
            "name": "sale_amount",
            "type": "int",
            "doc": "Amount of the sale in local currency. This value is an integer."
        },
        {
            "name": "sale_ts",
            "type": "long",
            "doc": "Epoch timestamp when the sale happened."
        }
    ]
}

Als Erstes werden wir Druid mit unserem Kafka-Cluster verbinden, um die Streaming-Einbindung dieses Topics zu ermöglichen und die Daten in unserer Echtzeitdatenbank zu speichern.

Wir werden dies über die Benutzeroberfläche von Druid unter http://localhost:8888 durchführen. Im Folgenden zeigen wir schrittweise, wie Sie die Streaming-Spezifikation erstellen können. Beachten Sie jedoch, dass die Spezifikation einfach über die REST-API von Druid als JSON gepostet werden kann.

Entwurf der Stream-Datenübernahmespezifikation

Der erste Schritt besteht darin, auf die Schaltfläche Load data zu klicken und die Option Streaming auszuwählen.