Oft gestellte Fragen
Was ist Stream Processing?
Stream Processing ist eine alternative Methode der Datenverarbeitung. Anders als
beim Batch-Processing werden Daten dabei in Echtzeit und ohne
Zwischenspeicherung weiterverarbeitet. Dadurch werden große Datenansammlungen
vermieden, was gerade im Bereich Big Data hilfreich sein kann. Wenn Unternehmen
darauf angewiesen sind, Daten möglichst schnell zu verarbeiten, stößt
Batch-Processing schnell an seine Grenzen. Bei Analyseergebnissen
beispielsweise, die durch Verzögerung an Aussagekraft verlieren. Außerdem steigt
der Ressourcenaufwand für die Speicherung von Daten, je mehr Daten anfallen.
Beim Stream Processing wird dieses Problem umgangen.
Wie funktioniert Stream Processing?
Beim Stream Processing werden Daten mit minimaler Verzögerung direkt nach ihrer
Entstehung weitergeleitet und verarbeitet. Aus einer Datenquelle wird ein
Datenstrom erzeugt, der aus vielen einzelnen Daten in einem bestimmten Format
besteht. Er wird von einem Empfänger entgegengenommen und weiterverarbeitet. Ein
weitergeleiteter Datenstrom kann bestimmte Aktionen auslösen, wie zum Beispiel
Datenanalysen und Statistiken updaten oder neue Datenströme erzeugen.
Wie werden die Daten im Stream Processing verarbeitet?
Bei der Verarbeitung wird zwischen Native Streaming und Micro Batching
unterschieden. Beim Native Streaming wird ein Datenstrom direkt
weiterverarbeitet, während beim Micro Batching kleinere Einheiten von
Datenströmen angesammelt werden, um sie anschließend weiterzuverarbeiten. Der
Vorteil vom Native Streaming ist die Weiterverarbeitung in Echtzeit und ohne
Zwischenspeicherung.
Welche Open-Source-Plattform werden empfohlen?
Aufgrund unserer Expertise und als Confluent Partner empfehlen wir unseren
Kunden gerne den Einsatz der Streaming-Platform Apache Kafka sowie Flink.