Empfohlen, 2024

Die Wahl des Herausgebers

Wie Apache Kafka die Räder für Big Data schmiert

Kafka Tutorial | Apache Kafka Tutorial For Beginners | Kafka Architecture |What Is Kafka|Simplilearn

Kafka Tutorial | Apache Kafka Tutorial For Beginners | Kafka Architecture |What Is Kafka|Simplilearn
Anonim

Analytik wird oft als eine der größten Herausforderungen im Zusammenhang mit Big Data beschrieben, aber noch bevor dieser Schritt eintreten kann, müssen Daten erfasst und den Anwendern in Unternehmen zur Verfügung gestellt werden. Hier kommt Apache Kafka ins Spiel.

Ursprünglich bei LinkedIn entwickelt, ist Kafka ein Open-Source-System zur Verwaltung von Echtzeit-Datenströmen von Websites, Anwendungen und Sensoren.

Im Grunde handelt es sich um eine Art Enterprise " zentrales Nervensystem ", das umfangreiche Daten über Dinge wie Benutzeraktivität, Protokolle, Anwendungsmetriken, Börsenticker und Geräteinstrumentierung sammelt und als Echtzeitstrom für den Verbrauch durch Unternehmensbenutzer verfügbar macht.

[ Weiterführende Literatur: Die besten weißen LED-Smartlampen]

Kafka wird oft mit Technologien wie ActiveMQ oder RabbitMQ für lokale Implementierungen oder mit Kinesis für Cloud-Kunden von Amazon Web Services verglichen, sagte Stephen O'Grady, einer der Mitbegründer und Principal Analyst bei RedMonk.

"Es wird immer sichtbarer, weil es ein qualitativ hochwertiges Open-Source-Projekt ist, aber auch, weil es in der Lage ist, Hochgeschwindigkeits-Informationsströme zu verarbeiten, um Service-Workloads wie IoT zu bedienen. unter anderem ", fügte O'Grady hinzu.

Seit seiner Gründung bei LinkedIn hat Kafka prominente Unterstützung von Unternehmen wie Netflix, Uber, Cisco und Goldman Sachs erhalten. Am Freitag erhielt es einen neuen Schub von IBM, das die Verfügbarkeit von zwei neuen Kafka-basierten Diensten über seine Bluemix-Plattform ankündigte.

IBMs neuer Streaming Analytics-Service zielt darauf ab, Millionen von Ereignissen pro Sekunde für Antwortzeiten von unter einer Millisekunde zu analysieren sofortige Entscheidungsfindung. IBM Message Hub, jetzt in der Betaversion, bietet skalierbares, verteiltes asynchrones Messaging mit hohem Durchsatz für Cloud-Anwendungen mit der Option, eine REST- oder Apache Kafka API (Anwendungsprogrammierschnittstelle) für die Kommunikation mit anderen Anwendungen zu verwenden.

Kafka war open-source in 2011. Im letzten Jahr haben drei der Kafka-Gründer Confluent ins Leben gerufen, ein Startup, das Unternehmen bei der Produktion in großem Stil unterstützt.

"Während unserer explosiven Wachstumsphase bei LinkedIn konnten wir mit dem wachsenden Nutzer nicht Schritt halten Basis und die Daten, die uns helfen könnten, die Benutzererfahrung zu verbessern ", sagte Nehha Narkhede, einer der Gründer von Kafka und Mitbegründer von Confluent.

" Mit Kafka können Sie Daten unternehmensweit verschieben und erstellen als kontinuierliche fließende Strömung innerhalb von Sekunden für Menschen verfügbar, die davon Gebrauch machen müssen ", erklärte Narkhade. "Und das ist im Maßstab."

Der Einfluss bei LinkedIn war "transformierend", sagte sie. Heute bleibt LinkedIn der größte Kafka-Einsatz in der Produktion; es übersteigt 1,1 Billionen Nachrichten pro Tag.

Confluent bietet inzwischen erweiterte Verwaltungssoftware im Abonnement an, die großen Unternehmen dabei hilft, Kafka für Produktionssysteme zu betreiben. Zu ihren Kunden gehören ein großer Einzelhändler und "einer der größten Kreditkartenaussteller in den Vereinigten Staaten", sagte Narkhede.

Letztere nutzt die Technologie für Echtzeit-Betrugsschutz, sagte sie.

Kafka ist "ein unglaublich schneller Messaging-Bus", der schnell dazu beiträgt, viele verschiedene Arten von Daten zu integrieren, sagt Jason Stamper, Analyst bei 451 Research. "Deshalb entwickelt es sich zu einer der beliebtesten Wahlmöglichkeiten."

Neben ActiveMQ und RabbitMQ ist Apache Flume ein weiteres Produkt, das ähnliche Funktionen bietet. Storm und Spark Streaming sind in vielerlei Hinsicht ähnlich.

Zu ​​den Wettbewerbern von Confluent gehören im kommerziellen Bereich IBM InfoSphere Streams, Informaticas Ultra Messaging Streaming Edition und SASs Event Stream Processing Engine (ESP) sowie der Software AG Apama, Tibco's StreamBase und SAP's Aleri, Stamper hinzugefügt. Kleinere Konkurrenten sind DataTorrent, Splunk, Loggly, Logentries, X15 Software, Sumo Logic und Glassbeam.

In der Cloud bietet der Kinesis-Stream-Processing-Service von AWS den zusätzlichen Vorteil der Integration mit Redshift Data Warehouse und der S3-Storage-Plattform.

Teradatas neu angekündigter Listener ist ein weiterer Anwärter, der auf Kafka basiert ", so Brian Hopkins, Vice President und Principal Analyst bei Forrester Research.

Im Allgemeinen gibt es einen deutlichen Trend zu Echtzeitdaten, sagte Hopkins.

Bis 2013 oder so" waren Big Data alles über riesige Datenmengen, die in Hadoop stecken ", sagte er. "Jetzt, wenn Sie das nicht tun, sind Sie bereits hinter der Leistungskurve."

Heute geben Daten von Smartphones und anderen Quellen Unternehmen die Möglichkeit, mit den Kunden in Echtzeit zu interagieren und kontextuelle Erfahrungen zu bieten, er sagte. Dies beruht wiederum auf der Fähigkeit, Daten schneller zu verstehen.

"Das Internet der Dinge ist wie eine zweite mobile Welle", erklärte Hopkins. "Jeder Anbieter positioniert sich für eine Lawine von Daten."

Die Technologie passt sich entsprechend an.

"Bis 2014 ging es nur um Hadoop, dann war es Spark", sagte er. "Jetzt sind es Hadoop, Spark und Kafka. Dies sind drei gleichwertige Peers in der Datenaufnahme-Pipeline in dieser modernen analytischen Architektur."

Top