Serveur d'impression

Kafka in the Cloud: Qui a besoin de clusters de toute façon? – Bien choisir son serveur d impression

Par Titanfall , le 22 juin 2019 - 7 minutes de lecture

(Valery-Brozhinsky / Shutterstock)

Confluent réinvente ce que signifie l’exploitation de Kafka dans le cloud et rejette la notion selon laquelle les clusters sont même nécessaires pour se lancer dans la technologie de diffusion en continu de données en temps réel.

Confluent a annoncé aujourd'hui que ses clients de Cloud Confluent peuvent déployer un service Kafka capable de passer de 0 à 100 Mbits / s en débit et de le réduire en quelques secondes. Les clients paient uniquement pour les données transmises via le service dans le cadre du nouveau modèle de tarification basé sur la consommation de Confluent.

Les deux annonces, faites ce matin lors de la conférence Kafka Summit à Londres de la société, permettent de s'affranchir de la nécessité de créer des grappes Kafka suffisamment grandes pour gérer de fortes augmentations de trafic mais demeurant souvent sous-utilisées entre ces dernières. Cette pratique de surapprovisionnement des grappes Kafka est assez standard, mais coûte aussi cher et gaspille des ressources.

En fait, Confluent se demande pourquoi le concept de cluster est même nécessaire pour exécuter Kafka dans le cloud. De toute évidence, les clusters de serveurs constituent toujours un élément important de l’exécution de Kafka (bien que vous puissiez exécuter Kafka sur une seule machine SMP, sur site ou dans le cloud). Les grappes de nœuds de serveur x86 fournissent toujours le matériel sous-jacent sur lequel Kafka s'exécute.

Cependant, selon Neha Narkhede, CTO et co-fondateur de Confluent, les exigences de déploiement et les schémas d’accès de Kafka dans le cloud divergent de ce que les clusters exposent traditionnellement aux couches logicielles plus avancées.

"Si vous utilisez Kafka en tant que service entièrement géré, vous pouvez vous retirer et demander si la notion de grappe ça veut toujours dire quelque chose », a écrit aujourd'hui Narkhede, qui a co-créé Apache Kafka avec Jay Kreps et Jun Rao, dans un article de blog.

«Lorsque vous déployez votre propre infrastructure, il est nécessaire de penser à des clusters discrets, mais lorsque vous utilisez un service Kafka en nuage, le concept commence à ressembler à un bagage inutile conservé du monde local,» a-t-elle déclaré. a écrit. «Dans le nuage, les clusters deviennent un simple détail de la plomberie, une abstraction à laquelle nous ne devrions pas avoir à réfléchir.»

Confluent a décidé de remédier à l'inadéquation des impédances entre un service de transmission de données Kafka en streaming et le cluster sous-jacent, du moins pour les clients abonnés à son service Kafka entièrement géré, appelé Confluent Cloud.

Confluent place son argent là où il se trouve en promettant que les clients peuvent faire évoluer leur service Kafka à la demande et ne payer que pour les données qu’ils ont réellement transmises via le service, sans encourir de frais supplémentaires ni effectuer de préparatifs ou de plans supplémentaires. en avance. La mise en garde est que cette promesse est bonne que jusqu'à 100 Mbps en débit de données.

Les clients qui ont besoin de diffuser plus de 100 Mbps par seconde devront s'inscrire pour la version d'entreprise de Confluent Cloud, qui nécessite apparemment un approvisionnement plus minutieux des clusters sous-jacents afin de traiter les demandes de données plus importantes. Confluent affirme que son environnement d'entreprise peut atteindre les 10 Go par seconde.

Selon Narkhede, Confluent a dû relever un certain nombre de défis pour offrir l'évolutivité de Kafka à la demande.

Les clients peuvent être opérationnels en moins de cinq secondes, explique Confluent

«Tout d'abord, nous avons constaté que l'élasticité n'est pas anodine», a-t-elle écrit. «Lorsque l'utilisation augmente, il n'y a plus de temps pour démarrer de nouveaux conteneurs ou ajouter des nœuds à un cluster. Et Kafka n'était pas la seule chose que nous devions faire évoluer! Nous avons également dû contourner diverses limites de l’infrastructure cloud, telles que le nombre de VPC et d’équilibreurs de charge élastiques par compte. »

Pour atteindre ce niveau d'élasticité, l'équipe de Confluent devait également «équilibrer les données de manière continue et intelligente entre les divers nœuds d'un cluster Kafka», a-t-elle écrit. «Enfin, pour que cela soit efficace, nous avons dû travailler à minimiser les données que nous devions déplacer à chaque événement de rééquilibrage.»

Confluent s'efforce de faciliter la gestion de la grappe Kafka, tant pour les clients sur site que pour le cloud. Bien que Kafka offre un nouveau moyen puissant d’utiliser et de réfléchir aux données, la gestion de clusters Kafka plus vastes n’est pas facile. En plus de la création de services Kafka emballés sous film dans le cloud, la société s’intéresse également à la technologie des conteneurs, telle que Docker et Kubernetes, afin d’alléger le fardeau administratif de la gestion des clusters Kafka.

«Il y a beaucoup de pièges lorsque vous essayez de le faire vous-même en utilisant Kubernetes», a déclaré Narkhede. Datanami l’année suivant la publication de l’opérateur Confluent pour Kubernetes. «Il y a beaucoup d'erreurs que les gens finissent par faire. Car finalement, ils ne sont pas vraiment les experts de Kafka. Ils savent peut-être que Kubernetes a déployé d’autres applications sans état dans le cadre de la transition de microservices, mais quelque chose d’état comme Kafka nécessite beaucoup de soin et d’attention. »

La cofondatrice de Confluent et CTO Neha Narkhede est une personne à surveiller en 2017 dans Datanami

Confluent Cloud est actuellement viable sur AWS et Google Cloud. Les clients de Cloud Confluent peuvent obtenir une tarification basée sur la consommation allant jusqu'à 100 Mbps sur ces deux clouds publics. Le coût des données entrantes et sortantes est de 0,11 USD par gigaoctet sur Google Cloud et de 0,13 USD sur AWS, ce qui fait de Google Cloud le leader à faible coût pour les clients de Confluent Cloud. Les coûts de stockage des données pour les deux clouds publics sont les mêmes, à savoir 0,10 USD par gigaoctet par mois sur AWS et Google Cloud.

Confluent a également annoncé que ses clients du cloud pouvaient désormais utiliser plusieurs de ses services liés à Kafka, notamment Schema Registry, KSQL et S3 Sink Connector, en mode de prévisualisation.

Le registre de schéma Confluent simplifie la manière dont les utilisateurs définissent et suivent l'utilisation des schémas de données. Le logiciel maintient un référentiel de métadonnées nécessaire pour recréer l’historique des schémas, ce qui donne aux clients l’assurance que les futurs changements n’auront pas d’impact sur leur activité.

KSQL est un moteur de requête SQL pour les flux Kafka annoncé il y a deux ans. Le logiciel permet aux analystes d’utiliser leurs compétences en SQL pour obtenir des réponses à partir de données transmises en continu dans Kafka.

Le connecteur S3 permet aux fournisseurs de Cloud Confluent d’utiliser le S3 d’AWS en tant que source ou récepteur pour les flux de données Kafka.

Articles connexes:

Voulez-vous Kafka sur Kubernetes? Confluent l'a fait

L’infrastructure de données de Kafka "simplifie énormément", selon un rapport

Kafka obtient le moteur de streaming SQL, KSQL

Click to rate this post!
[Total: 0 Average: 0]

Commentaires

Laisser un commentaire

Votre commentaire sera révisé par les administrateurs si besoin.