Quand Jeff Bezos a littéralement brisé Internet – Un bon serveur Minecraft
[bzkshopping keyword= »Minecraft » count= »8″ template= »grid »]
28 févriere, 2017. Un jour qui vivra dans l'infamie – ou pas. Vous vous en souvenez probablement même si vous ne connaissez pas la date exacte, car c'est l'un des rares jours de la dernière décennie où une grande partie d'Internet est tombée en panne pendant environ six heures. Les victimes comprenaient, mais sans s'y limiter, Slack, Twitch, JSTOR, la Securities and Exchange Commission des États-Unis, Kickstarter, Codeacademy, VSCO, Imgur, Vermont Public Radio, Expedia et – ironiquement – «isitdownrightnow.com», un site Web pour comprendre savoir si d'autres sites Web sont en panne. Était-ce la faute d'une cyberattaque massive en Corée du Nord? Une distraction pour que les Illuminati puissent commencer à rassembler la population américaine et à inaugurer le nouvel ordre mondial? En fait, tout est de la faute de Jeff Bezos. En quelque sorte.
Laisse-moi expliquer. Lorsque les gens pensent à Amazon, ils pensent généralement au site Web d'achat. En termes de revenus, Amazon est principalement dans le commerce de détail (ventes sur son site Internet, abonnements Amazon Prime, etc.) à hauteur de 88% de son revenu brut. Mais en termes de bénéfice d’exploitation, le commerce de détail d’Amazon n’est essentiellement que la boutique de cadeaux à l’arrière, avec une part de 42% de leurs bénéfices. La vraie vache en or est en fait leur activité cloud, sous la forme d'Amazon Web Services.
Il devrait être clair maintenant que par «entreprise du cloud», je ne veux pas dire une sorte de drone de contrôle météorologique qui déplace les nuages. Au lieu de cela, je fais référence à «The Cloud», le mot à la mode préféré des grandes entreprises et une technologie qui a, au cours de la dernière décennie et demie, révolutionné discrètement la façon dont toute votre technologie préférée est hébergée sur le back-end.
Fondamentalement, "le cloud" est juste une façon élégante de dire "l'ordinateur de quelqu'un d'autre". Dans les temps anciens (c'est-à-dire en 2006), si vous vouliez créer un site Web, vous deviez vous procurer de vrais ordinateurs physiques, les connecter à Internet, trouver comment les alimenter et les remplacer lorsqu'ils se cassent, et vous assurer que tout est à jour. Outre le fait que faire toutes ces choses est une douleur énorme, cela peut entraîner d'autres problèmes, comme lorsqu'une première itération du robot d'exploration de Google Search en 1996 a utilisé trop de bande passante et a interrompu la connexion Internet de Stanford à plusieurs reprises. Si vous étiez une grande entreprise qui avait besoin de gérer beaucoup de trafic Web, vous devrez probablement construire votre propre centre de données – d'immenses bâtiments remplis d'ordinateurs, des systèmes de refroidissement et d'alimentation incroyablement robustes et des connexions Internet de qualité industrielle – ou louer l'espace dans le centre de données de quelqu'un d'autre. Quoi qu'il en soit, c'était ennuyeux, coûteux et surtout pas très flexible. Il s’est avéré cependant que «louer de l’espace dans le centre de données de quelqu'un d’autre» pourrait être encore étendu – pour «louer de l’espace sur celui de quelqu'un d’autre» ordinateur. »
En 2006, Amazon, via sa filiale nouvellement créée Amazon Web Services, a annoncé son premier produit: Amazon Elastic Compute Cloud ou EC2. EC2 fonctionne comme ceci: vous cliquez sur quelques boutons, Amazon vous donne des informations de connexion à distance, et en moins d'une minute, vous avez accès à un ordinateur au fond d'un centre de données Amazon quelque part. Il s'agit, à toutes fins utiles, d'un «nouvel» ordinateur: EC2 utilise une technologie appelée virtualisation, qui consiste essentiellement à exécuter deux ou plusieurs ordinateurs (c'est-à-dire des systèmes d'exploitation) en même temps sur le même matériel. (Si votre ordinateur peut lire de la musique et naviguer sur Internet en même temps, il n'y a aucune raison pour qu'il ne puisse pas exécuter deux instances entières d'un système d'exploitation avec leurs propres applications et fichiers en même temps.) La virtualisation signifie qu'Amazon peut avoir un tas d'ordinateurs puissants, et lorsque plus d'ordinateurs sont nécessaires, ils peuvent transformer un ordinateur massif en jusqu'à soixante ou cent ordinateurs moins puissants en quelques secondes seulement. (Comparez cela avec les heures ou les jours nécessaires pour assembler et installer un nouveau matériel physique.) Maintenant que vous avez votre nouvel ordinateur virtuel, vous pouvez exécuter ce que vous voulez: chat vidéo, serveur Minecraft, hébergement de site Web, etc. la puissance de calcul utilisée par les clients d'Amazon provient d'un massif pool de matériel, il permet aux développeurs d'avoir beaucoup plus de flexibilité.
De nos jours, les fournisseurs de cloud proposent bien plus que de simples ordinateurs. Par exemple, Amazon propose Google Drive de puissance industrielle, au moins une demi-douzaine de plates-formes de base de données, de nombreux systèmes d'apprentissage automatique et d'IA, et même des stations au sol par satellite, qui peuvent tous être activés en quelques minutes et facturés de manière incrémentielle par le heure, gigaoctet, entrée, etc. Si vous avez une idée pour le prochain Instagram ou Twitter, vous pouvez agrafer diverses bibliothèques de logiciels et services cloud prédéfinis et créer une application entière pour servir des milliers ou des millions de personnes sans rien savoir sur les ordinateurs il fonctionne ailleurs que dans leurs emplacements géographiques approximatifs («Oregon», «Virginie du Nord», etc.). C'est un gros problème, et cela signifie beaucoup de très bonnes choses pour garantir que le secteur technologique reste innovant. Cela ne rend certainement pas les programmeurs obsolètes, bien que le cycle sans fin d'une nouvelle innovation prétendant faire en sorte que «tout le monde puisse coder» et réalisant ensuite que la programmation est en fait un peu difficile est un sujet pour un tout autre article.
Bien entendu, Amazon n'est pas non plus la seule entreprise sur le marché du cloud computing. À l'heure actuelle, trois des cinq grandes entreprises technologiques (Facebook, Apple, Google, Microsoft et Amazon) ont des divisions de services cloud: Amazon Web Services (avec environ 30% du marché), Microsoft Azure (18%) et Google Plateforme cloud (9%). Ces trois plates-formes fonctionnent plus ou moins de la même manière et représentent aujourd'hui la part du lion des services cloud, le reste du marché allant à une myriade de petites entreprises qui se spécialisent de diverses manières.
Alors, comment cela se rapporte-t-il à la moitié de la panne d'Internet? Eh bien, presque tous les services Internet que vous connaissez fonctionnent sur une ou plusieurs de ces plates-formes. Comme mentionné précédemment, la plupart de Netflix fonctionne sur AWS. Spotify fonctionne sur Google Cloud Platform. Zoom fonctionne sur un mélange d'AWS et d'Oracle (un acteur plus petit sur le marché) à hauteur de 7 pétaoctets par jour de données vidéo (soit 7 millions de gigaoctets, soit 350 copies non compressées du texte intégral et historique des éditions de chaque article sur Wikipedia anglais). FedEx utilise Microsoft Azure pour faire quelque chose impliquant «un trafic de transaction conteneurisé entre nos implémentations sur site et le cloud public», quoi que cela signifie. Et, comme vous le verrez bientôt, toutes les entreprises mentionnées dans le paragraphe d'ouverture avaient une partie critique de leur infrastructure fonctionnant sur AWS. Tous les fournisseurs de cloud ont des niveaux de redondance absolument insensés, c'est pourquoi des pannes comme celle-ci se produisent une fois toutes les quelques ans en moyenne. Mais toute cette redondance signifie que lorsqu'elles se produisent, elles ont tendance à impliquer un grand nombre de composants qui s'effondrent de manière très particulière.
Tout cela nous amène à 9h37 PST le 28 févriere, 2017, lorsqu'un technicien AWS a tenté d'arrêter une petite partie des serveurs qui géraient la facturation client pour le service de stockage d'Amazon (connu sous le nom de S3) pour la maintenance. Malheureusement, le technicien a fait une faute de frappe et a fini par commander accidentellement une partie importante des serveurs qui courir S3 (garder une trace de quels fichiers sont où, et ainsi de suite) à arrêter. Les systèmes administratifs S3 restants sont conçus pour faire face à la défaillance de quelques serveurs, voire de nombreux serveurs, mais une telle capacité a été assommée sous leurs pieds qu'ils se sont effondrés sous la pression et ont nécessité un redémarrage complet. Cela a éliminé pratiquement tout S3 dans la région US-EAST-1, le plus grand et le plus ancien cluster de centres de données d'Amazon.
L'échec en cascade de cette répercussion sur les entreprises hébergées sur AWS, entraînant au moins 300 millions de dollars de perte de production économique. Pour aggraver les choses, la page d'état AWS dépendait d'Amazon S3 pour s'exécuter, ce qui signifiait que les ingénieurs d'autres entreprises n'étaient pas en mesure d'accéder rapidement aux informations sur l'état de la panne. Les systèmes administratifs n'avaient pas été redémarrés depuis plusieurs années et il a donc fallu quelques heures à un groupe d'ingénieurs Amazon effrénés pour amener S3 à sa pleine capacité, qui a été achevée à environ 13 heures PST. La plupart des services Internet concernés ont été ramenés dans les heures qui ont suivi.
La façon dont je présente cela donne l'impression d'être un échec massif, et selon de nombreuses normes, c'était le cas (voir ce chiffre de 300 millions de dollars que j'ai mentionné ci-dessus). Mais d’un autre côté, le fait que cela ne se produise pas plus souvent est incroyable. Au moment d'écrire ces lignes, cette panne s'est produite il y a plus de trois ans; avant cela, la dernière interruption notable d'AWS s'est produite en 2012. Considérant qu'ils fonctionnent littéralement des millions d’ordinateurs de qualité industrielle à travers le monde, c’est assez impressionnant dans mon livre, et dans l’ensemble, il est considérablement plus fiable que chaque site Web ayant ses propres serveurs. Mais quand il semble que la moitié d'Internet est tombé sans raison, vous connaissez maintenant le premier endroit où chercher.
Si vous avez d'autres questions, souhaitez voir une chronique sur un sujet spécifique ou pensez que je me suis trompé, n'hésitez pas à m'envoyer un e-mail à zrobins2@swarthmore.edu. Vous pouvez également m'envoyer un message sur Instagram @ software.dude.
Commentaires
Laisser un commentaire