L'état de la disponibilité des applications critiques dans les environnements de cloud public et hybride – Serveur d’impression
- Détails
-
Publié: Mercredi, 04 septembre 2019 07:22
Frank Jablonski examine comment les organisations peuvent assurer à la fois une haute disponibilité et une reprise après sinistre pour les applications critiques exécutées dans des environnements de cloud purement publics et hybrides
Certains dirigeants peuvent penser que la haute disponibilité des applications d’entreprise exécutées dans le cloud public est garantie. Cependant, aucun fournisseur de services de cloud computing ne garantit actuellement la disponibilité au niveau de l'application. Il existe bien sûr des moyens d'assurer la haute disponibilité des applications critiques s'exécutant dans des environnements de cloud privés, publics et hybrides. Mais cette responsabilité incombe à l'entreprise et non au fournisseur de services cloud.
Cet article décrit certaines informations importantes que les entreprises et les responsables informatiques doivent connaître pour fournir à la fois des protections haute disponibilité (HA) et reprise après sinistre (DR) pour les applications critiques s'exécutant dans des environnements cloud purement publics et hybrides, en commençant par comprendre ce qui est ou non garantie dans le contrat de niveau de service (SLA).
Sommaire
Caveat emptor dans le nuage
Bien que tous les fournisseurs de services cloud (CSP) définissent le «temps d’arrêt» de manière légèrement différente, ils n’incluent tous qu’un ensemble limité de toutes les causes possibles de temps d’arrêt au niveau de l’application. En effet, les contrats de niveau de service ne garantissent que l’équivalent de la «tonalité de numérotation» au niveau du système, ou plus précisément, qu’au moins une instance aura une connectivité au réseau externe.
En d'autres termes, un grand nombre des causes les plus courantes d'indisponibilité sont exclues. Voici quelques exemples de contrats de niveau de service réels:
- Facteurs indépendants de la volonté du CSP (tels que les pannes de réseau d’opérateurs et les catastrophes naturelles);
- Le logiciel du client, ou un logiciel ou une technologie tiers, y compris un logiciel d’application (tel que SQL Server et SAP);
- Une saisie ou des instructions erronées, ou tout manque d'action lorsque cela est nécessaire (c'est-à-dire les erreurs inévitablement commises par de simples mortels).
Il est tout à fait raisonnable que les fournisseurs de services de communication excluent ces causes et d’autres causes de temps d’arrêt indépendantes de leur volonté. Mais il serait irresponsable pour le service informatique d'utiliser ces exclusions comme excuse pour ne pas fournir des protections HA et / ou DR adéquates pour les applications critiques.
Haute disponibilité et / ou reprise après sinistre
Le «et / ou» dans ce sujet a une signification réelle. Une explication détaillée est fournie dans Planification de la continuité des opérations et de la reprise après sinistre pour SQL Server, mais voici un résumé des principales modifications à prendre.
Les différences entre HA et DR sont enracinées dans les différences entre «échecs» et «catastrophes». Les pannes sont de courte durée et de faible ampleur (par exemple, un serveur tombe en panne), tandis que les catastrophes ont des impacts étendus et durables (telles qu'une tempête violente qui met les réseaux et les réseaux hors tension et ferme les routes pendant des jours).
Étant donné que les ressources redondantes nécessaires pour restaurer le fonctionnement complet après une défaillance locale peuvent également être locales, la réplication des données peut s'effectuer de manière synchrone sur un réseau local. Cela permet à l’instance de secours d’être «active» et prête à prendre le relais immédiatement et automatiquement, ce qui devrait être l’objectif des dispositions de haute disponibilité. Quatre-neuf (99,99%) de la disponibilité est généralement acceptée par les professionnels de l’informatique comme une HA critique.
Pour la reprise après sinistre, les ressources redondantes doivent être séparées géographiquement sur un réseau étendu, où la réplication des données doit se dérouler de manière asynchrone pour éviter que la latence inhérente ait un impact négatif sur les performances des applications nécessitant un débit transactionnel élevé. Ce délai de réplication rend l’instance de secours au mieux "chaude" (désynchronisée par rapport à l’instance active) et entraîne un délai inévitable pendant ce qui doit être un processus de récupération manuelle.
Ces différences fondamentales influencent également les différents objectifs de point de récupération et de temps de récupération généralement établis pour les protections HA et DR. Parce que la plupart des données ont une grande valeur (sinon pourquoi les capturer et les stocker?), Les objectifs de points de récupération (RPO) faibles ou nuls sont communs aux objectifs HA et DR. RPO est la période maximale pendant laquelle la perte de données peut être tolérée. Si aucune perte de données n'est tolérable, le RPO est égal à zéro.
Cependant, il existe normalement des différences significatives entre les objectifs de temps de récupération HA et RD, qui représentent la durée maximale tolérable d'une panne. Les applications critiques ont des RTO faibles, généralement de l'ordre de quelques secondes pour les besoins de la haute disponibilité, et les applications de base de données à grand volume ont généralement les plus faibles. Pour la haute disponibilité, la réplication synchrone des données permet de satisfaire relativement facilement un RPO faible ou nul et un RTO faible de quelques secondes. En RD, les RTO de plusieurs minutes, voire plusieurs heures, sont courants en raison du coût extraordinaire de la mise en œuvre de dispositions capables de se remettre complètement d'une catastrophe généralisée en quelques minutes seulement.
Options HA / DR dans et pour le cloud
Les options HA et DR disponibles dans et pour le cloud peuvent être classées en quatre catégories. Les premiers sont ceux disponibles dans le cloud à partir du CSP. Pour la haute disponibilité, ceux-ci incluent normalement des services basés sur des ressources redondantes déployées dans des centres de données / centres et des zones. Ces dernières, souvent appelées zones de disponibilité, permettent à la réplication synchrone entre plusieurs centres de données de se protéger contre les pannes d’un des centres de données. Pour la reprise après sinistre, tous les CSP disposent de ce que l’on pourrait appeler le bricolage ou bricolage, ce qui est une option viable car, par rapport à la haute disponibilité, il est relativement facile à mettre en œuvre avec des sauvegardes de données ou des instantanés, ainsi que des instances de secours «à chaud». disponible dans tous les nuages. Certains CSP proposent également des offres DRaaS (DR-as-a-Service) plus clés en main, mais nécessitent toujours des processus manuels pour permettre une récupération complète.
La deuxième catégorie comprend les fonctionnalités intégrées au système d'exploitation. Le cluster de basculement Windows Server (WSFC) est une option courante dans les clouds privés, mais il nécessite un stockage partagé, qui n'est disponible dans aucun cloud public. L'édition Datacenter de Windows Server 2016 a résolu ce problème avec Storage Spaces Direct. S2D est un stockage défini par logiciel capable de créer un réseau de stockage virtuel (SAN) pour répondre aux besoins de stockage partagé de la WSFC. Mais S2D exige que les serveurs soient déployés dans un seul centre de données, ce qui le rend incompatible avec les zones de disponibilité préférées dans les configurations haute disponibilité. Pour Linux, qui n'a pas l'équivalent de WSFC, les administrateurs ont deux choix fondamentaux: créer des configurations personnalisées basées sur des logiciels open source ou utiliser une solution commerciale HA / DR (voir catégorie quatre).
La troisième catégorie comprend les fonctionnalités fournies avec le logiciel d'application. SQL Server, par exemple, offre deux options de ce type: Instances de cluster de basculement et Groupes de disponibilité toujours actifs. Le premier présente les avantages d’être inclus dans Standard Edition et d’offrir une protection à l’ensemble de l’instance SQL Server. Mais sa dépendance à WSFC le rend incompatible avec le cloud. Ce dernier offre une protection de classe opérateur, mais requiert une licence pour l'édition Enterprise beaucoup plus coûteuse, ce qui ne peut être justifié par le coût pour beaucoup, voire la plupart des applications de base de données.
L'utilisation de toute option spécifique à une application présente un autre inconvénient: il est nécessaire de disposer de dispositions différentes pour la haute disponibilité et / ou la reprise après sinistre pour différentes applications. Avoir plusieurs solutions peut considérablement augmenter la complexité et les coûts liés aux licences, à la formation, à la mise en œuvre et aux opérations courantes. C'est une autre raison pour laquelle les administrateurs préfèrent de plus en plus utiliser des solutions de clustering de basculement spécialement conçues.
La quatrième et dernière catégorie est un logiciel commercial de clustering de basculement conçu spécifiquement pour fournir une solution de haute disponibilité et de reprise après sinistre pour toute application fonctionnant sous Windows ou Linux dans des clouds publics, privés et hybrides. Ces solutions combinent au minimum la réplication de données, la surveillance continue au niveau de l'application et les règles de récupération configurables en cas de basculement / restauration. Ces fonctionnalités permettent au logiciel de détecter tout temps d'arrêt au niveau de l'application, quelle qu'en soit la cause, y compris celles exclues dans le contrat de niveau de service.
Des informations plus détaillées sur ces options sont incluses dans cet article sur l’échec de la région Azura Sud-Centre-États-Unis d’Azure survenu en septembre 2018: Options permettant de se remettre complètement et rapidement à niveau d’une panne majeure du cloud Azure.
Le but d'être construit à cet effet
L'objectif des solutions de clustering de basculement conçues à cet effet est de rendre les protections HA / DR robustes plus fiables et abordables, et il a été prouvé que ces solutions remplissaient efficacement cet objectif. Contrairement aux options basées sur le cloud ou spécifiques à une application, ces solutions commerciales sont conçues pour prendre en charge toutes les applications. Le fait de disposer d'une solution unique (avec des versions différentes pour Windows Server et Linux) facilite la mise en œuvre, le test, le fonctionnement, la mise à jour et la gestion des provisions HA / DR pour toutes les applications.
Les tests simplifiés sont représentatifs des nombreux avantages offerts par les solutions de clustering avec basculement. Le test des configurations HA / DR est d'une importance vitale, mais il a toujours été difficile et perturbant, obligeant les administrateurs à prendre des raccourcis pouvant entraîner l'échec des dispositions de basculement en cas de besoin. Cet avantage est à lui seul la raison pour laquelle un nombre croissant d’administrateurs choisissent d’utiliser des solutions sur mesure.
En outre, leur capacité à fonctionner dans des environnements SAN et sans réseau offre aux administrateurs la possibilité de choisir parmi des configurations de cloud purement privées, purement publiques ou hybrides, selon la solution la plus économique pour chaque application. Et ensuite, être capable de les surveiller et de les gérer depuis un seul et même volet de verre.
Cette configuration économique consiste en un cluster de basculement haute disponibilité à deux nœuds couvrant deux zones de disponibilité dans une région, ainsi qu’une troisième instance déployée dans une région distincte pour faciliter la récupération complète à la suite de sinistres généralisés.
Confiance dans le nuage
L’agilité, l’évolutivité et l’accessibilité économique du cloud en font un argument de poids pour la migration des applications d’entreprise. Pourtant, malgré sa technologie de pointe et ses garanties de remboursement, de nombreuses entreprises hésitent encore à migrer leurs applications critiques.
Les CSP le savent, raison pour laquelle beaucoup reconnaissent maintenant le besoin de solutions de clustering de basculement tierces, et ce, grâce à des certifications officielles, à une inclusion sur les marchés des logiciels, à une documentation pratique et à d'autres moyens d'aider les clients souhaitant migrer des applications critiques vers leurs applications. des nuages. Microsoft a des arrangements similaires impliquant le logiciel de clustering de basculement sans réseau sans réseau pour Windows Server et SQL Server.
Le cloud est parfaitement capable d'exécuter vos applications critiques, mais uniquement si vous acceptez de fournir des protections HA et DR au niveau de l'application.
A propos de l'auteur
Frank Jablonski est vice-président du marketing mondial chez SIOS Technology, où il dirige les activités de marketing et de communication dans le monde entier. Sa carrière s'étend sur plus de 20 ans et comprend le développement et l’exécution de marchés à l’échelle mondiale à des postes de direction chez Acronis, Syncsort, CA, FilesX, Genuity et EMC. Frank est titulaire d'un baccalauréat ès sciences en génie mécanique de l'Université du Massachusetts Lowell.
Commentaires
Laisser un commentaire