Serveur d'impression

Comment LendingTree résume sa surveillance informatique – Bien choisir son serveur d impression

Par Titanfall , le 18 décembre 2019 - 9 minutes de lecture

(Anucha Cheechang / Shutterstock)

En tant que marché de prêt en ligne, LendingTree est totalement dépendant d'Internet. Ainsi, lorsque l'un des serveurs qui achemine les ventes vers l'entreprise a cessé de fonctionner il y a quelques années, l'entreprise a eu un sérieux problème entre ses mains. Pour aggraver les choses, un manque de surveillance signifiait que le service informatique de LendingTree n'était pas au courant du problème au départ. Lorsqu'elle a finalement été découverte, l'entreprise a pris des mesures pour s'assurer que cela ne se reproduise plus.

C'était une cascade d'erreurs, car des problèmes informatiques comme celui-ci sont susceptibles d'être. Un serveur avec un disque dur complet a été utilisé pour un demi-cluster Microsoft BizTalk Server bidirectionnel. La redondance qui devait exister a échoué et, par conséquent, un quart des prospects de la société cotée en bourse ont essentiellement explosé par la fenêtre numérique.

Un manque général de connaissance de la situation de la part du service informatique de LendingTree a aggravé le problème. La société ne disposait d'aucun type de journalisation centralisée qui aurait pu détecter le serveur BizTalk défaillant et alerter le service informatique du problème en temps opportun.

"Nous avons surveillé la base de données pour savoir que nous n'obtenions pas de prospects", a déclaré Jeremy Proffitt, qui travaillait au service informatique de LendingTree. "Nous ne savions pas pourquoi. Nous ne savions pas ce qui n'allait pas. "

6 000 $ par minute

La première tâche de Proffitt a été de fournir une certaine visibilité sur les systèmes chargés d'ingérer les formulaires de demande de prêt arrivant sur Internet, de traiter les informations, puis d'envoyer les pistes aux prêteurs qui exécuteraient les prêts – un processus que Proffitt compare à un « usine de vapeur. »Pour chaque minute d'arrêt, la société estime qu'elle perd jusqu'à 6 000 $ de revenus.

La société avait un petit abonnement à une application de surveillance des journaux d'une société appelée Sumo Logic. Proffitt n'en savait pas grand-chose, mais a décidé de voir s'il pouvait le faire fonctionner. S'il pouvait juste réussir à centraliser le stockage des journaux des serveurs Web BizTalk et IIS, il pourrait au moins voir si l'un de ces serveurs était en panne. Les serveurs morts, après tout, ne génèrent aucun journal, et s’ils génèrent des messages d’erreur, c’est encore mieux (ou pire, selon votre point de vue).

"Nous avons dit, faisons une presse judiciaire complète sur Sumo. Tout ce que j'ai fait pendant des mois a été d'écrire des requêtes et des alertes Sumo, ainsi que de gérer et de surveiller », a déclaré Proffitt, qui a été promu ingénieur de fiabilité du site (SRE) en raison de son travail avec Sumo. "Mon travail consistait simplement à passer par chaque serveur, à m'assurer que les journaux arrivaient, à s'assurer qu'ils fonctionnent comme ils le devraient."

Au fur et à mesure qu'il travaillait sur le système, il a trouvé plus de problèmes, y compris avec des horodatages (certains étaient sur UTC tandis que d'autres étaient EST). Il a continué d'ajouter des alertes à l'aide du logiciel Sumo Logic, parfois en utilisant un connecteur Sumo pré-construit, parfois en ajoutant une chaîne de code fourni par Sumo aux serveurs Linux, et parfois simplement en envoyant des instructions syslog à une URL (Sumo Logic est un service hébergé ).

"Il s'agissait simplement d'écrire des alertes de base", a déclaré Proffitt. «Par exemple, s'il y a plus que ce nombre d'erreurs, envoyez un courriel à quelqu'un. Ou il devrait y avoir quatre serveurs exécutant ce logiciel. Si seulement trois envoient des journaux, c'est évidemment un problème. Contrôles stupides et simples. Ce n'est vraiment pas si difficile. »

Complexité de journalisation

La surveillance manuelle des journaux des ordinateurs, des réseaux et des applications à l'ère moderne est pénible et souvent infructueuse, c'est pourquoi des entreprises comme SumoLogic, Elastic, Splunk et d'autres qui fournissent des informations sur de grandes quantités de données de journaux obtiennent une bonne traction. Sumo Logic est en concurrence féroce avec ces entreprises et vante l'évolutivité et la facilité d'utilisation de son service hébergé dans le cloud comme ses principaux facteurs de différenciation concurrentiels.

(Aleksandr_a / Shutterstock)

Ce que Proffitt attend le plus de Sumo Logic, c'est d'être la première personne à savoir si l'un des serveurs ou services de LendingTree commence à bafouiller. Il est généralement cette personne aujourd'hui, mais ce n'était pas toujours le cas.

«Il y avait des jours où un [chief product officer] dirait «Mon service est en panne. Je ne peux pas me connecter. Que se passe-t-il? "Ou le centre d'appels appelle et dit" Nous recevons des appels de personnes. Le site Web ne fonctionne pas », a-t-il déclaré. Datanami lors de la conférence Sumo Logic Illuminate 2019 qui s'est tenue la semaine dernière à Burlingame, en Californie. «C'était rarement nous qui savions que quelque chose n'allait pas.»

Aujourd'hui, environ 20 ingénieurs et opérateurs de l'entreprise utilisent quotidiennement les tableaux de bord Sumo Logic. Une série de moniteurs de 50 pouces au siège social de la société à Charlotte, en Caroline du Nord, permet à Proffitt et à son équipe d'être pleinement informés de l'état de tous les systèmes critiques. La société a également commencé à utiliser Sumo Logic pour surveiller d'autres aspects de l'entreprise, en plus du processeur, du stockage et de l'utilisation de la mémoire des serveurs.

"C'est très différent maintenant", dit-il. "Nous examinons les points clés de notre flux de revenus. Parce que la disponibilité est la disponibilité, mais en fin de compte, vous devez avoir des revenus pour avoir un salaire. "

«Ça ne peut pas être aussi simple»

Lorsque «Hell Week» a eu lieu il y a deux ans et demi, Lending Tree était principalement sur site et exploitait environ 200 serveurs. Depuis lors, l'entreprise en pleine croissance a migré presque tous ses serveurs vers le cloud public, en particulier AWS. Environ 10% de ses quelque 200 services fonctionnent aujourd'hui comme des microservices Kubernetes, et d'autres fonctionnent comme des fonctions lambda AWS sans serveur, a déclaré Proffitt. Obtenir la visibilité de ces services conteneurisés et virtuels peut être difficile, mais Sumo Logic gère tout cela.

(Istel / Shutterstock)

Non seulement Sumo Logic maintient Proffitt au-dessus des fonctions informatiques et commerciales de LendingTree, mais il tient également l'entreprise au courant de l'état des systèmes de ses partenaires.

Par exemple, lorsque LendingTree a détecté une augmentation du temps de réponse pour un service de l'un des trois principaux bureaux de crédit, il a alerté le bureau, qui a commencé à étudier le problème. Le bureau a choisi de faire basculer son service dans son centre de données de sauvegarde, et quelques minutes plus tard, son service d'origine a complètement échoué. LendingTree avait détecté la détérioration de l'état avant que le bureau de crédit ne l'ait fait, et a aidé à éviter toute interruption du service.

Sumo Logic fournit également à LendingTree une visibilité sur les métriques opérationnelles importantes, telles que les opérations de base de données par minute, qu'AWS ne fournit pas. Et tandis que LendingTree dispose d'un groupe de sécurité distinct avec son propre logiciel de gestion des informations et des événements de sécurité (SIEM), Sumo a permis à l'équipe de Proffitt de détecter une attaque par force brute avant que l'équipe de sécurité ne la détecte.

Lending Tree ingère environ 120 Go de données de journal par jour dans son environnement Sumo Logic, que la société conserve principalement pendant 30 jours. La gestion de ce volume de données n'est pas simple, ce qui, selon Sumo Logic, est l'une des raisons pour lesquelles son service cloud s'est développé.

Il est important d'avoir de la flexibilité, et lorsque l'un des services de LendingTree a demandé de conserver les données du journal pendant six mois pour des raisons juridiques, Proffitt avait déjà une solution en tête.

"Tout ce que j'ai fait, c'est aller dans Sumo, configurer un index pour une conservation de 90 jours, leur remettre une URL et dire" Publiez vos données ici. "Tout ce qu'il a à faire est d'insérer quelques lignes de code", dit-il. «Nous ne voulons pas de contestation judiciaire, mais la dernière chose que vous voulez faire est de dépenser 5 000 heures de main-d’œuvre pour obtenir les données.»

De même, lorsque la société a récemment acquis Quote Wizard, la visibilité sur ses systèmes était préoccupante, car la société exécutait ses services dans Microsoft Azure, tandis que LendingTree est une boutique AWS. Il s'est avéré que ces préoccupations étaient mal fondées, et Sumo en était la raison.

"Nous n'avions pas vu leur pile. Nous ne savions pas ce que c'était. Mais nous avions déjà une solution car Sumo y a déjà pensé », explique Proffitt. «Je me suis juste tourné vers les gars de Quote Wizard et leur ai envoyé un lien vers le site GitHub et j'ai dit:« Regardez, c'est tout ce que nous avons à faire. »Ils m'ont regardé et ont dit:« Non, cela ne peut pas être aussi simple. «»

Articles connexes:

Comment Sumo Logic transforme le tsunami de données d'événement en intelligence continue

Sumo Logic annonce l'architecture du cloud à Illuminate 2019

Les investisseurs aiment Sumo Logic

Click to rate this post!
[Total: 0 Average: 0]

Commentaires

Laisser un commentaire

Votre commentaire sera révisé par les administrateurs si besoin.