Derrière la panne de Canva en novembre 2024 : ce qui s'est passé et ce qui va suivre
Récemment, Canva a été confronté à une panne importante qui a perturbé l'accès à sa plateforme pendant près d'une heure, empêchant les utilisateurs du monde entier d'accéder à l'outil de conception. Cette panne a interrompu les flux de travail des professionnels de la création, des spécialistes du marketing et des propriétaires de petites entreprises qui dépendent de Canva pour des tâches telles que la création de graphiques pour les réseaux sociaux, de présentations et de supports promotionnels, soulignant le rôle essentiel que joue la plateforme dans les opérations quotidiennes. De 9h08 UTC à 10h00 UTC, canva.com était complètement indisponible, un événement rare pour la plateforme. Ce blog se penche sur les causes profondes de la panne, son déroulement, les mesures immédiates prises pour restaurer les fonctionnalités et les mesures préventives que Canva met en œuvre pour éviter des incidents similaires à l'avenir.
L'anatomie de la panne
La panne est due à une confluence de facteurs, notamment :
- Un problème de déploiement de logiciel:Le déploiement a apporté des améliorations à l'éditeur de Canva, notamment des performances améliorées du panneau d'objets et des fonctionnalités de gestion des calques supplémentaires. Cependant, un bug imprévu dans le pipeline de déploiement a provoqué des problèmes de compatibilité avec la mise en cache côté client, ce qui a contribué à l'incident.
- Instabilité du réseau:Cloudflare, le fournisseur CDN de Canva, a rencontré des problèmes de latence et de perte de paquets sur son itinéraire réseau Singapour-Ashburn.
- Un problème de verrouillage dans la passerelle API:Un bug de télémétrie au sein de l'infrastructure de Canva a encore exacerbé les problèmes de performances.
Ces problèmes interdépendants ont finalement submergé la passerelle API de Canva, un composant essentiel qui gère l'authentification, l'autorisation et la limitation du débit des requêtes API, provoquant une défaillance en cascade qui a rendu le site inaccessible.
Comment l'incident s'est déroulé
Déploiement initial (8h47 UTC)
Une nouvelle version de l'éditeur Canva a été mise en ligne, invitant les appareils clients à récupérer les ressources statiques mises à jour à partir du système de mise en cache de Cloudflare. Parmi ces ressources figurait un fichier JavaScript essentiel à l'affichage du panneau d'objets de l'éditeur.
La latence du réseau émerge
Parallèlement, la route réseau de Cloudflare reliant Singapour à Ashburn a connu une augmentation spectaculaire de la latence, avec des temps de réponse au premier octet augmentant de plus de 1700 20 %. La récupération d'un fichier JavaScript critique a pris jusqu'à XNUMX minutes, ce qui a empêché les utilisateurs en Asie de charger le panneau d'objets.
Surcharge du flux de cache
Le système de mise en cache de Cloudflare a agrégé plus de 270,000 9 requêtes pour le même fichier JavaScript. Lorsque l'élément a finalement été chargé à 07 h 1.5 UTC, un « troupeau tonitruant » de XNUMX million de requêtes API simultanées a submergé la passerelle API de Canva, triplant sa charge de pointe habituelle.
Effondrement de la passerelle API
Sous l'effet de la hausse du trafic, les performances de la passerelle API se sont dégradées en raison d'un bug de télémétrie provoquant des problèmes de blocage des threads. Cela a entraîné une surutilisation de la mémoire, déclenchant le tueur de mémoire Linux et mettant fin à toutes les tâches en cours d'exécution sur la passerelle. À 9 h 08 UTC, canva.com était entièrement hors ligne.
Atténuer la crise
L'équipe d'ingénierie de Canva a répondu avec une série de mesures :
- Mise à l'échelle des tâches de la passerelle API:Les premières tentatives de mise à l'échelle automatique des tâches ont échoué car les nouvelles tâches ont été submergées par des pics de trafic continus.
- Blocage du trafic au niveau du CDN:À 9h29 UTC, Canva a temporairement bloqué tout le trafic au niveau de la couche CDN pour stabiliser la passerelle API.
- Rétablissement progressif du trafic:En commençant par les utilisateurs australiens soumis à des limites de débit strictes, Canva a progressivement rétabli l'accès mondial, garantissant la stabilité du système à chaque étape.
À 10h00 UTC, la plateforme était de nouveau en ligne.
Leçons apprises et plan d'action
Pour améliorer la fiabilité et prévenir de futures pannes, Canva a décrit des mesures immédiates et à long terme pour traiter les domaines critiques :
Sur le plan de réponse à l'incidentCanva développe un manuel d'exécution complet pour la gestion du trafic en cas d'urgence et s'efforce d'améliorer la communication avec les utilisateurs en fournissant des pages d'erreur plus claires pendant les temps d'arrêt. Pour renforcer Résilience de la passerelle APIL'équipe prévoit d'augmenter sa capacité de base et son allocation de mémoire, de mettre en œuvre des règles de délestage pour une meilleure gestion des pics de trafic et d'effectuer des tests de charge réguliers pour simuler des scénarios extrêmes.
Pour répondre à des problèmes spécifiques tels que bug de télémétrieCanva a déployé un correctif pour résoudre le problème de blocage des threads et améliore ses processus de test pour éviter des complications similaires à l'avenir. garde-corps de déploiement, des mesures de protection supplémentaires sont introduites, notamment la surveillance des événements d'achèvement du chargement des pages, l'extension des durées de publication des canaris pour mieux détecter les problèmes lors des déploiements par étapes et l'ajout de délais d'attente pour les demandes de ressources afin d'éviter des retards prolongés.
Enfin, Canva collabore étroitement avec Cloudflare pour affiner les mécanismes de routage du trafic et de mise en cache, garantissant une gestion plus fluide des situations de forte demande. Ensemble, ces mesures visent à renforcer l'infrastructure de Canva et à empêcher que des pannes similaires ne se reproduisent.
Un engagement envers la transparence
Cette panne constitue le premier rapport d'incident partagé publiquement par Canva, ce qui reflète son engagement en faveur de la transparence et de l'amélioration continue. À mesure que la base d'utilisateurs de Canva s'élargit, son engagement à construire une infrastructure résiliente qui soutient sa mission de donner au monde les moyens de concevoir se développe également.
Les efforts déployés par Canva pour analyser et résoudre la panne soulignent l'approche proactive de l'entreprise pour tirer les leçons des difficultés. En mettant en œuvre ces changements, Canva vise à garantir une plateforme plus robuste et plus fiable pour ses millions d'utilisateurs dans le monde.
Exploiter les solutions pour prévenir les pannes
Les pannes comme celle de Canva peuvent souvent être atténuées, voire évitées entièrement, grâce à des solutions robustes conçues pour améliorer la résilience de l'infrastructure. Des outils comme RELIANOIDLes proxys hautes performances et les optimisations de passerelle API de s offrent des avantages clés, notamment l'équilibrage de charge en temps réel, le routage avancé du trafic et les mécanismes de basculement automatisés. En déployant des systèmes de télémétrie de pointe et des fonctionnalités de redémarrage à chaud, ces outils garantissent des opérations transparentes même dans des conditions extrêmes. Les organisations qui adoptent ces solutions peuvent remédier de manière proactive aux goulots d'étranglement des performances, améliorer la réponse aux incidents et maintenir une disponibilité constante des applications critiques. Contactez-nous pour en profiter.