Storing
Incident Report for Picqer
Postmortem

Na de storing van 21 juni zijn we direct aan de slag gegaan met verbeteringen. Hierbij een update.

Verbeteringen monitoring

Op 23 juni 2019 hebben we voor meer situaties alerts toegevoegd op onze bestaande monitoring. Hiermee kregen we meer onterechte meldingen, maar waren we in ieder geval sneller op de hoogte van vertragingen in onze achtergrond processen (zoals het maken van zendingen en communicatie met webshops).

Op 28 juni 2019 zijn we over gegaan op ons nieuwe monitoring platform. We waren al sinds april 2019 bezig met het opzetten van dit nieuwe platform op basis van InfluxDB en Grafana. Hierin hebben we alle verschillende monitoring tools die we gebruikten samengevoegd naar 1 platform. Dit hebben we in de week van 24 juni versneld afgerond. Met dit nieuwe platform herkennen we meer situaties automatisch en ontvangen sneller alerts.

Het vertragen of volledig stilvallen van achtergrond processen herkennen we nu in alle gevallen.

Urgente berichten

Als je problemen ervaart met Picqer buiten kantoortijden, kan je ons via Picqer een urgent bericht sturen. De storing van 21 juni trof helaas ook deze functionaliteit, waardoor de tientallen berichten van gebruikers tijdens de storing ons pas na een uur bereikten.

Op 3 juli 2019 hebben we de werking van urgente berichten aangepast, waardoor deze berichten ook tijdens een storing direct bij ons aankomen. Zodra je in Picqer de melding “bericht is verzonden” ziet staan, zijn de alerts succesvol op onze telefoons afgeleverd.

Storingen sneller verhelpen

Met deze 2 verbeteringen in ons platform zorgen we ervoor dat toekomstige storingen sneller verholpen zullen zijn. Mocht je nog vragen hebben over deze storing of over de bovenstaande maatregelen, mail ons dan op info@picqer.com.

Posted Jul 22, 2019 - 11:01 CEST

Resolved
De storing is inmiddels volledig verholpen.

Om 18.32 uur zijn al onze servers die achtergrond taken afhandelen tegelijkertijd gecrashed. Hierdoor werden achtergrond taken niet uitgevoerd, zoals het maken en printen van verzendlabels, het versturen van webhooks en het ophalen van bestellingen.

Enkele klanten hebben hiervoor urgente tickets ingestuurd, helaas was het verzenden van urgente notificaties ook getroffen waardoor wij pas om 19.30 uur op de hoogte waren van de storing. We zijn toen gelijk gestart om het probleem op te lossen.

Om 19.49 was de storing volledig verholpen en waren alle achterstanden ingelopen.

Onze excuses voor deze lange onderbreking.

Om dit in de toekomst te voorkomen zullen wij onze monitoring uitbreiden om ook dit type onderbreking direct te detecteren. Ook zullen wij zorgen dat het versturen van urgente tickets niet vertraagd kan worden door zo'n type storing.

Heb je vragen over deze storing? Stuur een mail naar info@picqer.com en we helpen je graag.
Posted Jun 21, 2019 - 21:25 CEST
Identified
Het is (met vertraging) weer mogelijk om zendingen aan te maken en te printen. We zijn nog aan het onderzoeken naar de oorzaak.
Posted Jun 21, 2019 - 19:53 CEST
Investigating
We hebben op dit moment een storing in het verwerken van achtergrondtaken, zoals het aanmaken van zendingen. We zijn het op het moment aan het onderzoeken.
Posted Jun 21, 2019 - 19:47 CEST
This incident affected: Picqer (Picqer Core, Picqer API).