<div dir="ltr"><div>It's easy to design a system in a lab that can withstand certain predictable failures. With a large production system at scale, it's virtually impossible. You just get much more exotic failure modes. "100% redundant" does not mean "100% reliable."<br></div><div><br></div><div>Some fun ones I've personally encountered:</div><div><br></div><div>- A trivial config change, peer-reviewed and tested in lower environments, took down all four production load balancers at a previous company. The config change itself was fine, but it triggered a latent bug in healthcheck rules that erroneously flagged all backend webservers as unhealthy. (This also meant that our alerts steered us in the wrong direction.)<br></div><div><br></div><div>- Our gear in a well-regarded data center went offline during a blizzard. There were independent A and B power grids with our equipment sitting on both, and each was protected by a giant UPS and redundant generators. Turns out the blizzard was a red herring, and the data center happened to do some routine maintenance, failing one grid over to a generator that came up putting out 60 Volts. It also turns out that some switches upstream of us were only on the affected power grid, so despite our equipment staying online and us having redundant switches with VRRP from the carrier, everything in the building fell off the Internet for at least an hour.<br></div><div><br></div><div>- A small UPS fire in a remote data center caused no impact to my gear. The Secaucus fire chief ordering that they kill all power sources while they worked, however, caused a major impact. (So did the company declaring bankruptcy a few months later, with less than 24 hours notice before shutting down operations, but that's another story.)<br></div><div><br></div><div>- A "high-availability" clustered filesystem with STONITH fencing was designed to detect split-brain scenarios and have the quorum shut down a rogue node to prevent data corruption. Some network glitch we never entirely figured out caused multiple partitions, each thinking the others were bad, so they all powered each other off. By dumb luck, this happened in our QA environment and not production, so it was a fun adventure rather than a nightmare.</div><div><br></div><div>And these aren't even the really fun ones, like BGP route leaks/hijacking.</div><div><br></div><div>At this point they haven't said anything about the cause of the outage except that it involved a firewall. It's possible it was a really foolish, preventable mistake, but right now no one knows.<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Jun 19, 2024 at 10:48 PM JWAHAR BAMMI via bars <<a href="mailto:bars@w1hh.org">bars@w1hh.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div style="overflow-wrap: break-word;">Hmmm…. so the 911 system does not have a redundant system it can fail over to if the primary system goes down? Even way more modest enterprise systems (like the ones i sell) have 100% redundancy and fail over to the disaster recovery site in real time. Does MA not treat 911 as a mission critical system? Will be interesting to know from someone who has intimate knowledge of the setup.<div><br></div><div>73 de k1jbd</div><div>bammi</div><div><br><div><br><blockquote type="cite"><div>On Jun 19, 2024, at 10:03 PM, Juan Jiménez <<a href="mailto:k1cpr@bd5.com" target="_blank">k1cpr@bd5.com</a>> wrote:</div><br><div><div dir="auto"><a href="https://www.boston25news.com/news/local/massachusetts-officials-reveal-cause-hourslong-911-system-ritical" target="_blank">https://www.boston25news.com/news/local/massachusetts-officials-reveal-cause-hourslong-911-system-ritical</a><a href="https://www.boston25news.com/news/local/massachusetts-officials-reveal-cause-hourslong-911-system-outage/FA22RGI3QBB6FBPWLJMKO7SOFM/" target="_blank"> system outage/FA22RGI3QBB6FBPWLJMKO7SOFM/</a></div>
_______________________________________________<br>bars mailing list<br><a href="mailto:bars@w1hh.org" target="_blank">bars@w1hh.org</a><br><a href="http://mail.w1hh.org/mailman/listinfo/bars_w1hh.org" target="_blank">http://mail.w1hh.org/mailman/listinfo/bars_w1hh.org</a><br></div></blockquote></div><br></div></div>_______________________________________________<br>
bars mailing list<br>
<a href="mailto:bars@w1hh.org" target="_blank">bars@w1hh.org</a><br>
<a href="http://mail.w1hh.org/mailman/listinfo/bars_w1hh.org" rel="noreferrer" target="_blank">http://mail.w1hh.org/mailman/listinfo/bars_w1hh.org</a><br>
</blockquote></div>