障害検知のアラートとか

一定規模以上のWebサイトを運営しているエンジニアの方、業務時間外の障害対応ってどういう風にやっていますか?ルールとか体制とかを中心に教えてほしいです。

こういう悩みはどこにでもあるんだなぁ。
内で頑張って回すか、外にお願いするかしかないのだけど。

最近は、障害検知自体は外部にお願いしている。
で、検知したら、担当者(3つぐらい登録してある)に順繰りに電話してもらうようになっている。

「外に頼むコストが」みたいな話になっているけど、社員の稼働費と比較しても、そんなに高いのかね?
一回見積もりとってみればいいんじゃね?とは思うけど。

あと「広告媒体」をやり始めると、サイトダウンに余裕がなくなってくるというか、「ダウン時間はこれぐらいで損失したPVはこれだけ」とか、色々と面倒なことになるよなぁ、と思ったり。