期待される正常な状態からの逸脱.

  • 検知・報告
  • 影響範囲の評価
  • 復旧対応
  • 根本原因の分析
  • 再発防止

障害テンプレート

PagerDuty Incident Response

最も広く参照される

  • Severity levels: SEV1(全面停止)〜 SEV5(軽微)
  • Post-Incident Review (PIR): Timeline → Root Cause → Impact → Action Items
  • blamelessカルチャーを重視

ITIL

エンタープライズ寄り

  • Incident → Problem → Known Error → Change の管理フロー

incident vs bug

  • 定義: コードの欠陥・不具合/サービスに影響を与えた事象
  • 発見: テスト・コードレビュー/本番環境での異常検知
  • 緊急度: 修正は計画的でよい/即時対応が必要

1つのincidentの原因が複数のbugであったり、bugがあっても本番で発火しなければincidentにならない.

🎓品質工学

Quality Engineering「仕様通りに作れているか?」

🎓安全工学

Safety Engineering「失敗したとき、人や環境を傷つけないか?」

🎓信頼性工学

Reliability Engineering「長期間、安定して動くか?」

Reliability(信頼性)

Avalability(可用性)

Serviceability(保守性)

Blameless文化

責任追及しない(障害の原因を個人に求めない)」文化や手法.

Google SRE

SRE(Site Reliability Engineering:サイト信頼性エンジニアリング)

Googleが提唱した、ソフトウェアエンジニアリングの手法を用いてITシステムの運用・管理を行う手法

🔖RAS

Reliability, Availability, Serviceabilityの略. 信頼性に関わるスローガン的なもの.


cf. 🧠網様体賦活系(RAS)、世間的にはこっちのほう知名度あり?

with me

<2026-04-06 Mon 08:54>わたしのやっていたことは、信頼性工学だったのか!🔖エラーリカバリー

🎓工学