期待される正常な状態からの逸脱.
- 検知・報告
- 影響範囲の評価
- 復旧対応
- 根本原因の分析
- 再発防止
障害テンプレート
PagerDuty Incident Response
最も広く参照される
- Severity levels: SEV1(全面停止)〜 SEV5(軽微)
- Post-Incident Review (PIR): Timeline → Root Cause → Impact → Action Items
- blamelessカルチャーを重視
ITIL
エンタープライズ寄り
- Incident → Problem → Known Error → Change の管理フロー
incident vs bug
- 定義: コードの欠陥・不具合/サービスに影響を与えた事象
- 発見: テスト・コードレビュー/本番環境での異常検知
- 緊急度: 修正は計画的でよい/即時対応が必要
1つのincidentの原因が複数のbugであったり、bugがあっても本番で発火しなければincidentにならない.
🎓品質工学
Quality Engineering「仕様通りに作れているか?」
- SPC
- タグチメソッド
- ✅ソフトウェアテスト
🎓安全工学
Safety Engineering「失敗したとき、人や環境を傷つけないか?」
🎓信頼性工学
Reliability Engineering「長期間、安定して動くか?」
Reliability(信頼性)
Avalability(可用性)
Serviceability(保守性)
Blameless文化
責任追及しない(障害の原因を個人に求めない)」文化や手法.
Google SRE
SRE(Site Reliability Engineering:サイト信頼性エンジニアリング)
Googleが提唱した、ソフトウェアエンジニアリングの手法を用いてITシステムの運用・管理を行う手法
🔖RAS
Reliability, Availability, Serviceabilityの略. 信頼性に関わるスローガン的なもの.
cf. 🧠網様体賦活系(RAS)、世間的にはこっちのほう知名度あり?
with me
<2026-04-06 Mon 08:54>わたしのやっていたことは、信頼性工学だったのか!🔖エラーリカバリー