2019/07/08に見た記事等を雑に分類するだけ
- GKE
-
SpotifyがミスによりKubernetesの本番クラスタを二度も削除。しかし顧客へのサービスにほとんど影響しなかったのはなぜか? - Publickey
- インフラはGoogle Cloud Platformを利用しており、Kubernetesの基盤としてGoogle Kubernetes Engine(GKE)を利用
- 一度目
- Webブラウザのタブを複数開いており、あるタブはKubernetesの本番クラスタ、別のタブはKubernetesのテスト用クラスタを操作するためのものだった
- テストクラスタを削除するつもりで、操作するタブを間違って本番クラスタのタブでクラスタを削除
- そして削除をはじめたらその処理を止める方法はない
- 再作成は手作業で、3時間15分かかった
- 二度目
- Terraformを導入
- クラスタ定義の動作を確認するためレビュービルドで、クラスタの状態を示すファイルが書き換わり、それを本番用のコードにマージした
- それを本番クラスタに適用したところ、本番クラスタからアジアリージョンが失われた
- アジアクラスタの再構築のため、Terraformのスクリプトを本番環境で実行したところ、パーミッション不足による動作不良で米国リージョンのKubernetesまで失った
- ユーザーから障害が影響したというレポートはまったくなかった
- Kubernetesへの移行は段階的であったため、影響範囲が限定された
- サービスディスカバリ機構はKubernetesのものではなく社内のものを使っていた
- インフラのコード化大事
- Python
-
- Colaboratory上で実行可
- CPU
- VR
- 個人開発