3/7のラボラトリの障害に関するご報告
Jun 23, 2022
ラボラトリユーザの皆様
以下の通り、3/7のラボラトリの障害に関するご報告をいたします。
情報メディア教育研究センター ラボラトリ (lab2016) 障害報告書
概要
本報告は [media-lab-users:0025] でご報告した a5 サーバの起動不能の障害に関するものです。ユーザの皆様におかれましてはご迷惑をおかけし申し訳ございませんでした。また、本報告の提出まで多大な時間を要し、あらためてお詫び申し上げます。
障害発生日
2022年3月7日 10:00
障害内容
a5サーバにログインできなくなりました。
障害範囲
2021年3月31日からのa5サーバのデータへのアクセスができなくなりました。
発生原因
a5サーバのファイルシステムのエラー(file system full)。2021年12月に発覚した、log4jの脆弱性対応のために様々なモジュールの更新を試みた際ファイルシステムの容量をオーバーしていたことが原因です。
一時対応
2021年3月31日のスナップショットでの起動を行いました。
根本対処
VMのファイルシステムの再統合、エラーが判明したファイルシステムのR/Oマウントを実施いたしましたがデータをサルベージすることができませんでした。根本的には、データが各VMのローカルに分散して存在しており可用性の確保が十分ではなかったことが原因です。同様の障害が起きないよう、新システムのlab2022では、ユーザのホームディレクトリを分離・ファイルサーバに一元化し可用性と利便性を向上させることといたしました。
障害経緯
2022年3月5日 12:00 法定停電対応のためシャットダウン開始
2022年3月7日 09:00 システム起動開始
2022年3月7日 10:00 a5の起動不能を確認
2022年3月7日 15:00 ファイルシステムのエラーによる起動不能のため、2021年3月31日のスナップショットによる起動
2022年3月25日 09:00 新システムlab2022のテスト開始、ユーザの新しいホームディレクトリのファイルサーバへの格納完了
2022年6月21日 10:00 ホームディレクトリにUNIX系のdotfilesが生成されない不具合修正
以上