どのように以前あるいはできるだけ以前に近い状態に復旧できるか知見を伺いたいです。
状況
OpenSearch Dashboards ログインができなくなった。初期パスワード、変更後のパスワード、追加したユーザーの id とパスワード、いずれでもログインができない。
S3 から Lambda を利用して取り込んでいるログ取り込みが動作しなくなった。
履歴
- 2023-03-20 16:34 JST 頃 OpenSearch 2.3 から OpenSearch 2.5 にアップグレード(関係性は不明)
- 2023-03-21 08:10 JST 頃 Lambda からの書き込みのエラー率が増えている(以前より休日の後等は発生していたので、この時点では問題ではない)
- 2023-03-21 09:28 JST 頃 Lambda からの書き込みのエラー率が 100% になり、以後復帰しない
- 2023-03-21 09:30 JST 頃 DataNode(4B0DAjxpR1-0-hhRKavmoA) が消える(空きストレージ領域 30 GiB)
- 2023-03-21 09:54 JST 頃 DataNode(QxOpUYveTtSARE8OPrjZyg) が出現している(空きストレージ領域 78 GiB)
構築経緯
ダッシュボード類は
SIEM on Amazon OpenSearch Service
https://github.com/aws-samples/siem-on-amazon-opensearch-service
を利用して構築していた
インスタンス情報
アベイラビリティーゾーン 1-AZ
インスタンスタイプ t3.small.search
ノードの数 1
エラーログ
Lambda のログは
2023-03-21T10:13:16.387+09:00 {"level":"INFO","message":"version: 2.8.0c","location":"<module>:28","timestamp":"2023-03-21 01:13:16,386+0000","service":"es-loader"}
2023-03-21T10:13:16.428+09:00 [WARNING] 2023-03-21T01:13:16.427Z GET https://search-aes-siem- HIDDEN .ap-northeast-1.es.amazonaws.com:443/ [status:403 request:0.029s]
2023-03-21T10:13:16.429+09:00 [ERROR] AuthorizationException: AuthorizationException(403, 'security_exception', 'no permissions for [cluster:monitor/main] and User [name=arn:aws:iam:: HIDDEN :role/siem-os-LambdaEsLoaderServiceRoleFFD43869-105W98074P6X3, backend_roles=[arn:aws:iam:: HIDDEN :role/siem-os-LambdaEsLoaderServiceRoleFFD43869-105W98074P6X3], requestedTenant=null]') Traceback (most recent call last): File "/var/lang/lib/python3.8/imp.py", line 234, in load_module return load_source(name, filename, file) File "/var/lang/lib/python3.8/imp.py", line 171, in load_source module = _load(spec) File "<frozen importlib._bootstrap>", line 702, in _load File "<frozen importlib._bootstrap>", line 671, in _load_unlocked File "<frozen importlib._bootstrap_external>", line 843, in exec_module File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed File "/var/task/index.py", line 341, in <module> DOMAIN_INFO = es_conn.info() File "/var/task/opensearchpy/client/utils.py", line 177, in _wrapped return func(*args, params=params, headers=headers, **kwargs) File "/var/task/opensearchpy/client/__init__.py", line 247, in info return self.transport.perform_request( File "/var/task/opensearchpy/transport.py", line 407, in perform_request raise e File "/var/task/opensearchpy/transport.py", line 368, in perform_request status, headers_response, data = connection.perform_request( File "/var/task/opensearchpy/connection/http_requests.py", line 203, in perform_request self._raise_error( File "/var/task/opensearchpy/connection/base.py", line 300, in _raise_error raise HTTP_EXCEPTIONS.get(status_code, TransportError)(
2023-03-21T10:13:16.589+09:00 START RequestId: 20ea490d-c2d9-422b-9d5b-4e283813bd5d Version: $LATEST
2023-03-21T10:13:16.590+09:00 Unknown application error occurred Runtime.Unknown
2023-03-21T10:13:16.590+09:00 END RequestId: 20ea490d-c2d9-422b-9d5b-4e283813bd5d
のように、403 を示している。
ダッシュボードにログインしようとすると
Invalid username or password. Please try again.
を示し、ログインができない。
コメント
Single-AZ であるため、SLA 違反に問えないことは了解している。
しかし、動かないものに料金が発生し続けているため、困っている。修復する方法はあるか?
いきなりデータが消失し(空きストレージ領域が増えている)、しかもログインできないため利用ができなくなった。
ありがとうございます。確認しましたが、今回の問題に適用できそうな内容はありませんでした。