AWS リソースが自分のウェブサイトをクロールするために使用されています。どうすればよいですか?
簡単な説明
robots.txt ファイルを作成または変更して、クローラーからウェブサイトを保護するのがベストプラクティスです。robots.txt ファイルは、ウェブクローラーのアクティビティを規制するために一般的に受け入れられている基準です。
robots.txt ファイルを変更すると、以下のことに影響を与える可能性があります:
- どのクローラーがウェブサイトをクロールできるか。
- これらのクローラーが、どのページをクロールできるか。
- ページをクロールできる速度。
AWS リソースで実行されているクローラーが robots.txt ファイルに従っていない場合は、不正使用レポートを送信します。
解決方法
1.robots.txt ファイルを作成または変更する
robots.txt ファイルには、クローラーに対するすべての制限事項が記載されています。このファイルは、ウェブサイトのルートドメインにアタッチされると、クローラーを停止または遅くさせることができます。
ログで、停止するクローラーの User-agent 名を確認します。そのクローラーがドメイン内のページをクロールするのをブロックするには、robots.txt ファイルに User-agent 名を追加します。
User-agent: crawler
Disallow: /
注意: crawler をクローラーの User-agent 名に置き換えます。
新しいテキストブロックのクローラーごとに異なるルールを定義できます。たとえば、crawler1 によるページのクロールを完全にブロックするとします。同時に、crawler2 には、遅めの速度でページをクロールすることを許可するとします。
User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60
注意: crawler1 と crawler2 をクローラーの User-agent 名に置き換えます。
これで、crawler2 はドメインをクロールできますが、速度は 60 ミリ秒に 1 回となります。
ウェブコンテンツからすべてのクローラーをブロックするには、ワイルドカード文字を使用します。
User-agent: *
Disallow: /
注意: 多くの検索エンジンでは、検索結果で使用するページのインデックス作成にクローラーが使用されます。あらゆるクローラーによるウェブサイトのクロールをブロックすると、ユーザーがページを見つけにくくなります。
クローラーでクロールできるディレクトリまたはページを指定するルールを定義できます。たとえば、directory2 内のページ example.html を除いて、directory1 と directory2 のクロールから crawler をブロックするとします。
User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html
注: crawler をクローラーの User-agent 名に置き換えます。
directory1 と directory2 をディレクトリの名前に置き換えます。
example.html をページの名前に置き換えます。
2.robots.txt ファイルをドメインに追加する
robots.txt ファイルをルートドメインに追加します。たとえば、ドメインが example.com の場合、次のパスにファイルを追加します。
www.example.com/robots.txt
3.AWS の不正使用に関する連絡
悪意のあるクローラーは、robots.txt ファイルを無視する場合があります。AWS リソースで実行されているクローラーが robots.txt ファイルに従っていないと思われる場合は、完全なログを含む不正使用レポートを送信してください。これらのログには、日付、タイムスタンプ (タイムゾーンを含む)、およびクロールアクティビティのソース IP アドレスが含まれている必要があります。AWS Trust and Safety チームは、関係するお客様のコンプライアンス違反を確認するために、robots.txt ファイルを確認する必要があることにご留意ください。
関連情報
AWS リソースの不正使用の報告方法を教えてください