如果 AWS 资源被用于爬取我的网站,我该怎么办?

1 分钟阅读
0

我想防止 AWS 资源被用于爬取我的网站。

简短描述

创建或修改 robots.txt 文件以保护您的网站免受爬网程序攻击。robots.txt 文件是用于监管网络爬网程序活动的公认标准。

修改 robots.txt 文件以影响以下内容:

  • 哪些爬网程序可以爬取您的网站。
  • 爬网程序可以爬取哪些页面。
  • 可以爬取页面的速率。

有关 robots.txt 文件和系统的详细信息,请参阅 Cloudflare.com 网站上的什么是 robots.txt

解决方法

如果您没有与网站关联的 robots.txt 文件,请使用文本编辑器创建一个新文件。将文件命名为 robots.txt。如果有,请打开您的 robots.txt 文件。

禁用特定的网络爬网程序

检查您的日志,了解您要停止的爬网程序的 User-agent 名称。要阻止该爬网程序爬取您域中的任何页面,请将 User-agent 名称添加到您的 robots.txt 文件中:

User-agent: crawler
Disallow: /

**注意:**请将 crawler 替换为爬网程序的 User-agent 名称。

管理多个爬网程序

您可以在新文本块中为每个爬网程序定义不同的规则。以下示例将完全阻止 crawler1 爬取您的页面,但允许 crawler2 以较低的速度爬取您的页面:

User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60

此参数允许 crawler2 爬取您的域,但只能以每 60 毫秒一次的速率爬取。

阻止所有爬网程序

如果要阻止所有爬网程序访问您的 Web 内容,请使用通配符:

User-agent: *
Disallow: /

**注意:**搜索引擎会使用爬网程序为页面生成索引,以用于搜索结果中。如果您阻止所有爬网程序爬取您的网站,则用户将更难找到您的页面。

控制爬网程序可以访问哪些目录

您可以定义规则来指定爬网程序可以爬取的目录或页面。以下示例将阻止 crawler 爬取 directory1directory2,但 directory2 中的 example.html 页面除外:

User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html

**注意:**请将 directory1directory2 替换为您的目录的名称。将 example.html 替换为您的页面的名称。

将您的 robots.txt 文件添加到域中

将 **robots.txt ** 文件添加到您的根域中。例如,如果您的域为 example.com,则将文件添加到以下路径中:

www.example.com/robots.txt

联系 AWS Abuse

恶意爬网程序会忽略您的 robots.txt 文件。如果您认为在 AWS 资源上运行的爬网程序会忽略您的 robots.txt 文件,请提交滥用报告以及完整的日志。这些日志必须包括爬网程序活动的日期、时间戳(包括时区)和源 IP 地址。请注意,AWS 信任与安全团队必须审查您的 robots.txt 文件,以确认所涉及客户的不合规行为。

相关信息

如何报告 AWS 资源滥用情况?

AWS 官方
AWS 官方已更新 2 个月前