简短描述
创建或修改 robots.txt 文件以保护您的网站免受爬网程序攻击。robots.txt 文件是用于监管网络爬网程序活动的公认标准。
修改 robots.txt 文件以影响以下内容:
- 哪些爬网程序可以爬取您的网站。
- 爬网程序可以爬取哪些页面。
- 可以爬取页面的速率。
有关 robots.txt 文件和系统的详细信息,请参阅 Cloudflare.com 网站上的什么是 robots.txt。
解决方法
如果您没有与网站关联的 robots.txt 文件,请使用文本编辑器创建一个新文件。将文件命名为 robots.txt。如果有,请打开您的 robots.txt 文件。
禁用特定的网络爬网程序
检查您的日志,了解您要停止的爬网程序的 User-agent 名称。要阻止该爬网程序爬取您域中的任何页面,请将 User-agent 名称添加到您的 robots.txt 文件中:
User-agent: crawler
Disallow: /
**注意:**请将 crawler 替换为爬网程序的 User-agent 名称。
管理多个爬网程序
您可以在新文本块中为每个爬网程序定义不同的规则。以下示例将完全阻止 crawler1 爬取您的页面,但允许 crawler2 以较低的速度爬取您的页面:
User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60
此参数允许 crawler2 爬取您的域,但只能以每 60 毫秒一次的速率爬取。
阻止所有爬网程序
如果要阻止所有爬网程序访问您的 Web 内容,请使用通配符:
User-agent: *
Disallow: /
**注意:**搜索引擎会使用爬网程序为页面生成索引,以用于搜索结果中。如果您阻止所有爬网程序爬取您的网站,则用户将更难找到您的页面。
控制爬网程序可以访问哪些目录
您可以定义规则来指定爬网程序可以爬取的目录或页面。以下示例将阻止 crawler 爬取 directory1 和 directory2,但 directory2 中的 example.html 页面除外:
User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html
**注意:**请将 directory1 和 directory2 替换为您的目录的名称。将 example.html 替换为您的页面的名称。
将您的 robots.txt 文件添加到域中
将 **robots.txt ** 文件添加到您的根域中。例如,如果您的域为 example.com,则将文件添加到以下路径中:
www.example.com/robots.txt
联系 AWS Abuse
恶意爬网程序会忽略您的 robots.txt 文件。如果您认为在 AWS 资源上运行的爬网程序会忽略您的 robots.txt 文件,请提交滥用报告以及完整的日志。这些日志必须包括爬网程序活动的日期、时间戳(包括时区)和源 IP 地址。请注意,AWS 信任与安全团队必须审查您的 robots.txt 文件,以确认所涉及客户的不合规行为。
相关信息
如何报告 AWS 资源滥用情况?