排行榜 统计
  • 文章总数:1135 篇
  • 评论总数:5 条
  • 分类总数:8 个
  • 最后更新:4天前

通过Robots协议屏蔽搜索引擎抓取网站内容

本文阅读 3 分钟
首页 常用工具 正文

概述

Robots协议(也称为爬虫协议、机器人协议等)的全称是网络爬虫排除标准(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。若有些页面访问消耗性能比较高,不希望被搜索引擎抓取,可以在根目录下存放robots.txt文件,屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。

详细信息

阿里云提醒您:

  • 如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。
  • 如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,建议提前创建快照或开启RDS日志备份等功能。
  • 如果您在阿里云平台授权或者提交过登录账号、密码等安全信息,建议您及时修改。

robots.txt文件的参数配置说明

  • User-agent:*:搜索引擎种类,*代表所有的搜索引擎种类,是一个通配符。
  • Disallow: /admin/:这里定义是禁止爬取admin目录下面的目录。
  • Disallow: /require/:这里定义是禁止爬取require目录下面的目录。
  • Disallow: /ABC/:这里定义是禁止爬寻ABC目录下面的目录。
  • Disallow: /cgi-bin/*.htm:禁止访问/cgi-bin/目录下的所有以.htm为后缀的URL(包含子目录)。
  • Disallow: /?:禁止访问网站中所有包含问号(?)的网址。
  • Disallow: /.jpg$:禁止抓取网页所有.jpg格式的图片。
  • Disallow:/ab/adc.html:禁止爬取ab目录下面的adc.html文件。
  • Allow: /cgi-bin/:这里定义是允许爬取cgi-bin目录下面的目录。
  • Allow: /tmp:这里定义是允许爬取tmp整个目录。
  • Allow: .htm$:仅允许访问以.htm为后缀的URL。
  • Allow: .gif$:允许抓取网页和.gif格式图片。
  • Sitemap:网站地图,告诉爬虫这个页面是网站地图。

示例

  • 示例一:禁止所有搜索引擎访问网站的任何资源。

    User-agent: *
    Disallow: /
  • 示例二:允许所有搜索引擎访问任何资源。

    User-agent: *
    Allow: /


    说明:也可以建一个/robots.txt空文件,Allow的值设置为/robots.txt
  • 示例三:禁止某个搜索引擎的访问。

    User-agent: BadBot
    Disallow: /
  • 示例四:允许某个搜索引擎的访问。

    User-agent: Baiduspider
    allow: /
本文来自投稿,不代表本站立场,如若转载,请注明出处:https://typecho.firshare.cn/archives/1581.html
免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。避免网络欺诈,本站不倡导任何交易行为。如您私自与本站转载自公开互联网中的资讯内容中提及到的个人或平台产生交易,则需自行承担后果。本站在注明来源的前提下推荐原文至此,仅作为优良公众、公开信息分享阅读,不进行商业发布、发表及从事营利性活动。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。
-- 展开阅读全文 --
Notepad向多行数据同一位置插入相同数据
« 上一篇 02-09
解决剪映电脑版专业版草稿工程文件导出分享给其他人Windows篇
下一篇 » 02-09