什么是robots协议?

robots协议:也称robots.txt、网络蜘蛛、机器人等,利用robots.txt协议告送搜索引擎(网络蜘蛛)哪些页面允许抓取,哪些页面不允许抓取。

当蜘蛛访问一个网站的时候,它首先会检查根目录下是否有robots.txt的存在,如果网站有robots协议,蜘蛛则按照robots.txt文本协议抓取允许访问的文件。

什么是robots协议?

如果网站没有robots协议,蜘蛛抓取则不受限制,网站任何页面蜘蛛都可以抓取。

robots.txt有什么作用?

robots协议可以禁止蜘蛛抓取网站程序、系统图片、音乐、视频、js、css、死链接、订阅、评论等,网站设置robots.txt可以让蜘蛛知道网站哪些文件可以抓取,哪些文件不可以抓取,从而节约蜘蛛取时间,方便蜘蛛更好的抓取网站文件。

robots.txt基础写法

1、User-agent: *

*代表所有网络蜘蛛都可以抓取你的网站(360、百度、搜狗、神马等)

2、Disallow: /admin/

禁止蜘蛛抓取根目录下的admin的所有文件

3、Disallow: /wp-includes/

禁止蜘蛛抓取根目录下的wp-includes的所有文件

4、Disallow: /ABC/

abc代表根目录下的一个文件目录,禁止蜘蛛抓取网站abc根目录下所有文件,不允许蜘蛛抓取那个文件目录直接Disallow:加文件目录。

5、Disallow: /*?*

禁止蜘蛛抓取网站所有包含问号 (?) 的动态网址页面

6、Disallow: /.jpg$

禁止蜘蛛抓取网站上的.jpg格式的图片,这个有的站长是屏蔽的,有的站长是允许的,所有根据网站需求设置及格。

7、Disallow: /?s=*和Disallow: /*/?s=*\

禁止搜索引擎抓取站内搜索结果

8、Disallow: /*.js$

禁止蜘蛛抓取网站上的js文件

9、Disallow: /*.css$

禁止蜘蛛抓取网站上的css文件

10、Sitemap: http://www.wuyuetongzhou.cn/sitemap.xml

网站地图利于蜘蛛去抓取收录网站内页URL。

以上只是robots协议的基础概念,不允许蜘蛛抓取的文件页面直接Disallow:/*/,方便蜘蛛快速抓取你的网站,允许抓取的页面默认不写则允许抓取收录。

不同的系统程序则robots.txt写法则不同,织梦程序有织梦robots.txt的写法,WordPress程序有robots.txt写法,每个程序相对robots协议写法都不同。

未经允许不得转载:吴越同舟 » 什么是robots协议?

神州(微信:dd523688)来-钱-快  

赞 (0)

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址