robots协议:也称robots.txt、网络蜘蛛、机器人等,利用robots.txt协议告送搜索引擎(网络蜘蛛)哪些页面允许抓取,哪些页面不允许抓取。
当蜘蛛访问一个网站的时候,它首先会检查根目录下是否有robots.txt的存在,如果网站有robots协议,蜘蛛则按照robots.txt文本协议抓取允许访问的文件。
如果网站没有robots协议,蜘蛛抓取则不受限制,网站任何页面蜘蛛都可以抓取。
robots.txt有什么作用?
robots协议可以禁止蜘蛛抓取网站程序、系统图片、音乐、视频、js、css、死链接、订阅、评论等,网站设置robots.txt可以让蜘蛛知道网站哪些文件可以抓取,哪些文件不可以抓取,从而节约蜘蛛取时间,方便蜘蛛更好的抓取网站文件。
robots.txt基础写法
1、User-agent: *
*代表所有网络蜘蛛都可以抓取你的网站(360、百度、搜狗、神马等)
2、Disallow: /admin/
禁止蜘蛛抓取根目录下的admin的所有文件
3、Disallow: /wp-includes/
禁止蜘蛛抓取根目录下的wp-includes的所有文件
4、Disallow: /ABC/
abc代表根目录下的一个文件目录,禁止蜘蛛抓取网站abc根目录下所有文件,不允许蜘蛛抓取那个文件目录直接Disallow:加文件目录。
5、Disallow: /*?*
禁止蜘蛛抓取网站所有包含问号 (?) 的动态网址页面
6、Disallow: /.jpg$
禁止蜘蛛抓取网站上的.jpg格式的图片,这个有的站长是屏蔽的,有的站长是允许的,所有根据网站需求设置及格。
7、Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果
8、Disallow: /*.js$
禁止蜘蛛抓取网站上的js文件
9、Disallow: /*.css$
禁止蜘蛛抓取网站上的css文件
10、Sitemap: http://www.wuyuetongzhou.cn/sitemap.xml
网站地图利于蜘蛛去抓取收录网站内页URL。
以上只是robots协议的基础概念,不允许蜘蛛抓取的文件页面直接Disallow:/*/,方便蜘蛛快速抓取你的网站,允许抓取的页面默认不写则允许抓取收录。
不同的系统程序则robots.txt写法则不同,织梦程序有织梦robots.txt的写法,WordPress程序有robots.txt写法,每个程序相对robots协议写法都不同。
未经允许不得转载:吴越同舟 » 什么是robots协议?
灰产项目稳定日赚500微信:dd523688