robots文件有什么用呢?
1、屏蔽网站内的死链接。
2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。
3、阻止搜索引擎索引网站隐私性的内容。
4、可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器资源。
5、设置网站地图连接,方便引导蜘蛛爬取页面。
想要学习网站搭建以及SEO的伙伴可以来这个群:215--113--587 在这里,大神带你进入互联网的世界,在这里,你可以学习到你想要学习到的东西,在这里,绝对不会让你失望!
一个网站写有robots文件是很有必要的,如果网站中重复的页面、内容或者404信息过多,那么搜索引擎蜘蛛抓取时候就会认为该网站价值较低,从而降低对该网站的权重,这样网站的排名就不好了。
robots怎么写呢?
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
下面,小编将列举一些robots.txt的具体用法:
允许所有的搜索引擎访问网站所有的部分的robot写法:
User-agent: *
Disallow:
或者也可以建一个空文件 robots.txt 文件,功能同上。
禁止所有搜索引擎访问网站的任何部分的robots写法:
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的某几个部分(下例中的01、02、03目录)的robots写法:
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
禁止某个搜索引擎的访问(如下例中禁止百度引擎抓取)的robots写法:
User-agent: Baiduspider
Disallow: /
注意:以上写法只禁止了百度搜索引擎的抓取,其他搜索引擎还是可以来抓取的。
只允许某个搜索引擎的访问(如下例中只允许谷歌搜索引擎抓取站点内容)的robots写法:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
禁止搜索引擎抓取自己网站图片(禁止图片抓取)的robots写法:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
如果你的网站有动态和静态两种形式的网页,你只允许抓取静态页面(禁止动态页面)的robots写法:
User-agent: *
Disallow: /*?*
下面顺便将各大搜索引擎的蜘蛛的名字分享一下(这里仅列举中国国内比较常用的一些搜索引擎):
google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
搜狗蜘蛛:sogou spider
360蜘蛛:360Spider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot
未经本人允许,转发前请联系本人QQ:482500554
谢谢合作
2、本站永久网址:https://www.yuanmacun.com
3、本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长进行删除处理。
4、本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
6、本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。
源码村资源网 » 360蜘蛛疯狂抓取网站内容(360蜘蛛是什么)
1 评论