360蜘蛛疯狂抓取网站内容(360蜘蛛是什么)

　　robots文件有什么用呢？

　　1、屏蔽网站内的死链接。

　　2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。

　　3、阻止搜索引擎索引网站隐私性的内容。

　　4、可以屏蔽一些网站中比较大的文件，如：图片，音乐，视频等，节省服务器资源。

　　5、设置网站地图连接，方便引导蜘蛛爬取页面。

　　想要学习网站搭建以及SEO的伙伴可以来这个群：215--113--587 在这里，大神带你进入互联网的世界，在这里，你可以学习到你想要学习到的东西，在这里，绝对不会让你失望！

　　一个网站写有robots文件是很有必要的，如果网站中重复的页面、内容或者404信息过多，那么搜索引擎蜘蛛抓取时候就会认为该网站价值较低，从而降低对该网站的权重，这样网站的排名就不好了。

　　robots怎么写呢？

　　User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

　　Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

　　Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

　　Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

360蜘蛛疯狂抓取网站内容(360蜘蛛是什么),360蜘蛛疯狂抓取网站内容(360蜘蛛是什么),360蜘蛛疯狂抓取网站内容,第1张

　　Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

　　Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

　　Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

　　Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

　　Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

　　Allow: /tmp 这里定义是允许爬寻tmp的整个目录

　　Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。

　　Allow: .gif$ 允许抓取网页和gif格式图片

　　Sitemap: 网站地图告诉爬虫这个页面是网站地图

　　下面，小编将列举一些robots.txt的具体用法：

　　允许所有的搜索引擎访问网站所有的部分的robot写法：

　　User-agent: *

　　Disallow:

　　或者也可以建一个空文件 robots.txt 文件，功能同上。

　　禁止所有搜索引擎访问网站的任何部分的robots写法：

　　User-agent: *

　　Disallow: /

　　禁止所有搜索引擎访问网站的某几个部分（下例中的01、02、03目录）的robots写法：

　　User-agent: *

　　Disallow: /01/

　　Disallow: /02/

　　Disallow: /03/

　　禁止某个搜索引擎的访问（如下例中禁止百度引擎抓取）的robots写法：

　　User-agent: Baiduspider

　　Disallow: /

　　注意：以上写法只禁止了百度搜索引擎的抓取，其他搜索引擎还是可以来抓取的。

　　只允许某个搜索引擎的访问（如下例中只允许谷歌搜索引擎抓取站点内容）的robots写法：

　　User-agent: Googlebot

　　Disallow:

　　User-agent: *

　　Disallow: /

　　禁止搜索引擎抓取自己网站图片（禁止图片抓取）的robots写法：

　　User-agent: *

　　Disallow: .jpg$

　　Disallow: .jpeg$

　　Disallow: .gif$

　　Disallow: .png$

　　Disallow: .bmp$

　　如果你的网站有动态和静态两种形式的网页，你只允许抓取静态页面（禁止动态页面）的robots写法：

　　User-agent: *

　　Disallow: /*?*

　　下面顺便将各大搜索引擎的蜘蛛的名字分享一下（这里仅列举中国国内比较常用的一些搜索引擎）：

　　google蜘蛛：Googlebot

　　百度蜘蛛：Baiduspider

　　搜狗蜘蛛：sogou spider

　　360蜘蛛：360Spider

　　yahoo蜘蛛：Yahoo!slurp

　　alexa蜘蛛：ia_archiver

　　bing蜘蛛：MSNbot

　　Soso蜘蛛：Sosospider

　　Google Adsense蜘蛛：Mediapartners-Google

　　有道蜘蛛：YoudaoBot

　　未经本人允许，转发前请联系本人QQ：482500554

　　谢谢合作

360蜘蛛疯狂抓取网站内容

1、本网站名称：源码村资源网
2、本站永久网址：https://www.yuanmacun.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。
源码村资源网 » 360蜘蛛疯狂抓取网站内容(360蜘蛛是什么)

源码村长

分享到：

源码村长

1 评论

发表评论