360蜘蛛疯狂抓取网站内容(360蜘蛛是什么)

  robots文件有什么用呢?

  1、屏蔽网站内的死链接。

  2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。

  3、阻止搜索引擎索引网站隐私性的内容。

  4、可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器资源。

  5、设置网站地图连接,方便引导蜘蛛爬取页面。

  想要学习网站搭建以及SEO的伙伴可以来这个群:215--113--587 在这里,大神带你进入互联网的世界,在这里,你可以学习到你想要学习到的东西,在这里,绝对不会让你失望!

  一个网站写有robots文件是很有必要的,如果网站中重复的页面、内容或者404信息过多,那么搜索引擎蜘蛛抓取时候就会认为该网站价值较低,从而降低对该网站的权重,这样网站的排名就不好了。

  robots怎么写呢?

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

  Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

360蜘蛛疯狂抓取网站内容(360蜘蛛是什么),360蜘蛛疯狂抓取网站内容(360蜘蛛是什么),360蜘蛛疯狂抓取网站内容,第1张

  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

  Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

  Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

  Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

  Allow: /tmp 这里定义是允许爬寻tmp的整个目录

  Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。

  Allow: .gif$ 允许抓取网页和gif格式图片

  Sitemap: 网站地图 告诉爬虫这个页面是网站地图

  下面,小编将列举一些robots.txt的具体用法:

  允许所有的搜索引擎访问网站所有的部分的robot写法:

  User-agent: *

  Disallow:

  或者也可以建一个空文件 robots.txt 文件,功能同上。

  禁止所有搜索引擎访问网站的任何部分的robots写法:

  User-agent: *

  Disallow: /

  禁止所有搜索引擎访问网站的某几个部分(下例中的01、02、03目录)的robots写法:

  User-agent: *

  Disallow: /01/

  Disallow: /02/

  Disallow: /03/

  禁止某个搜索引擎的访问(如下例中禁止百度引擎抓取)的robots写法:

  User-agent: Baiduspider

  Disallow: /

  注意:以上写法只禁止了百度搜索引擎的抓取,其他搜索引擎还是可以来抓取的。

  只允许某个搜索引擎的访问(如下例中只允许谷歌搜索引擎抓取站点内容)的robots写法:

  User-agent: Googlebot

  Disallow:

  User-agent: *

  Disallow: /

  禁止搜索引擎抓取自己网站图片(禁止图片抓取)的robots写法:

  User-agent: *

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .gif$

  Disallow: .png$

  Disallow: .bmp$

  如果你的网站有动态和静态两种形式的网页,你只允许抓取静态页面(禁止动态页面)的robots写法:

  User-agent: *

  Disallow: /*?*

  下面顺便将各大搜索引擎的蜘蛛的名字分享一下(这里仅列举中国国内比较常用的一些搜索引擎):

  google蜘蛛:Googlebot

  百度蜘蛛:Baiduspider

  搜狗蜘蛛:sogou spider

  360蜘蛛:360Spider

  yahoo蜘蛛:Yahoo!slurp

  alexa蜘蛛:ia_archiver

  bing蜘蛛:MSNbot

  Soso蜘蛛:Sosospider

  Google Adsense蜘蛛:Mediapartners-Google

  有道蜘蛛:YoudaoBot

  未经本人允许,转发前请联系本人QQ:482500554

  谢谢合作

1、本网站名称:源码村资源网
2、本站永久网址:https://www.yuanmacun.com
3、本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长进行删除处理。
4、本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
6、本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。
源码村资源网 » 360蜘蛛疯狂抓取网站内容(360蜘蛛是什么)

1 评论

您需要 登录账户 后才能发表评论

发表评论

欢迎 访客 发表评论