robots.txt文件问题汇总及如何解决?

2017年10月29日09:26:56 2 79 views

做网站的朋友们都晓得robots.txt文件的重要性,但是还是有很多朋友的robots.txt文件写的虽然正确但却不利于优化。如何写好robots.txt文件呢?凡哥带大家一起分析下。

我们要了解robots协议(robots.txt文件)是什么?

答:robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt文件怎么编辑?

答:robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。

robots.txt文件的作用是什么?

答:robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛在网站服务器上什么文件是可以被查看及不被查看的,所以在引导蜘蛛时robots.txt文件就显得尤为重要。

了解了上面robots.txt的编辑及重要性,下面我们就进入核心了.

robots协议

robots.txt的书写方法.

User-agent:*  这里的星号,代表泛指所有的搜索引擎,如需要特指某个蜘蛛,则将各个搜索引擎蜘蛛的名称写下即可。
各大常用搜索引擎蜘蛛名称如下:

google蜘蛛:googlebot(国际常见)

百度蜘蛛:baiduspider(我们优化人员喜闻乐见他的到来)

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

bing蜘蛛:bingbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

inktomi蜘蛛:slurp

有道蜘蛛:YodaoBot和OutfoxBot

热土蜘蛛:Adminrtspider

搜狗蜘蛛:sogou spider(国内常见)

360搜蜘蛛:360spider(国内常见)

SOSO蜘蛛:sosospider

屏蔽所有蜘蛛写法:

User-agent:*

Disallow: /

提示:这里的斜杠代表网站根目录。

屏蔽单个搜索引擎蜘蛛写法(例如:屏蔽谷歌):

User-agent:googlebot

Disallow: /

屏蔽单个目录:(容易出错处)

User-agent:*

Disallow: /a/

提示:若a后面不加斜杠/a,表示以a形成的所有文件都屏蔽

例如:域名/abc/def/(不允许被抓取)

域名/abc/def.html(不允许被抓取)

加斜杠/a/表示只代表a目录下的所有文件。

例如:域名/abc/def/(不允许被抓取).

域名/abc/def.html(可以被抓取)

屏蔽单个页面:

user-agent:*

Disallow: /123.html

释放已屏蔽目录中的某个文件:

User-agent:*

Disallow: /a/

Allow: /a/img/

屏蔽所有图片:

Disallow: /*.jpg$

Disallow: /*.png$

Disallow: /*.gif$

屏蔽所有动态页面:

user-agent:*

Disallow: /*?*

加入网站地图文件:

User-agent:*

Sitemap: http://www.yy5050.com/sitemap.xml

robots.txt书写的时候还有更多要注意的事项,凡哥单独写了一篇:《新手必看,robots.txt书写秘籍

robots.txt存放在哪里?

答:robots.txt必须指定放在一个网站的根目录下,且文件名必须全部小写。(切记)

robots.txt怎么查看?

答:直接输入域名/robots.txt就可以查看.如:www.yy5050.com/robots.txt 具体如何修改robots.txt文件就要登录ftp软件在根目录查找到然后修改.在上传了.

robots.txt防止被渗透说明:

答:通常情况下我们为了不被蜘蛛抓取

wordpress后台都会这样写:

User-agent:*

Disallow: /wp-admin/

但是为了不让人这么容易就知道我们的程序,然后加以利用.我们通常要写的复杂点

User-agent:*

Disallow: /w*n/

将中间部分用泛指表示出来,蜘蛛是可以根据前后对照识别出文件,但别人想要知道就很难了,可防止被攻击,增加安全性。(注意:伪静态时,自己设置分类目录时,不要有w开头n结尾的.会被屏蔽)

相信大家看了这篇文章都已经初步了解robots.txt文件的常识了.如果你觉得还有遗漏欢迎你留言交流.

凡哥

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:2   其中:访客  2   博主  0

    • avatar 'ゞ馨辰网络'ゞ 2

      够全够详细了,值得学习