1. 一般来说,谷歌和百度的搜索引擎的蜘蛛都是遵循 robots.txt 给出的规则来在你的网站上爬行,robots协议规定搜索引擎进入你网站的入口就是该网站的 robots.txt文件,但有一个前提是该robots.txt文件必须存在。如果你的网站没有定义robots.txt文件,那么会是一个什么情况呢?
显然蜘蛛会被重定向至 404 错误页面,很多seoer的经验,假设你的网站自定义了 404 页面,那么蜘蛛会把其视作 robots.txt,所以从这里可以看出,没有robots.txt文件的网站会给蜘蛛索引网站带来非常大的困扰,从而影响搜索引擎收录你的网站页面内容。
2. robots.txt 第二个好处是可以限止不需要的搜索引掣来你的网站爬行,以缓解服务器的宝贵带宽资源,如邮件服务器、Erp服务器,这类服务对搜索引擎是没有任何意义的;比如淘保网站就用robots限止了蜘蛛的爬行。
3. 如果我的网站有些文件是非公开的,那么我可以用robots.txt做说明,不让搜索引掣来爬行,比如我们网站的后台管理程序,实际上,一些在运行中产生临时页面的网站,假设没有在robots.txt进行说明,搜索引擎都会去索引那些临时文件。
4. 如果你的网站内容,有很多很多的页面,,那么配置 robots.txt 是必须的,原因是很多时候蜘蛛洪水般的访问会给网站造成巨大的压力,假设你不用robots来控制,有可能会造成你的网站拒绝访问。
5.一个网站一般主题是相关的,那么不可避免地会产生很多页面比较相似的内容,对于搜索引掣来说,页面相似度太高,它可能会给你处罚,那么利用robots.txt限制某些页面不补收录就可以很好地帮你解决这个问题。
robots.txt 的风险及应对办法:
1. 任何事情有好的一面也有不好的一面,robots.txt 在给网站带来以上好处的同时也会存在一定的风险:第一就是给那些不怀好意思的攻击者指明了你网站的目录结构和私密数据所在的位置,虽然现在我们的服务器安全提高了好多,但任何事情我们都要做到防范于未然。
比如说,我的网站中的私密数据通过这个地址# 访问,在 robots.txt 中的设置我是这么设置的:
User-agent: *
Disallow: /private/
robots.txt文件很明显地指出了你要隐藏的内容在哪里,在浏览器中输入# 便可访问我们的私密内容。
那么我们要怎么解决这个问题呢?
a.对/private/目录设置访问权限,比如密码保护。
b.将目录下的默认的主页面更名为如:123-protect.html,与此同进,再设计一个新的index.html 文件,页面内容可以写“不好意思,你没有权限访问此页”。
2. 不小心将robots文件设置错误,可能会导致你已经被收录的数据会被搜索引掣给删除。如: