robots是什么?有些小白们可能不清楚,这里我先说明一下。
robots.txt 文件可限制抓取网页的搜索引擎蜘蛛对您网站的访问。这些蜘蛛是自动的,它们在访问任意网站的网页之前,都会查看是否存在阻止它们访问特定网页的 robots.txt 文件。
只有当您的网站中包含您不想让搜索引擎编入索引的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎将网站上的所有内容编入索引,则不需要 robots.txt 文件(甚至连空的 robots.txt 文件也不需要)。为了能使用 robots.txt 文件,您必须要有对您域的根目录的访问权限(如果您不能确定是否有该权限,请与您的网络托管商核实)。
由以上内容可以得出,robots的相关作用及其使用条件。在这里我要强调一下,如果确定搜索引擎不抓取某些页面的时候,再去使用robots.txt,如果你网站几乎所有页面都需要搜索引擎抓取的话,就请慎用robots,因为会对搜索引擎造成一定的限制,会影响收录。而且编写robots.txt稍有出错就可能会被搜索引擎降权。
这里举一个我自己的例子。前几天由于我查看网站根目录时候发现我之前做的robots.txt文件不见了,想来可能是当初搬家时候误删了,难怪搜索赢取抓取了好多不需要的页面。所以我又重新写了一个robots。不写还好,一写就出了差错,由于我一个字符写错,导致搜索引擎误判多了一个“Disallow: /*”所以就把我首页他吗的给降权了,由于百度快照更新的慢还没多大关系,但是谷歌和360搜索就遭殃了。360搜索收录量直接从2000多掉到了2个,谷歌搜索也从2000多掉到1600多,首页直接不更新快照,而且两个搜索引擎都识别不了我的首页keywords和描述。如下图:
这里可以看出robots的作用有多大。所以大家慎用把。如果使用一定要编写正确不能出差错。
编写robots可以使用百度站长平台提供的robots工具。网址是:http://zhanzhang.baidu.com/robots/index
百度站长平台可以检测网站的robots状态,还可以生成robots.txt。
尤其是可以更新你网站robots在百度的状态。如图: