{"title": "Googlebot \u5728\u5c1d\u8bd5\u8bbf\u95ee\u60a8\u7684 robots.txt \u65f6\u9047\u5230\u4e86n \u4e2a\u9519\u8bef", "update_time": "2013-10-19 17:48:14", "tags": "google robots", "pid": "263", "icon": "default.png"}
最近经常收到Google的错误报告,说我的站点的robots无法抓取到。而我自己打开robots是ok的,机器也是正常的,这是怎么回事? 首先,手动测试下载robots文件,测试正常 然后,查看acess日志和error日志,发现没有异常 最后,查看Google站长平台里设置发现疑点,在www.opstool.com的站点设置里有个目标地理区域的设置。 这个设置默认是“美国”,可能是这个设置导致robots抓取的来源是美国,而我的vps是在中国。中间网络一不稳定,就会出现抓取错误。 验证我的想法: 在access日志里找到google的robots访问记录 ``` grep robots access_log | grep -i google ``` 找到一行记录: ``` 66.249.66.88 - - [18/Oct/2013:20:26:07 +0800] "GET /robots.txt HTTP/1.1" 200 330 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" ``` 查询这个66.249.66.88 ip的来源,归属地为美国。 当前解决办法: 先将站点的目标地理区域设置为中国,再观察是否出现这类错误。 ``` Google站长工具->目标网站->网站设置(一个齿轮的样子)->目标地址区域 选择中国 ``` 希望这篇文章对你有用。