前几天有朋友问到网站Robot是什么?Robot干什么用的?今天快美网络来与大家分享一下关于如何创建合适的robots.txt? 希望对广大的朋友们有所帮助。
当搜索引擎访问一个网站的时候,第一步就是检查网站的robots.txt文件,显然这是我们seo必做的内容。在了解robots.txt文件写法之前,我们就先要知道robot是什么?
robot英文翻译过来:机器人。
robots.txt文件也很好理解:搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。robots.txt这个文件用于指定spider(蜘蛛)在您网站上的抓取范围。
关于robots.txt需要注意以下几点:
1、robots.txt文件应该放置在网站根目录下。比如,当spider访问http://www.kuaimei88.com时,首先会检查该网站中是否存在http://www.kuaimei88.com/robots.txt这个文件,如果Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
2、(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误文件,所以不管你是否需要屏蔽蜘蛛抓取,都应该在网站中添加一个robots.txt。
3、一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。这些内容目录可以通过robots.txt屏蔽。
4、robots.txt里主要有两个函数:User-agent和 Disallow。
5、robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
Sitemap: http://www.kuaimei88.com/sitemap.xml
6、举例说明robots.txt,不懂的朋友可以根据自己的网站情况,作为参考。
User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件
7、文件里面至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。
8、常见Robots名字
名称 搜索引擎
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler/
inktomi蜘蛛: slurp
以上就是快美网络分享关于建立Robots.txt 的基本知识,希望广大的朋友们学以致用。