时间:2022-10-25 10:28编辑:九州下载来源:www.wzjsgs.com
Robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。
Robots协议中的语法属性
User-agent: * 定义所有搜索引擎
Allow: 允许
Disallow: 禁止
User-agent: 定义搜索引擎
* 代表所有*是一个通配符。
$ 结束
/ 代表根目录或一个文件夹
Disallow: / 禁止抓取网站的所有内容
Disallow: /admin/ 禁止爬寻admin目录下面的目录。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址。
Disallow: /*.jpg$ 禁止抓取网页所有的jpg格式的图片。
Disallow: /plus/ 屏敝插件
Disallow: /Baiduspider 禁止百度蜘蛛
Disallow: /include 禁止以include开头的文件和这个文件夹的所有内容
Disallow: /include/ 禁止这个文件夹,不能访问include/aaa.html 能访问include.html和includeaaa.html
Allow: /include/data/ 允许抓取这个文件
Sitemap: /sitemap.html 告诉爬虫这个页面是网站地图。
Robots协议常见的写法
1、禁止所有搜索引擎访问网站所有内容
User-agent: *
Disallow: /
2、禁止百度搜索引擎访问网站所有内容
User-agent: Baiduspider
Disallow: /
3、允许所有搜索引擎访问网站所有内容
User-agent: *
Allow: /
4、允许所有搜索引擎访问抓取动态页面内容
User-agent: *
Allow: /*?*
5、不允许所有搜索引擎访问抓取动态页面内容
User-agent: *
Disallow: /*?*
6、禁止访问后台程序
User-agent: *
Disallow: /wp-*
7、网站地图:Sitemap:
Robots协议操作步骤
1、建立一个robots.txt记事本文档。
2、写好robots中不允许抓取的内容。
3、上传到程序的根目录。
写Robots协议必须遵守的格式:
第一个字母都是大写的。
:是英文状态下的帽号,帽号的后面要有一个空格。
Robots协议要注意的事项:
1、不能直接屏蔽搜索引擎对整个网站站抓取。一屏蔽蜘蛛有可能1-2个月都不来抓取。
2、首字母用英文状态下的大写 :号要在英文状态下写入, :号后面一定要有一个空格!
3、不要过度地屏敝太多内容和页面。
4、生效时间一个星期到两个月之间。
Robots检测
登录百度站长Robots检测工具。地址:zhanzhang.baidu.com/robots/index
哪些网页需求屏蔽
让搜索引擎不被访问,其实很复杂,不想被搜索引擎抓取的网页下面就屏蔽,那么哪些网页是我们不想被搜索引擎抓取的呢?
1、空白页:什么是空白页,比如注册页下面、联络我们、关于我们等页面下面属于空白页,由于这种页面的内容没有意义的。
2、后台页:后台是不被搜索引擎收录的,所以需要robots屏蔽后台登陆页面。
新的Robots文件一般在2天内生效。如果您的网站在被百度收录之后才设置Robots文件禁止抓取,那么新的Robots文件通常会在48小时内生效,生效以后的新网页,将不再建入索引。需要注意的是,robots.txt禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。因为百度服务器有区域备份,多个服务器之间需一段时间才能完成同步更新。
好多的朋友应该都知道百度有新站的考核期,但是可能对考核期具体是什么,以及怎么快速的渡过新站百度的考核期,还是会有一些疑惑,那今天小编就带大家了解一下考核期,以及渡过考核期的方法.
2023-03-18 11:12HITS算法并不是百度独家的, 它被应用在很多的地方,关于它太低层的术语的东西这里不预深究,这里之讲它对优化的影响,首先HITS把页面分为了两种
2023-03-18 11:09为什么原创内容没有排名,这个问题有点不严谨,这几天有个朋友和我说他的原创文章发了一个月了百度也会收录,但是就没有排名想让我给分析一下,我打开内容一看,直呼好家伙
2023-03-18 11:04做网站优化很重要的一点是写出用户喜欢的内容,请注意是用户喜欢,不是百度喜欢的,百度喜欢的内容是灰帽写的那种文章,带点ascii码中百度识别不了的字符,这种会有好的收录跟排名,但我们是白帽,我们是面向用户做优化,不是面向快排,面向爬虫做快排,用户喜欢的文章,不一定是原创,如果不懂文章要不要原创的可以看一下之前在\'SEO网站优化文章一定要原创吗\'中的内容。
2023-03-18 11:01大家对网站运营可能都听过,也经常听别人讲起,网站运营可以算做是运营的细分,运营跟网站运营的工作内容区别是很大的,之前有面试运营岗位的同志,来了以后一聊工作内容,说跟他理解的运营工作内容不一样,你看这对岗位职责理解不太明确,导致白跑了一趟!
2023-03-18 10:58有些刚接触SEO的朋友经常能看见有些网站是做优化的,但是还会同时做网络营销这个业务,那网络营销和SEO有什么关系那?
2023-03-18 10:58