时间:2022-10-24 12:44编辑:九州下载来源:www.wzjsgs.com
HITS是英 Hyperlink-Induced文- Topic Search的缩写,意译为“超链诱导主题搜索”HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。
按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。
一个网页重要性的分析的算法。通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。
在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
HITS 算法的具体步骤:
1、接受一个用户查询的请求。HITS 算法与用户输入的查询请求密切相关,它的查询结果是动态生成的,而 PageRank 算法则与用户的查询无关。
2、将查询提交给某个现有的搜索引擎(或者是自己构造的检索系统),并在返回的搜索结果中,提取排名靠前的网页,得到一组与用户查询高度相关的初始网页集合,这个集合被称作为 root set
3、建立 base set,凡是与根集内网页有直接链接指向关系的网页都被扩充进来,形成如下集合
4、计算:auth[i] = sum(hub[j] * e[j][i], j = 1..n),hub[i] = sum(auth[j] * e[i][j], j = 1..n),注意此处先计算 auth 和 hub 的新值,然后覆盖原值
5、归一化:auth[i] /= sqrt(sum(auth[i]^2)),hub[i] /= sqrt(sum(hub[i]^2)) ,即将 auth 向量和 hub 向量的长度置为1
6、迭代:如果值趋于稳定,结束,否则返回1。可以证明,HITS 算法是收敛的。
HIST算法是子集传播算法的代表算法。在HIST算法中,分为Hub页面和Authority页面,Authority页面是指与某个领域或者某个话题相关的高质量页面,Hub页面则是包含很多指向高质量Authority页面链接的网页,比如,hao123首页就是一个典型的高质量Hub页。
Hub页和Authority页之间是相互增强的关系,HITS算法基于的是下面的两个基本假设:
基本假设1:一个好的Authority页面会被很多Hub页面指向。
基本假设2 : 一个好的Hub页面会指向很多好的Authority页面。
HITS算法的实际应用
我们可以简单地理解为HITS算法会提炼出两种比较重要的页面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。
典型的枢纽页面就是如雅虎目录、开放目录或好123样的网站目录。这种高质量的网站目录作用就在于指向其他权威网站,所以称为枢纽。而权威页面有很多导入链接其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面HITS算法是针对特定查询词的,所以称为主题搜索。
HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段所以HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此,原始HITS算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入到搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。
成为权威页面是第一优先,不过难度比较大,唯一的方法就是获得高质量链接,当你的网站不能成为权威页面时,就让它成为枢纽页面,所以导出链接也是当前搜索引擎排名因素之一,绝不链接到其他网站的做法,并不是好的SEO方法。
好多的朋友应该都知道百度有新站的考核期,但是可能对考核期具体是什么,以及怎么快速的渡过新站百度的考核期,还是会有一些疑惑,那今天小编就带大家了解一下考核期,以及渡过考核期的方法.
2023-03-18 11:12HITS算法并不是百度独家的, 它被应用在很多的地方,关于它太低层的术语的东西这里不预深究,这里之讲它对优化的影响,首先HITS把页面分为了两种
2023-03-18 11:09为什么原创内容没有排名,这个问题有点不严谨,这几天有个朋友和我说他的原创文章发了一个月了百度也会收录,但是就没有排名想让我给分析一下,我打开内容一看,直呼好家伙
2023-03-18 11:04做网站优化很重要的一点是写出用户喜欢的内容,请注意是用户喜欢,不是百度喜欢的,百度喜欢的内容是灰帽写的那种文章,带点ascii码中百度识别不了的字符,这种会有好的收录跟排名,但我们是白帽,我们是面向用户做优化,不是面向快排,面向爬虫做快排,用户喜欢的文章,不一定是原创,如果不懂文章要不要原创的可以看一下之前在\'SEO网站优化文章一定要原创吗\'中的内容。
2023-03-18 11:01大家对网站运营可能都听过,也经常听别人讲起,网站运营可以算做是运营的细分,运营跟网站运营的工作内容区别是很大的,之前有面试运营岗位的同志,来了以后一聊工作内容,说跟他理解的运营工作内容不一样,你看这对岗位职责理解不太明确,导致白跑了一趟!
2023-03-18 10:58有些刚接触SEO的朋友经常能看见有些网站是做优化的,但是还会同时做网络营销这个业务,那网络营销和SEO有什么关系那?
2023-03-18 10:58