Topic-Sensitive PageRank算法
在PageRank算法的基础上,斯坦福大学计算机科学系Taher H.Haveliwala提出了主题敏感页面等级
算法2],在此把它译为主题性页面等级算法(TSPR),
它通过对随机查询用户的随机运动增加一个"偏差"来
处理基本的PageRank算法所存在的问题。这个新的
随机查询用户具有明确的查询目的,并更感兴趣于跟
进那些具有某个特定主题的相关网页上的相关链接。
这是一个相对而言较为新颖的思路,它解决了搜索结
果的质量性方面的一系列关键性问题。
TSPR算法模型
Sqd=∑
j
P(cj│q1)·rankjd(2)
P(cj│q1)=P(cj)·P(q1│cj)P(q1)aP(cj)·∏iP(q1i│cj)
(3)
以查询主题重要性得分Sqd为排列搜索结果的依
据, rankid为Web上给定某类主题的文档页面集d的
向量队列, q表示一个查询请求,我们定义一个q的子
集q1; Cj表示ODP Category ;q1对于16个主题的级
别都进行相应的计算;用q1i表示;则针对每一个ci,α
是TSPR考虑了随机冲浪模型给定了一个相关参数。
TSPR算法存在的问题
TSPR算法仍然有一些亟待解决的问题,一是充
分拓展主题的数量。在试验中选取了16类主题,这是
远远不够的。每下一级子类,主题类的增加若干,运算
量也呈指数级增长。这个代价是非常巨大的,必须有效
的定义好主题类,适当拓展但也要有所顾忌。另外就是
如何决定一个查询条件可能对应的主题,我们在对
TSPR算法测试中仍然发现这样的问题,对于关键词
“Welfare fund”系统提交了很多动物福利基金的内容,
对于“Architecture”搜索结果也将计算机体系结构罗
列其中,对这些本身具有多主题性的关键词没有做出
相应处理,导致了搜索范围的扩大,精确度的降低。
Hilltop算法
HillTop算法的指导思想和PageRank是一致的,
即都通过反相链接的数量和质量来确定搜索结果的排
序权重。但HillTop认为只计算来自具有相同主题的
相关文档链接对于搜索者的价值会更大:即主题相关
网页之间的链接对于权重计算的贡献比主题不相关的
链接价值要更高,称这种对主题有影响的文档(页面)
为"专家"文档,而只有从这些专家文档页面到目标文
档页面的链接决定了被链接网页"权重得分"。Hill-
top算法由两个明确的阶段构成:①专家文档页面评
分;②目标页面评分。
专家文档页面评分
Si=SUM{keyphrasesp with k-iquery terns}
LevelScore(p)*FullnessFactor(p,q) (4)
·Ifm<=2,FullnessFactor(p,q)=1
·Ifm>2,Fullnessfactor(p,q)=1-(m-2)/plen(5)
算法模型描述: q表示查询短语; K表示查询短语
中的关键词个数;先用一个三元组形式Si(S0, S1, S2)
来计算专家页面的分值, Si表示有k-i个不满足查
询短语中的关键词的分值, S0则包含了整个查询短语
的情况, LevelScore(p)是定义好了的短语类型得分。
FullnessFactor(p, q)是对q中关键词覆盖了p中关键
词的数量的度量,plen为p的长度,m为p中不被q覆
盖的关键词个数。因此最终通过如下公式计算出专家
文档的分值:
Expert_Score = 232×S0+ 216×S1+ S2(6)
目标页面评分
目标页面T的计算步骤:对于选出来的每一个专
家页面E,在他指向的目标页面T之间我们划上一条
边edge(E,T),考虑下面关键词和边的限定关系:页面
标题限定了所有专家页面链接出来的边;头部元素限
制了所有的边,其相应的超链接在页面头部元素以后,
在相等或者更重要的下一个标题以前发生的;锚文本
限制相应的超链接的边;对于每一个查询关键词W,定
义OCC(W, T)来表示E中中不同关键词短语的数
目,它包含了W,也限定了edge(E,T),用Edge_Score
(E,T)来表示edge(E,T)的分数。计算如下:
*如果对任意一个查询关键词OCC(W,T)是0,
那么Edge_Score(E,T)=0
*否则Edge_Score(E,T) = Expert_Score(E)
*Sum{query keywords w }OCC(w, T)(7)
去除了相关联或者隶属关系的目标页面,所有这
些与该目标文档相链接的Edge_Score(E, T)之和就
是最终目标页面的分值,按这个分值顺序排列在搜索
结果页面上。
如果有两个以上相关主题的网站链接到某网站,
那么该网站在搜索结果中出现的机会会更大,如果
HillTop算法查找不到最少两个相关性的网站,那么搜
索返回的结果的机会绝对是0。Hilltop算法实际上是
拒绝那些通过任意链接的方法来扰乱google的排名规
则而得到较好排名的做法。用PageRank结合HillTop
算法确定网页与搜索关键词的匹配程度的基本排序过
程可以克服过分依靠PageRank的值去寻找那些权威
页面的方法。这对于两个具有同样主题而且PR相近的
网页排序过程中, HillTop算法就显得非常的重要了,
因此,它与PageRank算法的结合使用,能够得到更加准确的查询结果。从算法分析上看,Google的新算法
更有可能是采用了Hilltop算法和PageRank算法的
结合。
- 上一篇:死链接概念及如何处理死链接
- 下一篇:搜索引擎排序结果存在的问题
- 相关标签:算法 Seo研究
- 引用通告:点击这里获取该日志的TrackBack引用地址
- 相关文章:
- Simhash算法 (2010-5-10 22:4:38)
- HillTop排序技术 (2010-5-9 17:25:45)
- 算法Shingling是怎么回事? (2010-5-9 17:7:48)
- 搜索引擎排序结果存在的问题 (2010-5-8 23:39:3)
- 不要只加粗关键词 (2010-4-9 12:21:56)
- seowhy首页详细分析 (2010-1-14 21:36:57)
- 对Seo的迟疑,研究,学习和最近的状态小议 (2009-12-17 21:45:22)
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。