北京SEO

对于SEO(网站优化)感到很迷茫,寻找突破口中!!本站立志做一个有用的博客,如果你有好的zblog模板可以共享送我一份哈。。。QQ754042
    • 主页
    • 北京SEO服务
    • 搜索
    • 标签
    • 了解星默

  • 北京SEO首页
  • 星默SEO观点
  • SEO精华文章
  • SEO技术
  • SEM
  • SEO研究
  • SEO工具
  • google排名研究
  • 百度排名研究
  • 名人观点
  • 英文SEO

最新文章

  • 谷歌排名飞跃-首页-几百-首页
  • 框计算中的需求分析概述
  • 浅谈互联网页面价值
  • 关注seowhy被K事件
  • 2011年谷歌seo变革
  • 好大夫网站SEO分析
  • 百度竞价6.30算法升级-“高级短
  • Google网站管理员【抓取错误】
  • 电商要拥有自己的网店平台
  • 到底电商圈是个啥
  • 电商圈你也觉得一个人好么?
  • 电商圈4.3排名
  • 电商圈能圈的住爱情不?
  • 电商圈比赛报名送10QB,更有后续

随机推荐

  • 寝室停电,汗个!
  • 网站是否被挂马在线监测
  • SEO导航_SEO名站_SEO名人博客-
  • 百度,Google,雅虎等搜索引擎蜘
  • 如何判断一个关键词的优化难度
  • seo什么意思戛纳电影节片单解析
  • seo网络推广招聘月薪10000招聘
  • seo优化文章seo网站优化10大基
  • 整形美容答疑—九大问题全面解析

热门标签

  • seo (47)
  • seo收录 (31)
  • 百度 (29)
  • 博百优 (22)
  • seo关键字 (21)
  • 北京seo (20)
  • seo关键词技术 (20)
  • seo网络推广 (20)
  • seo是什么东西 (19)
  • 上海seo服务 (19)
  • 反向链接 (18)
  • seo什么意思 (18)
  • 搜索引擎 (17)
  • seo优化文章 (17)
  • 火焰SEO (16)

网站收藏

  • 北京搬家公司
  • 搬家公司
  • 北京搬家公司
  • 北京搬家公司
  • 四通搬家公司
网站优化、北京SEO服务

详细请加QQ754042

Topic-Sensitive PageRank算法

发布:北京SEO | 时间: 2010年5月8日 | 分类:SEO技术 | 评论:0 | 引用:0 | 浏览: | 原创文章,转载请注明出处,谢谢。

在PageRank算法的基础上,斯坦福大学计算机科学系Taher H.Haveliwala提出了主题敏感页面等级
算法2],在此把它译为主题性页面等级算法(TSPR),
它通过对随机查询用户的随机运动增加一个"偏差"来
处理基本的PageRank算法所存在的问题。这个新的
随机查询用户具有明确的查询目的,并更感兴趣于跟
进那些具有某个特定主题的相关网页上的相关链接。
这是一个相对而言较为新颖的思路,它解决了搜索结
果的质量性方面的一系列关键性问题。
 TSPR算法模型
Sqd=∑
j
P(cj│q1)·rankjd(2)
P(cj│q1)=P(cj)·P(q1│cj)P(q1)aP(cj)·∏iP(q1i│cj)
(3)
以查询主题重要性得分Sqd为排列搜索结果的依
据, rankid为Web上给定某类主题的文档页面集d的
向量队列, q表示一个查询请求,我们定义一个q的子
集q1; Cj表示ODP Category ;q1对于16个主题的级
别都进行相应的计算;用q1i表示;则针对每一个ci,α
是TSPR考虑了随机冲浪模型给定了一个相关参数。
 TSPR算法存在的问题
TSPR算法仍然有一些亟待解决的问题,一是充
分拓展主题的数量。在试验中选取了16类主题,这是
远远不够的。每下一级子类,主题类的增加若干,运算
量也呈指数级增长。这个代价是非常巨大的,必须有效
的定义好主题类,适当拓展但也要有所顾忌。另外就是
如何决定一个查询条件可能对应的主题,我们在对
TSPR算法测试中仍然发现这样的问题,对于关键词
“Welfare fund”系统提交了很多动物福利基金的内容,
对于“Architecture”搜索结果也将计算机体系结构罗
列其中,对这些本身具有多主题性的关键词没有做出
相应处理,导致了搜索范围的扩大,精确度的降低。
 Hilltop算法
HillTop算法的指导思想和PageRank是一致的,
即都通过反相链接的数量和质量来确定搜索结果的排
序权重。但HillTop认为只计算来自具有相同主题的
相关文档链接对于搜索者的价值会更大:即主题相关
网页之间的链接对于权重计算的贡献比主题不相关的
链接价值要更高,称这种对主题有影响的文档(页面)
为"专家"文档,而只有从这些专家文档页面到目标文
档页面的链接决定了被链接网页"权重得分"。Hill-
top算法由两个明确的阶段构成:①专家文档页面评
分;②目标页面评分。
专家文档页面评分
Si=SUM{keyphrasesp with k-iquery terns}
LevelScore(p)*FullnessFactor(p,q) (4)
·Ifm<=2,FullnessFactor(p,q)=1
·Ifm>2,Fullnessfactor(p,q)=1-(m-2)/plen(5)
算法模型描述: q表示查询短语; K表示查询短语
中的关键词个数;先用一个三元组形式Si(S0, S1, S2)
来计算专家页面的分值, Si表示有k-i个不满足查
询短语中的关键词的分值, S0则包含了整个查询短语
的情况, LevelScore(p)是定义好了的短语类型得分。
FullnessFactor(p, q)是对q中关键词覆盖了p中关键
词的数量的度量,plen为p的长度,m为p中不被q覆
盖的关键词个数。因此最终通过如下公式计算出专家
文档的分值:
Expert_Score = 232×S0+ 216×S1+ S2(6)
目标页面评分
目标页面T的计算步骤:对于选出来的每一个专
家页面E,在他指向的目标页面T之间我们划上一条
边edge(E,T),考虑下面关键词和边的限定关系:页面
标题限定了所有专家页面链接出来的边;头部元素限
制了所有的边,其相应的超链接在页面头部元素以后,
在相等或者更重要的下一个标题以前发生的;锚文本
限制相应的超链接的边;对于每一个查询关键词W,定
义OCC(W, T)来表示E中中不同关键词短语的数
目,它包含了W,也限定了edge(E,T),用Edge_Score
(E,T)来表示edge(E,T)的分数。计算如下:
*如果对任意一个查询关键词OCC(W,T)是0,
那么Edge_Score(E,T)=0
*否则Edge_Score(E,T) = Expert_Score(E)
*Sum{query keywords w }OCC(w, T)(7)
去除了相关联或者隶属关系的目标页面,所有这
些与该目标文档相链接的Edge_Score(E, T)之和就
是最终目标页面的分值,按这个分值顺序排列在搜索
结果页面上。
如果有两个以上相关主题的网站链接到某网站,
那么该网站在搜索结果中出现的机会会更大,如果
HillTop算法查找不到最少两个相关性的网站,那么搜
索返回的结果的机会绝对是0。Hilltop算法实际上是
拒绝那些通过任意链接的方法来扰乱google的排名规
则而得到较好排名的做法。用PageRank结合HillTop
算法确定网页与搜索关键词的匹配程度的基本排序过
程可以克服过分依靠PageRank的值去寻找那些权威
页面的方法。这对于两个具有同样主题而且PR相近的
网页排序过程中, HillTop算法就显得非常的重要了,
因此,它与PageRank算法的结合使用,能够得到更加准确的查询结果。从算法分析上看,Google的新算法
更有可能是采用了Hilltop算法和PageRank算法的
结合。


 

本文来源于:北京SEO http://www.fireseo.com.cn/ , 原文地址:http://www.fireseo.com.cn/seojishu/Topic-Sensitive/
  • 上一篇:死链接概念及如何处理死链接
  • 下一篇:搜索引擎排序结果存在的问题
  • 相关标签:算法 Seo研究
  • 引用通告:点击这里获取该日志的TrackBack引用地址
  • 相关文章:
  • Simhash算法 (2010-5-10 22:4:38)
  • HillTop排序技术 (2010-5-9 17:25:45)
  • 算法Shingling是怎么回事? (2010-5-9 17:7:48)
  • 搜索引擎排序结果存在的问题 (2010-5-8 23:39:3)
  • 不要只加粗关键词 (2010-4-9 12:21:56)
  • seowhy首页详细分析 (2010-1-14 21:36:57)
  • 对Seo的迟疑,研究,学习和最近的状态小议 (2009-12-17 21:45:22)

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

  • 关于我们
  • 网站地图
  • 与我们联系
  • Archiver
  • rss
Copyright © 2009-2010 www.fireseo.com.cn. Some Rights Reserved.北京SEO SEO 版权所有