高级搜索 Tags 站长博客

今天我们探讨搜索引擎蜘蛛

时间:2010-2-3 6:54:25  作者:北京SEO   点击:

 每种搜索引擎为了更好的服务和内容提供给使用者,他会去认真的爬行每个网站的每个页面,并且把那些对于用户有用的信息页面的url记录起来,还有网站的主要信息。当用户在搜索某个信息时,他就会根据信息找到url,同时提供该页面的快照。这是搜索引擎的工作原理。
那么他是如何抓取页面的呢?
爬虫进入某个页面之后,首先会把头部和底部部分去掉,爬取正文内容,这个时候他就会把正文内容分成几部分,然后每一部分都会和搜索引擎数据库的信息对比.

网页的URL必须是可以被抓取的。如果网页是由数据动态生成的,那么URL一般要改写成静态的,想必这个大家也是知道的,而且也是晓得它的重要性的,这个也就是去掉那些URL中问号参数之类的东西,也要去掉Session ID。技术上倒不是搜索引擎不能读取这种URL,但是为了避免陷入无限循环,搜索引擎蜘蛛通常要远离这类URL的。
...

 每种搜索引擎为了更好的服务和内容提供给使用者,他会去认真的爬行每个网站的每个页面,并且把那些对于用户有用的信息页面的url记录起来,还有网站的主要信息。当用户在搜索某个信息时,他就会根据信息找到url,同时提供该页面的快照。这是搜索引擎的工作原理。
那么他是如何抓取页面的呢?
爬虫进入某个页面之后,首先会把头部和底部部分去掉,爬取正文内容,这个时候他就会把正文内容分成几部分,然后每一部分都会和搜索引擎数据库的信息对比.

网页的URL必须是可以被抓取的。如果网页是由数据动态生成的,那么URL一般要改写成静态的,想必这个大家也是知道的,而且也是晓得它的重要性的,这个也就是去掉那些URL中问号参数之类的东西,也要去掉Session ID。技术上倒不是搜索引擎不能读取这种URL,但是为了避免陷入无限循环,搜索引擎蜘蛛通常要远离这类URL的。

一,URL 长度及关键字词频的控制。搜素引擎在抓取页面时,对页面的URL长度存在一定的限制,对于超过长度的URL所指向的页面,搜素引擎可能放弃收录;URL的长度包括域名长度、路径长度及文件名长度;页面的URL长度越短得到的权重就越高,Microsoft Internet Explorer 具有最大统一资源定位符 (URL) 长度应该为 2,083 个字符;在一个完成的URL中,主关键字只出现一次最佳,重复出现会造成关键字堆砌,严重者可能遭到搜索引擎的惩罚。

二,对域名、目录、文件的命名.URL 命名的关键在于使用合适的关键字为 URL 各组成部分进行命名,即该关键字所表达的意义必须与URL 所指向的页面的主题是相关的。使用合适的关键字为 URL 各组成部分进行命名,有利于提高页面的相关性,突出页面的主题。

三,分隔符的使用.当使用英文命名形式时,应该使用一个实际存在的单词或者词组作为 URL 各组成部分名称,并且组成词组的单词间必须用分隔符进行分隔;当使用中文拼音命名形式时,每个字的拼音不须采用分隔符进行分隔,搜索引擎即能识别.

这三部分间是相互制约、相互影响的,在URL优化的过程中必须掌握这三部分的内在联系,对各部分进行充分的协调,才能达到最佳的网站优化效果。
 

提醒你一下,如果你的网站是整个是FLASH文件,在读取内容上也是有困难。虽然搜索相擎一直在努力解决读取FLASH信息的问题,但目前为止还无法与文字网页相提并论。
 




Tags: 搜索引擎  蜘蛛  

    北京SEO谢谢您的关注!

    服务导航:北京SEOSEO北京网站优化、企业网站优化、北京搜素引擎优化网络营销电子商务。如果您有优化需求或者更多合作方式请联系北京SEO唯一QQ客服:754042