今天我们探讨搜索引擎蜘蛛
每种搜索引擎为了更好的服务和内容提供给使用者,他会去认真的爬行每个网站的每个页面,并且把那些对于用户有用的信息页面的url记录起来,还有网站的主要信息。当用户在搜索某个信息时,他就会根据信息找到url,同时提供该页面的快照。这是搜索引擎的工作原理。
那么他是如何抓取页面的呢?
爬虫进入某个页面之后,首先会把头部和底部部分去掉,爬取正文内容,这个时候他就会把正文内容分成几部分,然后每一部分都会和搜索引擎数据库的信息对比.
网页的URL必须是可以被抓取的。如果网页是由数据动态生成的,那么URL一般要改写成静态的,想必这个大家也是知道的,而且也是晓得它的重要性的,这个也就是去掉那些URL中问号参数之类的东西,也要去掉Session ID。技术上倒不是搜索引擎不能读取这种URL,但是为了避免陷入无限循环,搜索引擎蜘蛛通常要远离这类URL的。
一,URL 长度及关键字词频的控制。搜素引擎在抓取页面时,对页面的URL长度存在一定的限制,对于超过长度的URL所指向的页面,搜素引擎可能放弃收录;URL的长度包括域名长度、路径长度及文件名长度;页面的URL长度越短得到的权重就越高,Microsoft Internet Explorer 具有最大统一资源定位符 (URL) 长度应该为 2,083 个字符;在一个完成的URL中,主关键字只出现一次最佳,重复出现会造成关键字堆砌,严重者可能遭到搜索引擎的惩罚。
二,对域名、目录、文件的命名.URL 命名的关键在于使用合适的关键字为 URL 各组成部分进行命名,即该关键字所表达的意义必须与URL 所指向的页面的主题是相关的。使用合适的关键字为 URL 各组成部分进行命名,有利于提高页面的相关性,突出页面的主题。
三,分隔符的使用.当使用英文命名形式时,应该使用一个实际存在的单词或者词组作为 URL 各组成部分名称,并且组成词组的单词间必须用分隔符进行分隔;当使用中文拼音命名形式时,每个字的拼音不须采用分隔符进行分隔,搜索引擎即能识别.
这三部分间是相互制约、相互影响的,在URL优化的过程中必须掌握这三部分的内在联系,对各部分进行充分的协调,才能达到最佳的网站优化效果。
提醒你一下,如果你的网站是整个是FLASH文件,在读取内容上也是有困难。虽然搜索相擎一直在努力解决读取FLASH信息的问题,但目前为止还无法与文字网页相提并论。