◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
今天我们探讨搜索引擎蜘蛛
每种搜索引擎为了更好的服务和内容提供给使用者,他会去认真的爬行每个网站的每个页面,并且把那些对于用户有用的信息页面的url记录起来,还有网站的主要信息。当用户在搜索某个信息时,他就会根据信息找到url,同时提供该页面的快照。这是搜索引擎的工作原理。
那么他是如何抓取页面的呢?
爬虫进入某个页面之后,首先会把头部和底部部分去掉,爬取正文内容,这个时候他就会把正文内容分成几部分,然后每一部分都会和搜索引擎数据库的信息对比.
网页的URL必须是可以被抓取的。如果网页是由数据动态生成的,那么URL一般要改写成静态的,想必这个大家也是知道的,而且也是晓得它的重要性的,这个也就是去掉那些URL中问号参数之类的东西,也要去掉Session ID。技术上倒不是搜索引擎不能读取这种URL,但是为了避免陷入无限循环,搜索引擎蜘蛛通常要远离这类URL的。
...
|
每种搜索引擎为了更好的服务和内容提供给使用者,他会去认真的爬行每个网站的每个页面,并且把那些对于用户有用的信息页面的url记录起来,还有网站的主要信息。当用户在搜索某个信息时,他就会根据信息找到url,同时提供该页面的快照。这是搜索引擎的工作原理。 网页的URL必须是可以被抓取的。如果网页是由数据动态生成的,那么URL一般要改写成静态的,想必这个大家也是知道的,而且也是晓得它的重要性的,这个也就是去掉那些URL中问号参数之类的东西,也要去掉Session ID。技术上倒不是搜索引擎不能读取这种URL,但是为了避免陷入无限循环,搜索引擎蜘蛛通常要远离这类URL的。 二,对域名、目录、文件的命名.URL 命名的关键在于使用合适的关键字为 URL 各组成部分进行命名,即该关键字所表达的意义必须与URL 所指向的页面的主题是相关的。使用合适的关键字为 URL 各组成部分进行命名,有利于提高页面的相关性,突出页面的主题。 三,分隔符的使用.当使用英文命名形式时,应该使用一个实际存在的单词或者词组作为 URL 各组成部分名称,并且组成词组的单词间必须用分隔符进行分隔;当使用中文拼音命名形式时,每个字的拼音不须采用分隔符进行分隔,搜索引擎即能识别. 这三部分间是相互制约、相互影响的,在URL优化的过程中必须掌握这三部分的内在联系,对各部分进行充分的协调,才能达到最佳的网站优化效果。 提醒你一下,如果你的网站是整个是FLASH文件,在读取内容上也是有困难。虽然搜索相擎一直在努力解决读取FLASH信息的问题,但目前为止还无法与文字网页相提并论。 Tags: 搜索引擎 蜘蛛 |

