以下内容是百茗网络为您分析的:
一、抓取:其实在抓取前面还有一个过程没有描述在内,那就是爬行,也就是搜索引擎程序发现新网址的过程,只是这个过程大多伴随着抓取,除非你的这个URL上的内容没有什么价值而被搜索引擎抓取程序直接跳过。搜索引擎爬行程序以数据表中已存在或新提交的链接顺藤摸瓜式地进行爬行以不断发现新的URL,抓取程序在分析并确定该URL的页面内容有价值后,便将其整个页面抓取下来放入到庞大的信息数据表中。
二、索引:在谈这个过程前,我们首先要理清搜索引擎索引数据表与信息数据表之间的关系,其实搜索引擎底层的数据存储本身就是一个关系数据库,索引数据表和信息数据表是两个独立的表,只是索引数据表和信息数据表是一对多的关系,这样或许更好理解。那么搜索引擎为什么需要索引数据表呢?我们不妨从信息量这个角度分析一下,就目前来看,搜索引擎的信息量在百亿级,而用户搜索某个关键字时响应速度在短短的2、3秒内,在这短短的2、3内不仅仅要完成数据的查询,而且还要完成数据的排序。如果每次都要从这百亿级的数据中查询用户请求并处理排序,不仅减慢响应速度,而且还浪费了大量的计算资源,对服务器的压力也会更大。
三、排名:阐述这一原理,不得不说下搜索引擎爬行、抓取过程,影响关键词排名的因素很多,北京建站最难理解的可能就是外链这一块儿,因为在抓取网页时,搜索引擎是捕捉不到他的导入链接的,其实搜索引擎在抓取一个页面时,已经将该页面的导出链接投票计算到了相应的页面,并将这一有效投票写入到了所指向的URL字段中,便于排名程序加以计算。影响排名的因素很多,排名计算的具体方式我们也无从得知,因此这些不在我们的讨论之列。关于排名,大家可能还有一个问题,就是每个词语的排名是事先排序好了,还是当用户搜索时才进行排序,笔者给出的答案是后者,或许这一个现象可以揭秘笔者的答案:每一天甚至每一小时关键字排名都会出现波动。