这里是 光大互联 - 为您提供网站建设、网站托管、关键词排名服务。接上文“深入探究百度搜索引擎预处理机制—之净化”,今天带来 第三章 3.5 深入探究百度搜索引擎预处理机制 之 索引。
前几张我们略有涉及到搜索引擎的索引知识,在
《第三章 3.4 嘿,超市,百度、360,你们有关系吗?》中有所阐述。我们以超市购物,超市中同类物品存放于同一区域,顾客购买物品时候到相关区域取物品的例子初步涉及到了索引的概念。本次将详细分析索引。
索引有两个过程:正向索引和逆向索引。
1,正向索引
网页内容经过搜索引擎的文字提取、分词、消噪、去重复后,搜索引擎得到的是以页面核心内容为核心的、以词为单位的字符串。接下来搜索引擎就要提取关键词了——其实就是提取词——这里的关键词并不是我们设置的网站关键词或与我们设置的关键词相关的长尾词。而是从页面中去分词并。这样页面就成了一串关键词的集合,同时会记录每个关键词出现的频率、格式(标题标签、黑体、H标签、锚文字等)位置等权重信息。进而将网页内容转化成一个由文件——到关键词集合的映射。
这样许多的文件成为对应各自的关键词的映射。 海量的文件被标记各自的ID,同时每个文件里的关键词也转化为关键词ID。这样的数据结构就是正向索引。
2,逆向索引
正向索引不能直接用于排名,试想下我们搜索某关键词,在正向搜索中,我们去一一检索所有的文件,找出包涵该关键词的文件,再进行相关计算。这样无疑是通览了一遍数据库,看上去是行不通的。
所以就有了逆向索引。逆向索引是这样的,在构建正向索引的同时,搜索引擎会将数据库重新构建为逆向索引,把文件对应到关键词的映射转化为关键词对应到文件的映射。
在逆向索引中,关键词对应着N多相关文件,所有这些N多文件中都包含这个关键词。这样在检索某关键词的时候,直接在逆向索引中通过该关键词找到包涵该关键词的文件。
总结一下,正向索引中,把文件分解为关键词并形成正向索引。
同时数据库又进行逆向化操作。将文件匹配到其包涵的众多关键词,形成关键词到文件的映射,成为逆向索引。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
那么从这些知识,我们可以大概推断出以下结论:
1 正向索引的作用就是为了形成逆向索引。因为逆向索引复合我们搜索信息的需求。最终搜索关键词对应的这些页面经过一系列的排名处理,被输出到搜索结果页面,呈现到我们面前。
2 一篇专业性强,内容丰富的文章会被分解为更多关键词,就会形成更多的关键词到文章的映射。这样匹配的关键词越多那么被曝光的机会就多。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
有了以上的认识,可能大家会对影响排名的因素有了更多的求知欲。很多更有意思的内容我们会逐渐涉及到。下篇我们江介绍索引之后的处理。
光大互联【山东光大联创电子商务有限公司】立足聊城的本土网络公司,承接品牌网站建设、营销型网站建设、聊城SEO、网站托管 | 光大互联,只做有效果的网站!