首页 关于 品牌网站 营销型网站 网站托管 关键词排名 微信开发 增值服务 新闻 联系 SEO知识库 网站后台操作指导 ICP备案
第三章 3.5 深入探究百度搜索引擎预处理机制—之净化

第三章 3.5 深入探究百度搜索引擎预处理机制—之净化

所谓净化:去停止词、消除噪声、去重

2018年02月23日

这里是 光大互联 - 为您提供网站建设、网站托管、关键词排名服务。接上文“深入探究百度搜索引擎预处理机制—之分词”,今天带来 第三章 3.5 深入探究百度搜索引擎预处理机制 之 净化。

​所谓净化其实包含了三个部分:分别是去停止词、消除噪音、去重复。

​01:消除噪音

​指的是页面中出现次数比较多,但是对于内容语义几乎没有影响的词。比如:的、地等助词,从而、进而、但是 副词或介词。这些词被称为停止词。

​对于这种于内容来说无实际意义的词语,搜索引擎会将其过滤掉。进而使索引数据主题更加突出,降低搜索引擎的工作量。

联系我们自身来说,平时减少一些无意义的行为,不要把精力浪费在无所谓的事情上,对于我们的工作还是生活来说都是有必要的。

​02:去重复

​如果有一篇文章被发布在了不同的网站上,或者在同意网站的不同网址上都有出现,这两种情况都是常见的。搜索引擎是排除这种现象的。因为当用户检索的时候,如果搜索前面几页呈现的都是同样的一篇文章,那么对于用户来说,通常这是不好的。重复的信息对于用户来说是不好的,所以对于搜索引擎来说也是不好的。所以搜索引擎在将内容入库索引之前还需要识别和删除重复内容。

​在进行了分词、去停止词、去噪之后。进行去重复——对页面特征关键词(出现频率最高的关键词)进行提取,然后计算其“指纹”,暂时不做过多探究,总之搜索引擎会抽取一定数量的特征关键次计算指纹,然后对文章进行标注。当再次出现另一篇类似文章的时候,搜索引擎会根据页面特征关键次出现的频率进行判定。所以简单的掐头去尾,改换文章顺序这种做法是不会起到什么作用的,无法形成原创。

今天到此为止,明天继续深入探究百度搜索引擎预处理机制 之 索引 。




光大互联【山东光大联创电子商务有限公司】立足聊城的本土网络公司,承接品牌网站建设营销型网站建设聊城SEO网站托管 | 光大互联,只做有效果的网站!

内容关键词:

推荐阅读

@光大君-留言:

*填写您的需求信息,如有必要我们会在24小时内与您取得联系。
线上服务咨询 156-0635-1330 填写需求索取报价