第三章 3.5 深入探究百度搜索引擎预处理机制—之分词

首页关于品牌网站营销型网站网站托管关键词排名微信开发增值服务新闻联系 SEO知识库网站后台操作指导 ICP备案

2018年02月22日

再次更新网站，小编又多了若干身份：铲屎官、擦屁屁大使、洗尿布专使、奶爸O(∩_∩)O哈哈~对的，当爸爸了，20多天没有睡个囫囵觉咯。

当了爸爸才发现，有了孩子比刚结婚时候事情又多了些，任务又重了些。就像刚结婚比较恋爱的时候、恋爱的时候去比较单身的时...... 按照这个发展，未来责任越来越大，所以偷懒未来会越来越累，那就打起精神来，自我约束一下，每天多点进步，静下心来思考......

言归正传，这里是光大互联 - 为您提供网站建设、网站托管、关键词排名服务。本次带来第三章 3.5 深入探究百度搜索引擎预处理机制。

蜘蛛抓取的原始页面并不能直接用于查询排名处理，搜索引擎数据量在数亿万级别以上，每次客户检索关键词，并不会直接这些页面里去检索查询，这样处理任务太大，要宕机的节奏。客户也等不起，总不能早上输入一条指令，几天出结果吧，O(∩_∩)O哈哈~。因此抓取来的页面必须经过处理，为最后的查询排名预先准备—ps：这个过程是在后台沉默进行，我们看不到。

那么 :

1，提取文字

我们的搜索引擎是以文字为基础的。蜘蛛可以抓取到页面的html代码和js代码。其中标签和代码是无用的，他们只是告诉浏览器怎么显示文字和样式，去渲染呈现。对于排名是无意义的。所以搜索引擎第一步是取其文字，去其代码。文字包括页面内容中的文字，以及页头Meta标签中的文字、以及图片替代文字、锚链接文字等。

2 ，中文分词

“再在家吃一顿俺爸就放心了 ” VS “再在家吃一顿，俺爸就放心了”
上面两句，差一个标点，但是语义大变，在这里区分开这句话的是逗号，句子是可以断开为很多词的，区别于英文等语言，英文单词后面都有空格作为自然的分割。而分词是中文搜索引擎所特有的。一个句子中，搜索引擎程序必须辨别哪几个字组成一个词，哪些词本身就是一个词。比如青龙偃月刀，比如增肌、减肥。
深入一点考虑，我们平时聊天，看书都是依照多年的经验去发音。然而搜索引擎现在是不明白语义的，即便是人工智能也远远未能达到这一步。他们是在怎么分词的呢？想象我们平时用的语音阅读软件是怎么发声的吧，以最短的词语往外蹦词。所有的句子几乎都是按照统一的声音去阅读，大多数人都能知道这基本是给词语固定了发音，全然没有在不同语境下的感情色彩变化。由此推测，词语被固定了发音，而这个固化，是有一个词库的。

其实搜索引擎也具有这样的方法，这就是词典分词。既依照一个固定的词典进行匹配。除此之外是基于统计了。

01 词典匹配：

将待分析的汉字字段与内嵌词典中的词条进行扫描匹配，如果匹配成功就产生了分词。其中匹配有：正向匹配、逆向匹配、最大匹配、最小匹配、正向最大匹配、正向最小匹配、逆向最大匹配与逆向最小匹配等方法。该方法匹配简单，但是局限于事先做的词典库。

02 统计匹配

统计匹配是对于词典匹配的补充，该匹配方式在于统计相邻文字出现的概率。如果几个相邻文字出现的次数越多，就可能形成一个单词。该分词方式敏感于网络上新出现的词语，快速高效识别生词。

中文分词的准确影响索索引擎排名的相关性。同样的长词通常会在不同的搜索引擎上会有不同的表现，也与不同搜索引擎的分词不同有关。

分词取决于搜索引擎词库规模与分词算法，与页面本身无关。站长唯一可以做的是通过黑体的标注，对搜索引擎进行分词进行引导。

光大互联【山东光大联创电子商务有限公司】立足聊城的本土网络公司，承接品牌网站建设、营销型网站建设、聊城SEO、网站托管 | 光大互联，只做有效果的网站！

内容关键词：

下一条 : 第三章 3.4 嘿，超市，百度、360，你们有关系吗？上一条 : 第三章 3.5 深入探究百度搜索引擎预处理机制—之净化

@光大君-留言：

*填写您的需求信息，如有必要我们会在24小时内与您取得联系。

线上服务咨询 156-0635-1330 填写需求索取报价

推荐阅读

聊城网络公司光大互联签约聊城制冷行业龙头企业信宇制冷

聊城网络公司_光大互联签约智慧动力网站建设百度优化项目

聊城网络公司_光大互联签约德文钢塑网站建设营销托管项目

@光大君-留言：