首页 关于 品牌网站 营销型网站 网站托管 关键词排名 微信开发 增值服务 新闻 联系 SEO知识库
第三章 3.5 深入探究百度搜索引擎预处理机制—之分词

第三章 3.5 深入探究百度搜索引擎预处理机制—之分词

2018年02月22日


再次更新网站,小编又多了若干身份:铲屎官、擦屁屁大使、洗尿布专使、奶爸O(∩_∩)O哈哈~对的,当爸爸了,20多天没有睡个囫囵觉咯。

当了爸爸才发现,有了孩子比刚结婚时候事情又多了些,任务又重了些。就像刚结婚比较恋爱的时候、恋爱的时候去比较单身的时......  按照这个发展,未来责任越来越大,所以偷懒未来会越来越累,那就打起精神来,自我约束一下,每天多点进步,静下心来思考......

言归正传,这里是 光大互联 - 为您提供网站建设网站托管关键词排名服务。本次带来 第三章 3.5 深入探究百度搜索引擎预处理机制。

蜘蛛抓取的原始页面并不能直接用于查询排名处理,搜索引擎数据量在数亿万级别以上,每次客户检索关键词,并不会直接这些页面里去检索查询,这样处理任务太大,要宕机的节奏。客户也等不起,总不能早上输入一条指令,几天出结果吧,O(∩_∩)O哈哈~。因此抓取来的页面必须经过处理,为最后的查询排名预先准备—ps:这个过程是在后台沉默进行,我们看不到。

那么 :

1,提取文字

我们的搜索引擎是以文字为基础的。蜘蛛可以抓取到页面的html代码和js代码。其中标签和代码是无用的,他们只是告诉浏览器怎么显示文字和样式,去渲染呈现。对于排名是无意义的。所以搜索引擎第一步是取其文字,去其代码。  文字包括页面内容中的文字,以及页头Meta标签中的文字、以及图片替代文字、锚链接文字等。

2 ,中文分词

“再在家吃一顿俺爸就放心了 ”  VS  “再在家吃一顿,俺爸就放心了”
上面两句,差一个标点,但是语义大变,在这里区分开这句话的是逗号,句子是可以断开为很多词的,区别于英文等语言,英文单词后面都有空格作为自然的分割。而分词是中文搜索引擎所特有的。一个句子中,搜索引擎程序必须辨别哪几个字组成一个词,哪些词本身就是一个词。 比如青龙偃月刀,比如增肌、减肥。
深入一点考虑,我们平时聊天,看书都是依照多年的经验去发音。 然而搜索引擎现在是不明白语义的,即便是人工智能也远远未能达到这一步。 他们是在怎么分词的呢?想象我们平时用的语音阅读软件是怎么发声的吧,以最短的词语往外蹦词。所有的句子几乎都是按照统一的声音去阅读,大多数人都能知道这基本是给词语固定了发音,全然没有在不同语境下的感情色彩变化。 由此推测,词语被固定了发音,而这个固化,是有一个词库的。

其实搜索引擎也具有这样的方法,这就是词典分词。既 依照一个固定的词典进行匹配。 除此之外是基于统计了。


01 词典匹配:

将待分析的汉字字段与内嵌词典中的词条进行扫描匹配,如果匹配成功就产生了分词。其中匹配有:正向匹配、逆向匹配、最大匹配、最小匹配、正向最大匹配、正向最小匹配、逆向最大匹配与逆向最小匹配等方法。该方法匹配简单,但是局限于事先做的词典库。

02 统计匹配

统计匹配是对于词典匹配的补充,该匹配方式在于统计相邻文字出现的概率。如果几个相邻文字出现的次数越多,就可能形成一个单词。该分词方式敏感于网络上新出现的词语,快速高效识别生词。

中文分词的准确影响索索引擎排名的相关性。同样的长词通常会在不同的搜索引擎上会有不同的表现,也与不同搜索引擎的分词不同有关。

分词取决于搜索引擎词库规模与分词算法,与页面本身无关。 站长唯一可以做的是通过黑体的标注,对搜索引擎进行分词进行引导。





光大互联【山东光大联创电子商务有限公司】立足聊城的本土网络公司,承接品牌网站建设营销型网站建设聊城SEO网站托管 | 光大互联,只做有效果的网站!

内容关键词:

推荐阅读

@光大君-留言:

*填写您的需求信息,如有必要我们会在24小时内与您取得联系。
线上服务咨询 176-0622-9664 填写需求索取报价