再次更新网站,小编又多了若干身份:铲屎官、擦屁屁大使、洗尿布专使、奶爸O(∩_∩)O哈哈~对的,当爸爸了,20多天没有睡个囫囵觉咯。
当了爸爸才发现,有了孩子比刚结婚时候事情又多了些,任务又重了些。就像刚结婚比较恋爱的时候、恋爱的时候去比较单身的时...... 按照这个发展,未来责任越来越大,所以偷懒未来会越来越累,那就打起精神来,自我约束一下,每天多点进步,静下心来思考......
言归正传,这里是 光大互联 - 为您提供
网站建设、
网站托管、
关键词排名服务。本次带来 第三章 3.5 深入探究百度搜索引擎预处理机制。
蜘蛛抓取的原始页面并不能直接用于查询排名处理,搜索引擎数据量在数亿万级别以上,每次客户检索关键词,并不会直接这些页面里去检索查询,这样处理任务太大,要宕机的节奏。客户也等不起,总不能早上输入一条指令,几天出结果吧,O(∩_∩)O哈哈~。因此抓取来的页面必须经过处理,为最后的查询排名预先准备—ps:这个过程是在后台沉默进行,我们看不到。
那么 :
1,提取文字
我们的搜索引擎是以文字为基础的。蜘蛛可以抓取到页面的html代码和js代码。其中标签和代码是无用的,他们只是告诉浏览器怎么显示文字和样式,去渲染呈现。对于排名是无意义的。所以搜索引擎第一步是取其文字,去其代码。 文字包括页面内容中的文字,以及页头Meta标签中的文字、以及图片替代文字、锚链接文字等。
2 ,中文分词
“再在家吃一顿俺爸就放心了 ” VS “再在家吃一顿,俺爸就放心了”
上面两句,差一个标点,但是语义大变,在这里区分开这句话的是逗号,句子是可以断开为很多词的,区别于英文等语言,英文单词后面都有空格作为自然的分割。而分词是中文搜索引擎所特有的。一个句子中,搜索引擎程序必须辨别哪几个字组成一个词,哪些词本身就是一个词。 比如青龙偃月刀,比如增肌、减肥。
深入一点考虑,我们平时聊天,看书都是依照多年的经验去发音。 然而搜索引擎现在是不明白语义的,即便是人工智能也远远未能达到这一步。 他们是在怎么分词的呢?想象我们平时用的语音阅读软件是怎么发声的吧,以最短的词语往外蹦词。所有的句子几乎都是按照统一的声音去阅读,大多数人都能知道这基本是给词语固定了发音,全然没有在不同语境下的感情色彩变化。 由此推测,词语被固定了发音,而这个固化,是有一个词库的。
其实搜索引擎也具有这样的方法,这就是词典分词。既 依照一个固定的词典进行匹配。 除此之外是基于统计了。
01 词典匹配:
将待分析的汉字字段与内嵌词典中的词条进行扫描匹配,如果匹配成功就产生了分词。其中匹配有:正向匹配、逆向匹配、最大匹配、最小匹配、正向最大匹配、正向最小匹配、逆向最大匹配与逆向最小匹配等方法。该方法匹配简单,但是局限于事先做的词典库。
02 统计匹配
统计匹配是对于词典匹配的补充,该匹配方式在于统计相邻文字出现的概率。如果几个相邻文字出现的次数越多,就可能形成一个单词。该分词方式敏感于网络上新出现的词语,快速高效识别生词。
中文分词的准确影响索索引擎排名的相关性。同样的长词通常会在不同的搜索引擎上会有不同的表现,也与不同搜索引擎的分词不同有关。
分词取决于搜索引擎词库规模与分词算法,与页面本身无关。 站长唯一可以做的是通过黑体的标注,对搜索引擎进行分词进行引导。
光大互联【山东光大联创电子商务有限公司】立足聊城的本土网络公司,承接品牌网站建设、营销型网站建设、聊城SEO、网站托管 | 光大互联,只做有效果的网站!