首页 关于 品牌网站 营销型网站 网站托管 关键词排名 微信开发 增值服务 新闻 联系 SEO知识库
第三章 3.3 搜索引擎工作机制—抓取存储与预处理

第三章 3.3 搜索引擎工作机制—抓取存储与预处理

蜘蛛爬行抓取的后续操作

2018年01月13日

上两篇我们介绍了搜索引擎蜘蛛爬行的基本原理,和蜘蛛专用地址库。本章带来搜索引擎的后续操作——文件存储检测与预处理【小编混迹于互联网界多年,先后于济南、聊城网络公司长年从事网站建设工作,网站优化是个人一大兴趣爱好,非常想借此机会总结一下,感谢大家捧场!】

“爬行读取纳入”  》》》》》》》》

蜘蛛爬行读取到的数据存入原始页面数据库,每个URL都一个特殊的编号。

蜘蛛爬行读取内容后要把内容整理并收录到搜索引擎内容数据库。由于网上存在着大量的重复资源以及极度近似资源,对于搜索引擎来说收录大量重复资源既是一种空间资源浪费,同时经搜索重复呈现相同内容的结果也不利于访客体验。所以搜索引擎要对重复资源判定删除。

不单是搜索引擎数据库有判定去重机制,目前的搜索引擎蜘蛛也有一定的重复内容检测机制,会在爬行和抓取的同时进行一定程度的复制内容检测。当遇到低权重网站的大量转载内容时,很可能会停止爬行。这就是为什么某些网站的日志文件有spider的爬行记录却没有被收录的原因之一。


“预处理 ”  》》》》》》》》

目前的的搜索引擎数据库中的页面在万亿级别以上,如此海量的数据是不能直接用于数据查询的。这么多页面需要计算的数据量太大。短时间内难以返回结果。因此搜索引擎在这里有个综合处理机制。后续篇幅我们会详细介绍到。

具体的流程:

1 提取文字内容
2 分词
3 无效词过滤
4 去重复内容
5 正向、逆向索引
6 链接关系权重计算
7 特殊文件处理
8 质量判别

下一篇中我们详细介绍。感谢大家的阅读。



光大互联【山东光大联创电子商务有限公司】立足聊城的本土网络公司,承接品牌网站建设营销型网站建设聊城SEO网站托管 | 光大互联,只做有效果的网站!

内容关键词:

推荐阅读

@光大君-留言:

*填写您的需求信息,如有必要我们会在24小时内与您取得联系。
线上服务咨询 176-0622-9664 填写需求索取报价