第三章 3.3 搜索引擎工作机制—抓取存储与预处理

首页关于品牌网站营销型网站网站托管关键词排名微信开发增值服务新闻联系 SEO知识库网站后台操作指导 ICP备案

蜘蛛爬行抓取的后续操作

2018年01月13日

上两篇我们介绍了搜索引擎蜘蛛爬行的基本原理，和蜘蛛专用地址库。本章带来搜索引擎的后续操作——文件存储检测与预处理【小编混迹于互联网界多年，先后于济南、聊城网络公司长年从事网站建设工作，网站优化是个人一大兴趣爱好，非常想借此机会总结一下，感谢大家捧场！】

“爬行读取纳入” 》》》》》》》》

蜘蛛爬行读取到的数据存入原始页面数据库，每个URL都一个特殊的编号。

蜘蛛爬行读取内容后要把内容整理并收录到搜索引擎内容数据库。由于网上存在着大量的重复资源以及极度近似资源，对于搜索引擎来说收录大量重复资源既是一种空间资源浪费，同时经搜索重复呈现相同内容的结果也不利于访客体验。所以搜索引擎要对重复资源判定删除。

不单是搜索引擎数据库有判定去重机制，目前的搜索引擎蜘蛛也有一定的重复内容检测机制，会在爬行和抓取的同时进行一定程度的复制内容检测。当遇到低权重网站的大量转载内容时，很可能会停止爬行。这就是为什么某些网站的日志文件有spider的爬行记录却没有被收录的原因之一。

“预处理 ” 》》》》》》》》

目前的的搜索引擎数据库中的页面在万亿级别以上，如此海量的数据是不能直接用于数据查询的。这么多页面需要计算的数据量太大。短时间内难以返回结果。因此搜索引擎在这里有个综合处理机制。后续篇幅我们会详细介绍到。

具体的流程：

1 提取文字内容
2 分词
3 无效词过滤
4 去重复内容
5 正向、逆向索引
6 链接关系权重计算
7 特殊文件处理
8 质量判别

下一篇中我们详细介绍。感谢大家的阅读。

光大互联【山东光大联创电子商务有限公司】立足聊城的本土网络公司，承接品牌网站建设、营销型网站建设、聊城SEO、网站托管 | 光大互联，只做有效果的网站！

内容关键词：

下一条 : 第三章 3.2 搜索引擎工作机制—蜘蛛专用地址库上一条 : 第三章 3.4 嘿，超市，百度、360，你们有关系吗？

@光大君-留言：

*填写您的需求信息，如有必要我们会在24小时内与您取得联系。

线上服务咨询 156-0635-1330 填写需求索取报价

推荐阅读

聊城网络公司光大互联签约聊城制冷行业龙头企业信宇制冷

聊城网络公司_光大互联签约智慧动力网站建设百度优化项目

聊城网络公司_光大互联签约德文钢塑网站建设营销托管项目

@光大君-留言：