网站首页 SEO入门到精通

SEO入门到精通（三）：搜索引擎介绍（工作原理）

发布时间：2019-10-22来源：马兔子作者：马兔子阅读：(0)字号：大中小

做SEO就不要搜索引擎和浏览器傻傻分不清楚了，这样可是会闹笑话的。

一、浏览器和搜索引擎的区别

1、浏览器常见的有：搜狗浏览器、360浏览器、谷歌浏览器、QQ浏览器等等，浏览器是指可以显示网页服务器或者文件系统的HTML文件(标准通用标记语言的一个应用)内容,并让用户与这些文件交互的一种软件。手机浏览器和电脑浏览器功能类似。

SEO入门到精通（三）：搜索引擎介绍（工作原理）

简单说，浏览器是一种软件，主要的功能是翻译网页代码，将原始网页代码翻译成你看到的形形色色的页面。

2、常见的搜索引擎有：Google、百度、搜索、360、bing等。国内无法使用Google，但是全球90%的国家都在使用Google，百度是最大的中文搜索引擎，Google是全球最大的搜索引擎。

SEO入门到精通（三）：搜索引擎介绍（工作原理）

二、搜索引擎工作原理

每个SEO从业人员，都必须要理解搜索引擎的工作原理，明白搜索引擎怎么去工作的，才能做好搜索引擎优化工作。

首先，要明白搜索引擎的工作过程是非常复杂的，但是可以简化为三个阶段：

（1）网页收集。通过蜘蛛（即网络爬虫）去爬取网页，并抓取回来，作为原始数据存储起来。

（2）预处理。抓取回来的页面不能直接被用户搜索到，需要经过处理排序，才能参与排名。

（3）检索服务。用户输入查询内容后，搜索引擎的排名程序调用索引库中的数据，将用户搜索内容进行匹配后展现给用户。接下来，我们来深入理解这三个步骤。

1、网页收集

搜索引擎通过蜘蛛爬取并收集互联网上的网页，网页的收集是搜索引擎工作的第一步，了解搜索引的抓取机制，便于蜘蛛抓取更多的页面，有利于网站的排名。

（1）蜘蛛是什么

网络爬虫，又被称为网页蜘蛛、网络机器人，是按照一定的规则，自动抓取互联网中网页的程序或者脚本。由于互联网被比喻为一张大网，那么在这张大网上爬取的程序，就自然被叫做蜘蛛了。

（2）蜘蛛工作方式

为了更高效的爬取互联网上的页面，蜘蛛需要制定爬取策略，简单来说，爬取策略分为两种：深度优先和广度优先。

广度优先：蜘蛛会优先抓取起始页面中的全部链接，再选择其中的一条网页链接，继续抓取这个页面上的所有链接，这种方式可以让蜘蛛并行抓取，提高抓取速度。如图所示：蜘蛛从R页面顺着URL（链接）爬行到A1、B1、C1页面，当R页面链接抓取完后，再从A1爬取到A2、A3、A4页面，按照这种方式一直持续下去。

SEO入门到精通（三）：搜索引擎介绍（工作原理）

深度优先：蜘蛛会从原始页面开始抓取，发现一个链接，就会顺着这个链接一直抓取下去，直到无链接可抓，才会返回去，抓取另一条链接，并持续跟踪这条链接直到没有链接可以抓取。蜘蛛从R页面爬取到A1、A2、A3页面，到A3页面已经没有链接可以爬取了，就返回到R页面重复之前的操作。

SEO入门到精通（三）：搜索引擎介绍（工作原理）

在实际的爬取过程中，深度优先和广度优先往往都是混合使用的，这样既可以爬取更多的网站，又可以兼顾到更多的网站内页。不仅如此，在爬取页面的过程中，需要考虑的因素还有很多，比如：网页权重、网站的规模、网站外链数量、网站的更新频率等等，都会影响到页面的爬取。这也是在以后我们做网站优化是需要考虑的问题，可以思考：下如何布置网站才容易让蜘蛛爬取，进而提高网页收录。

（3）种子站点

一般来说，种子站点都是权重高、权威度高的网站，像网易、知乎、hao123等这类网站，要么是行业大站，要么是优质的导航站。蜘蛛爬行也往往以这些网站作为原始页面进行爬取。因此在优化网站的时候，可以在这类网站上多做一些外链，进而吸引蜘蛛来爬取我们的站点。

（4）搜索引擎的收集机制

这点对我们的网站收录影响很大，一定要注意。蜘蛛抓取某一网站的频次，主要受限于网站的表现情况，若网站更新有规律，蜘蛛就会规律的进入网站进行抓取。

蜘蛛每次爬行都会把页面数据存储起来，如果第二次爬取发现页面与第一次收录的完全一样，说明页面没有更新，多次抓取后蜘蛛会对网站更新频率有一定掌握。更新频率低的网站，蜘蛛抓取的频次就相对较少，更新频率高的网站，蜘蛛也会更频繁的到访抓取。因此优化网站时，需要定期定量更新内容，蜘蛛才会有规律抓取。

（5）文件存储

搜索引擎会将蜘蛛抓取回来的文件存储到原始数据库中，并进一步的处理。如何进行处理呢？咱们下节课就会讲到。

关键字词：