流量知识

搜索引擎工作原理是什么?以及SEO建议和详解

一、搜索引擎的分类

       获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。

       全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。

       分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如以前的雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”。

       全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN ;把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索和雅虎中国搜索 http://cn.search.yahoo.com/dirsrch/)。

       在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类:

⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”

(http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。

⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀”(http://free.okey.net/%7Efree/search1.htm)。


二、搜索引擎的工作原理

      全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。

      和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

       真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

      现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。

      搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。


从互联网上抓取网页

      利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。


建立索引数据库

       由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。


在索引数据库中搜索排序

      当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

      搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

      互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

      你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。


全新站首页收录:

1:全新站收录一般1-7天,切记不要修改网站内容,否则,蜘蛛会认为你的网站还在整改中,会给半个月时间你修改网站,期间基本不会去收录网站内容

2:网站布局良好,每天更新原创内容或者内容来自互联网的最新内容都行,这种情况下,首页收录一般在1-3天,内页20天以后。

沙盒期:

新站都会有沙盒期,一般是1-3个月,半年的也有,这个时期主要是搜索引擎在考察你的网站是否是垃圾站,在此期间,不要去修改网站结构,多做原创,多发外链,交换友链,以提高蜘蛛爬行次数。

熊掌号:

熊掌号可以让原创文章内容更快的被百度收录。

百度爬虫11点-4点:

蜘蛛抓取频繁的时间段一般是11点左右和4点左右,这两个时间段可以到百度站长里面去诊断url,加速蜘蛛爬取次数,运用的好的话,收录很快的。

站群:

站群的话,差不多是属于黑帽了,通常是几个到几百上千个网站组成,链接指向主站,权重都集中在主站了,可以增加主站的权重,权重增加了,流量自然就有了,不过

搜索引擎比较智能,如果发现是这些网站站群,基本是被k的,判断条件一般是相同的ip和相同的模板,代价比较大。

泛站群:

泛站群是通过泛解析出来的二级域名,通常是由N个二级域名生成出来的页面,全部都指向主域名首页,这个对网站的收录还可以,但是对网站的排名没什么用,但是如果用来做友链的话,还是可以的。

蜘蛛池:

蜘蛛池原理就是把吸引大批的蜘蛛过来,让它不停的在网页模板中抓取内容,增加曝光率,加快url收录,也可以帮助新站快速度过沙盒期,通常一个蜘蛛池需要几千个独立ip,域名构成,代价非常大,市面上有很多蜘蛛池,找个租就可以了。

以文章做seo:

以文章做seo的话就是该文章被百度收录了,并以某关键词获取了很好的一个排名,自然来路流量就比较高了,对搜索引擎来说,自然流量越高,对用户就越有价值,那么搜索引擎对该站的关注就越大,排名就越靠前

https:

https是一种加密协议,比较安全,百度和谷歌申明过优先收录https站点,目前主流浏览器对https 都非常友好,因此全站https有利于seo排名和权重的提升,但是https连接服务器端占用服务器资源比较多,会使页面加载时间延长50%左右,也会影响页面的缓存

Robots sitemap:

robots是搜索引擎爬行的第一个文件,用来告诉搜索引擎哪些要爬取,哪些不用爬取,如果文件不存在,搜索引擎就会爬取网站所有链接,这样会比较浪费服务器资源,一般建议增加robots文件并设置指定蜘蛛爬取,以及哪些目录文件不要抓取,并设置sitemap,需要抓取的链接,减少搜索引擎对服务器的消耗,并且设置了robots sitemap对seo也比较友好。

模拟点击:

模拟点击就是程序模拟用户通过指定的关键词访问网站,一般是模拟ip和环境,以欺骗搜索引擎,达到快速排名的效果,市面上很多都是需要排名基础才可以快速排名的原理就是这样的,比如百度100名内,快排到百度首页,这个比较简单,但是如果被搜索引擎发现的话,很容易k站,我最近看到我百度统计上有有人刷我统计,我一堆广告,然后我抓包研究了一下,用php做了一个出来,可以根据指定关键词,随机刷统计。有需要的可以联系我。

301 重定向:

301重定向跳转用来集中权重,比如,xxx.com重定向到www.xxx.com,就是把xxx.com的权重转移到www.xxx.com,从而增加www.xxx.com的权重,也可以减少了搜索引擎的误判,优化网页收录误判指的是xxx.com和www.xxx.com抓取的内容一样,搜索引擎可能会认为你作弊,就会减少蜘蛛的爬行次数,严重的可能被k.

关键词:

关键是很重要的,关键词基本决定了网站的流量,后期的所有工作基本都是围绕关键词来的,所有说,关键词的选取很重要,竞争也比较激烈,一般不要选择指数比较高的关键词,除非你的seo 技术很好,因为在时间周期上和某些团队竞争的话,想超过别人,真的很难。这个关键词选取的话可以通过某些工具进行挖掘:比如站长工具,这个还挺不错的。

h1 h2 h3 strong:

h1 h2 h3 strong标签是对网页中的内容起强调作用的,一般普遍用于文章,h1定义网站标题, h2来定义文章标题, h3来定义侧边栏目标题,strong标注了他所有的栏目,强调网站的结构和层次,为什么要用到这些呢,有些页面看起来很好,整体很美观,但是蜘蛛不知道啊,蜘蛛爬取的时候,只是按照结构来的,结构清晰,蜘蛛就越喜欢过来爬取。

友情链接:

友情链接也是比较重要的,新站多交换一些友情链接,增加网站曝光度,原理是蜘蛛爬取对方网站的时候,有链接就会顺着链接过来爬取,增加了网站的收录记录,也可以帮助新站快速度过沙盒期,如果网站比较成熟了的话,友情链接建议交换相同网站类型的链接,可以增加网站权重以及排名。

外链:

外链的发布对于新站来说的话,可以增加网站的曝光率,帮助新站快速收录,百度搜一下就可以了,网上一堆工具,老站的话就不要使用了,用了没什么效果还浪费时间,外链原理就是在别的网站是留下你使用的痕迹,如果这时候蜘蛛正好爬行的话,就会顺着这个痕迹爬过来。

排版:

网站的排版也是很重要的,一般嵌套建议不要超过三层,嵌套太多的话对蜘蛛来说不是很优化,市面上,很多网站排名很好,但是页面不是很美观的原因大部分就是注重网站排版。

开启gzip 压缩:

开启gzip 压缩的话,增加了网站的打开速度(一般是3倍以上),提高用户体验度,但是会消耗服务器cpu,都知道蜘蛛喜欢访问网站速度比较快的网站,这点消耗还是有必要的。

泛目录:

泛目录跟泛站群差不多吧,一个是n目录,一个是n子域名,泛目录一般是租用高权重的网站,生成单页面,然后随机获取长尾词,也可以用程序生成大量长尾词的单页面,以供搜索引擎快速排名。51lian.com上面就有(友链交换,泛目录出租,广告出租等)。

nofollow:

nofollow标签是告诉搜索引擎,不要传递权重,这个链接是不信任的链接,一般出站链接上可以加上这个标签,防止权重分散,友情链接不要加。