当前位置: 首页> SEO实战> 搜索引擎的工作原理
搜索引擎的工作原理
来源:太原SEO优化 发布日期:2021-05-14 14:00:00

搜索引擎的概念我们把搜索引擎定义为:搜索引擎是一个能够通过互联网接受用户的查询命令,并向用户提供满足查询要求的信息资源地址的系统。据统计,搜索引擎搜索仅次于电子邮件应用。目前,互联网上有影响力的中文搜索工具有:谷歌、百度、北大天王、Iask、雅虎搜狗、搜狐等搜索引擎。英文的有:Yahoo Altavista,excite,Infoseek,Lycos,AOL等。真正意义上的搜索引擎,通常是指在互联网上收录了几千万到几十亿个网页,并索引我的搜索引擎中的每个单词(即关键字)。

搜索引擎的原理可以分为四个步骤:从网上抓取网页、建立索引数据库、在索引数据库中搜索和排序、对搜索结果进行处理和排序

(1)从网上抓取网页:使用蜘蛛系统程序自动从网上收录网页,自动上网,并沿着任何网页中的所有URL爬到其他网页上,重复这个过程,收录所有被爬回的网页

(2)建立索引数据库:通过分析索引系统程序对收录到的网页进行分析,提取相关网页信息(收录网页的URL,编码类型、页面内容中包含的关键字、关键字位置、生成时间、大小、与其他网页的链接关系等),并根据一定的相关性算法进行大量复杂的计算,得到每个网页对页面内容和超链接中的每个关键字的相关性(或重要性),然后利用相关信息建立网页索引数据库

(3)在索引数据库中搜索排名:当用户输入关键字时,搜索系统程序从网页索引数据库中查找与关键字匹配的所有相关网页。因为关键字的相关网页的相关性已经计算好了,所以我们只需要根据现成的相关值对它们进行排序。相关性越高,排名越高。最后,页面生成系统将搜索结果的链接地址和页面内容的摘要组织并返回给用户

(4)对搜索结果进行排序:关键字的所有相关信息都记录在索引数据库中。您只需综合相关信息和页面级别,形成相关的数值度,然后对搜索结果进行排序。相关性越高,排名越高。最后,页面生成系统将搜索结果的链接地址和页面内容摘要组织并返回给用户。

搜索引擎分类搜索引擎的技术基础是全文检索技术。全文检索通常指全文检索,收录信息的存储、组织、性能、查询、访问等方面。它的核心是文本信息的索引和检索,是企事业单位普遍采用的检索方法。随着互联网信息的发展,搜索引擎中的全文检索技术逐渐发展起来,并得到了广泛的应用,但是搜索引擎仍然不同于全文检索。

搜索引擎与全文检索的主要区别在于:

(1)数据量。传统的全文检索系统是面向企业本身的数据或与企业相关的数据。一般来说,索引数据库的规模大多在GB级,数据量只有几百万;但互联网搜索需要处理数十亿个网页。搜索引擎的策略是使用服务器集群和分布式计算技术

(2)内容相关性。由于信息太多,准确度和排名尤为重要。谷歌等搜索引擎利用网页链接分析技术,根据网页在互联网上的链接次数来判断网页的重要性;然而,全文检索中数据源的互联程度不高,不能作为判断重要性的依据,只能基于内容的相关性

(3)安全性。网络信息是公开的,除了文字内容外,其他信息不是很重要;企业全文检索的数据源是企业内部信息,有等级和权限的限制,对查询方式有更严格的要求。因此,其数据一般安全集中地存储在数据库仓库中,以保证数据安全和管理的要求

(4)个性化和智能化。搜索引擎是为互联网访问者设计的。由于数据量和用户数量的限制,很难应用自然语言处理技术、知识检索、知识挖掘等计算密集型智能计算技术,这也是搜索引擎技术的发展方向。然而,全文检索具有数据量小、检索要求明确、用户数量少等优点。除了上述与全文搜索系统的区别外,搜索引擎按其工作模式可分为三种类型,即全文搜索引擎、搜索索引/目录和元搜索引擎。

1、 全文搜索引擎。全文搜索引擎是名副其实的搜索引擎(Google、AlltheWeb、Altavista、inktomi、Teoma、wisenut、Baidu、Chinese search、北大天王等),通过从互联网上提取各个网站(主要是网页)的信息,检索出与用户查询条件相匹配的相关记录,然后结果按一定的顺序返回给用户,这样他们才是真正的搜索引擎。从搜索结果来源的角度来看,全文搜索引擎可以分为两类:一类是有自己的搜索程序,俗称机器人程序或蜘蛛程序,并自建网页数据库,直接从自己的搜索结果数据库,如上述搜索引擎;另一种是租用其他引擎的数据库,将搜索结果以自定义格式排列,如Lycos引擎。全文搜索引擎具有全文搜索、检索功能强、信息更新快等优点。但同时也有其不足之处。虽然所提供的信息多而全,但选择的信息太多,会降低相应的命中率。而且,提供的查询结果多为重复链接,层次结构不清晰,给人一种多样性和无序性的感觉。

2、 目录索引搜索引擎。尽管目录索引具有搜索功能,但它并不是严格意义上的真正的搜索引擎。它只是一个目录分类的网站链接列表。用户只需按类别目录查找所需信息,无需关键字查询。***代表性的指数是雅虎!,其他收录opendirectory project(Dmoz)、Looksmart、about等,国内搜狐、新浪、网易搜索也属于这一类。目录索引和全文搜索引擎的区别在于它是手动建立的。现场按“人工方法”分类。与全文搜索引擎不同,它包含了网站上的所有文章和信息。相反,它首先将网站划分为某一类别,然后记录一些摘要信息对网站进行简要介绍,当用户提出搜索请求时,搜索引擎只在网站的简介中进行搜索。其主要优点是:层次分明,结构清晰,易于查找;多层次分类,便于查询具体明确的主题;内容汇总分类目录中有简明的内容,方便用户一目了然。它的缺点是搜索范围小,更新速度慢,跨类别查询时容易漏检。

3、 元搜索引擎。当元搜索引擎收到用户的查询请求时,它同时在其他搜索引擎上搜索,并将结果返回给用户。元搜索引擎有infospace、dogfile、vivisimo等,代表性的中文元搜索引擎是北斗搜索。在搜索结果排名方面,有的根据源搜索引擎直接排列搜索结果,如dogfile,有的则根据自己的规则重新排列和组合搜索结果,如vivisimo。

除上述三类搜索引擎外,还有以下非主流形式:

(1)集体搜索引擎:如2002年底推出的HotBot引擎。搜索引擎与元搜索引擎类似,但不同的是它不会同时调用多个搜索引擎,而是由用户从提供的四个搜索引擎中选择,因此称之为集合搜索引擎更为准确

(2)门户搜索引擎如aolsearch和msnsearch提供搜索服务,但他们既没有目录也没有网络数据库,他们的搜索结果完全来自其他引擎

(3),自由链接目录(免费链接(Free for all links,FFA):这类网站一般只是简单地滚动链接项目,少数网站有一个简单的目录,但规模比雅虎的要小!等待目录索引要小得多。除上述分类外,搜索引擎还应具备以下功能:A、网页搜索功能B、网站搜索功能C、图片搜索功能D、新闻搜索功能E、词典搜索功能f、功能搜索功能f

在线咨询 电话咨询