首页系统搜索引擎的工作原理(信息检索的基本原理是什么)

搜索引擎的工作原理(信息检索的基本原理是什么)

编程之家2024-05-23109次浏览

一、搜索引擎是如何工作的

所谓搜索引擎,是指按一定的策略,运用特定的计算机程序从互联网上搜集信息,对信息进行组织和处理后,向用户提供检索服务,将用户检索的信息展示给用户的系统。国内的搜索引擎代表如百度、360、搜狗,国外的搜索引擎代表如谷歌、必应。

搜索引擎的工作原理(信息检索的基本原理是什么)

搜索引擎工作的原理可简单地分为四步,依次包括页面收录、页面分析、页面排序和关键字查询。

1,页面收录

搜索引擎通过蜘蛛程序在互联网上抓取并将之进行存储的过程,这为搜索引擎开展各项工作提供了数据。在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛即通过URL抓取页面。蜘蛛程序从URL列表出发,通过URL抓取并存储原始页面;提取原始页面中的URL资源并加入到URL列表中,如此循环,从而可从互联网中获得足够多的页面。

页面收录的方式包括广度优先、深度优先和用户提交。广度优先是一种横向的页面抓取方式,从最浅层开始抓取页面,直到抓取完同一层次上所有的页面后才进入下一层。深度优先是一种纵向的页面抓取方式,首先跟踪最浅层页面中的某一个链接,从而逐步抓取深层页面,直到抓取完最深层次的页面才返回浅层页面;之后,再跟踪另一个链接,继续向深层页面抓取。而用户提交,是指网站管理员只需把网站页面的URL地址按指定的格式制成文件,后将之提交给搜索引擎,搜索引擎可以通过该文件对网站中的页面进行抓取和更新。

页面维护的方式则有定期抓取、增量抓取和分类定位抓取。定期抓取,是指搜索引擎周期性地对网站中已经收录的网页进行全面更新,把抓取的新页面替换旧页面、删除不存在的页面,存储新发现的页面。增量抓取,搜索引擎通过对已抓取的页面进行定时监控,实现对页面的更新和维护,搜索引擎只需对重要的页面进行定时的监控,使页面的更新周期缩短。分类定位抓取,是搜索引擎根据页面的类别、性质而制定相应更新周期的页面监控方式。

搜索引擎在抓取页面时,除了要存储原始页面外,还会附加如文件类型、大小、URL、IP地址、最后修改时间和抓取时间等,并再把这些信息作为开展某项工作的依据。

搜索引擎的工作原理(信息检索的基本原理是什么)

2,页面分析

页面收录只是搜索引擎工作的第一步,用户使用搜索引擎检索信息时,往往使用的是词或者短语。搜索引擎对原始页面建立索引,实现对页面的快速定位;提取页面的正文信息,并对正文信息进行切词以及为该词建立索引,从而得到页面与关键字相对应的关系;对所有关键字进行重组,建立关键字与网页间对应关系的反向索引列表,从而达成根据关键字快速定位相应的网页。

3,页面排序

搜索引擎结合页面的内、外因素计算出页面与某个关键字相关的程度,从而得到与该关键字相关的页面排序列表。

通常,决定页面排序的因素,具体有页面相关性、链接权重和用户行为。页面相关性是指页面内容与用户所查询的关键字在意义上的接近程度,主要由关键字匹配度、关键字密度、关键字分布及关键字权重标签等决定。链接分为内部链接与外部链接,某一页面得到的链接越多,一定程度上反应了该页面越重要,链接权重往往就越高。用户对搜索结果的点击是衡量页面相关性的因素之一,是完善排序结果、提高排序结果质量的、重要的补充。

搜索引擎通过计算页面相关性、链接权重、用户行为等综合得分,得到页面的权重值,之后再按页面的权重值从高到低排序,并把这个经过排序的列表返回给用户。

搜索引擎的工作原理(信息检索的基本原理是什么)

4,关键字查询

搜索引擎接受来自用户的查询请求,并对查询信息进行切词及匹配后,再向用户返回相应的页面排序列表。用户在搜索引擎中的行为主要分为查询和点击。

搜索引擎处理用户的查询请求,主要包括,在用户发出查询请求前完成被查询关键字的反向索引、相关页面权重计算等工作;为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。所谓缓存机制,是指搜索引擎为在短时间内响应用户的查询速度,便为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。统计表明,查询次数最多的前20%的关键字大约占了查询次数的80%。所以,搜索引擎只要对这20%的关键字建立缓存便可满足用户80%的查询请求。

二、搜索引擎的工作原理是什么

搜索引擎为了以最快的速度得到搜索结果,它搜索的内容通常是预先整理好的网页索引数据库。

普通搜索,不能真正理解网页上的内容,它只能机械地匹配网页上的文字。真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。

当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

三、搜索引擎的工作原理是什么及发展历史

搜索引擎是应用在网络上方便的检索信息而产生的。所有搜索引擎的祖先是1990年由加拿大蒙特利尔大学的学生Alan发明的,虽然当时万维网还没出现,但是在网络中传输文件已经相当频繁了,由于大量的文件散步在各个分散的FTP主机中,查询起来非常不便于是Alan等想到了开发一个可以用文件名查找文件的系统,于是便有了ARCHIE,这就是最早的搜索引擎雏形。搜索引擎的工作原理主要就是四个步骤:爬行,抓取,检索,显示。搜索引擎放出蜘蛛在互联网上爬行,目的是为了发现新的网站和最新的网页内容,从而经过搜索引擎特定程序分析后决定是否抓取这些信息,抓取后然后将其放到索引数据库中,顾客在搜索引擎网站上检索信息时,就会在结果页上出现与检索词相关的信息,并根据与检索词的相关度进行拍序,这就是搜索引擎的工作原理和步骤。了解搜索引擎工作原理是从事SEO人员需具备的基本知识。

汇编语言入门,学汇编语言需要什么基础笔记本验货(笔记本验货的正确方式是什么)