浅析搜索引擎的原理及发展前景
作者:岳清 时间:2007-01-18
文章简述搜索引擎定义和服务方式,及搜索引擎的发展、工作原理和性能指标,分析了搜索引擎面临的挑战,并对特色搜索引擎进行了简要的阐述。
信息技术的不断发展,特别是互联网应用的迅速普及,深入到了人们生活的各个方面,改变了人们生活方式和思维方式,方便了全球信息资源共享。全球目前的网页超过100亿,每天新增加数百万网页,电子信息爆炸似的丰富起来。要在如此浩瀚的海洋里寻找信息,就像“大海捞针”一样。能有一种工具使我们可以在不到1秒钟的时间就迅速找到我们想要的内容吗?答案是“有”,这就是搜索引擎。今天,搜索引擎已成为人们在网络信息海洋中自如冲浪必不可少的利器。
1搜索引擎的发展
1990年以前,没有任何人能实现搜索互联网的功能。互联网发展早期,信息量较少,互联网用户多为专业人士,那时查找信息要相对容易。伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的搜索引擎便应运而生了。所有搜索引擎的祖先,都可以追溯到1990年由蒙特利尔McGi大学学生Aan Emtage、Peter Deutsch、Bi Wheean发明的Archie(Archie FAQ)。虽然当时Word Wide Web还未出现,但因为当时网络的主要用途是传输文件,网络中的文件传输还是相当频繁。由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Aan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。
1993年,美国内华达System Computing Services大学开发了一个与Archie非常相似的搜索工具,这个搜索工具既能够检索文件也能够检索网页。
1994年4月,斯坦福(Stanford)大学的两名博士生,David Fio和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。
1998 年,斯坦福大学的两位博士生 Larry Page 和 Sergey Brin 开发出了现在世界上最大的搜索引擎――Googe。通过对 20 多亿网页进行整理,Googe 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,Googe 每天需要为世界各国用户提供 1.5 亿次查询服务。
1997年10月29日,北大天网正式在CERNET上向广大Internet用户提供Web信息导航服务,它是由北大计算机系网络与分布式系统研究室开发的国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,受到学术界广泛好评。
2000年1月,两位北大校友,前Infoseek资深工程师李彦宏与加州大学伯克利分校博士后徐勇在北京中关村创立了百度(Baidu)公司。历经5年的高速发展后,在近两年时间里,百度高居全球网站流量前八名的位置,已经成为全球十大网站之一。百度每天接受着超过一亿人次来自各个方面的内容检索请求,中国9400万网民几乎每天使用1次百度。“有问题百度一下”已经成为中国网络流行语之一。
2002年,中国搜索(原慧聪搜索)正式进入中文搜索引擎市场。在一年多的时间里,就发展为全球著名的中文搜索引擎服务商,为新浪、搜狐、网易、TOM等知名门户网站提供搜索引擎技术。慧聪搜索引擎的优势是从人工审核网站信息源和设置禁查词两个方面入手,有效地过滤了不良信息,降低了垃圾信息的含量。在互联网实时新闻搜索方面,慧聪也实现了网络新闻的实时检索。
2 搜索引擎的工作原理
简单的说,搜索引擎是通过从互联网上提取的各个网站的信息来建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
根据搜索引擎提取数据的方法,可将搜索引擎系统可以分为三大类:
2.1目录式搜索引擎:是一种网站级搜索引擎。目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,一般的搜索引擎分类体系有五六层,有的甚至十几层。先由程序自动搜集信息,然后由编辑员查看信息,人工形成信息摘要,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo就是这类搜索引擎的代表。
2.2机器人搜索引擎:Robot(机器人)一词大家并不陌生,Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。搜索引擎主动派出称为蜘蛛(Spider)的机器人程序定期搜索(比如Googe一般是28天),对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。Googe、北大天网、百度(Baidu)就是这类搜索引擎的代表。
3 搜索引擎的性能指标
搜索引擎的目标就是在非常短的时间内搜索的信息全面并且准确。传统信息检索系统的性能参数――召回率和精度同样也可以衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低;精度高时,召回率低。因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。对于网民来说,互联网上的信息不是不够,而是“过剩”,如何精确查找到信息是大家所关心的问题。因此,目前的搜索引擎系统都非常关心精度。
4 搜索引擎面临的挑战
目前搜索引擎是网络上被使用频率最高的服务项目之一。随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。国际数据公司(IDC)曾公布的一份报告表明,被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。搜索引擎越来越不能满足挑剔的网民们的各种信息需求,这表现在以下几个方面:
收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。用户经常无法打开查询的结果。网络信息时刻变动,实时搜索几乎不可能。就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。网络信息收集与整理是搜索引擎工作的重要一部分。搜索引擎需要定期不断地访问网络资源。目前网络带宽不足,网络速度不够理想,遍历如此庞杂的网络时间花费是非常庞大的,这就是不能实时搜索的原因。
对多媒体内容的处理尚不成熟。迄今为止,搜索对象主要是文本。基于语义的多媒体搜索技术还不成熟,比如搜索图片时还只能通过周围相关的文字进行判断,而无法根据图片本身的信息提供检索。多媒体技术的发展,对搜索引擎提出了更多的要求。人们期望引擎不仅能挑出自己需要的文章,还能挑出自己所关心的图片、电影、音乐等。
搜索引擎的“智能” 有待提高。 一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。譬如既能处理HTML(Hyper Text Markup Language,超文本标志语言),又能处理SGML(Standard for Genera Markup Language,通用标志语言标准)和XML(Extended Marked Language,扩展标志语言)文档以及其他类型的文档,譬如Word、WPS等。智能搜索引擎应该可以支持多语言搜索。
搜索引擎应更好地支持动态网页,许多蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大事所趋,解决动态网页查找的问题已经迫在眉睫。
如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。
5 特色搜索引擎
在网络信息多样化和网络用户多样化的呼唤下,人们希望在网络上找到更丰富更实用的资源,不再漫无目的地查找,特色搜索引擎便应运而生了。
图像搜索引擎。图像搜索引擎虽然还没有成熟的产品,但是这项研究工作却紧锣密鼓的进行着。据称,美国Purdue大学的研究人员已经开发出了一种新的搜索引擎,这种搜索引擎不再使用关键词文本进行搜索,而是使用图像或者草图进行搜索。不就的将来,用户自己画一幅草图,搜索引擎就可以对数据库进行搜索,并找到所有与草图类似的图像。不过,这要求图像搜索引擎能够快速处理超大容量数据库。这种技术不仅为网民提供了方便,在生物、化学、医学等领域都可能发挥极大的作用。
房产地图搜索引擎。房产地图搜索引擎是结合地理信息系统(GIS)、数据库系统(DBMS)和动态Web软件技术开发研制,可以通过智能化地理信息分析查找特定范围内的特定目标。例如用户可以选择购房愿望:价格、面积、户型、房屋布局、地理位置、周边商业、交通、自然环境、小区状况等,在互联网上进行查询。引擎立即会将所有满足条件的房源显示出来,并可以任意放大、缩小、移动房源地图。
美国华盛顿大学科学家正在研究一种新型搜索引擎――一搜得(Know It A ),它能像拖网一样“捞到”所需资料网页,然后以目录表格形式将其进行整理。目前的搜索引擎使用起来其实并不“方便”。如果上网用搜索引擎查找和搜集想要的内容,将是一件十分单调乏味的工作,因为你必须访问大量网页,检索大量资料数据。但新一代搜索引擎技术将有可能仅“按一次”鼠标,就能找出你想查找的内容。它的研发者埃齐奥尼说:“这种方法很奇特,它可将一大堆网页中的有关信息以目录表格的形式放在一个单一网页上。”他们的最终目标是让“Know It A ”能回答诸如“列表指出1900年以前出生的全英科学家”这样的问题。
搜索引擎的存在使得每个人与任何问题的答案之间的距离只有点击一下鼠标那么远。搜索引擎改变了我们上网的习惯,改变了我们工作方式甚至是生活方式。搜索引擎正在不断创造奇迹,而我们正在享受着奇迹。
