欢迎光临
我们一直在努力

搜索引擎的工作原理与挑战分析

简单的说,搜索引擎是通过从互联网上提取的各个网站的信息来建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。

  1 根据搜索引擎提取数据的方法,可将搜索引擎系统可以分为三大类:

  1.1目录式搜索引擎:是一种网站级搜索引擎。目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,一般的搜索引擎分类体系有五六层,有的甚至十几层。先由程序自动搜集信息,然后由编辑员查看信息,人工形成信息摘要,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo就是这类搜索引擎的代表。

  12机器人搜索引擎:Robot(机器人)一词大家并不陌生,Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。搜索引擎主动派出称为蜘蛛(Spider)的机器人程序定期搜索(比如Google一般是28天),对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。Google、北大天网、百度(Baidu)就是这类搜索引擎的代表。

  1.3元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。第一个元搜索引擎,是美国华盛顿大学硕士生Eric Selberg和Oren Etzioni开发的Metacrawler。元搜索引擎的搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。ByteSearch(www.bytesearch.com)、Mamma(www.mamma.com)、Profusion(http://www.profusion.com)就是这类搜索引擎的代表。

  2搜索引擎的性能指标

  搜索引擎的目标就是在非常短的时间内搜索的信息全面并且准确。传统信息检索系统的性能参数——召回率和精度同样也可以衡量一个搜索引擎的性能。

  召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低;精度高时,召回率低。因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。对于网民来说,互联网上的信息不是不够,而是“过剩”,如何精确查找到信息是大家所关心的问题。因此,目前的搜索引擎系统都非常关心精度。

  3搜索引擎面临的挑战

  目前搜索引擎是网络上被使用频率最高的服务项目之一。随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。国际数据公司(IDC)曾公布的一份报告表明,被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。搜索引擎越来越不能满足挑剔的网民们的各种信息需求,这表现在以下几个方面:

  收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。用户经常无法打开查询的结果。网络信息时刻变动,实时搜索几乎不可能。就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。网络信息收集与整理是搜索引擎工作的重要一部分。搜索引擎需要定期不断地访问网络资源。目前网络带宽不足,网络速度不够理想,遍历如此庞杂的网络时间花费是非常庞大的,这就是不能实时搜索的原因。

  对多媒体内容的处理尚不成熟。迄今为止,搜索对象主要是文本。基于语义的多媒体搜索技术还不成熟,比如搜索图片时还只能通过周围相关的文字进行判断,而无法根据图片本身的信息提供检索。多媒体技术的发展,对搜索引擎提出了更多的要求。人们期望引擎不仅能挑出自己需要的文章,还能挑出自己所关心的图片、电影、音乐等。

  搜索引擎的“智能”有待提高。一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。譬如既能处理HTML(Hyper Text Markup Language,超文本标志语言),又能处理SGML(Standard for General Markup Language,通用标志语言标准)和XML(Extended Marked Language,扩展标志语言)文档以及其他类型的文档,譬如Word、WPS等。智能搜索引擎应该可以支持多语言搜索。

  搜索引擎应更好地支持动态网页,许多蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大事所趋,解决动态网页查找的问题已经迫在眉睫。

  如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。

赞(0) 打赏
未经允许不得转载:优友网 » 搜索引擎的工作原理与挑战分析
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

大前端WP主题 更专业 更方便

联系我们联系我们

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏