工作原理是首先由数据采集搜索软件自动浏览Web上的超文本结构,像蜘蛛一样自动沿着任意网页中的链接爬到其他网页,并重复这过程,并把自动收集因特网上千万到几十亿个网页信息存放到搜索引擎的临时数据库。然后索引软件根据所定标准自行或人工筛选信息,这主要通过从网页中抽取能表达网页主题意义的词作为标引词来构建网页标引记录。标引后利用数据库管理系统来组织所采集标引的网页信息,形成索引数据库以备检索。搜索引擎数据库建立后,通过Web服务器端的检索软件,提供浏览器界面的信息查询和利用。用户只需将欲查找的关键词输入查询框中,按“Search”按钮或类似的按钮,搜索引擎就会进行搜索比较库内标引词语,把匹配的搜索结果(网页、网址和网页链接)按照与搜索关键词的相关度高低依次排列,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来,通过网页呈现出来。用户通过浏览阅读,选择索取所需信息。
由于全文搜索引擎主要依靠Robot自动寻找网络资源并编制索引摘要,减少了人工作业,很大程度上提高了信息收集的速度,并保证了信息的全面性和及时性,增加了查全率。但另一方面,由于收录的资源良荞不齐,使查询结果准确度较低,缺乏清晰的层次性,搜索结果中重复链接较多。
(简答题)
论述全文搜索引擎的工作原理,及有缺点?
正确答案
答案解析
略