垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是根据特定用户的特定搜索请求,对网站(页)库中的某类专门信息进行深度挖掘与整合后,再以某种形式将结果返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的、有特定用途的信息和相关服务。垂直搜索引擎的价值在于其占有的信息资源的数量,能否提供全面权威的行业信息,能否最大限度拥有行业资源是垂直搜索引擎发展的关键。从某种意义上讲,行业门户网站是垂直搜索引擎嫡亲的父母,同时也是往往不能分割的有机整体。
垂直搜索引擎有哪些?
(1)聚焦、实时和可管理的网页采集技术:
一般互联网搜索面向全网信息,采集的范围广、数量大,但往往由于更新周期的要求,采集的深度或说层级比较浅,采集动态网页优先级比较低,因而被称为水平搜索。而垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中。但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加聚焦、纵深和可管控的需求,并且网页信息更新周期也更短,获取信息更及时。
(2)从非结构化内容到结构化数据的网页解析技术:
水平搜索引擎仅能对网页的标题和正文进行解析和提取,但不提供其时间、来源、作者及其他元数据的解析和提取。由于垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页中特定内容的提取。例如,在论坛搜索、生活服务、订票服务、求职服务、风险信用、竞争情报、行业供需、产品比较等特定垂直搜索服务中,要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取,才能进一步提供更有价值的搜索服务。
(3)精、准、全的全文索引和联合检索技术:
水平搜索引擎并不能提供精确和完整的检索结果,只是给出预估的数量和排在前面部分的结果信息(TOPN),但响应速度是水平搜索引擎所追求的最重要因素。在文本索引方面,它也仅对部分网页中特定位置的文本而不是精确的网页正文全文进行索引,因而其最终检索结果是不完全的。垂直搜索由于在信息的专业性和使用价值方面有更高的要求,因此能够支持全文检索和精确检索,并按需提供多种结果排序方式,例如按内容相关度排序(与水平检索的page rank不同)或按时间、来源排序。另外,一些垂直搜索引擎还要求按需支持结构化和非结构化数据联合检索,如结合作者、内容、分类进行组合检索等。
(4)高度智能化的文本挖掘技术:
垂直搜索与水平搜索的最大区别是,它对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时,面对上述要求,垂直搜索还能够按需提供智能化处理功能,如自动分类、自动聚类、自动标引、自动排重,文本挖据等。这部分是垂直搜索乃至信息处理的前沿技术,虽然尚不够成熟,但有很大的发展潜力和空间,并且目前在一些海量信息处理的场合已经能够起到很好的应用效果
垂直搜索引擎的工作模式是什么?
就垂直搜索引擎的工作模式来说,很多垂直搜索引擎是依靠人工或者半人工的方式来提取结构化信息的,但近年智能化的非结构化信息提取技术取得了重大进展,在一些领域也得到了有效应用。具体而言,垂直搜索引擎的Spider更加专业化和可定制化,其能够定向采集与垂直搜索范围相关的网页,对内容相关的以及适于进一步处理的网页进行优先采集。其信息采集可以通过人工设定网址和网页分析等方式共同进行,在定向分字段抽取出所需要的数据并处理后再以某种形式返回给用户。比如,购物搜索引擎的整体工作流程大致如下:在Spider抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介等信息,然后对信息进行比较、去重、分类,最后提供给用户搜索,还可以通过分析挖掘为用户提供市场行情报告。