基于本体的智能语义检索系统解决方案
信息检索技术的出现是网络发展史上的里程碑,它为网络用户带来了极大的便利,Google、百度是这个领域的典型代表。然而,现有的搜索引擎却无法准确地理解和处理各类网络资源,经常检索不到、甚至返回大量无关信息。智能语义检索系统利用本体技术、NLP技术和数据挖掘等技术,从语义网、人工智能等角度出发,有效地克服了传统搜索引擎的弊端,为智能检索提供了一个优良的解决方案。
1.系统体系结构
系统共包括3个层次,分别为数据资源层、数据管理层和用户层。如下图所示。
1.系统体系结构
系统共包括3个层次,分别为数据资源层、数据管理层和用户层。如下图所示。

2.系统开发环境和工具
基于本体的智能语义检索系统采用的开发平台和工具,如下表所示。
基于本体的智能语义检索系统采用的开发平台和工具,如下表所示。

3.技术路线
基于本体的智能语义检索系统采用如下的技术路线。
基于本体的智能语义检索系统采用如下的技术路线。

4.系统主要功能模块
(1)本体服务器
本体服务器是整个系统的核心,利用服务器中概念及概念间语义关系,协助查询扩展与校正模块以及查询语义向量、文档语义向量抽取等关键环节的实施和开展;
(2)分词模块
借助本体库中概念以及用户自定义词典对用户输入的检索词或自然查询语句进行预处理,以保证组合概念及专有概念的完整性;
(3)查询扩展与校正模块
根据本体概念关系,对分词结果进行查询扩展。同时,通过本体库中相关性、一致性推理,与用户进行交互,并对查询扩展进行校正;
(4)语义向量抽取模块
对查询扩展与校正模块输出的结果进行分析,形成一系列多维查询语义向量;
(5)索引服务器
存储数据对象资源与相关本体概念之间的映射关系同,并搭建索引后台管理平台,以方便管理员对索引数据进行维护和更新;
(6)结果优化模块
根据查询扩展的途径不同,对查询结果进行排序,将最符合用户需求的数据放在最前面;
(7)本体自动构建与扩展模块
通过编程实现共享网中部分数据资源体系层次结构向标准本体文件格式的转化。自动统计文献中同时出现概率较大的本体概念,协助完成本体概念之间语义关系的抽取。自动记录用户输入的查询语句中没有纳入本体库的概念,便于管理人员及时添加、扩展和完善本体库;
(8)用户查询偏好信息库
记录用户输入的查询语句、形成查询语义向量和用户最终点击下载数据之间的映射关系,通过模糊匹配为用户提供相似性语义查询。
(1)本体服务器
本体服务器是整个系统的核心,利用服务器中概念及概念间语义关系,协助查询扩展与校正模块以及查询语义向量、文档语义向量抽取等关键环节的实施和开展;
(2)分词模块
借助本体库中概念以及用户自定义词典对用户输入的检索词或自然查询语句进行预处理,以保证组合概念及专有概念的完整性;
(3)查询扩展与校正模块
根据本体概念关系,对分词结果进行查询扩展。同时,通过本体库中相关性、一致性推理,与用户进行交互,并对查询扩展进行校正;
(4)语义向量抽取模块
对查询扩展与校正模块输出的结果进行分析,形成一系列多维查询语义向量;
(5)索引服务器
存储数据对象资源与相关本体概念之间的映射关系同,并搭建索引后台管理平台,以方便管理员对索引数据进行维护和更新;
(6)结果优化模块
根据查询扩展的途径不同,对查询结果进行排序,将最符合用户需求的数据放在最前面;
(7)本体自动构建与扩展模块
通过编程实现共享网中部分数据资源体系层次结构向标准本体文件格式的转化。自动统计文献中同时出现概率较大的本体概念,协助完成本体概念之间语义关系的抽取。自动记录用户输入的查询语句中没有纳入本体库的概念,便于管理人员及时添加、扩展和完善本体库;
(8)用户查询偏好信息库
记录用户输入的查询语句、形成查询语义向量和用户最终点击下载数据之间的映射关系,通过模糊匹配为用户提供相似性语义查询。













