此页面上的内容需要较新版本的 Adobe Flash Player。

获取 Adobe Flash Player

首   页 公司简介 典型客户 软件开发 解决方案 管理咨询 机械加工 专题研究 公司业绩 荣誉资质 网站报价 诚聘英才 联系我们
当前位置: 首页 > 公司业绩 > 基于文本挖掘的本体自动构建技术研究

基于文本挖掘的本体自动构建技术研究

    本体能够为“计算机与人之间正常沟通与交流”提供语义支撑,但是,目前真正投入使用的本体及相关科研成果还很少。主要原因在于本体构建是一项非常复杂、庞大的系统工程,需要领域专家花费大量时间和精力。因此,能否快速、便捷地获得某一领域的概念与知识并将其转化为领域本体,在一定程度上决定了本体的应用和推广速度。
    本项目以科技项目管理领域为例,采用文本挖掘技术,对本体的自动化构建进行研究,探索从文本中得到概念和知识,进而形成本体的方法。研究成果不仅对于加快本体的构建速度具有重要意义,可以应用于科技项目管理领域,而且可以应用于其他领域。项目研究过程中对各种文本挖掘算法的比较、分析和改进,对其他与文本挖掘相关的研究工作也有促进作用。研究成果对于加快本体构建速度,减少人员的参与、促进本体的广泛应用和推广等具有重要意义。
    一、项目目标
    本项目的研究目标是对基于文本挖掘的本体自动构建技术进行研究,比较并选择适合于发现特定领域概念与概念间关系的文本挖掘算法,开发相应的文本挖掘结果分析工具和本体自动构建工具,提高本体的构建效率。
    二、技术路线
    项目技术路线如图1所示。由于目前采用文本挖掘方法进行本体构建的研究比较少,没有太多成功的经验可以借鉴,所以,项目在执行过程中将充分重视测试的重要性。在文本挖掘和本体自动构建两个关键环节邀请专家对研究结果进行评估,并根据评估结果对文本挖掘算法和本体自动构建方法进行调整和修正,以得到更好的结果。

图1 技术路线图
    三、研究内容
    1.领域资料的收集和整理
    需要收集和整理的资料包括科技项目管理有关的法律、法规、管理办法等政策文件,与科技管理有关的著作、论文、研究报告,科技项目实施过程中产生的项目申请书、合同书、验收报告等资料。
    除此之外,项目组还需要收集和整理科技管理领域的关键词、主题词表等基础资料,并对该领域的基础知识用规则和模板的形式进行表达,作为文本挖掘和本体构建的依据。
    2.文本挖掘算法的研究和选择
    本体构建与一般意义上的文本分类聚类不同,需要形成面向特定领域的规范、严谨、简洁的知识体系,对于文本挖掘算法有很高的要求。文本挖掘一般需要经过文本预处理、特征提取、知识模式提取和知识模式评价等四个阶段,每个阶段都有若干比较成熟的算法。比如:文本预处理阶段的词条切分处理就有基于词典的分词算法和无词典的分词技术等。
    3.文本挖掘结果分析工具的开发
    为了将文本挖掘的结果转化为本体,项目组开发了面向本体构建的文本挖掘结果分析工具,对结果进行筛选、归并等规范化处理,以便于本体的自动构建。
    4.本体自动构建工具的开发
    基于Jena、KAON2等开源的本体访问工具包开发基于文本挖掘结果的本体自动构建工具。该工具以文本挖掘的结果为基础,结合领域知识和关键词典,自动构建本体,并为用户提供本体显示、更新等功能。
    此外,本体自动构建工具还将具有文本挖掘结果和本体文件管理等功能,使得用户在对本体进行检查和校正时可以随时了解到相关概念、关系的来源,为用户的操作提供参考。
地址:北京市海淀区车公庄西路22号海赋国际B座12层(100048) 访问量 总计:237952 今天:174
电 话:010-68785900 68785786   E-mail:office@zjkh.bj.cn  版权所有:中机科海 京ICP备07010717号