基于本体的文档知识图形化分析技术研究
1.引言
二十世纪九十年代以来,随着信息技术尤其是网络的飞速发展,信息的产生、复制和传播变得极其便利,互联网上信息量呈指数级爆炸增长,但是网上资源海量、异构、动态、复杂等特点,使得有用的信息被淹没在信息海洋之中。如何快速准确地识别网上资源、对资源的有用性进行准确直观地判断,是现阶段信息识别和知识获取面临的重要问题。
本文通过对本体、Web爬虫、知识发现、概念提取、图形化等技术的集成,建立了基于本体的文档知识图形化分析模型,并以仪表领域为例,开发了相应的试验分析工具。该工具能够实现对仪表领域Web页面或本地文档(pdf、doc、ppt等常见文档格式文件)内容的解析、核心概念提取,并以图形化方式展示分析结果。其结果能够显示文档中核心概念以及概念之间的关系,并以线条的粗细以及颜色的深浅标识概念在文档中的重要程度,醒目、直观、一目了然。
2.基本定义
2.1 本体
本体(Ontology)最初是哲学领域的术语,是关于事物存在及其本质规律的学说。上世纪九十年代初,本体被引入人工智能等领域,用于构建大型集成的知识库系统。在新的技术领域,本体被赋予了更为具体的含义。Gruber于1993年最早提出“本体是对某种概念化体系的规范说明”,之后Studer等学者给出更为完善的定义“本体是共享概念模型的、明确的、形式化的规范说明”。本体作为一种能在语义和知识层次上描述领域概念的建模工具,其目标是捕获相关领域的知识,确定该领域内共同认可的词汇。通过概念之间的关系来描述概念的语义,提供对该领域知识的共同理解。本体一般由实例、属性、类和关系组成,它是基于本体的文档知识图形化分析模型中一个重要的基础模块。
2.2 Web挖掘
Web挖掘是从海量的Web页面中发现、抽取感兴趣的、潜在有用的模式和隐含的、事先未知的信息。它以从万维网的海量数据中挖掘有用知识为目标,将传统的数据挖掘技术与Web结合起来。Web页面上的数据与传统数据库中的数据不同,是一种半结构化数据,这在一定程度上增加了数据挖掘的难度。本体提供了概念层次的知识规范,为Web挖掘提供了知识基础和智力支持。
3.系统分析模型
基于本体的文档知识图形化分析模型如图1。该模型主要包括文件解析、分词标注、统计分析、本体作用、dot生成、结果显示等模块,其中分词标注模块、本体作用模块在领域本体库的作用下实现各自功能。

图1 基于本体的文档知识图形化分析模型
3.1 获取文件
获取文件模块是通过与用户交互从网络或本地获取待分析处理的文件资料,文件类型可以包括Web页面、doc、ppt、pdf、rtf、excel、数据库表以及txt等常见文档数据格式。在获取Web页面时,该模块支持用户直接输入web页面的URL地址;获取本地文件时,支持用户对存储待处理文件地址的直接输入或导航选择,同时支持对批量文件的选择和分析处理。
3.2 文件解析
文件解析模块主要用于实现对各种常见文档文件内容的提取与解析。首先对用户输入待处理文件的格式进行识别判断,如果为URL地址,则调用相应的网络爬虫程序获取该页面的文本信息数据;如为本地文件,则进一步对文件扩展名进行识别,并调用与该文件格式相匹配的文件内容提取程序对文件信息进行提取,最后将结果保存为txt文件,便于下一步处理。
3.3 分词标注
分词标注模块主要用于访问文本解析模块的处理结果,通过调用分词程序,加载用户自定义词典(主要为领域的专业词汇),实现对文本解析结果的智能分词、词性标注和本体角色标注。其中,本体角色标注通过对领域本体库中各概念及概念间关系的访问,标识出分割后的词汇是否为领域本体库中的概念,并进一步标识出各概念在本体中所充当的角色。如“玻璃温度计”为仪表领域本体中“仪器仪表”概念下的一个类(Class),标识为:M_C(Meter_Class);“测量”为仪表领域本体的对象属性(Object Property),标识为:O_P;“体温计”为仪表领域本体中“仪器仪表”概念下的实例(Instance),标识为:M_I。
3.4 统计分析
统计分析模块根据分词标注模块的处理结果,提取出本体角色项非空的概念,并分别记录各概念在该文档中出现的次数,便于后期处理中对出现次数较多的概念进行突出显示。通过该模块的处理,得到文档中出现的仪器仪表技术领域的概念、各概念出现次数以及概念在本体中充当的角色的集合 ,(0<j<k)。其中 为文档中所出现的仪器仪表技术领域概念, 为概念 在文档中出现的总次数, 为概念 在领域本体中充当的角色。
3.5 本体作用
本体作用模块是通过对领域本体库的推理查询,找出本体中与 存在相关关系的其它概念。相关关系包括上下位关系、兄弟关系、同义关系以及本体中定义的其它关系,通过本体作用模块的处理,获得每个概念 的相关关系集。
3.6 Dot文件生成
Dot是T&T Labs-Research开发的开源图形绘制工具GraphViz组件之一。GraphViz是一个可以将简单语法描述的结构转化为图形的工具,它可以很方便的用来绘制结构化的图形网络,并支持多种格式输出。Dot用于生成有向图,有一套完整描述节点、边、图、子图的语法规则体系,能够很好地处理DAGs(Directed Acyclic Graphs),通过读取符合dot语法规范的文件生成相应的有向图或层次图。
根据dot语言语法规则要求,将各概念的相关关系集表示成图、节点、边的形式。其中概念以节点表示,概念之间的关系以边表示,概念在文档中出现的次数以及不同的关系可以分别用线条类型、粗细和颜色深浅以区别,最后生成符合dot语言要求的能够充分表达各概念之间关系以及概念重要程度的dot文件。
3.7 结果显示
结果显示模块在图形绘制工具Graphviz的基础上,根据各概念间相关关系集生成的dot文件特点,进行二次开发,实现结果显示、图片的放大缩小、图片漫游、节点概念展开、图片输出等功能,并支持文档概念、本体三元组等信息的后台输出。
4.技术实现
4.1 实现环境
本文基于Java语言开发了一个以研究为目的的基于本体的文档知识图形化分析工具。开发工具为MyEclipse 6.0。本体解析工具选择由惠普公司开发的语义网开发平台jena 2.5.5。推理机选择由美国马里兰大学开发的Pellet,并采用sparql语言对本体进行查询。
4.2 实现结果
下面以Web页面分析为例,验证本方法和工具的有效性。
该示例Web页面为“先进制造与自动化科学数据共享网 ”中的页面(网址:www.amadata.net.cn/automatization/auto_index.aspx),通过分析,生成的dot文件部分代码如下:
strict digraph G {
node [ fontname="simhei.ttf" ];
edge [ fontname="simsun.ttc" ];
edge [ style = "setlinewidth(1)" ];
graph [ center = true,rankdir = LR];
graph [bb = "0,0,1042,397"];
仪器仪表 -> 实验仪器装置
领域本体 -> 仪器仪表
仪器仪表[color=red,fontcolor=blue,penwidth =12];
标准规范 -> 行业标准
领域本体 -> 标准规范
标准规范[color=red,fontcolor=blue,penwidth =2];
显示仪表 -> 流量显示仪表
自动化仪表及系统 -> 显示仪表
仪器仪表 -> 自动化仪表及系统
显示仪表[color=red,fontcolor=blue,penwidth =1];
执行器 -> 直行程电动执行机构
自动化仪表及系统 -> 执行器
执行器[color=red,fontcolor=blue,penwidth =3];
………………
通过结果显示模块对dot文件处理的Web页面分析结果图如图2。其中线条较粗、颜色较深的节点表示该节点概念为Web页面包含的领域内概念,各节点线的粗细体现该概念在指定Web页面中出现频率,连接各节点之间的有向边表示节点所包含的下位概念,以双线双箭头连接的两个概念为同义概念。

图2 Web页面分析结果
点击“重新输入”实现对其他网址或本地文件的分析;“输出图片”实现分析结果图的本地存储;“展开分支”实现对每个节点全部下位概念的展开。 “仪器仪表”概念与“自动化仪表及系统”概念的子节点概念展开示意图如图3。

图3 子节点概念展开示意图
二十世纪九十年代以来,随着信息技术尤其是网络的飞速发展,信息的产生、复制和传播变得极其便利,互联网上信息量呈指数级爆炸增长,但是网上资源海量、异构、动态、复杂等特点,使得有用的信息被淹没在信息海洋之中。如何快速准确地识别网上资源、对资源的有用性进行准确直观地判断,是现阶段信息识别和知识获取面临的重要问题。
本文通过对本体、Web爬虫、知识发现、概念提取、图形化等技术的集成,建立了基于本体的文档知识图形化分析模型,并以仪表领域为例,开发了相应的试验分析工具。该工具能够实现对仪表领域Web页面或本地文档(pdf、doc、ppt等常见文档格式文件)内容的解析、核心概念提取,并以图形化方式展示分析结果。其结果能够显示文档中核心概念以及概念之间的关系,并以线条的粗细以及颜色的深浅标识概念在文档中的重要程度,醒目、直观、一目了然。
2.基本定义
2.1 本体
本体(Ontology)最初是哲学领域的术语,是关于事物存在及其本质规律的学说。上世纪九十年代初,本体被引入人工智能等领域,用于构建大型集成的知识库系统。在新的技术领域,本体被赋予了更为具体的含义。Gruber于1993年最早提出“本体是对某种概念化体系的规范说明”,之后Studer等学者给出更为完善的定义“本体是共享概念模型的、明确的、形式化的规范说明”。本体作为一种能在语义和知识层次上描述领域概念的建模工具,其目标是捕获相关领域的知识,确定该领域内共同认可的词汇。通过概念之间的关系来描述概念的语义,提供对该领域知识的共同理解。本体一般由实例、属性、类和关系组成,它是基于本体的文档知识图形化分析模型中一个重要的基础模块。
2.2 Web挖掘
Web挖掘是从海量的Web页面中发现、抽取感兴趣的、潜在有用的模式和隐含的、事先未知的信息。它以从万维网的海量数据中挖掘有用知识为目标,将传统的数据挖掘技术与Web结合起来。Web页面上的数据与传统数据库中的数据不同,是一种半结构化数据,这在一定程度上增加了数据挖掘的难度。本体提供了概念层次的知识规范,为Web挖掘提供了知识基础和智力支持。
3.系统分析模型
基于本体的文档知识图形化分析模型如图1。该模型主要包括文件解析、分词标注、统计分析、本体作用、dot生成、结果显示等模块,其中分词标注模块、本体作用模块在领域本体库的作用下实现各自功能。

图1 基于本体的文档知识图形化分析模型
获取文件模块是通过与用户交互从网络或本地获取待分析处理的文件资料,文件类型可以包括Web页面、doc、ppt、pdf、rtf、excel、数据库表以及txt等常见文档数据格式。在获取Web页面时,该模块支持用户直接输入web页面的URL地址;获取本地文件时,支持用户对存储待处理文件地址的直接输入或导航选择,同时支持对批量文件的选择和分析处理。
3.2 文件解析
文件解析模块主要用于实现对各种常见文档文件内容的提取与解析。首先对用户输入待处理文件的格式进行识别判断,如果为URL地址,则调用相应的网络爬虫程序获取该页面的文本信息数据;如为本地文件,则进一步对文件扩展名进行识别,并调用与该文件格式相匹配的文件内容提取程序对文件信息进行提取,最后将结果保存为txt文件,便于下一步处理。
3.3 分词标注
分词标注模块主要用于访问文本解析模块的处理结果,通过调用分词程序,加载用户自定义词典(主要为领域的专业词汇),实现对文本解析结果的智能分词、词性标注和本体角色标注。其中,本体角色标注通过对领域本体库中各概念及概念间关系的访问,标识出分割后的词汇是否为领域本体库中的概念,并进一步标识出各概念在本体中所充当的角色。如“玻璃温度计”为仪表领域本体中“仪器仪表”概念下的一个类(Class),标识为:M_C(Meter_Class);“测量”为仪表领域本体的对象属性(Object Property),标识为:O_P;“体温计”为仪表领域本体中“仪器仪表”概念下的实例(Instance),标识为:M_I。
3.4 统计分析
统计分析模块根据分词标注模块的处理结果,提取出本体角色项非空的概念,并分别记录各概念在该文档中出现的次数,便于后期处理中对出现次数较多的概念进行突出显示。通过该模块的处理,得到文档中出现的仪器仪表技术领域的概念、各概念出现次数以及概念在本体中充当的角色的集合 ,(0<j<k)。其中 为文档中所出现的仪器仪表技术领域概念, 为概念 在文档中出现的总次数, 为概念 在领域本体中充当的角色。
3.5 本体作用
本体作用模块是通过对领域本体库的推理查询,找出本体中与 存在相关关系的其它概念。相关关系包括上下位关系、兄弟关系、同义关系以及本体中定义的其它关系,通过本体作用模块的处理,获得每个概念 的相关关系集。
3.6 Dot文件生成
Dot是T&T Labs-Research开发的开源图形绘制工具GraphViz组件之一。GraphViz是一个可以将简单语法描述的结构转化为图形的工具,它可以很方便的用来绘制结构化的图形网络,并支持多种格式输出。Dot用于生成有向图,有一套完整描述节点、边、图、子图的语法规则体系,能够很好地处理DAGs(Directed Acyclic Graphs),通过读取符合dot语法规范的文件生成相应的有向图或层次图。
根据dot语言语法规则要求,将各概念的相关关系集表示成图、节点、边的形式。其中概念以节点表示,概念之间的关系以边表示,概念在文档中出现的次数以及不同的关系可以分别用线条类型、粗细和颜色深浅以区别,最后生成符合dot语言要求的能够充分表达各概念之间关系以及概念重要程度的dot文件。
3.7 结果显示
结果显示模块在图形绘制工具Graphviz的基础上,根据各概念间相关关系集生成的dot文件特点,进行二次开发,实现结果显示、图片的放大缩小、图片漫游、节点概念展开、图片输出等功能,并支持文档概念、本体三元组等信息的后台输出。
4.技术实现
4.1 实现环境
本文基于Java语言开发了一个以研究为目的的基于本体的文档知识图形化分析工具。开发工具为MyEclipse 6.0。本体解析工具选择由惠普公司开发的语义网开发平台jena 2.5.5。推理机选择由美国马里兰大学开发的Pellet,并采用sparql语言对本体进行查询。
4.2 实现结果
下面以Web页面分析为例,验证本方法和工具的有效性。
该示例Web页面为“先进制造与自动化科学数据共享网 ”中的页面(网址:www.amadata.net.cn/automatization/auto_index.aspx),通过分析,生成的dot文件部分代码如下:
strict digraph G {
node [ fontname="simhei.ttf" ];
edge [ fontname="simsun.ttc" ];
edge [ style = "setlinewidth(1)" ];
graph [ center = true,rankdir = LR];
graph [bb = "0,0,1042,397"];
仪器仪表 -> 实验仪器装置
领域本体 -> 仪器仪表
仪器仪表[color=red,fontcolor=blue,penwidth =12];
标准规范 -> 行业标准
领域本体 -> 标准规范
标准规范[color=red,fontcolor=blue,penwidth =2];
显示仪表 -> 流量显示仪表
自动化仪表及系统 -> 显示仪表
仪器仪表 -> 自动化仪表及系统
显示仪表[color=red,fontcolor=blue,penwidth =1];
执行器 -> 直行程电动执行机构
自动化仪表及系统 -> 执行器
执行器[color=red,fontcolor=blue,penwidth =3];
………………
通过结果显示模块对dot文件处理的Web页面分析结果图如图2。其中线条较粗、颜色较深的节点表示该节点概念为Web页面包含的领域内概念,各节点线的粗细体现该概念在指定Web页面中出现频率,连接各节点之间的有向边表示节点所包含的下位概念,以双线双箭头连接的两个概念为同义概念。

图2 Web页面分析结果

图3 子节点概念展开示意图













