基于的糖尿病本体构建
前言
目前,糖尿病已经成为威胁人类健康的重要慢性疾病之一,由国际糖尿病联盟统计,中国的糖尿病患者占全球四分之一[1],糖尿病及并发症对人体的危害极大,患有糖尿病及其并发症,而导致的机体损伤,使得糖尿病致死率升高。据国际糖尿病联盟(International Diabetes Federation,IDF)的统计,2017年,全球有4.25亿糖尿病患者,预计到2045年,将会有近7亿糖尿病患者。糖尿病作为一个不能完全根治的慢性疾病,医学上还没有可以准确预防糖尿病的方法。如何更高效率的治疗和预防糖尿病,已成为当今社会无法忽视的重大问题[2]。
近年来,国内对糖尿病的研究主要集中在并发症、临床诊断、护理、流行病学、检查检验及治疗等方向。何永静通过对老年糖尿病并发症的临床分析,为防止老年糖尿病并发症提供依据[3];林婉媚等将疑似糖尿病患者作为研究对象,对其进行生化检验与常规检验对比,得出生化检验在糖尿病诊断中的灵敏度及特异性上较常规检验更高[4]。国外的糖尿病相关研究也集中在并发症、相关治疗及护理等方面。但是,国外研究更关注与糖尿病的分型和临床护理方向。
知识图谱(Knowledge Graph/Vault)又称为科学知识图谱,是显示知识发展进程与结构关系的一种图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
国内对知识图谱的研究主要集中于图书馆学、情报学在经济与管理,以及科学计量学在具体学科的应用领域。胡泽文等对情报学中应用知识图谱现状及必要性展开叙述,提出知识图谱可用于对各学科研究热点及前沿等进行可视化的分析[5];杜湘等运用文献计量及知识图谱的可视化分析,对高原湿地相关文献在发表时间、核心作者及研究热点等方面进行推理,得到高原湿地相关研究热点及研究轨迹[6]。相对国内研究情况,国外的知识图谱研究层次及研究范围更加广泛,且更注重知识图谱与本体,以及信息检索等方面的研究。
一、本体的概念及其构建工具、方法
(一)本体的概念
由于本体(ontology)被不同领域的专家引用,各个领域的专家对本体的概念也会有一定的差异。最早的人工智能领域的学者是这样定义本体的:本体是构成相关领域词汇的基本术语和关系,以及利用这些本体和关系,构成规定的这些词汇外延规则的定义。后来美国斯坦福大学有学者提出:“本体是概念化的规范说明”。接着,有学者补充该定义:本体是共享概念模型的明确的形式化规范说明。这一概念得到各领域专家学者的认可。同时,也被广泛应用推广[7]。我国对本体的研究起步相对国外较晚。汤艳莉、赖茂生教授认为:本体是语义网的重要组成部分,是对世界或者领域知识、概念、实体及其关系的一种明确的、规范的概念化描述[8]。
由此可以知到,不同学科的专家给出的本体概念存在一定的差异。总的来看,本体都包含了五大特征,分别是:概念、形式、共享、明确及描述领域知识。
(二)本体构建方法
本体构建方法是指专家或者学者根据需求和基本步骤进行本体的构建,即将非结构化的相关知识进行搜集,并提取。然后,再用计算机可以理解的方式表达出来。尽管本体的概念有相对的一致性。但由于不同领域的要求存在一定的差异性,在进行本体构建时也会有相对的不同。
本文主要对糖尿病并发症、治疗情况及临床症状表现进行本体构建,即通过对糖尿病及其并发症知识体系进行非结构化的提取,收集相关症状体征、发病因素、治疗方法、预防等数据进行整合,并作为构建糖尿病知识图谱的实体及属性的相关结构框架。
首先,我们需要对糖尿病相关知识进行类(Class)的划分,必须将各个类进行概念化,明确各类的突出信息,把糖尿病知识体系表达完整。其次,我们要将数据类型属性(Data Properties)进行描述,并根据不同的属性对类进行约束,完成对类的标识。再次,我们将各类之间的关系进行定义,即对象属性(Object Properties)定义[9]。把握住各类的关系,才能完整的表示出该知识体系结构情况。最后,我们要对类及属性进行约束,只有对约束进行准确的描述表达,本体的构建才能更加完整精确。
(三)本体的构建工具
目前,在我们构建本体的工具中,较为成熟且使用率较高的主要有Ontolingua Server、Onosiris、Webonto、Protege等。本文主要借助Protege进行糖尿病本体的构建[10]。