知识图谱的自动构建,数据挖掘,BI,商务智能,数据分析,数据建模,Hadoop,云计算,可视化,HADOOP,虚拟化,运维,大数据,安装,环境配置,,CIO之家

知识图谱的自动构建

吴信东　　DataFunTalk　　机器学习　　编辑:inception 　　图片来源:网络

知识图谱的构建包括逻辑建模、隐含空间分析、人机交互和本体模型支撑等多种方法。我们将分析各种构建方法的问题和挑战，指出自动构建的要素和应用场景。

——背景——

知识图谱是明略科技的核心技术。知识图谱的自动构建和数据挖掘有一定的关联，自动构建知识图谱和手动构建不是一个概念。明略科技的新产品正在做到：专家在台上讲话，后台图谱系统可自动同步构建知识图谱。

提到知识工程的发展，首先是80年代蓬勃发展的专家系统，随后逐步发展至90年代的万维网知识库。90年代的万维网1.0，以信息收集为主；后面加入人工因素，即人和信息一起，此时进入万维网2.0阶段。

"知识图谱" 这一概念是2006年由谷歌提出，谷歌出于搜索引擎需要而提出这样的名词，其技术核心类似于60年代提出的语义网络。

吴信东教授于2014提出 "HACE定理"，指出大数据始于异构 ( Heterogeneous )、自治 ( Autonomous ) 的多源海量数据，旨在寻求探索复杂 ( Complex )、演化 ( Evolving ) 的数据关联和方法，这是对大数据本质特征的提炼。

大数据在实现的过程中分为3层结构：最底层是数据平台 ( Big Data Mining Platform )，做数据的收集、整合、加工等；中间的一层是应用领域，涉及到语义、专业领域知识等方面；最外层是大数据分析实现的算法，涉及到机器学习、数据挖掘等。

从大数据 ( BigData ) 到大知识 ( BigKE )，体现的是基于数据的知识提炼过程。"大" 知识的特点除了量大，更主要的是 "质量没有保证"；我们的目标是，在浩瀚无边的知识海洋中，如何针对当前问题找到相关的知识进行问题求解，实现 "量 -> 质 -> 序" 的过渡。

基于大数据的特点，实现大数据到大知识的跳跃，这一过程中经历了信息检索的不断完善和分析；从知识图谱构建的角度来看，这一过程经历了人工构建-群体构建-自动构建这样的技术路线。详见下图。

本文将着重讲解 "自动构建"。自动构建的过程中，如果数据是结构化的 ( 例如图表数据 )，已知属性名称、属性间的层次结构等，构建知识图谱相对较为容易；如果缺乏以上信息，则只能通过文本信息等非结构化数据中提炼知识构建知识图谱，技术上将面临很多挑战。

结构化数据通常具有良好的布局结构，因此识别和抽取比较容易，可针对特定格式编写模板进行抽取，抽取准确率也比较高。早在知识图谱技术大受追捧之前的上个世纪90年代，国内便开始了 "从关系型描述数据库生成语义网络的方法" 研究工作。

非结构化数据上的知识图谱研究，主要集中非结构化文本数据处理上。由于自然语言表达的多样性、灵活性，实体和关系在文本中一般找不到明确的标识，这使得从中抽取实体和识别语义关系非常困难。

下面以一个实例来描述非结构化数据知识图谱的构建过程。文本数据来源于百度百科，介绍秦始皇的生平事迹。原文如下：

基于以上文本，初步构建知识图谱如下：

上述图谱抽取的信息不是十分完全，但是大体上能够涵盖和秦始皇相关的各种各样的人物以及各种各样的关系。

——构建方法——

这一部分会主要介绍现有的常见的知识图谱的构建方法。

知识图谱的构建方法，主要包含4大类：逻辑建模，隐含空间分析，人机交互，本体模型。

1. 逻辑建模

上一部分提到的 "秦始皇" 的实例，就是根据逻辑建模提炼生成的。

将名词和关系进行抽取，如果涉及到事件，将会涉及到条件概率、先验概率等。

在逻辑建模中，逻辑+概率作为可能世界的概率度量；对逻辑进行概率化，并利用知识库中的每一条关系三元组对可能世界概率进行约束。

逻辑建模中会涉及到逻辑变量和规则推理等方面的模型，其代表模型是马尔可夫逻辑网模型。将马尔可夫逻辑网看作一个构造马尔可夫网的模板，它维护一个基于一阶逻辑的规则库，并对每一个逻辑规则附上了权重，以此对可能的世界进行软约束。其概率模型为：

其中，g(x)=1 表示该实例化的规则为真，反之为假；F 为 Markov 网中所有谓词规则的集合，Gf_i是利用所有原子事实去实例化规则 f_i后的集合。

然而逻辑建模的缺陷也很明显：随着知识图谱的规模爆发性地增长，即使利用马尔可夫毯 ( Markov Blanket ) 等局部依赖假设，对知识图谱中所有知识实例进行建模也是不可行的。

2. 隐含空间分析

第二种知识图谱构建方法是隐含空间分析。有时候一句简单的语句的背后会包含一些隐含的逻辑关系，例如：吴信东 ( 首席科学家 ) 给吴明辉 ( 董事长 ) 打电话。这一句简单的语句，背后会隐含各种各样的关系，例如：首席科学家应该做哪些事；和董事长应该讨论的内容等。目前隐含空间分析主要尚处于研究阶段，应用还不是很广泛。

距离模型

隐含空间分析的基本模型是距离模型，代表方法是结构表示 ( StructuredEmbedding，SE )：对于一个三元组 ( h, r, t )，SE 将头实体向量和尾实体向量通过关系的两个矩阵投影到关系的对应空间中，然后在该空间中计算两投影向量的距离。SE 模型的损失函数使用的是 L1 范数：

由于 SE 模型对头、尾实体使用两个不同的矩阵进行投影，协同性较差，因此往往无法精确刻画两实体与关系之间的语义联系。由此提出了隐变量模型：

隐变量模型 ( LatentFactorModel，简称 LFM )

LFM 模型提出基于关系的双线性变换，刻画实体和关系的二阶联系，其评分函数为：

其中，M_r∈R^dxd为关系 r 对应的双线性变换矩阵。

LFM 模型通过简单有效的方法刻画了实体和关系的语义联系，协同性较好，计算复杂度低。如何具体描述和刻画这个隐含的空间，会涉及到系数问题，于是引出张量神经模型：

张量神经模型 ( neuraltensornetwork，简称 NTN )

基本思想：用双线性张量取代传统神经网络中的线性变换层，在不同维度下将头、尾实体向量联系起来。

然而，NTN 模型计算复杂度非常高，需要大量三元组样例才能得到成分学习，因而在大规模稀疏知识图谱上的效果较差。由此引出矩阵分解模型：

矩阵分解模型

矩阵分解模型的代表方法是 RASACL 模型。

知识库三元组构成一个大的张量 X，如果三元组 ( h, r, t ) 存在，则 X_hrt=1，否则为0。张量分解 ( 矩阵分解 ) 旨在将每个三元组 ( h, r, t ) 对应的张量值 X_hrt分解为实体和关系表示，使得 X_hrt尽量地接近于 l_hM_rl_t。这种模型的缺陷是：时间复杂度和空间复杂度较高，且在大规模数据集上效率低、可扩展性差。

翻译模型

翻译模型的代表方法是 TransE 模型。对于每个三元组 ( h, r, t )，将关系 r 的向量 l_r看作头实体向量 l_h和尾实体向量 l_t的平移。

TransE 模型的参数较少，计算复杂度低，能直接建立实体和关系之间的复杂语义联系，但是在处理复杂关系时性能显著降低。

3. 人机交互

人机交互 ( Human-Computer Interaction, HCI )：是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。常见的方式就是：存在一个系统，什么都不懂，不断地向用户问问题；随着用户对问题的回答，系统逐步将图谱建立起来。

SIKT ( structured interactive knowledge transfer program ) 是吴教授最早采用人机交互方式构建知识图谱的代表性工作之一，早期称之为 "推理网络"，主要包括以下特色：

结构化人机交互知识库构建。
基于 "rule schema + rule body" 的知识表示形式。
程序通过交互接口指导学科专家自顶向下输入领域知识。
生成的知识库加上来自 KEShell 的预定义推理引擎构成最终的可执行程序。

人机交互的另一种方法，也是吴教授的项目课题，是 IAKO ( Interactive Acquisition of Knowledge Objects )，即半结构化的知识图谱构建。

利用面向对象编程的优势，IAKO 基于知识对象 ( Knowledge Object ) 的表示方法，提出了一个面向对象的交互知识构建系统。
IAKO 能够从0开始，通过领域专家交互方式生成一套完整的知识库，且进行知识和规则校验，以保障知识库的可执行性。
基于知识对象的知识表示方式可以将规则融入对象中，达到 SIKT 中一组 "rule schema + rule body" 的知识表示能力。
IAKO 能够使得领域专家构建便携的和可重用的知识库。

人机交互的一种最新方法，是吴教授任职明略科技后同明略科技董事长吴明辉一起提出的一种模型，叫做 "HAO 模型"，该模型有效地融合了 Human Intelligence (HI)、Artificial Intelligence (AI)、Organizational Intelligence 这三种 "智慧"，在以人为本、人机协同的基础上，加入了面向行业应用、具体细分领域的 Organizational Intelligence。下图就是面向行业构建的知识图谱框架。

数据感知 -> 人机交互 -> 行动