首页 生活指南 正文内容

知识图谱与语义技术概览(Graph,KG)的概念演化

阿立指南 生活指南 2022-09-15 03:09:20 666 0

知识图谱和语义技术概述。主要介绍知识表示、知识抽取、知识存储、知识融合、知识推理、知识众包、语义搜索、知识问答等,还包括一些典型的应用案例。如有误解请指正。

知识图谱与语义技术概述知识图谱的概念演变

知识图谱(Graph, KG)的概念演化可以用下图来概括:

谷歌知识图谱官网_谷歌 图谱_谷歌安卓官网

1960年,语义网络( )作为一种知识表示方法被提出,主要应用于自体语言理解领域。它是一种用图形表示知识的结构化方式。在语义网络中,信息表示为一组节点,这些节点通过一组标记的有向线相互连接,以表示节点之间的关系。如下所示。简而言之,语义网络使我们能够相对容易地理解语义和语义关系。其表达方式简洁明了,符合自然。但由于缺乏标准,难以在实践中应用。

语义网络示意图

1980年代,本体()出现,通过哲学概念引入人工智能领域,对知识进行描述。 1989 年,Time-Lee 发明了万维网,实现了文本之间的链接。

语义网 (THe Web) 于 1998 年提出,它将超文本链接到语义链接。语义网是一个更正式的名称,也是该领域学者最常用的术语,也是指其相关的技术标准。在万维网的早期,网络上的内容只有人类可读,但计算机无法理解和处理。例如,当我们浏览一个网页时,我们可以很容易地了解网页上的内容,但计算机只知道这是一个网页。网页中有图片和链接,但是计算机不知道图片是关于什么的,也不知道链接指向的页面与当前页面有什么关系。语义网是一种通用框架,旨在使网络上的数据机器可读。 “”就是用更丰富的方式表达数据背后的含义,让机器能够理解数据。 “Web”就是希望这些数据相互链接,形成一个巨大的信息网络,就像互联网中链接的网页一样谷歌知识图谱官网,只是基本单元变成了粒度更小的数据,如下图所示。

谷歌安卓官网_谷歌 图谱_谷歌知识图谱官网

2006 年,Tim 强调语义网的本质是在开放数据之间建立链接,即链接数据(Data)。 2012年,谷歌发布了基于知识图谱的搜索引擎产品。可以看出,知识图谱的提出得益于 Web 的发展和数据层面的丰富,具有源自知识表示(KR)、自然语言处理(NLP)、Web 和 AI 的基因。可用于搜索、问答、决策、AI推理等。

知识图谱的本质

目前还没有标准的知识图谱定义,以下是《Data and in Large》一书中对知识图谱的定义:

一组类型化的图形及其 .

即知识图谱是由一些相互关联的实体及其属性组成的。在最简单的情况下,它看起来像这样:

谷歌 图谱_谷歌知识图谱官网_谷歌安卓官网

这样比较复杂:

谷歌知识图谱官网_谷歌安卓官网_谷歌 图谱

如前所述,知识图谱集成了很多方面。从 Web 的角度来看,KG 就像在文本之间建立超链接,在数据之间建立语义链接,支持语义搜索。从 NLP 的角度来看,主要是关于如何从文本中提取语义和结构化数据。从知识表示的角度来看,就是如何用计算机符号来表示和处理知识。从人工智能的角度来看,就是如何利用知识库来辅助理解人类语言。从数据库的角度来看,就是以图的形式存储知识。因此,要想做好KG,需要综合运用KR、NLP、Web、ML、DB等方法和技术。

知识图谱技术概述

谷歌知识图谱官网_谷歌 图谱_谷歌安卓官网

上图展示了知识图谱的技术体系。首先,在底层,我们有大量的数据源,比如文本、结构化数据库、多媒体文件。通过知识抽取、知识融合、知识众包等技术,得到我们需要的数据谷歌知识图谱官网,然后通过知识表示、知识推理、知识链接,将知识有序地组织和存储。最后用于知识问答、语义搜索、可视化等。

知识的表示

知识表示研究如何使用计算机符号来表示人脑中的知识,以及如何通过符号之间的运算来模拟人脑的推理过程。

谷歌 图谱_谷歌知识图谱官网_谷歌安卓官网

上图展示了知识表示的演化过程。最根本的变化是从基于数理逻辑的知识表示向基于向量空间学习的分布式知识表示转变。

下图为官方推荐的语义网知识表示框架:

谷歌知识图谱官网_谷歌 图谱_谷歌安卓官网

底层是URI/IRI是一个网络链接,XML和RDF是它上面的资源表示框架。是一种知识查询语言。蓝色覆盖的是推理模块,其中包含支持推理的表示框架,例如 RDFS 和 OWL。在网上,是信任和部分,暂时不需要了解(不知道是什么,只知道不能用……)。

RDF

RDF( ),即资源描述框架,由 W3C 开发。用于描述实体/资源的标准数据模型。在知识图中,我们用 RDF 正式表示三元关系。 (, , )。例如:

谷歌安卓官网_谷歌知识图谱官网_谷歌 图谱

RDFS 在 RDF 的基础上定义了一些固定的关键字,如 Class, , type, , , , Range 等。表示为:

谷歌 图谱_谷歌安卓官网_谷歌知识图谱官网

猫头鹰

OWL(Web),这个本体是从哲学中借来的。 OWL在RDF的基础上扩展了层,使其支持推理等操作。例如:

谷歌 图谱_谷歌知识图谱官网_谷歌安卓官网

它是RDF的查询语言,基于RDF数据模型,可以编写到不同数据集的复杂连接,所有主流图数据库都支持。其操作如下:

谷歌安卓官网_谷歌知识图谱官网_谷歌 图谱

JSON-LD

JSON for Data:适用于程序之间的数据交换,在网页中嵌入语义数据和Web。存储格式如:

谷歌安卓官网_谷歌 图谱_谷歌知识图谱官网

知识图谱的分布式表示——KG

其实,当我们看到这个词的时候,就知道它是一个向量。详细来说就是在保留语义的同时,将知识图谱中的实体和关系映射到一个连续密集的低维向量空间。

谷歌安卓官网_谷歌 图谱_谷歌知识图谱官网

知识提取

知识提取是一项结合了 NLP 和 KR 的工作。它的目标是为 KR 提取三元组、多变量关系和模态知识。具体流程如下:

谷歌安卓官网_谷歌 图谱_谷歌知识图谱官网

文本表示为:首先从网上获取大量的各种非结构化文本数据,经过文本预处理后得到干净的文本数据。然后,在机器学习相关程序的帮助下,对文本进行分词、词性标注、词法分析和依存分析。至此,词汇和句法层面的分析就结束了。接下来,对文本进行 NER 和实体链接工作,用于关系提取和时间提取。做好准备,最后形成KR使用的三元组、多联关系、模态知识等,形成知识图谱。

知识测验

知识问答(-Based,KBQA)是基于知识库的问答系统。它是一种自动问答系统,可以直接准确地回答用户的自然语言问题。它将构成下一代搜索引擎的基本形态。如果你搜索姚明的身高,你可以给出226cm的答案。实现过程如下:

谷歌安卓官网_谷歌知识图谱官网_谷歌 图谱

知识推理

推理简单来说就是根据已知事实推断未知事实的计算过程,比如回答张三儿子的父亲是谁?根据解的分类可分为:基于描述逻辑的推理、基于规则挖掘的推理、基于概率逻辑的推理、基于表示学习和神经网络的推理。按推理类型可分为:默认推理、连续变化推理、空间推理、因果关系推理等。

知识融合

实体融合( ),也称为数据连接(Data)等,目的是找到一个实体在不同数据集中的描述记录,主要目的是将不同数据源中的实体整合起来,形成一个更全面的实体信息。典型的工具是(基于工具包)和 LIMES。

知识众包

允许网站基于RDFa、JASON-LD等特定方法将语义数据嵌入网页、邮件等数据源中,允许个人和企业自定义自己的知识图谱信息。

参考

王浩芬知识图谱教程

欢迎 发表评论:

文章目录
    搜索