生活大爆炸:知识图谱表示学习与关系推理

Jointly Embedding Knowledge Graphs and Logical Rules

  • 作者:Shu Guo, Quan Wang, Lihong Wang§, Bin Wang, Li Guo
  • 机构:Institute of Information Engineering, Chinese Academy of
    Sciences

本文的任务为文化图谱表示学习,本文建议逻辑规则包涵充足的背景消息,但一味未曾很好的在学识图谱表示学习的职务上被商讨。本文提议KALE的主意,将文化图谱与逻辑规则实行同步嵌入表示学习。

前边有专家同时使用知识表示方法和逻辑规则,但双边是分离建立模型的,那也使得尚未获得更好的嵌入式表示。Rocktaschel
et al.
(2015)建议联合模型将一阶逻辑融入嵌入式表示,但那项工作专注于关系分类,对实业对展开停放表示仅创立三个向量表示,而不是实业拥有各自的代表。

KALE方法可分为八个部分:长富组建模、逻辑规则建模,以及共同学习。二个全体的措施框图如下图所示:

生活大爆炸 1 

对于长富组建立模型部分行使简便的翻译模型(TransE衍生)完毕,具体的打分函数如下:

\[I(e_i, r_k, e_j)=1-\frac {1}{s\sqrt
{d}}||\mathbf{e}_i+\mathbf{r}_k-\mathbf{e}_j||_1\]

对此逻辑规则建立模型部分,本文使用t-norm模糊逻辑(t-norm fuzzy
logics),正文首要考虑三种档次的逻辑:第2类是:\(\forall x,y: (x,r_s,y)\Rightarrow
(x,r_t,y)\),给定\(f\triangleq
(e_m,r_生活大爆炸:知识图谱表示学习与关系推理。s,e_生活大爆炸:知识图谱表示学习与关系推理。n)\Rightarrow
(e_m,r_t,e_n)\),置信度的持筹握算如下:

\[I(f)=I(e_m,r_s,e_n)\cdot
I(e_m,r_t,e_n)-I(e_m,r_s,e_生活大爆炸:知识图谱表示学习与关系推理。生活大爆炸:知识图谱表示学习与关系推理。n)+1\]

其中,\(I(\cdot ,\cdot
,\cdot)\)是安慕希组建模时的置信度函数。

第三类是:\(\forall x,y,z:
(x,r_{s1},y)\land (y,r_{s2},z)\Rightarrow
(x,r_t,z)\),给定\(f\triangleq
(e_l,r_{s1},e_m)\land (e_m,r_{s2},e_n)\Rightarrow
(e_l,r_t,e_n)\),置信度的一个钱打二16个结如下:

\[I(f)=I(e_l,r_{s1},e_m)\cdot
I(e_m,r_{s2},e_n)\cdot I(e_l,r_t,e_n)-I(e_l,r_{s1},e_m)\cdot
I(e_m,r_{s2},e_n)+1\]

同步学习的长河一样是时整治安慕希组的置信度远不止负例伊利组的置信度。

值得注意的是,即便规则唯有三种,但为了选拔于实际必须找到规则的涉及实例,为了化解人工的压力,本文使用了半自行的不二法门组织规则关系实例。其方法是,第三选取TransE学习到实体和涉嫌的代表,为只怕存在那五个逻辑规则的实业关系总括置信度,然后开始展览排序,进而选拔切合逻辑规则的实体关系实例。部分实例如下:

生活大爆炸 2 

我:本文建议将逻辑规则融入文化图谱嵌入式表示学习的措施,并且逻辑规则和安慕希组的求学是一起举行的。方法升高的瓶颈如同在逻辑规则的选择与实例的构造上,本文使用了本机关的方法营造,尽管这一有的并非本文重点,但实在该方式是够有效能够运用于广大知识图谱的主要,本文对FB15K塑造了50个规则实例,但对于常见知识图谱这几个规则还远远不够,那种规则的章程存在移植性的标题,是或不是足以考虑选用随机游走获取此类逻辑规则,类似PRA中利用的不二法门。别的,将关乎路径融入表示学习的方法和本文的主意比较类似,实质上都以应用关系路径去演绎关系。

Knowledge Representation Learning with Entities, Attributes and Relations

  • 作者:Yankai Lin, Zhiyuan Liu, Maosong Sun
  • 机构:Tsinghua University

本文面向知识图谱的象征学习职责,建议选择实体、属性、关系八个要平昔拓展表示学习。

正文建议对质量和关系加以区分,并在象征学习的历程中差异对待,本文首先建议属性与涉及的分别,本文叙述:属性的值一般是空虚的定义,如性别与职业等;而且经过总括算与发放现,属性往往是多对一的,而且对于特定的属性,其取值大多来自一个小集合,如性别。对关系与特性选拔不一样的牢笼措施实行独立表示学习,同时建议属性之间的更强的封锁关系。本文想法新颖,很值得借鉴。

生活大爆炸 3

Unsupervised Person Slot Filling based on Graph Mining

  • 作者:Dian Yu, Heng Ji 
  • 机构:Computer Science Department, Rensselaer Polytechnic
    Institute 

正文的职务为槽填充(Slot
Filling),即从科学普及的语言材质库中抽取给定实体(query)的被强烈概念的性质(slot
types)的值(slot
fillers)。对于此任务,本文叙述如今主流的方法能够分成两类:有监督的分类方法,设计分类器度和胆识别给定的实业与值所属的涉及项目,分类器的教练往往利用如运动学习、利用距离监督的噪音标注等措施;格局匹配方法,从文本中自行或半机动地抽取和生成词法或句法的方式,以用来关系的抽取,但因为涉及所公布的不二法门差距,那种方式匹配方法不能够兼而有之较好的召回率。

正文认为,以上两类措施都无法很好的应对新的言语或是出现新的关联项指标情景,即移植性不强;而且,三种艺术都只是专注于实体和候选值在此以前的平缓表示,并不曾设想到它们之间的大局结构关系,以及讲话中别的的关系事实的熏陶。本文首要的算法思想基于以下四个着眼:

  1. 在句子的依存图中,触发词结点(trigger)常常是和实体(query)与值(filler)结点都很相关的,并且是图中的主要节点;
  2. 当实体(query)与值(filler)结点通过二个提到鲜明的触发词强涉嫌起来,往往代表存在必然的关系(slot
    type)。

据悉上述七个观看,本文的提出了一种基于图的槽填充的艺术:首先,利用简易的启发式规则,从句子中分辨出候选实体与属性值;然后,对于给定候选实体与属性值对,利用PageRank图算法和AP(Affinity
Propagation)聚类算法自动识别触发词
;最终,依照识别的触发词对品质类型(slot
type)进行分拣。

下图为使用PageRank算法对候选触发词结点打分: 

生活大爆炸 4 

下图为运用AP算法对候选触发词进行聚类(关系触发词恐怕不断二个单词),以选定最后触发词。如下图最后选定“divorced”为最终触发词。 

生活大爆炸 5 

作者:本文首要的思索与立异点在于,以属性触发词为切入点举办关联的挖沙,将PageRank算法与AP算法引入个中,将槽填充难点转换为图上的开掘难题。候选实体与属性值的鉴定分别、属性类型的分类这三个部分行使了启发式的规则与表面包车型大巴词典财富。但那中图打井的方法,由于应用句法依存与PageRank算法有大概在总括复杂性上设不不奇怪。

小编:整理贰零壹伍-二零一七年ACL、EMNLP、SIGI景逸SUV、IJCAI、AAAI等国际资深会议中实体关系推理与学识图谱补全的相关杂谈,供自然语言处理商量人口,越发知识图谱领域的大方参考,如有错误精晓之处请提出,不胜感谢!(如需转发,请联系自己:jtianwen2014,并注明出处)

IJCAI 2016

Knowledge Base Completion via Coupled Path Ranking

  • 作者:Quan Wang†, Jing Liu‡, Yuanfei Luo†, Bin Wang†, Chin-Yew
    Lin‡ 
  • 机构†:Institute of Information Engineering, Chinese Academy of
    Sciences 
  • 机构‡:Microsoft Research 

正文的天职为知识库补全,即通过考察知识库中已经存在的实际情况,自动推理出丢失的实情。本文叙述那项任务的办法大约分为三种:

  • Path Ranking
    算法(PRA),通过连日实体的已有途径来预测实体间的心腹关系;
  • 依据表示学习的模子,将实体和关系映射为空间中的向量,通过空中中向量的运算来拓展推导(如TransE);
  • 可能率图模型,如马尔科夫逻辑互联网及其衍生物。

由于PRA方法具有较好的解释性,并且不必要额外的逻辑规则,本文首要使用PRA方法对其勘误。在采用PRA举行关联推理时,现在的艺术都以在推演阶段,利用PRA为每一种关系独立建立模型,也正是为各类关系学习3个独立的分类器。

正文的初衷是:假使运用PRA对有些关乎国有建立模型是不是会获得更好的成效,特别是当这个关乎互动紧凑联系的时候,比如,“出生”和“生长于”这五个事关极有或然联合拥有一些提到路径:“国籍->首都”等。很多讨论表明那种多任务学习相比较单任务学习而言,往往拥有更好的效果。本文建议CPRA的方法,该措施所要化解多个难点:(1)哪些关系供给整合在一块上学?(2)怎样结合在联合署名学学?

(1)哪些关系需求整合在一起上学?本文提议了一种根据公共路径的形似度度量方法,并在此基础少将涉及聚成分裂的组,同组的关联合共产党同学习。公共路径的貌似度具体值依照多少个涉及(或簇)的门路交集数量占比。

(2)怎样结合在联合读书?依循多任务学习的原则,对于联合磨练的分类器使用两有个别参数,即共享参数和村办参数。共享参数能够反映相似关系里面包车型客车得共性,私有参数用于描述分歧关系里面包车型客车特色。那两类参数在教练进程中是二头学习的。

作者:PRA的章程的使用恐怕存在局限,比如对于开放域知识图谱,如Reverb等,其关系项目各个且未事先定义,则无从对于每一个品种锻练分类器;而且那种各类系列练习分类器的情势消耗其实较大,更不便宜给定实体对的关系推理。是还是不是可以统一为3个分类器,只怕不是分类器,而是生成器,生成给定实体对的或然涉嫌,那样就利用于关系项目体系未知的开放域知识图谱。

A Position Encoding Convolutional Neural Network Based on Dependency Tree for Relation Classification

  • 作者:Yunlun Yang, Yunhai Tong, Shulei Ma, Zhi-Hong Deng
  • 机构:School of Electronics Engineering and Computer Science,
    Peking University

本文的职责为涉嫌分类,即对于给定句子中的给定实体对进展关联分类。本文叙述,守旧风味采纳的法门严重依赖于特征的身分以及词语财富,为了落成最优往往需求耗费时间的人工采纳特征子集。基于核函数的艺术即使不要选拔特征,但仍需精心设计的核函数并装有较大的测算开支。近期,随着神经网络的起来,深度学习所提供的端到端的方法被利用于广大经文的自然语言处理难题。KugaNN和CNN已经被认证对关乎分类具有巨大支持。

然则,一些研商工作评释古板的表征对于涉嫌分类的神经网络方法仍有升高效能,能够提供越多的音信。一个大约而使得的办法是将词语级的特点和神经网络获取的特点简单构成(一般是连接起来),组合后的象征输入到分类器。另一种越发复杂的章程是依照句子的句法依存树调整神经互联网的结构,取得了较好的效能。

本文认为,句法依存树在关系分类的天职上是很有价值的。正文发现实体对间的依存路径对涉及分类更有价值,比较于完全句子的并存路径,由于其现有路径的相距往往小于句子的水保路径距离,剪枝后的实体间依存路径收缩了成都百货上千噪新闻息。为了更好的利用句法依存所提供的言语学文化,本文建议了依照句法依存树和的岗位编码卷积神经互连网方法PECNN。方法的进程图如下:

生活大爆炸 6 

每一个词的代表由两片段组成:词向量、该词的依存树地方特征。职分特征的收获首要思想是将离散的职位映射到实数向量,它和词向量相似,只可是是将词替换为离散的离开。正文建议了二种艺术来定义依存树中的地点特征TPF壹 、TPF2。TPF1中远距离定义为眼下词到指标实体的最短路径中依存弧的个数,映射格局和PF相同,即区别的偏离随机开端化一个恒定维度的向量,磨炼的过程中上学。3个词到实体的最短路径能够划分为七个子路径:被压低祖先节点分割,TPF2则将相差用二元组表示,分别代表两个子路径的长度。下图是逐一词语到实体Convulsions的TPF1与TPF2:

生活大爆炸 7 

卓越的CNN的贰个卷积窗口每回得到当前词的接近上下文词语作为输入,在本文中为了丰富利用树结构音讯,本文将日前词的父节点和子节点作为作为其临近上下文输入到卷积窗口,相应的正文对卷积核也做了改动,采取了二种卷积核:Kernel-1、Kernel-2,具体定义见散文。个中Kernal-1意在从依存树中多层次抽取特征,而Kernel-2专注于发掘共享父节点的词之间的语义音讯。多少个核函数的轻重缓急均取3。最终将Kernel-① 、Kernel-2分别池化并拼接在协同作为CNN输出。

小编:本文利用卷积神经互连网对实业关系展开归类,革新性地将依存树作为输入,将词在树中的地点音讯嵌入式表示并拼接到词向量中协同学习,同时,本文对CNN面向树结构划设想计了超常规的卷积核。本文提议的格局在实体关系分类义务上,相比较于未选拔地点音信的CNN和LSTM取得了进一步提升。在尝试中本文也将POS等个性融入PECNN,也获得了较好的结果。但文中就如未深究卷积核设计对结果的影响,面向树结构的卷积核的宏图是不是是本文独立建议的?读者可参考文中参考文献探寻一下。

Hierarchical Random Walk Inference in Knowledge Graphs

  • 作者:Qiao Liu, Liuyi Jiang, Minghao Han, Yao Liu, Zhiguang Qin
  • 机构:School of Information and Software Engineering, University
    of Electronic Science and Technology of China

——–诗歌掠影——–

正文面向的任务是基于知识图谱的涉及推理。本文通过对照考察PRA方法和TransE方法在事关推理上的执行效果并分析原因,在PRA基础上建议层次的妄动游走算法HiRi进行实体关系推理。

本文首先叙述了基于知识图谱的涉嫌推理的相干工作,大体分为二种办法:首先是总计关系学习方式(S奥迪Q7L),如马尔科夫逻辑网络、贝叶斯网络,但那类方发必要统一筹划相应的规则,因而没有很好的扩大性和泛化性;嵌入式表示的点子,目的在于将实体和关联映射为空间中的向量,通过空中中向量的运算来展开推导(如TransE),该方法取得了较好的准确率,但分布式表示的解释性不强,别的,较难落到实处并行计算;基于关系路径特征的妄动游走模型,该格局能够拓展并行总结,具有较好的推行功用,但准确率与召回率相比较嵌入式表示学习的法子存在劣势。正文的想法是:是不是能够布署算法同时落到实处自由游走模型的执行功用以及保留嵌入式表示学习方法的准确率?

——–方法介绍——–

本文对TransE方法(嵌入式表示学习的表示)和PRA方法(随机游走模型的象征)进行相比较,在一对多、一对一 、多对多、多对一那四类关系上海展览中心开自己检查自纠分析:

生活大爆炸 8

相比发现:在1:M关系上,PRA远不如TransE;但在M:1提到上,两者很类似。有此现象,正文的第三个比方认为能够将文化图谱看做无向图,以此来逃避1:M关系上的弱势。

其它,PRA方法在M:M关系上也只达到了TrasnE方法效果的八分之四,本文认为那表达了PRA在多对多涉及上抽取的门道特征并从未丰富地行使多对多关系爆发的簇中的接连新闻(文中有举例表达那或多或少)。比较而言,嵌入式学习的主意由于将文化图谱全局音讯编码到向量空间里,所以可以充裕利用到那种新闻。

在应用多对多推理关系时,平日会用到事关的反向,即从尾实体到头实体的来头,那种推离的办法能够运用odd-hop随机游走模型来建立模型,基于此本文的第二个假使是:不无拓扑结构的涉嫌鲜明的簇恐怕会包括对推理很有帮助的新闻,那么,基于关系学习算法的肆意游走能够拉长推理能力。 

正文提议了一种层次化推理的架构,共分为多个部分:全局推理、局地推理、推理结果融合,结构框图如下:

生活大爆炸 9

大局推理是使用PRA算法进行推导,以得到安慕希组创造的可能率\(f(h,r_i,t)\);一对推理时在特定关系的子图(簇)上估测计算3个3跳的概率矩阵,以取得存在也许该关系的长富组可能率\(g(h,r_i,t)\),由于是在3个簇上实行的,那是三个有些的推理。万众一心的进度是运用一个线性模型对两有的的可能率融合,以获取最后的可能率。

作者:本文通过分析PRA与TransE的在分裂体系涉及上的差别,建议了五个比方,并在此基础上提议层次化的推理方法HiRi,即在全局和部分分别开展关联推理,最后融合在协同赢得推理结果。本文在第1个比方的提议上从未有过交到太多鲜明的诠释,所举的例子和该假若的提议在推进关系上稍加牵强,我未理清思路。其余,3跳的缘由是不是来自于“关系-关系反向-关系”路径,即3跳回到原关系?对于如若一,将关乎当做无向的,会带来哪些不良后果?前人是或不是有那上头的探索?

笔者:整理二〇一六-二零一七年ACL、EMNLP、SIGI陆风X八 、IJCAI、AAAI等国际资深会议中实体关系推理与文化图谱补全的相关故事集,供自然语言处理研商人口,越发知识图谱领域的大方参考,如有错误通晓之处请提出,不胜多谢!(如需转发,请联系本人:jtianwen2014,并注明出处)

相关文章

admin

网站地图xml地图