加入收藏 | 设为首页 | 会员中心 | 我要投稿 江门站长网 (https://www.0750zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

如何高效自动构建知识图谱

发布时间:2020-11-14 13:37:27 所属栏目:动态 来源:互联网
导读:HAO-Graph 基于明略科技的 HAO 智能技术,是已知的首个公开发布的从语音中构建知识图谱的系统,实现了中文文本和语音知识图谱的实时生成和可视化。与此同时,明略科技在最近的 WAIC 2020 上还进一步开放了其 Text2KG API 接口,帮助相关从业人员进行知识图谱

HAO-Graph 基于明略科技的 HAO 智能技术,是已知的首个公开发布的从语音中构建知识图谱的系统,实现了中文文本和语音知识图谱的实时生成和可视化。与此同时,明略科技在最近的 WAIC 2020 上还进一步开放了其 Text2KG API 接口,帮助相关从业人员进行知识图谱底层的数据收集、标注、抽取、以及关联等相关任务,避免了大量的重复工作,节省开发者的时间。

在深度学习发展进入瓶颈的时期,结合知识成为了下一步人工智能技术突破的关键,而知识图谱必然是核心驱动力之一。我们期待这一技术在未来有更大、更广的应用。
 

知识获取是知识图谱自动构建的核心,而非结构化知识又是知识获取里面最需要攻克的技术难点。近年来,深度学习和相关自然语言处理技术的迅猛发展使得非结构化数据的自动知识抽取少人化、乃至无人化成为了可能。与传统方法相比,深度学习方法减少了对外部工具的依赖,能构建端到端的系统直接进行实体识别、关系抽取等任务,简单高效。

在深度学习的基础上,艾伦人工智能实验室和微软的研究人员结合自然语言处理领域较为成功的预训练语言模型,提出了自动知识图谱构建模型 COMET(COMmonsEnse Transformers)[8]。该模型可以根据已有常识库中的自然语言内容自动生成丰富多样的常识描述,在 Atomic 和 ConcepNet 两个经典常识图谱上都取得了接近人类表现的高精度,证明了此类方法在常识知识图谱自动构建和补全方面替代传统方法的可行性。
 

实体抽取:主要是指命名实体识别(Named Entity Recognition, NER)任务,即从纯文本中自动识别并提出特定类别的命名实体,如人物、组织、地点、时间、金额等。实体抽取是知识抽取中最基础的步骤,早期主要是通过人工编写规则的方式进行抽取,但规则不易总结、成本高且移植性差,目前主要是作为补充方法使用。在这之后,实体抽取多采用基于特征的统计方法,使用如隐马尔可夫(HMM)和条件随机场(CRF)等模型,将实体抽取当做序列标注问题进行预测标注。而近年来,随着深度学习的发展,目前较流行的方法是将统计方法与深度神经网络相结合,使用如长短期记忆网络(LSTM)自动提取特征,再结合 CRF 模型标注提取实体,自动化程度更高,适用范围更广。

关系抽取:指从文本中识别抽取实体之间的关系,抽取结果常使用 SPO 结构(即主谓宾结构)的三元组来表示。与实体抽取类似,早期主要使用基于模板的方法(触发词模板、依存句法分析模板等),近年来开始发展出半自动的基于监督学习的方法(CNN、RNN 等)和纯自动的基于弱监督学习的方法(远程监督、Boostrapping 等)。目前在关系抽取任务上取得最佳表现的模型大多融入了注意力机制,如 Attention CNNs 模型和 Attention BLSTM 模型等。

事件抽取:指识别文本中目标事件的信息,并以结构化的形式呈现。例如从投融资新闻中定位融资公司、融资金额、投资企业等信息;或是从恐怖袭击事件的新闻报道中识别提取出袭击发生的时间、地点和受害人信息等。事件抽取同时涉及到实体和关系抽取的相关技术。从宏观的事件抽取思路上来看,事件抽取的方法可分为流水线抽取和联合抽取两大类方法。流水线抽取的思路是将事件抽取任务进一步分解为事件识别、元素抽取、属性分类等一条流水线上的多个子任务,分别使用相应的机器学习分类器实现,这是目前事件抽取的主流方法。联合抽取则主要是采用基于概率图的模型进行联合建模,或基于深度学习的方法(如基于注意力机制的序列标注模型),将事件的多个元素作为一个整体共同识别并提取。
 

如何构建知识图谱?

一般来说,构建一个知识图谱通常会经历知识获取、知识表示与建模、知识融合、知识存储,以及构建完成后的知识查询和推理几大要素:

知识获取:从不同来源、不同结构的数据中抽取知识(实体、关系以及属性等信息),这是知识图谱构建的核心与前提条件。

知识表示与建模:为知识制定统一的数据架构(data schema),将获取到的知识依照统一的数据结构存储并形成知识库,这是知识图谱正式构建的第一步,影响着后续的知识融合、存储以及查询推理可以使用的方法与效果。

知识融合:将不同源的知识以统一的框架规范进行验证、消歧、加工等异构数据整合工作,这是知识图谱更新与合并的必经之路,为不同知识图谱间的交互融合提供可能性。

知识存储:依据数据量的大小、数据特征以及应用需求的不同,选取合适的存储模式,将获取到的数据存储起来,形成知识图谱。

知识查询与推理:基于构建完成的知识图谱进行查询,或者进一步推理挖掘出隐藏知识来丰富、扩展知识图谱,这是知识图谱构建的最终目的,与知识获取共同影响着知识图谱的应用场景和范围。

(编辑:江门站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!