知识图谱:技术成熟度飞速跃升,与产业互联结合更加紧密

国双数据科学团队刘燕

对比 2020 和 2019 年 Gartner 发布的人工智能领域的技术“成熟度曲线”(Hype Cycle),在短短 1 年时间,知识图谱的成熟度由创新触发阶段一跃达到预期膨胀高峰阶段且非常接近最高点。

知识图谱逐渐成为人工智能应用的强大助力。

曲线表示,知识图谱的发展还需要 5 - 10 年时间才能到达成熟的阶段,知识图谱依然有很大的发展空间。

知识图谱:技术成熟度飞速跃升,与产业互联结合更加紧密的图1

知识图谱:技术成熟度飞速跃升,与产业互联结合更加紧密的图2

本文将从知识抽取、知识融合、知识推理的角度探索过去一年知识图谱在自动构建领域的技术突破,并结合图机器学习、图数据库探讨相关领域的技术发展。

在应用上,知识图谱在 2020 年与产业互联的结合更加紧密,除了在数据治理、搜索与推荐、问答等通用领域有所突破之外,在智能生产、智慧城市、智能管理、智能运维等众多领域,以及工业、金融、司法、公安、医疗、教育等众多行业也都有进一步的场景化落地的突破。

一、 重要的技术发展

知识图谱构建

2020 年,利用自然语言处理、机器学习等技术从多源异构的数据资源中自动构建知识图谱的技术取得长足进展。

主要涉及到两种方法:一种是基于语言规则的方法,另一种是基于统计分析的机器学习方法。自动构建的过程中,如果数据是结构化的 ( 例如图表数据 ),已知属性名称、属性间的层次结构等,构建知识图谱相对较为容易。

如果缺乏以上信息,则只能通过文本信息等非结构化数据中提炼知识构建知识图谱,技术上将面临很多挑战。

下面,我们从知识抽取、知识融合、知识推理这三方面来说明。

1. 知识抽取

2020 年以来,更多知识抽取的研究工作被用来支撑更加复杂的应用场景。多学科多领域交叉研究成为一个新的特点。小样本学习在业界逐渐为人所关注。整体来看呈现以下趋势:

(1)多模态(Multimodal)。

多模态并非 2020 年提出的新概念,但是 2020 年对于多模态的研究热度较往年相比提升了很多。

目前 NLP 领域多模态研究主要集中在跨语言和视觉的模态研究上,且多模态知识图谱也逐步成为一个新的趋势。多模态研究包括多模态信息对齐,多模态文本生成,多模态推理,多模态表示,基于语言的视觉导航等。

多模态研究的基础是模态融合和语义对齐,现在有很多工作研究从图片或文本中提取出结构化的知识,进行语义对齐。

目前多模态的相关研究还处于起步阶段,什么场景使用以及如何使用还需要进一步探索

(2)任务复杂化(Task complexity)。

2020 年以来,知识抽取任务更贴合实际应用场景,复杂化的知识抽取任务向我们提出了新的挑战。

关系抽取任务已不满足于抽取封闭的三元组关系,而更贴合实际情况,出现了很多复杂关系和开放关系的抽取任务。例如,2020 LIC 比赛中关系抽取赛题相比 2019 年增加了复杂关系抽取;部分关系抽取工作从句子级别向篇章级别和多文本抽取过渡;很多研究开始探索如何利用深度学习模型自动发现实体间的新型关系,实现开放关系抽取等。

对于常规的信息抽取任务,已经逐步往语义理解上转变,并基于此衍生出很多阅读理解和知识推理的任务 。

在实体融合和指代消解等任务上的研究,场景也更为复杂,逐步向深层次语义理解和知识推理演变。

(3)零次学习(zero-shot learning)和小样本学习(few-shot learning)。

Zero-shot 和 few-shot 一直是知识抽取研究的难点,2020 年对于 zero-shot 和 few-shot 有了更多深入的研究,包括利用集成学习、多任务学习、预训练模型、知识表示等方法结合深度学习模型进行的相关探索。

预训练模型的发展使得很多知识抽取工作的瓶颈下降,但是相对来说,领域迁移和冷启动问题还是目前的难点。近几年出现了很多结合知识图谱进行知识表征,添加多模态信息,结合多领域进行多任务学习等融合多源知识的相关方法和研究,并取得了一定进展。

除此之外,多学科多领域交叉也是 NLP 和知识图谱领域在 2020 年比较大的特点。例如知识表示,包括文本表示、图表示、多模态表示之间的交叉和结合研究。

同时在知识抽取的多种任务中,都有多领域多学科结合相互指导优化的发展趋势,不同任务,不同学科之间的边界变得越来越模糊 。

总的来说,2020 年是知识抽取研究飞速发展的一年,科学研究者们已经不满足于一些简单的知识抽取任务的实现,开始探索更贴合实际的应用场景。对于任务的探索边界也越来越不明显,并出现了很多结合多源异构信息的相关探索。除此之外,多模态和知识图谱表征仍然有很大发展空间。

2.知识融合

知识融合方面一直以来都面临两个重要的技术挑战,一是数据规模的挑战,数据量大,种类多样性,存储位置不同、结构不同;另一个是数据质量的挑战,数据命名模糊,格式不同,数据缺失,噪音问题严重。

这两个问题无论是以前,还是 2020 年度,一直都是知识融合方面面临的严峻挑战。

数据规模方面,行业算力的不断提升使实用系统可以有效处理更大规模的图谱数据。在多个知识图谱联合使用的知识融合方面,本年度 ACM SIGKDD 提出了 KGSF,通过互信息最大化,对齐不同图谱中的语义空间,实现多知识图谱的语义融合。这种方法使用多个知识图谱打通了不同类型信息的语义鸿沟,在会话推荐系统的任务上起到了很好效果,也为融入多个外部的知识图谱提供了一条可行之路。

数据质量方面,在处理不同知识图谱对齐问题中,本年度提出了一种不同知识图谱中语义相似的实体进行关联时的噪音问题的解决方法。在现有方法大多都是面向干净数据的前提下,带有噪音检测和基于噪音感知的实体融合方法探索出了一种鲁棒的实体对齐方式,鲁棒性的跨语言实体对齐模型,通过图神经网络建模知识图谱中的实体对,得到噪音感知的实体对齐模块,利用生成对抗网络来生成噪音实体对并训练一个噪音判别器,识别出干净的实体对。

3. 知识推理

知识推理方面,多种新颖观点在顶级会议上被提出,例如:图谱推理在图像视频描述生成领域的应用,以及垂直领域的推理任务等。

在常识问答方面,可以基于图的上下文表示学习和基于图的推理方法 ,利用不同结构的知识源进行常识问答。不针对于具体领域和具体任务,本年度还提出了一个 RNNLogic 的概率方法 ,该方法包括一个使用递归神经网络生成逻辑规则的规则生成器,和一个带有逻辑规则的推理预测器,并使用基于 EM 算法的优化,从学习逻辑规则的角度给出了一个知识图谱推理的有效方案。

另外也有基于知识图谱的向量嵌入技术,完全基于向量操作进行推理演算;基于 Neural Logic Programming 框架,在数值推理问题方面也向前迈进了一步。

图机器学习

图机器学习领域目前刚刚到达图论和机器学习的交叉点。包括图上深度学习的启发式应用到图模型范围等问题都在进行广泛和深入的研究。

同时,知识图谱与机器学习相结合的研究也逐渐增多,相关研究成果在顶级会议上的提交率有所增长:

1. 在图嵌入方向,学者提出了一种新的 KGE 框架自动实体类型表示(AutoETER)[21],通过将每个关系看作是两个实体类型之间的转换(translation)操作来学习每个实体的潜在类型嵌入,并利用关系感知映射机制来学习每个实体的潜在类型嵌入;

2.知识推理方向,学者提出了一种新的框架,用于嵌入学习和跨多个特定语言的 KG 进行集成知识迁移。该框架将所有 KG 嵌入到一个共享的嵌入空间中,在那里基于自学习捕获实体之间的关联。然后,进行集成推理,合并来自多个特定语言 KG 嵌入的预测结果;

3.知识图谱与推荐系统结合方向,学者首先算出图中各类型节点的嵌入,结合注意力机制,利用邻居节点为中心节点提供更丰富的信息,然后利用传统的“头结点+关系=目标节点”的方法训练最终的图嵌入表示,最后接入下游的推荐系统模型。此外,图神经网络 GNN 被广泛应用于图机器学习。前沿的关于图机器学习的研究对 GNN 有更扎实的理论理解。

图数据库

2020 年以来,为了满足强关联和网络型数据的存储、查询和大规模图分析的性能需求,图数据库在其底层数据结构的设计上也尽量贴合关系数据的搜索模式,减少磁盘的 I/O 操作时间。传统关系型数据库的 B+树数据结构在数据检索和随机数据读取上有优秀的性能,而对于关系数据的遍历则显得相形见绌了。

分布式图数据库在对图分割上有以点分割和以边分割 2 种方案。在 2020 年越来越多的新型分布式图数据库会选择以边分割的方案,甚至是把图节点的属性和边同样对待,统称为谓词 。相同的谓词会存在同一台或几台机器上。这样很多查询,特别是多跳查询可以集中在少量的机器上完成,大大减少数据传输带来的网络开销。新型的分布式图数据库在百亿数据量的规模下, 单点的多跳查询能做到毫秒级返回。

二、主要应用

知识图谱是把人类的知识和经验代码化的有效工具,赋予机器认知智能以构建智能体在不同应用场景中代替或帮助人类解决实际问题。

接下来,我们将从通用和垂直两个层面探讨其应用。

首先,知识图谱在通用领域的应用:

1. 数据治理

2020 年,知识图谱被逐渐应用在数据治理中。政务、金融、审计等行业均有尝试。

部分企业提出数据、管理、业务的三层图谱概念。也有企业从场景落地出发,提出“数据”与“知识”双驱动:即,从生产、经营、管理等实际业务场景出发,将业务、流程、指标中的知识构建成知识图谱。

一方面,应用知识图谱将业务场景与数据关联起来,让机器知道什么业务场景需要什么数据,这些数据必须达到怎样的标准和质量,进而帮助数据治理;另一方面,通过数据治理所形成的业务发现沉淀到知识图谱里,在数字化转型中释放价值。

这样一来,一些传统数据治理中的难题得到进一步解决:通过知识、模型以及图结构的应用,一些错误的、不一致的信息可以被发现、统一;基于业务规则定义,可识别潜在的数据关联关系,进一步补充信息。

知识图谱将业务数据、产业知识、通用常识、机理模型、决策网络、机器学习模型进行混合存储,实现知识和数据沉淀赋能智能应用。在业务场景的驱动下,应用知识图谱可以有效实现数据治理与业务治理的迭代闭环。

2. 搜索与推荐

随着知识图谱的深层应用,2020 年,搜索与推荐更加智能,并在消费领域之外的生产、管理等方向不断下沉。

在面向生产、管理等垂直业务领域,领域知识、事件图谱的应用提升了检索效率与质量。一些非结构化或半结构化数据应用较多的专业,如审计、医疗、金融、司法、各类型研究结构等,文书、文献、案例/判例、研究成果、专家经验被引入到领域知识图谱的构建中。通过对不同层次知识分析、加工、结构化处理,在常规检索之外,实现知识的钻取和深度挖掘。

在这个过程中,一些企业通过知识标注工具,将业务实体、属性和关联关系标记出来,把标记的实体和关系存入知识库,并把它们沉淀成自动知识抽取模型的训练语料;也有一些企业通过映射、连接及各类 D2R 操作,将结构化数据库的数据字典、表结构、关系及数据库内容转换为知识图谱的本体、业务实体、实体间关系组成的三元组,以便于人们从研究对象、研究主题、业务分类等多个维度检索出相关结果。

其次,知识图谱在垂直领域的应用:

1. 智慧生产

工业知识图谱是知识图谱的重点发展方向。今年人们对知识图谱在生产领域的探索贯穿了产品生产的各个环节:

(1) 仿真模拟:

以石油化工业领域的应用为例。考虑到石化产业具有易燃易爆、工艺复杂等特点,现实中有大量无法通过机理模型或模拟软件解释的现象。为方便生产线工人的日常作业,人们通过构建产业链知识图谱,在短时间内从众多影响因子的因果变化关系中进行生产操作前的模拟:如工人准备改变某可操作变量时,可通过图谱预测操作带来的变化;如工人试图达到某结果时,可通过图谱提前预判操作步骤 。

(2) 产品研发:

在知识图谱的支撑下可以围绕产品发展趋势为新产品市场定位提供决策知识;可以识别新产品在不同使用场景下的使用方法和使用要求,推送其他产品的应用案例;还可以提供已有的相似产品、相关技术、领域专家和信息化工具软件等信息 。

(3) 产品质量提升:

通过监控生产过程中的实时参数曲线构建核心部件的健康指数模型,在识别关键因素的基础上进行参数推荐,提升良品率。

(4) 生产预测:

在机理模型与经验模型融合的基础上,结合生产知识图谱实现图迭代计算,计算出某因子发生变化时整个关系网络达到稳定后各个产物节点的状态值,实现更准确的生产预测 [26]。

(5) 供应链风险管理及零部件选型:

可以汇集产品知识、物流知识、采购知识、制造知识、交通信息等等构建供应链及零部件图谱,将采购、物流、制造联系起来,通过语义网(关系网)实现供应链风险管理与零部件选型。

(6) 节能减排:

集成、分析物联网传感器和系统的信息,打通建筑物管理、居住舒适度调节、电源监控等数据孤岛,构建智能建筑领域的物联网知识图谱。降低开发者和工程师的工作量,实现最优化的智能建筑运营 。

(7) 设备故障预警与安全生产:

以石油领域为例,油田联合站承担原油处理、存储与外输任务,是一级防火、甲级防爆单位。通过设备知识图谱和决策知识图谱,一方面可以将设备的生产参数变化转换为状态变化和各种生产现象,模拟专家分析设备运行过程,对设备运行状态进行预测;此外,还能基于不同生产现象的变化在决策图谱中自动选择最优措施方案,生成决策建议,通知现场管理人员进行现场作业和处理。

2.智能营销

消费者、商品的图谱构建更加深入、完善。

(1) 消费者:

数据进一步打通。除用户基本信息、行为特征之外,兴趣、场景、需求等内容也逐渐丰富到消费者图谱内。用户价值模型、购买驱动因素模型等模型应用也扩展了图谱内容。

(2) 商品:

一些企业通过构建事件图谱、视频理解图谱强化对事件、场景的感知,尝试从文本到多媒体的跨越,丰富产品构建内容;在消费品领域,消费者对产品的别称、昵称、缩写等非常丰富,制约了图谱构建效率,还有一些企业在图融合领域不断探索,提升实体的自动化对齐效果。

部分应用:

(1) 自动撰文:

挖掘主竞品文章中对业务有价值的高频词语和短语,形成实体库;通过本体及实体的挖掘找到人群与需求、人群与场景的关系;挖掘属性和评价词语,与相关实体关联,形成实体的评价印象;解析句子的语法结构以及与本体、实体的关联,使机器撰写更接近人的行文习惯。

(2) 购买意向预测与内容推荐:

结合机器感知、特征标签和业务经验对用户特征进行价值挖掘,把用户特征输出成参数,用模型筛选出适合参加某些活动的人群;通过聚类,利用 K-means 对具有较高购买可能性的人群进行类别划分;针对不同群体的需求,如价格、兴趣、场景等传递不同的内容信息,提升内容推荐效果。

3.AIOps(智能运维)

主要是将知识图谱与根因分析相结合,进一步提升运维效率和质量。

今年比较流行的做法是:通过应用业务日志、CMDB 配置系统等数据构建异常事件图谱;再运用推导模型进行根因定位,对存在异常的子系统及其相关的 IP、DCN、服务信息进行提取,对异常事件知识图谱进行裁剪;最后,再应用规则引擎推导出根因结论。

一些企业会针对告警数据进行分类,利用软硬件知识图谱将有关联的物理机、虚拟机和软件数据汇聚为一组,便于后续建模和应用;一些企业对不同时间粒度的样本构建因果图,通过对算法构建的因果图构建告警知识图谱,让运维人员在快速查询故障设备信息的基础上进一步了解故障发生原因以及后续处理步骤;

还有一些企业尝试将基于专家规则的推理与基于描述逻辑的推理、基于分布式表示的表示学习推理、本体推理、复合推理相结合,利用知识图谱让系统自动采取相应的恢复手段、维护策略,实现网络的 “自维护”。

4.智能管理

这里,我们主要介绍在政府管理中的应用。

我们知道,在政府日常管理中,政务数据与政府、企业、非盈利组织和公民等多角色密切相关,需要依据各类规章制度,涉及大量单据、文档材料等非结构化、半结构化与结构化数据。由于政务业务的变动和对数据的认知变化导致的数据类别上的增加或变化的发生频率很高,知识图谱的本体自动构建技术和基于动态知识图谱的数据集成方案技术非常必要。

今年,一些企业正在基于聚类算法和强化学习结合的模式开发 schema 自动构建和根据反馈调整知识图谱的能力来满足业务动态变化的需求,以减少工作成本,提升效率。还有一些企业利用动态知识谱图技术,将模型与数据进行解耦,降低大规模数据集成场景下知识图谱变化带来的计算压力 。

通过知识图谱的应用,一方面打破了数据孤岛,将大规模、碎片化的多源政务数据关联起来,以实体为基本单位对政务数据进行挖掘,揭示各实体间的复杂关系,实现知识层面的数据融合与集成。同时,也更大程度的释放了政务数据价值,为政府部门、企业、非营利组织、公民提供更高水准的服务,提高政府监管效率和效能 。

三、知识图谱行业和技术发展的展望

1、技术发展趋势展望

知识图谱主要技术包括知识获取、知识表示、知识存储、知识建模、知识融合、知识计算、知识运维等七个方面,尽管目前已取得了很多成就,但仍在快速演进当中。

例如,在知识获取方面,资源缺乏、面向开放域、跨语言及跨媒体等方向的知识抽取正在成为未来的研究方向;

知识表示方面,符号与表示学习的融合统一、面向事理逻辑的知识表示、融合时空间维度的知识表示、融合跨媒体元素的知识表示正在成为未来的研究方向;

知识存储方面,基于 RDF 和 LPG 知识表示的分布式存储、涉及高适应性的知识存储、基于 LOD(Linked Open Data)的知识存储、Hyper Graph 的进一步研究和应用正在成为未来的研究方向。

2、应用趋势展望

目前,大规模知识图谱的应用场景还比较有限,其在智能语义搜索、深度问答(包括基于信息检索的问答系统、基于语义分析的问答系统)、演化分析、对话理解等方面的应用也处于初级阶段,仍具有广阔的应用与推广前景。

从知识图谱应用发展趋势来看,当前正在从通用知识图谱应用向领域或行业知识图谱应用拓展,如金融、医疗、公安、医疗、司法、电商等,依托知识图谱强大知识库的深度知识推理能力和逐步扩展的认知能力,帮助相关行业从业者对特定的问题进行分析、推理、辅助决策。

3、标准化趋势展望

随着 ISO/IEC JTC1/SC42、W3C、IEEE、全国信息技术标准化技术委员会、国家人工智能标准化总体组等国内外标准化组织或机构对知识图谱标准化的关注与推动,《知识图谱技术架构》等多项知识图谱相关国际、国家标准获得立项或提出讨论。

未来,知识图谱领域基础共性及关键技术标准将不断涌现,依托正在研制的知识图谱技术架构等标准,通过聚焦核心标准化需求逐步建立基本的知识图谱标准体系并孵化典型行业中的知识图谱应用标准,形成国际标准、国家标准、行业标准和团体标准良性互动的局面。

4、技术开发与应用相关建议

(1)加强知识图谱核心关键技术支持与突破:

突破知识图谱基础理论及关键核心技术瓶颈,以算法为核心,以数据和硬件为基础,以大规模知识库的构建与应用为导向,实施重大关键技术攻关工程。

(2)加强知识图谱优秀解决方案/产品展示与推广:

通过梳理知识图谱在典型行业的优秀案例并形成案例集,建设开放性实验室,推出优质培训课程等方式加强知识图谱优秀平台或产品的展示与推广,打破知识图谱开发企业、研究院所、高校与各领域企业间的沟通屏障。

(3)加强通用和领域知识图谱开放平台建设:

开放的通用知识图谱和领域知识图谱平台是推动知识图谱技术在各行业融合应用的重要基础设施,能够避免企业在建设知识图谱过程中从零开始或重复建设,也可降低知识图谱项目实施方的设计开发成本。

2022年11月11日 — 2022年11月15日

一、知识图谱概论

1.1知识图谱的起源和历史

1.2知识图谱的发展史——从框架、本体论、语义网、链接数据到知识图谱

1.3知识图谱的本质和价值

1.4知识图谱VS传统知识库VS关系数据库

1.5经典的知识图谱

二、知识图谱应用

2.1知识图谱应用场景

2.2知识图谱应用简介

三、知识表示与知识建模

3.1知识表示概念

3.2 知识表示方法

3.3典型知识库项目的知识表示

3.4知识建模方法学

3.5知识表示和知识建模实践

四、知识抽取与挖掘

4.1知识抽取基本问题

4.2数据采集和获取

4.3面向结构化数据的知识抽取

4.4面向半结构化数据的知识抽取

4.5.面向非结构化数据的知识抽取

4.6.知识挖掘

4.7知识抽取上机实践

五、知识融合

5.1知识融合背景

5.2知识异构原因分析

5.3知识融合解决方案分析

5.4.本体对齐基本流程和常用方法

5.5实体匹配基本流程和常用方法

5.6 知识融合上机实践

六、存储与检索

6.1.知识图谱的存储与检索概述

6.2.知识图谱的存储

6.3.知识图谱的检索

6.4.上机实践案例:利用GraphDB完成知识图谱的存储与检索

七、知识推理

7.1.知识图谱中的推理技术概述

7.2.归纳推理:学习推理规则

 上机实践案例:利用AMIE+算法完成Freebase数据上的关联规则挖掘

7.3.演绎推理:推理具体事实

7.4.基于分布式表示的推理

7.5.上机实践案例:利用分布式知识表示技术完成Freebase上的链接预测

八、语义搜索

8.1.语义搜索概述

8.2.搜索关键技术

8.3.知识图谱搜索

8.4.知识可视化

8.5.上机实践案例:SPARQL搜索

九、知识问答

9.1.知识问答概述                       

9.2.知识问答基本流程

9.3.相关测试集:QALD、WebQuestions等

9.4.知识问答关键技术

9.5.上机实践案例:DeepQA、TemplateQA

默认 最新
当前暂无评论,小编等你评论哦!
点赞 评论 收藏
关注