您的位置  > 互联网

知识图谱的定义、结构与知识库中的关系集合

作者 |

信息技术的发展不断推动互联网技术的变革。 Web技术作为互联网的标志性技术,是这场技术变革的核心。 从网页链接到数据链接,Web技术正逐步向Web之父李所设想的语义网络发展。 语义网络是由数据组成的网络。 语义网络技术为用户提供了一个查询环境。 其核心本质是将经过处理和推断的知识以图形化的方式返回给用户。 知识图谱技术是实现智能语义检索的基础和桥梁。

1.知识图谱的定义、结构和知识库

知识图谱的概念是谷歌于2012年5月17日提出的,谷歌将基于此构建下一代智能搜索引擎。 知识图谱技术创造了一种新的信息检索模型来解决信息检索问题。 问题提供新的想法。 本质上,知识图谱是一种语义网络,它揭示了实体之间的关系,可以形式化地描述现实世界中的事物及其关系。 目前的知识图谱已经被用来指代各种大规模的知识库。

知识图谱通常以三元组的形式表示,即G=(E,R,S),其中E={e1,e2,e3,...,en}是知识库中实体的集合,包括 | 电子| 不同的实体; R = {r1, r2,...,rn} 是知识库中的一组关系,包含|R| 不同的关系; S⊆E×R×E表示知识库中三类关系的元组集合。 三元组的基本形式主要包括实体1、关系、实体2以及概念、属性、属性值等。实体是知识图谱中最基本的元素,不同实体之间存在不同的关系。 概念主要指集合、类别、对象类型、事物类型,如人、地理等; 属性主要指对象可能具有的属性、特征、特性、特征、参数,如国籍、生日等; 属性值主要指对象的指定属性。 值,如中国、1988-09-08等。每个实体(概念的外延)都可以通过全局唯一的ID来标识,每个属性-属性值对都可以用来描述该实体的内在特征,并且关系可以用来连接两个实体并描述它们之间的关联。

知识图谱的架构主要包括其自身的逻辑结构和系统架构。 目前知识图谱大多采用

它是采用自下而上的方式构建的,其中最典型的是Vaule。 知识图谱系统架构如下图所示:

图1 知识图谱架构

随着语义Web资源数量的增加,大量RDF数据的发布和共享,以及LOD等项目的全面启动,学术界和工业界的研究人员花费了大量的精力构建各种结构化知识库。 这些知识库大致可以分为两类:开放链接知识库和行业知识库。 开放链接知识库的典型代表包括: 、 、 YAGO; 垂直行业知识库的典型代表包括:IMDB(电影数据)、(音乐数据)、(语义知识网络)。

2.知识图谱构建

知识图谱的构建包括三个步骤:(1)信息抽取:从各类数据源中抽取实体(概念)、属性以及实体之间的关系,并在此基础上形成本体知识表达; (2)知识整合:获得新知识后,需要进行整合,消除矛盾和歧义。 例如,某些实体可能有多种表达方式,一个特定的标题可能对应多个不同的实体等; (3)知识处理:对于已经整合的新知识,需要经过质量评估(有的需要人工参与筛选),合格的部分才能添加到知识库中,保证知识库的质量。 添加新数据后,可以进行知识推理,扩展现有知识,获取新知识。

(1)信息提取

信息抽取也称为知识抽取,是构建知识图谱的第一步。 它是一种从半结构化和非结构化数据中自动提取实体、关系、实体属性等结构化信息的技术。 具体分为:实体抽取、关系抽取和属性抽取。

实体提取,也称为命名实体识别,是指从文本数据集中自动识别命名实体。 实体抽取的质量(查全率和查全率)对后续知识获取的效率和质量影响很大,因此是信息抽取中最基本、最关键的部分。 实体提取方法大致可以分为三种类型:基于规则和字典的方法、基于统计机器学习的方法和面向开放域的提取方法。

关系抽取的目标是解决实体之间的语义联系问题。 早期的关系抽取主要通过人工构建语义规则和模板来识别实体关系。 随后,实体之间的关系模型逐渐取代了手动预定义的语法和规则。 关系抽取技术的目的是解决如何从文本语料中抽取实体之间的关系。 关系抽取大致可以分为两类:基于开放实体关系抽取的实体关系抽取和基于联合推理的实体关系抽取。

属性提取的目标是从不同的信息源收集特定实体的属性信息。 例如,对于一个公众人物,可以从互联网上的公开信息中获取其昵称、生日、国籍、教育背景等信息。 属性提取技术可以将来自多个数据源的信息组合起来,以获得实体属性的完整轮廓。 由于实体的属性可以被视为实体与其属性值之间的名义关系,因此属性提取问题也可以被视为关系提取问题。

(2)知识整合

通过信息抽取,达到从非结构化和半结构化数据中获取实体、关系和实体属性信息的目的。 但这些结果可能包含大量冗余和错误信息,而且数据之间的关系也比较扁平,缺乏层次和逻辑,因此需要对其进行清理和整合。 知识融合包括实体链接和知识融合两部分。 通过知识融合,可以消除概念歧义、消除冗余和误解,从而保证知识的质量。

实体链接是指将从文本中提取的实体对象链接到知识库中对应的正确实体对象的操作。 实体链接的一般过程为: 1.通过实体提取从文本中获取实体指称; 2. 进行实体消歧和共指消解,判断知识库中同名实体是否代表不同含义,以及知识库中是否存在其他命名实体代表相同含义; 3、确认知识库中对应实体正确选择实体对象后,将实体引用项链接到知识库中对应实体。

构建知识图谱时,知识输入可以从第三方知识库产品或现有的结构化数据中获取。 例如, Open Data 定期发布其积累和整理的语义知识数据,其中既包括通用知识库和之前推出的YAGO,也包括针对特定领域的知识库产品。 知识合并可以分为两个层次:合并外部知识库和合并关系数据库。

(3)知识加工

通过信息抽取,可以从原始语料中抽取实体、关系、属性等知识元素。 经过知识融合,可以消除实体指称与实体对象之间的歧义,得到一系列基本的事实表达。 然而,事实本身并不等于知识。 要最终获得结构化、网络化的知识体系,需要经过知识加工的过程。 知识加工主要包括本体构建、知识推理和质量评估三个方面。

本体论是同一领域内不同主体之间进行交流和联系的语义基础。 它主要呈现树形结构。 相邻的层次节点或概念之间存在严格的“IsA”关系,有利于约束、推理等,但不利于表达概念多样性。 本体可以通过人工编辑的方式手动构建,也可以通过数据驱动的构建自动构建,然后通过质量评估方法和人工审核相结合的方式进行修改和确认。

知识推理是指从知识库中现有的实体关系数据出发,利用计算机推理建立实体之间新的关联,从而扩展和丰富知识网络。 知识推理是知识图谱构建的重要手段和关键环节。 通过知识推理,可以从已有的知识中发现新的知识。 例如,给定(乾隆,父亲,雍正)和(雍正,父亲,康熙),可以得到(乾隆,祖父,康熙)或(康熙,孙子,乾隆)。 知识推理的对象不仅限于实体之间的关系,还可以是实体的属性值、本体的概念层次关系等。例如,如果已知实体的生日属性,则年龄属性可以通过推理得到实体的信息。 基于本体库中的概念继承关系,还可以进行概念推理。 例如,如果(虎,科,猫科)和(猫科,目,食肉目)已知,则可以推断出(虎,目,食肉目)。

质量评估也是知识库建设技术的重要组成部分。 由于当前技术水平的限制,利用开放域信息抽取技术获取的知识元素可能存在错误(如实体识别错误、关系提取错误等)。 知识的质量也得不到保证,所以在将其添加到知识库之前,需要有一个质量评估过程; 随着开放链接数据项目的推进,各子项目产生的知识库产品之间的质量差异也随着数据的增加,数据之间的冲突日益增多。 如何评价其质量对于全局知识图谱的构建具有重要作用。 引入质量评估的意义在于可以量化知识的可信度,通过丢弃置信度较低的知识来保证知识库的质量。

3.知识图谱的应用

知识图谱提供了更有效的方式来表达、组织、管理和利用互联网上海量、异构、动态的大数据,使网络更加智能,更接近人类的认知思维。 目前,知识图谱已经应用于智能搜索、深度问答、社交网络以及一些垂直行业,成为支撑这些应用发展的动力源泉。

基于知识图谱的智能搜索是一种长尾搜索,搜索引擎以知识卡片的形式展示搜索结果。 用户的查询请求会经历查询语义理解和知识检索两个方面。 国外搜索引擎的具体应用是和微软的Bing],而国内主流搜索引擎公司,如百度、搜狗,近两年也相继将知识图谱的研究从概念转向产品应用。

问答系统是一种高级形式的信息检索系统,能够以准确、简洁的自然语言为用户提供问题的答案。 问答之所以是检索的高级形式,是因为问答系统中也存在查询理解和知识检索两个重要过程,而智能搜索中相应过程的相关细节是完全一致的。 目前,很多问答平台都引入了知识图谱。 国内百度公司开发的小度机器人,以及天津聚文网络技术服务中心开发的大型在线问答系统OASK,专门为门户网站、企业、媒体、教育等各类网站提供良好的互动。 问答解决方案。

该社交网站于2013年推出了Graph产品,其核心技术是通过知识图谱连接人、地点、事物等,并以直观的方式支持精准的自然语言查询,比如输入查询:“我的朋友什么”比如“餐馆”、“住在纽约、喜欢篮球和中国电影的朋友”等,知识图谱将帮助用户在庞大的社交网络中找到与自己最相关的人、照片、地点和兴趣。 Graph提供的上述服务贴近个人生活,满足用户发现知识、找到最相关的人的需求。

以金融、医疗、电商为代表的垂直行业应用,打造金融反欺诈、智能营销、产品推荐等应用场景。

结论:

未来几年,知识图谱无疑将是人工智能领域的前沿研究问题。 知识图谱的重要性不仅在于它是一个全局知识库,更是支撑智能搜索、深度问答等智能应用的基础。 它也是一把能够打开人类知识宝库、开辟许多相关学科新领域的钥匙。 发展机会。 从这个意义上说,知识图谱不仅是一项技术,更是一项战略资产。

【参考】:

【1】刘巧,李阳,段红,等。 知识图谱构建技术综述[J]. 计算机研究与发展,2016,53(3):582-600。

【2】徐增林,盛永攀,何立荣,等。 知识图谱技术综述[J]. 电子科技大学学报,2016,45(4):589-606。