您的位置  > 互联网

图式知识图谱的主要技术5.1知识建模,你了解多少?

5. 知识图谱主要技术 5.1 知识建模

知识建模是对知识和数据的抽象建模,主要包括以下五个步骤:

以节点为主要目标,可以对不同来源的数据进行映射和合并。 (确定节点)用属性来表示不同数据源中对节点的描述,形成对节点的综合描述。 (确定节点属性和标签)用关系来描述抽象建模为节点的各类数据之间的相关性,从而支持相关性分析。 (图形设计)通过节点链接技术,实现节点周围多种类型数据的关联存储。 (节点链接)用事件机制来描述客观世界的动态发展,体现事件与节点之间的关联性,用时序来描述事件的发展。 (动态事件描述)

5.2 知识获取

从不同来源、不同结构的数据中提取知识,并将知识存储到知识图谱中。 这个过程称为知识获取。 我们将使用不同的技术来提取不同类型的数据。

从结构化数据库获取知识:D2R。

难点:复杂表格数据的处理。

从关联数据中获取知识:图形映射。

难点:数据对齐。

从半结构化(网站)数据获取知识:使用包装器。

难点:方便的包装器定义方法,包装器自动生成、更新和维护。

从文本中获取知识:信息提取。

难点:结果的准确性和覆盖范围。

5.3 知识整合

如果知识图谱的数据源来自不同数据结构的数据源,系统从不同数据源的不同结构的数据中提取出知识后,接下来要做的就是将它们合并成统一的知识图谱。 这时候就需要使用知识融合技术(如果知识图谱的数据结构都是结构化数据,或者是单模数据结构,则不需要使用知识融合技术)。

知识融合主要分为数据模式层融合和数据层融合。 使用的技术如下:

数据模式层融合:概念合并、概念下位关系合并、概念属性定义合并。 数据层融合:节点合并、节点属性融合、冲突检测与解决(例如某个节点的数据源包括:豆瓣论文、数据库、网络爬虫等,不同数据源的同一节点需要融合数据层)。

由于行业知识图谱的数据模型通常采用自上而下(由专家创建)和自下而上(由现有行业标准转换、由现有优质数据源(如百科全书)转换)相结合,在model 各层基本都经过人工验证,保证可靠性。 因此,知识融合的关键任务在于数据层的融合。

5.4 知识存储

图的数据存储不仅要完成基础数据存储,还要支持上层知识推理、知识快速查询、图实时计算等应用。 因此,需要存储以下信息:三元组(由起始节点、关系、结束节点三个元素组成)知识的存储、事件信息的存储、时间信息的存储以及使用知识图组织的数据的存储。

关键技术和难点在于:

大规模三元数据存储; 以知识图谱组织的大数据存储; 事件和时间信息的存储; 支持快速推理和图计算。

5.5 知识计算

知识计算主要基于知识图谱中的知识和数据,利用各种算法发现显性或隐性的知识、模式或规则等。知识计算的范围非常大。 这里我们主要讲三个方面:

图挖掘计算:基于图论的相关算法,实现图的探索和挖掘。 本体推理:使用本体推理进行新知识发现或冲突检测。 基于规则的推理:使用规则引擎编写相应的业务规则,通过推理辅助业务决策。

5.6 图挖掘与图计算

知识图谱的图挖掘和计算主要分为以下六类:

5.7 可视化技术

目前,两种常见的可视化工具是:D3.js 和 .

6.知识图谱的应用

知识图谱的应用场景有很多。 除了问答、搜索和个性化推荐之外,它还广泛应用于不同行业和领域。 以下是一些比较常见的应用场景。

6.1 信用卡申请反欺诈图谱

6.1.1 欺诈技术

银行信用卡申请诈骗包括个人诈骗、团伙诈骗、中介包装、伪造信息等。是指申请人利用自己的身份或者他人的身份或者编造、伪造虚假身份申请信用卡、申请信​​用卡等的诈骗行为。贷款和透支欺诈。

诈骗者一般会共享合法联系人的部分信息,如电话号码、联系地址、联系手机号码等,并通过它们的不同组合创建多个合成身份。 例如:3个人只需共享电话号码和地址这两条信息就可以合成9个假名身份。 假设每个合成身份有 5 个帐户,总共约 45 个帐户。 假设每个账户的信用等级为2万元,银行的损失可能高达2万元。

欺诈者利用共享信息形成欺诈团伙。

一开始,诈骗团伙中的账户是正常使用的,诈骗者会进行正常的购买、支付、还款。 这种行为称为“卡维护”。 “养卡”一段时间后,信用额度就会增加,久而久之就会增长到让诈骗者相对“满意”的限额。

突然有一天,诈骗团伙“消失”了,团伙里的所有成员在信用额度最大化后都逃跑了。

6.1.2 知识图谱解决信用卡申请反欺诈问题

使用传统的关系数据库,揭露欺诈团伙需要技术人员执行一系列复杂的联接和自联接,并且查询构建起来很复杂,导致效率低下、缓慢且成本高昂。

知识图谱产品利用图数据库的天然优势,直接设计所有可能涉及银行欺诈的有用数据字段:如申请号、账户、身份证、手机、地址、家庭电话、联系人、设备指纹等放入图节点,定义好图所需的所有节点和节点属性后,定义两个节点之间的关系。

例如:申请号节点与设备指纹节点连接形成“申请设备”关系,人员节点与地址节点连接形成“申请者地址”关系。

根据为业务设计的地图构建地图。 构建地图后,用户可以在关联地图平台上直接输入节点值,查询该节点的关联信息。 例如输入黑色手机号码,即可查看其关联的5层范围。 检查节点涉及的申请者信息,查看该节点是否与其他节点关联构成欺诈圈、该节点是否曾与历史黑节点关联等。

用户可以利用知识图谱产品在贷前防范风险,在贷中进行关联分析,发现可疑点,控制风险,在贷后进行风控,将损失降到最低。

6.2 企业知识图谱

目前,在金融证券领域,应用主要集中在企业知识图谱。 企业数据包括:企业基础数据、投资关系、雇佣关系、企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据、企业新闻数据等。

利用知识图谱整合上述企业数据,可以构建企业知识图谱,并在企业知识图谱之上利用图谱的特性,拥有一系列针对金融业务场景的图应用。 示例如下:

(一)企业风险评估

基于企业基本信息、投资关系、诉讼、失信等多维度相关数据,采用图计算等方法,构建科学严谨的企业风险评估体系,有效规避潜在的经营风险和财务风险。

(2)企业社交图谱查询

基于投资、用工、专利、投标、诉讼等关系,以目标企业为核心向外层层扩散,形成网络关系图,直观、立体地展示企业关系。

(三)企业最终控制人查询

根据股权投资关系找到持股比例最大的股东,最终追溯到自然人或国有资产管理部门。

(4)企业间路径发现

在基于股权、雇佣、专利、投标、诉讼等形成的网络关系中,查询企业之间的最短关系路径,衡量企业之间联系的紧密程度。

(五)初创企业融资发展历程

根据企业知识图谱中投融资事件的时间顺序,记录企业的融资发展过程。

(六)上市公司智能问答

用户可以输入自然语言问题,系统会直接给出他们想要的答案。

6.3 交易知识图谱

金融交易知识图谱在企业知识图谱之上,增加了交易客户数据、客户之间的关系数据、交易行为数据等,并利用图挖掘技术,包括很多业务相关的规则,来分析实体之间的关系。 ,最终形成金融领域的交易知识图谱。

在银行交易反欺诈方面,可以从身份证、手机号码、设备指纹、IP等多个维度对持卡人的历史交易信息进行自动关联分析,通过关联分析可以识别可疑人员和可疑人员。交易。

6.4 反洗钱知识图谱

针对反洗钱或电信诈骗场景,知识图谱可以精准追踪卡间交易路径,从源账户/卡号/商户等链接到最终收款人,识别洗钱/套现路径并可疑人员,通过交易痕迹层层链接识别可疑人员,获取更多可疑人员、账户、商户或卡号等实体。

6.5 信用/消费贷知识图谱

针对互联网信贷、消费贷、小额现金贷等场景,知识图谱可以从身份证、手机号码、紧急联系人手机号码、设备指纹、家庭住址、办公地址等多个维度分析申请人的申请信息和IP。 进行自动化关联分析,通过关系和规则识别图中的异常信息,有效判断申请人信息的真实性和可靠性。

6.6 内部控制知识图谱

在内控场景的经典案例中,中介机构利用对方的信息不对称,秘密转移银行的企业存款。 在公司负责人不知情的情况下,中介人已将公司在银行的所有存款转移并消失。 不看。 通过建立企业知识图谱,可以实时交换信息,发现一些隐藏信息,发现欺诈漏洞,找到资金流向。