您的位置  > 互联网

数据科学家和分析师驾驭多样、多源的数据分析

1.数据融合的价值

数据融合(data)不同于数据仓库(Data)和数据集成(Data)。 其目的不是汇集并标准化来自企业()或组织的所有数据以产生单一的真相()。 它的目的是通过从多个数据源中提取、合并和整理相关数据到分析数据集()来生成决策智能。 这个分析数据集是一个独立且灵活的实体,可以随着数据源的变化而重新组织、调整和更新。 数据融合相对于数据仓库和数据集成的另一个优点是它可以容纳多源数据。

数据融合的另一个价值是发现新规律和新价值。 比如,以前用户信用主要是根据是否有历史贷款违约情况来判断,但很多人没有贷款关系数据,那么如何评估呢? 芝麻信用创新性地融合互联网数据、身份特征、行为偏好、社交关系等生活属性数据,对用户信用进行画像。 这就是数据融合的价值。 不同行业数据的整合互补、完整,将有效提升数据的内涵价值。

2. 数据集成的真实需求

最重要的原因是用户数据的碎片化,无法完整勾勒出用户的全貌。 比如你的购物数据在京东、天猫,通话数据在移动电信,交易数据在银行金融,社交数据在腾讯微信,搜索数据在百度等。

数据的碎片化特性导致用户对数据的理解片面,从而可能导致错误的决策。 例如:目前京东与今日头条的“京条计划”就是数据合作的一个例子。 您在京东搜索的商品在浏览今日头条时会不时展示,提高购买率。 这里的一个缺陷是,如果在淘宝上购买过该商品,仍然会出现该页面,导致用户体验下降。

3.数据融合的三种方法

从交互程度来看,数据融合方法可分为数据组合、数据集成和数据聚合三个层次,从低到高,逐步实现数据之间的深度交互。

(1)数据组合是由各方数据简单组合而成,能够提供客户用户特征的全貌。 这种数据的融合会产生物理反应,而数据属性的本质并不会改变。 例如,信用报告包含交易数据、通信数据、购物数据等。它是简单组装的。 如下所示:

(2)数据集成需要多方数据共存才能实现产品价值。 这些数据的融合产生化学反应,从而产生价值。 例如:黑名单,可以通过金融数据和通信行业数据来判断是否被列入黑名单。 如果用户出现金融行为异常,且用户频繁更换手机、停机次数较多,则基本可以识别出列入黑名单的用户。

(3)数据聚合(核反应)通过双方数据聚合的孵化,创造新产品、新模式。 如:分期贷款。 通过大数据风控能力,不仅减少审核流程,还可以实现贷款监控和贷后管理,还可以定位和归集流失用户。

3.数据融合面临的问题

数据融合是当前大数据应用和智能决策过程中的瓶颈。 此外,数据融合也不是一件容易的事,需要解决数据壁垒、数据标准、数据安全等一系列问题。 其中三个更重要的问题是:

(一)数据安全问题

如何保证数据安全、保护客户隐私、兼顾客户知情权? 如何确保符合集团或公司规定的数据变现要求? 数据安全问题是数据集成实际操作中面临的首要问题。

(二)利益分配

利润分成如何定义各方的数据价值和分层比例? 多个数据提供商,你听谁的? 数据整合和货币化等利益问题也变得难以调和。

(三)数据标准难以统一

当今信息时代,数据来源多元化,数据采集标准难以界定,这将阻碍数据集成和科学数据挖掘与分析时标准的统一。

在大数据时代,数据融合非常重要。 数据融合是有效整合数据资源、分析挖掘数据价值的最直接、最有效的方式。 因此,在进行数据融合时还应避免和解决其他问题和不安全因素。