您的位置  > 互联网

居理新房大数据VP张惟师谈算法设计思路

日前,巨力新方大数据副总裁张伟诗公开发表演讲。 他表示,聚力新家园现已打造出独特的线上线下闭环生态系统。

新房业务场景单价极高,频次极低。 与新闻信息流、广告推荐、快速消费品等相比,是工业互联网中典型的算法不友好场景。 聚力新方构建了一个具有良好复用性和扩展性的算法平台,通过一些灵活的配置可以实现相关的监控、任务调度、模型验证、可视化页面和AB Test。 算法平台底层支持多种算法引擎,包括机器学习模型平台(Spark-MLlib、)、深度学习平台(、)以及图相关模型。 它通过该方法集成了数据流和算法引擎。

以首选客户识别算法为例,张巍从以下几个方面介绍了聚力新房的算法设计思路。

1. 样本选择

如何选择正样本和负样本? 更直观的做法是用“订阅行为最终是否发生”作为评价正负样本的依据。

在聚力新房的业务场景中,由于房屋交易业务转化率较低,从线上获取UV到最终房屋认购的比例约为千分之几。

为了解决样本稀疏的问题,设定代理目标,以是否发生观看行为作为评价正负样本的依据。 观带行为发生在订阅行为之前,订阅行为约占观带比例的十分之一。 周期也可以从一两个月缩短到两周左右。

在时间T内,是否采样将作为评价正样本和负样本的依据。 另外,在后续模型训练时,可以增加具有多种观看行为或订阅行为的权重。 在时间段T内,可能存在后续订单不完整的情况,但这个比例在10%以内,可以忽略不计。 由于正负样本比例差异较大,当样本量较大时,这个比例是可以接受的。 但当样本量较小时,正负样本比例的差异使得模型学习变得困难,因此在训练模型之前,可以先对样本进行采样预处理。 常见的样本采样方法包括欠采样和过采样。 欠采样保持数据集中正样本的数量不变,并按照一定比例随机抽取负样本。 过采样利用现有正样本构建虚拟正样本,以减少正负样本之间的差异。 常见的过采样方法包括SMOTE等待。 但采样方法会影响数据集中正负样本的分布。 在概率值分类等业务场景中,需要对模型输出的概率进行校准。

2. 特征工程

在特征工程中,特征主要分为三类:信息源、用户App行为、用户粘性。

信息渠道来源是指用户是否来自百度、Feed、广电通等平台。 多设备、多账户等主要用来衡量用户是否作弊。

用户App行为特征占比最大,主要指用户在留下电话号码之前在App上的点击、浏览、搜索等行为。

用户粘性特征是一些抽象的统计特征,其中访问深度是指用户访问App页面的最长路径,广度是指用户在App中使用的功能数量。

3. 模型调优

模型主要采用LR、RF、Deep等传统模型。 但实际效果并不如传统模式。

当前场景下,当样本数量较少、版本更新迭代较快时,经常会遇到数据分布不一致的问题。 产品已经更新到新版本,但是离线模型训练仍然使用旧数据,而线上使用新版本数据。 这种信息不一致会降低模型效果。 目前的解决方案是使用滚动时间窗口来训练模型,并尝试消除一些可能因版本原因导致数据不一致的特征,力求将影响降到最低。

无论是深度学习还是传统机器学习,调参的方法都是相似的,主要是网格搜索(Grid)、手动调参和逐城市阈值调优。 虽然网格搜索调优不一定能找到最优解,但花费的时间较少。 此外,还尝试了一些贝叶斯优化方法。 它与grid的区别在于,它会根据上一轮算法的参数结果,选择最有可能产生最优算法参数的方向来优化这个参数。 贝叶斯优化 自动优化有助于找到参数优化的方向。 贝叶斯优化很容易陷入局部最优,因此需要多轮贝叶斯优化来手动选择最大值。 逐个城市的门槛调整是另一个遇到的更严重的场景。 由于聚力的新房业务分布在全国12个城市,而每个城市都有自己不同的特点,用户行为也不同。 在对模型进行分类时,每个城市应采用不同的阈值。 在整体数据量不大的情况下,每个城市的数据量就更少了。 在这种情况下,要么将城市信息添加到特征中,要么为每个城市单独训练模型。

4. 可解释性分析

整个房地产行业的客单价是比较高的,每一个客户都特别有价值。 如果误判了好的线索,没能服务好客户,就会带来更大的损失。

对于聚力新居的业务人员(客服、顾问)来说,模型预测结果会与他们原有的一些工作模式和习惯发生冲突,需要向业务人员解释模型预测结果。 当算法为业务团队服务时,这种可解释性尤其重要。

计算出的特征重要性 ( ) 不一定是完全可解释的,并且与特征在决策林中出现的次数有关。 然而,某个特征在决策森林中出现的次数越多,并不意味着该特征更重要。 这里使用 SHAP 进行可解释性分析。 SHAP计算特征添加到模型时的边际贡献,考虑到该特征在所有特征序列中的不同边际贡献。 SHAP图中,纵坐标为特征列表,横坐标为负数到正数的取值范围,表示对模型输出值的影响。 电源端口和通道的特性是 SHAP 方法中最重要的特性。 一般来说,通过搜索渠道而来的用户购房意愿较强,这与基本认知是一致的。 另一个显着的特点是,越多的人换城市,买房的意愿就越弱。

五、实际效果

从模型效果来看,客户订阅量增长了17个百分点,基本达到了算法的预期目标。 目标从订阅变为乐队观看,周期从两个月缩短到两周。 未来,我们希望找到更好的指标来替代波段观察,进一步缩短模型周期。 此外,聚力信房还积累了大量的线下数据,比如顾问和客户之间的电话录音、流量行为等,通过这些线下数据,可以粗略地分析顾问和客户的行为。 目前,不同城市的数据积累量不同。 当数据量积累到一定程度时,可以针对不同城市建立独立的模型。 另外,模型融合()是后续优化的方向,看看能否产生更有趣的效果。 当前模型基于无线数据。 与无线相比,PC数据的用户行为较少。 下一步是跨站点集成 PC 和无线数据。