专访【友盟+】CDO李丹枫：“互联网行为数据与风控看似毫不相关，却会产生意想不到的效果”

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

数据相关

“数据已经成为一种资产”已是行业共识，而【友盟+】基于其提供的数据监测工具采集互联网公开数据、APP端以及用户行为数据，进行简单清洗梳理后向企业提供数据资源。

据悉，目前有125万个APP、680万个网站用了【友盟+】的数据服务，每天可搜集的数据设备是14亿。“中国网民数大概是7亿多，一个人可能有多个设备，【友盟+】基本覆盖了全网用户。”李丹枫如是说。

雷锋网：【友盟+】的数据属于强相关还是弱相关？

李丹枫： 营销场景的数据在很多情况下是强相关性的，用户在移动互联网上耗费的时间很多，通过网上行为对人们兴趣做判断是很靠谱的，营销场景的数据是强相关的数据。

对于风控场景，数据是分散的，最上面一层是借款、还款相关的数据，这部分数据属于强相关但数据量比小，并非所有人都有借款还款的记录；再下面是银行卡、信用卡交易消费数据；再往下可能是一些社交数据；最后是用户行为数据。用户行为数据可能看起来与风控没太大关系，但我们的优势是数据体量大，覆盖率高。另外，这些貌似不是强相关的数据往往会产生一些意想不到的附加效果，比如，一个人的互联网和移动互联网行为数据实际上对这个人是很好的描述，如果某用户在金融领域有一些特定的行为，实际上在其他领域也会显露出来。

我们开始做这个项目时，也是抱着试一试的心态，后来发现效果非常好。融360本身会集合各方面相关的数据做模型，我们发现在有些案例中【友盟+】的数据能排第二。

另外，用户在互联网、移动互联网行为数据是很难造假的。金融数据可以造假，可能开始非常守信的用户在贷款额提高时不还款，行为数据能真实反映情况，看似不相关的数据往往会产生意想不到的效果。

雷锋网：目前，【友盟+】的兴趣标签、人口属性标签有多少类呢？

李丹枫 ：兴趣标签固定体系有400多类，但现在很多时候客户会要求跟场景相关，客户有某个需求可以定制标签，这是自动化的生成流程。人口属性标签是性别、年龄、收入、是否有房、是否有车、是否有小孩儿等这些信息。

雷锋网：定制标签的过程是怎样的？

李丹枫 ：标签定制有两种方式，一种人工一点，通过观察客户目标群体的属性，判断哪些属性是突出属性，进行标签定制，这个过程基本是半机器半人工的状态。另一种是自动化的：用户直接上传它的核心用户数据，基于这些数据找出我们这里所有与其核心用户相近的数据，比如对十几亿设备进行排序，排在最前面的是最相近的，排在最后的是不相近的，这是自动化的一个过程。

我们更希望客户通过这个过程来进行人群定位、广告投放，但这需要时间，因为企业一般很难明确地说出其目标人群特点，而模型是发现一些内在的联系，有时候也是难以解释的。

雷锋网：您讲到企业本身要提供一部分数据进行放大，如果企业没有数据呢？

李丹枫： 整个过程需要闭环，如果没有数据，企业一般对其目标群体有大概的概念，我们可以先做投放，有一定客户积累之后再放大，整个操作流程是很简单的。

雷锋网：形成标签的过程是怎么的？

李丹枫： 每天都有新数据进来，我们每天都会处理这些数据做标签更新，有些标签变化不会太大，对性别预测不会产生太大的变化，但不排除在一些场景下，性别标签会变化。

比如一个男性用户老婆怀孕，那他的行为转变为一个女性行为了，这是用户的行为性别。一个人的行为性别可以随着其人生阶段变化，在这个意义上，行为性别可能比真实性别更有意义。如果标签体系中用户的真实性别为男性，并且不知道其人生阶段，那么，与母婴、育儿相关的内容不会推送给他。一个用户原来的行为性别是男性但现在看起来像女性，可能是他的人生阶段发生变化。

还有兴趣标签，比如我是一个比较喜欢看金融类新闻的人，但我从来不点金融类新闻广告，如果做效果类广告标签，我是没有的，但如果做品牌广告我是有标签的，根据不同应用场景每一个标签会有不同的设置。所以一个400维的标签，在同一个设备不同场景下，可能变成800维或1200维。

数据收集上来后的第一步工作就是做基础标签。一般来说我们很少会直接使用原始数据，因为原始数据一是体量大，二是占有的空间大，而且不同的业务用到的数据往往都要经过标签生产的过程。所以，基础标签肯定要生成的，场景标签、高级标签是按需求来做的。我们平时做的工作是建立自动化或半自动化的体系让效率更高。比如我们最开始做风控的时候，我们做一个模型可能需要一个多月两个月，现在可能一个星期就把做出来了。我们是在工具层把它体系搭建好，这样如果场景来了我们就可以高效地生成。

雷锋网：数据的质量是怎么把关的呢？收集上来的数据如何判断这个数据好还是不好？

李丹枫 ：首先是原始数据收集，我们第一步做的事情其实很简单，就是通过常识判断数据是不是合理。如果发现一个人一天的行为很多，那判断这可能是机器而不是人，在这个层面上，通过一些规则或统计模型删除一部分。在互联网和移动互联网上，这种假的人或机器还挺多的，所以第一步会筛掉不是真实的人的信息，而这些信息本身对开发者也是有帮助的。比如做渠道质量判断，通过这个过程可以判断哪些渠道是垃圾设备，后续就不太用这些渠道。

第二可能需要一个应用场景用以验证。比如广告投放场景中，用了我们的标签后，发现结果没改善，或者改善不明显。我们就会回过头来看标签生产过程是不是有问题，再往后推数据会不会有问题，应用场景越多，数据质量检验的方式越多。

我们认为在某个场景中应该有效果但实际没有的，往往会去追究其原因。实际上，这个过程能帮助我们把数据质量不断做好，有时候会发现这是系统性的原因，系统修好后，数据质量问题就解决了。

整个过程有两层，一层是统计级别，第二层是在应用级别做质量把控。

雷锋网：多少天没效果就会怀疑数据质量问题？

李丹枫： 比如投放，一般投放几天到一星期，几天到一星期没有效果，我们判断是模型的原因是数据的原因，这个跟场景相关。比如风控周期会长，一般30天逾期、90天逾期，今天贷了款可能6个月之后才用还，我需要等6个月才能发现这个问题。当然我们做这个模型时，会有一些历史的数据，用历史的数据来检验，如果发现历史数据一点效果没有可能就会有问题。

雷锋网：打通PC、移动和线下数据，目前是怎样一种状况？

李丹枫： 现在有两种方式：一种是通过阿里强ID体系打通的，它会判断一个人有哪几台设备；但在很多场景下，我们不能直接输出基于阿里数据的结果，那我们就会用算法打通，这听起来很高大上，原理是很简单的，比如两个设备经常在同一个IP出现，那属于同一个人的概率非常大。当然我们的模型没有这么简单，我们还会采集一些其他的行为信息。

我们最大的好处是我们有阿里强账号体系，训练模型时数据量是非常大的，如果有大量数据，可能并不需要特别厉害的数据科学家，不需要特别高精尖的算法，就能把整个系统弄好。

我们现在是会用算法把PC、移动包括线下的数据打通。我们平台的打通是有一定概率的，我们说两个设备背后有一个人，意思是有 70%或80%的可能性。毕竟没有一个算法是完美的，通过算法的方式只能提供一个概率。

雷锋网：概率大概是多少？

李丹枫： 你给我两个ID，我会告诉你这两个ID可能是一个设备的可能性为90%或70%。用户在不同的场景下，对精准的要求不同，比如有的用户认为概率在90%以上才会认为是同一设备；而有的认为70%就可以接受了。

模型产出一个连续的分数，但用户在具体使用时，会基于分数判断操作点，当然我们会辅助他们。根本问题在于你要求精确度高还是覆盖率大，这两者是相矛盾的。

技术相关

对于大数据服务商而言，数据有效性将直接影响到大数据的应用水平,从数据源到分析样本的采集过程需要大量技术支撑和人工干预。据悉，在数据融合与处理相关的领域,主要解决包含两个方面的问题:一是数据标准化与有效性整理;二是面向过程(具体目的)的数据处理与粗提取。

雷锋网：应用于不同行业时，技术迁移容易吗？

李丹枫： 技术是分层的。收集数据后，会基于事实标记最底层的兴趣标签、人口属性标签。其中人口属性标签可能是通过人群预测的，通过标注的数据，训练一个模式，基于这个模型去判断其它不知道某些标签的用户。总体来说，底层标签基于事实和预测，其上会有对标签的深加工，对特定营销场景定制的标签，客户也会对我们提一些需求进行标签定制。再往上是真正的深度加工，比如建立风控模型，需要建立一些目标函数，这也是基于底层的兴趣标签和属性标签的。

所以，我们其实并不需要做迁移，因为我们的技术是一层层，已经把整个架构都搭好了。如果要应用于某个复杂的应用场景中，只需要基于相应的场景数据训练模型即可。

雷锋网：您刚才说半机器半人工，机器做什么？人工做什么？

李丹枫： 上文说的场景中，机器更多做的是“人群画像”的工作，数据拿来之后，打上人群属性标签、兴趣标签，然后进行匹配，将这群客户人群与整体人群做比较。拿性别来说，整体上男女比例是1：1，如果这个群体男女比例是3:1，那么，男性是人群里比较显著的特征。

机器做的事情，第一是计算做匹配自动画像；第二找出最显著的特征，至于是不是用显著特征作为目标画像，这需要人和机器结合。人群放大环节，希望人力介入之后能越来越少。

雷锋网：【友盟+】DIP平台内部集成了哪些智能化的数据管理方式呢？

李丹枫： 首先，我们现在不把自己叫DMP平台，而叫DIP平台，很大的目的是和DMP区分。DMP平台会使人自然联想到广告营销场景，但广告营销场景只是我们业务的一部分，我们涉及的场景包括金融风控、推荐、营销等。

关于智能算法，风控模型算一个，原来我们做风控模型时，需要一到两个月。现在做风控，如果客户数据质量好，模型一两周就可以上线了。我们已经建好一个建模体系，只要把输入输出告诉我，基本上可以自动化生成一个模型。

另外人群放大背后也是一个算法。按理说，现在很多DMP平台中都应该有人群放大的功能。我们的好处是数据体量非常大，人群放大有两个要点：一是能不能够找到非常相似的人？搜集一个人的行为数据越多，描述越丰富，相似性越好；二是覆盖量的问题，我们每天有14亿设备，池子大得很，客户想找多少的人可以找多少的人，而且这么大的池子里，同样相似度找到人的数量更多。

还有我们的推荐引擎也具智能功能，我们不是一个数据管理平台，是一个数据智能平台。

落地应用相关

据悉，目前【友盟+】的业务由三大产品线和一个智能数据平台组成。所谓三大产品线分别是：U-Dplus一站式数据管理运营平台、U-ADplus全链路营销解决方案和基于大数据 & 智能感知技术的整套线下数据服务解决方案U-Oplus；智能数据平台U-DIP是3大产品后面的大脑。

雷锋网：企业数据分析用excel比较多，用这些分析工具较少，您怎么看？

李丹枫： 其中有很多因素，第一是很多企业在做事的时候并没有意识到数据能够带来什么好处，所以很多场景里他们并没有采集数据。但实际上如果你采集了这些数据，之后可能做到运营更高效、更精准。

我举个例子，为什么电商运营这么高效，而实体店中，大家都不太能说清楚顾客的状况是怎样的，活动促销也没有具体的数据指导。我们的产品U-Oplus能收集进店人的信息。

大家都说新零售的核心是人，但如果你对顾客知道的少之又少，怎么能够精细化运营？U-Oplus能通过感知方式去探测进店人的移动设备。

感知到移动设备有这几个好处：一是实现点对点连接，即一个人多次进入店铺能确认其是一个人，而原来的红外设备会认定是多个人，不仅如此，还能知道客户的停留时长，甚至可以与后台数据打通，基于后台更丰富的标签体系，对运营做出更多的指导。

目前，我们面对的还是非常简单、非常表面的数据，任何一个企业都能产生大量的数据。主要看这个企业第一有没有收集数据的意识；第二有没有分析数据的能力；第三是如何结合数据和智能解决方案提升效率、降低成本，这些实际是企业发展需要着重强调的能力。

数据量少时用excel处理很高效，但数据搜集上了之后，我们就有很多想象空间、运营空间。

雷锋网：如今， 【友盟+】 的客户主要是大公司吗？

李丹枫：移动端的客户大、小企业都有，像今日头条、墨迹天气等。企业类客户主要面向大企业，因为大企业可能会对数据精细化运营有较多需求，它也有足够大的场景，有能力来配合我们把这个事情做好。我们希望渐渐把智能化做到标准产品里面，让小企业也能享受到这个产品。毕竟我们服务企业端的，应该说从今年年初刚刚开始。

我们的计划是通过标准化的工具服务小企业，目前，已经把DIP平台放到所有工具后面，会把这些能力不断往工具里输送，也是使我们工具和其他的工具区分的一个重要的因素。

我们的决策是带着后台大数据的，希望最后提供给客户的是整个一套产品体系，用户可以根据其需求像拼乐高一样拼接起来。我们现在实际上已经把执行端拼接进去了，U-Dplus已经包括执行。接下来把更多智能功能推送到平台中去，这个平台小企业是可以使用的。