还在面对海量数据做标签？一文带你梳理用户画像体系的科学逻辑

Original 奋斗者易观方舟AnalysysData 2023-09-01

↑点击关注↑开启精益成长

当代企业要想实现精细化运营，必须要打好用户画像这一基础，用户画像是我们洞察用户、赋能业务的重要工具。构建完善的用户画像不仅需要扎实的专业知识，也离不开对业务的全面认识和深刻思考。

First Point

认识用户画像

说起用户画像，在形式上，我们最容易想到的可能是描述用户属性的一段总结式的陈述；完善的用户画像不是一蹴而就的，它需要随着对用户认知程度的加深，而慢慢积累和沉淀。

1.1用户画像是对现实世界中用户的数学建模

用户画像源于现实中的数据，但又是对其抽象式的数学建模。

1.1.1 用户画像源于现实用户的大量数据

用户画像描述的是现实用户的数据，包括线上的行为数据、线下的行为数据、自然属性的数据……在特定的业务场景下，将这些数据以数据化的方式抽象出来，对其进行形式化的描述，就得到了用户画像。

构建用户画像的前提是，需要分析挖掘用户尽可能多的数据信息。在挖掘用户相关的数据时，只有尽可能地加大搜索范围、深度和广度，才能构建更完善的用户画像。

1.1.2 用户画像不能脱离实际业务场景

一些企业在做用户画像项目时，存在本末倒置的错误：他们给现有的用户数据纷纷打上了几百个用户标签，但却不知道该将这些用户标签应用到哪些合适的业务场景里；最后在项目结束时，这些用户标签都没有充分发挥价值，没有对业务产生预期的正向作用。

因此，我们一般建议：在构建用户标签体系时，首先从业务需求出发。基于特定的业务场景决定使用哪些标签来推动业务的进展，比如增加营收、优化服务体验，进而再自上而下地设计整体的用户标签体系，逐步精确到每个具体标签的规则和口径。

1.2 用户画像是一系列用户标签的集合

用户画像可以用标签的集合来表示，而标签是对某一类用户的特征的符号表示。

标签规定了观察、认识和描述用户的特定角度

用户画像中，最小的元素是一个个的用户标签，它们是一系列用户特征的符号表示。具体落到实现层面上，一个标签背后对应着一套规则、一套算法。

标签之间存在层级关系，比如一级标签、二级标签、三级标签……不同层级的标签对应着不同的业务场景。

用户标签是动态的，且存在关联关系

随着时间的变化，人的行为、业务场景都会发生变化，随之，大部分的用户标签也会发生变化。

不同标签的变化频率不同。比如，性别标签是固定不变的；年龄标签每年会变化一次；最近访问时长、最近购买商品金额的区间段等标签的变化频率更高，可能几天就会变化一次。

我们在构建用户标签体系时，需要准确地辨别每个标签的更新频率，进而设计标签后台整体计算调度的频率。同时需要注意，如果一个标签变动了，对与之相关联的数个标签需要进行相应的更新。

用户标签存在多种分类方式

标签的分类方式多样。

按照标签的元数据可分为三类：业务的实际使用场景、数据的来源类型、标签的更新频率。

也可以按照主要和次要、内部和外部、显性和隐性划分。

还可以按照标签的类型，比如自然属性、购物行为、行为属性、线下交易属性等各种各样的属性来划分。

Second Point

用户画像的基本类型

通常，构成用户画像的标签类别层级分明，由大类细分到小类，每一类都有不同的使用场景。以某互联网企业的用户基础画像为例：

该用户基础画像总共分为6大类：用户基本属性、用户关联关系、用户兴趣偏好、用户价值信息、用户舆论信息、用户营销信息。这里重点介绍前三大类。

用户基本属性

人口统计学类的标签通常是自然属性类的，比如姓名、年龄、手机号、运营商。生活信息类的标签包括一些生活相关的，比如用水用电情况；还有位置信息类、自定义信息类的等等。

用户关联关系

包括家庭关系、社交关系、企业关系、征信信息等，这些都是可以在市场上通过正规渠道获取的。

用户兴趣偏好

用户兴趣偏好相关的标签一类是行为本身的，比如用户最近浏览了哪些内容；另一类是和实际业务直接相关的，比如产生了实际的订单，或者产生了付费的行为。

在这6个大类的标签下会有多个二级分类，如人口统计学、生活信息等。二级标签下所对应的三级类目才是实践中用以对用户进行分群和分层的标签。

Third Point

如何生成完善的用户画像

3.1 体系化、规范化的生产和管理标签

体系化生产标签

企业的第一方数据和第三方数据共同构成了生成用户标签的数据源。

第一方数据是指企业自身能够直接获取的数据，第三方数据企业无法直接获取，如用户的信用卡消费、手机话费、手机运营商、个人出行等数据，可以通过外部采购作为数据补充。

数据源在输入之后需要先分类，再按照不同的分类生产相应的计算规则和算法，之后这些数据源才能被开发成标签。

生产标签的整理流程需要经过审批、管理、开发、发布、补充、分析等环节（如下图所示），才能真正应用到业务实践中。

在标签生产的过程中，由于某些标签相对抽象，易观方舟会设置0~1的执行度区间衡量每一个标签的执行度。执行度的值越接近于于1，代表该标签对用户的描述越准确；反之，值越接近于0，代表该标签描述的精准度越低。

规范化管理标签

标签管理的规范往往容易被忽视，在易观方舟服务客户的过程中我们发现主要存在以下三类问题：

●有些企业基本没有标签管理；

●有些企业在进行标签管理的过程中，基本只注重数据源的输入（上图中的红色部分）环节，这就导致越往后的环节做得越差；

●有些企业有很多原始数据，也做了很多标签，但当其他部门需要应用标签时却找不到合适的使用场景。

标签是需要经过系统的管理与维护的。在这个过程中企业需要重点关注以下问题：

●标签适合哪些业务部门去使用？

●标签的加工流程是否符合公司内部的审批要求？

●标签从开发、测试到发布的运转是否遵循科学的管理方法？

此外，在标签管理中与数据相关的问题也需要企业重点关注，如：

●标签数据的身份周期大概是什么状态？

●标签数据的有效期是什么时候？

●标签当前是否是处于一个失效状态？

从开发到测试到发布，标签体系需要有一套整体的管理方法去运转，否则公司会存在原始数据与标签对应口径不统一的情况。

也只有通过规范的标签管理，企业才可以对标签的生命周期、效用期与维护等情况了然于心。

3.2构建准确标签的基础：ID Mapping

企业在生产标签的过程中，往往会通过A系统的数据生成了一系列标签，又通过B系统的数据又生成了一系列标签，但是A、B之间无法实现用户ID的打通的情况。即无法把A、B系统的标签整合到一起去共同描述同一个用户。

这种标签割裂的情况，就是由于没有完成整体的ID Mapping所导致的。

ID Mapping是构建准确用户标签体系的基础，也是一大挑战，因为很多数据可能已经沉淀了几年、甚至十几年，用户描述的ID规则可能也发生了一些质的变化，规则和规则之间也是很难打通。

为解决上述难题，易观方舟提供以下两种思路：

思路1：精准匹配与模糊匹配

● 精确匹配

精确匹配能标识到这个用户的唯一信息，如：身份证号码、手机号码、银行卡卡号、User ID。当多个系统里都具备相同的ID时，就可以实现精确打通。

●模糊匹配

模糊匹配涉及到了一定的算法，基本逻辑是我们要将用户的相关信息做近似度的关联。

例如，模糊匹配经常用到位置信息相关的数据，如IP、经纬度、微信、微博的User ID等等。我们将这些数据赋予不同的权重。然后根据权重之间的相互匹配关系，可能模糊拉取到来自不同系统里的近似值。

如果某用户的微信和微博的IP、经纬度是近似的，综合考虑多种近似的关系，就可以推断这两个ID是同一个人。

模糊匹配的准确率当然没有精确匹配高，但是在无法通过唯一ID去做精确匹配的前提下，我们能够通过模糊匹配的方式把一些用户的数据打通，才会有标签体系的构建基础。

在一些常见的用户储件里面，我们会先搜集用户的APP、小程序、落地页等的数据和信息，然后先通过精确匹配测试能否匹配上；如果不能，则再做模糊匹配。

思路2：运营手段辅助获取用户信息

在精确匹配和模糊匹配都达不到理想效果的时候，我们可以通过一些运营侧的或者一些产品侧的手段得到用户的唯一标识，从而服务于ID Mapping的整体过程。

例如，我们可以组织发放优惠券的活动，用户需要填写填手机号、收验证码来获得优惠券，由此获取用户的唯一ID，最后去实现整体的数据的打通。

Analysys

关于易观数科

易观数科是国内专业的一站式全场景私域用户运营解决方案服务商，旗下拥有易观方舟智能分析、易观方舟智能运营、易观方舟智能画像三大产品组件及配套咨询服务，帮助企业沉淀数字用户资产，打造数据驱动运营闭环，建立私域用户亲密关系，实现精益成长。

点击「阅读原文」免费体验方舟Demo

↓↓↓

“家属和记者取得联系”：记者的退场意味深长

要么空仓！要么盯紧这个！

劲爆！为了姜萍两位女CEO互揭老底！

最高院最新人事任免 | 全国审判业务专家茅仲华履新最高法副院长

建议写作爱好者，去网易写短篇故事，官方扶持可直接签约有道！

还在面对海量数据做标签？一文带你梳理用户画像体系的科学逻辑

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

要么空仓！要么盯紧这个！

劲爆！为了姜萍两位女CEO互揭老底！

最高院最新人事任免 | 全国审判业务专家茅仲华履新最高法副院长

建议写作爱好者，去网易写短篇故事，官方扶持可直接签约有道！

生成图片，分享到微信朋友圈

还在面对海量数据做标签？一文带你梳理用户画像体系的科学逻辑

您可能也对以下帖子感兴趣