流失用户定义
睡不醒的鲤鱼 2021-08-30 机器学习 推荐系统
# 一、明确概念
- 活跃行为:根据策略调整,最低标准可以为启动 APP。
- 活跃用户:流失时间期限内有活跃行为的用户。
- 流失用户:超过流失时间期限没有活跃行为的用户。
- 回访用户:流失之后再次产生活跃行为的用户。
# 二、如何确定流失时间期限
用户流失的流失期限的长度与用户的回访率成反比,我们在定义用户流失时使用的连续不访问 / 登录网站的期限越长,这批流失用户之后回访网站的概率就会越低,并且随着定义的流失期限的增大,用户回访率一定是递减的,并逐渐趋近于 0。
我们可以设定不同的流失期限长度,进一步统计每个流失期限的用户回访率,并观察用户回访率随定义的流失期限增大时的收敛速度。
拐点理论:X 轴上数值的增加会带来 Y 轴数值大幅增益(减益),直到超过某个点之后,当 X 增加时 Y 的数据增益(减益)大幅下降,即经济学里面的边际收益的大幅减少,那个点就是图表中的“拐点”。
比如上图中流失周期增加到 5 周的时候,用户回访率的缩减速度明显下降,所以这里的5周就是拐点,我们可以用 5 周作为定义用户流失的期限,即一个之前访问/登录过的用户,如果之后连续 5 周都没有访问/登录,则定义该用户流失。
# 三、计算方法
# 3.1 拐点法:回访率曲线-1
要计算每个流失期限 N(天)对应的回访率,可以先将用户划分为三类:
- 类:只使用过 次 APP 的用户,且使用时间距今 天;
- 类:使用过 次及以上 APP 的用户,且最长使用间隔 天,最后 次使用距今 天;
- 类:使用过 次及以上 APP 的用户,且最长使用间隔 天,最后 次使用距今 天;
下面解释下公式含义:
- :只使用过 次 APP 的用户,且使用时间距今 天,这部分用户肯定是流失的;
- :最长使用间隔 天的用户,这是流失过的用户,也是回访用户;
- :最长使用间隔 天且距今连续不活跃天数 天的用户,这是使用过 APP 一段时间,但是后面流失且目前还未回访的用户。
# 3.2 拐点法:回访率曲线-2
- 确定横轴的时间粒度:日/周/月;
- 计算每⽇/周/⽉,活跃⽤户在经过多久后,才⾸次再次回访的⼈数;
- 计算每⽇/周/⽉的用户回访率;
- 将回访率数据按照初始⽇/周/⽉的活跃⽤户数进⾏加权平均,得到总回访率曲线;
# 3.3 分位数法
首先先计算用户活跃的时间间隔,比如用户 a 活跃的时间日期分别是 2020-12-01 和 2020-12-14 那么间隔就是 13 天,我们把所有用户的活跃的时间间隔都计算好,然后找出间隔的 90% 分位数。
为什么是 90% 分位数呢?这是因为如果有 90% 的活跃时间间隔都在某个周期以内的话,那么这个周期内不活跃的话,之后活跃的可能性也不高。