联系我们

泰言工作室

1260344252

15711147576

taiyanseo@foxmail.com

以抖音为案例,讲清楚「用户增长实验」

发布者:taiyanseo发布时间:2021-12-11访问量:64
抖音为案例,讲清楚「用户增长实验」

Tik Tok搜索推广、短视频引流捷径-www.1879.net.cn

本文将以Tik Tok为例,谈谈什么是用户增长实验,它能做什么,如何进行用户增长实验。希望对你有启发。

作者:金磊886

微信官方账号:用户增长实用笔记(ID: ugnote)

用户成长(UG)的核心工作流程是:数据分析假设形成实验验证。在本文中,我们将使用一个您可能已经注意到的案例来尝试反转和重现相关的工作场景,并尝试弄清楚UG实验在做什么。

案例介绍:

刷Tik Tok的时候,有些用户可能会注意到分享按钮玩了两次就变成了朋友的头像,而有些用户还是常规的分享图标。

是的,这是一个简单的UG实验。实验中涉及的环节是相似的。我们不妨以这个例子为代表,主要谈谈:

为什么要做这个实验;实验的设计和发布;分析;实验值细化。案例着重于每一步应该做什么。具体数值是杜撰出来的,并不重要。如果有相似之处,那纯粹是巧合。

图1实验组和对照组的用户界面

为什么要做这个实验?

我只是借用这个案例,下面的语句主要是从观看的角度进行反转和重现。

1.1首先关注战略目标

为什么Tik Tok会发布这个战略?

不难看出,直接目的就是为了增加用户点击分享按钮的比例(分享率)。然而,用最常分享的“好友头像”代替“分享按钮”是否能提高分享率,还需要实验来验证。

1.2提高分享率的目的是什么?

我学到了一些经验:用户群的互动率(用户改赞的比例)与他们的留存率正相关。

从产品逻辑上,很好理解:用户互动时,会收到反馈,持续互动会产生粘性。

想象一下,你在微信上的朋友很少。如果没有收到消息,会经常打开吗?假设你每次发朋友圈,都没有人喜欢评论,这样会大大削弱朋友圈的积极性。

因此,这样做,Tik Tok的进一步目标应该是提高用户的保留率,这与用户规模高度相关。该战略的最终目标仍应是改善DAU、持续时间和收入等规模数据。

这些都是初步分析数据的关键输出,“提高分享率可以提高DAU和持续时间”是一个需要实验验证的假设。

1.3总结

这个实验虽然小,但是和核心成长目标有关。在评价实验效果时,我们也需要关注这些“结果指标”,而不仅仅是分享按钮的点击率、分享完成率、分享回流率等“过程指标”。

02实验设计和分配

2.1实验设计

我们通常使用随机对照实验。在市场上,我们基本上用AB实验代替随机对照实验。通过比较实验组和对照组的指标差异,可以验证采用不同策略的两组之间是否存在显著差异。

随机对照实验的两个关键点是“随机分组”和“单变量”:

随机分组,目的是保证实验组和对照组用户的构成和特点相同,可以进行比较,保证差异来自策略的差异而不是用户群体的差异;单变量,目的是便于将实验结果的差异准确归因于某一策略差异。2.2实验的发布

如何实现随机分组?

通常用户ID(通常是用户第一次使用app时自动生成的字符串)是通过一些随机算法(常用的哈希算法)进行处理的,理论上保证用户的特征和随机算法处理的用户ID之间没有依赖关系,最后根据处理后的ID进行分组。

即便如此,分组的完全随机性还是一个行业问题,所以我们会通过实验前的空跑期或者AA实验来确认实验前不同组之间是否没有偏差。

在这种情况下,我们只关心随机分组。假设我们从市场活跃用户中随机抽取一部分人群,然后随机进行划分

表1实验组和对照组的流量分布:

在实践中,我们经常会遇到流量较少,同时要做的实验较多的情况,这就需要引入正交分层。分层的目的是形成一系列互不干扰的“平行宇宙”,便于在流量不足时同时进行多个实验。

这个案例没有那么复杂,只需要实验组发出“用朋友圈头像替换分享按钮”的指令,而对照组发出“保持原样”的指令。

(注意:该控制组不是“无指令”,因为它可能涉及SRM问题)

在实践中,我们会遇到很多实验变量。如果需要评估每个变量的影响,需要保证有两个实验组只有一个变量的差异。

实验分析

3.1看哪些指标

回到

实验目的,我们直接关注分享率的提升,进一步关注用户留存率的提升,最后想看到对用户DAU、时长等是否有提升。那我们需要关注的指标就有:

表2实验组和对照组的观测指标,数值均为杜撰:

3.2 实验结果可信吗

判断实验结果是否可信,涉及到一个「显著性」的概念,即实验组和对照组的指标差异是不是能满足统计显著性。

统计显著性,意味着我们看到的提升,并不是因为随机波动造成,而是策略影响的。

评估显著性,通常用表2中的P-value、统计功效等来说明,完善的实验平台,可以直接输出差异是否显著的结论。如果对显著性感兴趣,建议大家找一本统计学的书详细了解。

参照表2中的数据,基本上可以说明该策略能够显著提升分享率、次留、DAU和时长。

3.3 选多少样本量合适

直观的认识:

样本量足够大时,即使很小的差异也可能是置信的;而样本量太小时,即使比较大的差异,也可能是不置信的。只要分组充分的随机,样本量大更可能得到置信的结果,但是受限于各方面的成本考量,我们往往需要评估选择多少样本量。

这里就涉及到一个「最小样本量」的问题:通过对实验差异的预估,推算出每一组用最少用多少样本量才能确保实验结果差异是置信的,而不是随机的误差。

相关地,还会涉及到一个「实验时长」的问题,简单来说,实验时长=最小样本量/每日流量。

3.4 想长期观察这个效果,应该怎么办

UI 修改带来的点击提升,通常可能是新奇效应,所以我们的实验尽量拉长至两个以上的用户活跃周期。比如某些用户是周末刷短视频,周中很少刷,使用频次的一个完整的活跃周期就是一周。

新奇效应通常最多持续一个活跃周期,我们选择观察两个活跃周期,大概率能看到用户回归常态下的最终提升量。当然,如果有必要,我们也可以保持这两个实验组和对照组长期有效,看更长久的影响。

04 实验价值提炼

实验完成后,我们通常可以收到很多结果,如果不做及时的复盘,这些数据的价值很可能只是冰山一角。这一部分,我跳出本篇的抖音案例来说。

4.1 及时复盘

及时复盘帮助我们尽早的知道策略是否有效,甚至尽早反推实验是不是设计合理。

假设实验差异置信,这个策略的整体效果对总体业务有价值吗?

通常用户量足够大时,很小的指标提升也是置信的,但实际上可能对增长目标帮助不大。我们需要横向来对比不同策略,对同一指标的提升效果,决定哪一个更好。

假设实验差异不置信,增长策略从下发到生效是一个「链条」,在哪个节点断掉了?为什么?及时复盘能够尽快明确是策略没成功下发,还是策略无效果。

4.2 下钻分析

很多时候我们初看数据会得到实验差异不显著,效果提升不明显的结果。但是这不妨碍我们去做进一步的挖掘:哪些人群更有效、哪些人群没有效果,可通过实验下钻得到初步答案,再针对有效人群设计新的实验去重复验证,针对无效人群做进一步的分析,进一步调整策略。

实验下钻依赖于我们对用户属性有初步的标签,在实验分析时能够用户进行下钻,或者说筛选。

需要强调:下钻后用户量少,不能保证置信度;另一方面这种“后验”的方式会存在分组不均的潜在风险,需要我们针对下钻结果重复去做实验,才能得到可靠的结论。

4.3 可以做哪些新的策略迭代

通过漏斗分析,我们可以看到策略的断点,策略是在哪一步开始失效的。通过产品优化(页面加载、按钮样式、引导样式、文案等等)、运营优化(调整策略下发时机、频次;调整参数如金额、展现时长等等)。

这一部分是产品经理最为擅长的,UG无非是强调基于准确结论来判断问题的关键,去高优先级推进最关键的迭代。

4.4 有没有哪些通用的价值提炼

一个实验结束,我们能够得到的应该远超过实验指标提升。上升到对用户价值提升的视角,这些策略之所以有用,是在哪些地方提升了用户价值,是新体验远超过了旧体验,还是极大降低了用户成本?这些认知是否有可能推广到相关领域、推广到类似场景?

这些我认为是UG更大的课题,也需要产品经理们更多的思考、总结和新的尝试,这同时也是数据驱动的价值和乐趣~

05 总结

这个案例,麻雀虽小五脏俱全,需要关注的要点,最后再做一下梳理。

    策略的目标是什么,需要看到哪些指标,如何评判实验设计时需要关注哪些地方,随机分组、最小样本量、单一变量这几个最为基础;正交分层、SRM问题等我们后续单独介绍实验结果怎么分析,如何挖掘价值,产生进一步的假设或迭代

文中不免错漏,辛苦指出!