快手双边市场的复杂实验设计问题


一、问题背景

1、双边市场实验介绍

双边市场,即平台,包含生产者与消费者两方参与者,双方相互促进。比如快手有视频的生产者,视频的消费者,两种身份可能存在一定程度重合。

双边实验是在生产者和消费者端组合分组的实验方式。

双边实验具有以下优点:

(1)可以同时检测新策略对两方面的影响,例如产品 DAU 和上传作品人数变化。双边平台往往有跨边网络效应,读者越多,作者越活跃,作者越活跃,读者也会跟着增加。

(2)可以检测效果溢出和转移。

(3)帮助我们更好得理解作用的机制,AB实验本身不能告诉我们原因和结果之间的关系,只能告诉我们所作事情会得出什么样的影响以及数据变化。但是生产端与消费端之间的作用机制,就需要更加复杂的实验设计和更多的实验指标才能把这些问题看清楚。

2、双边实验的例子

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

里通过一个|直播|美颜的例子,帮助大家进一步理解双边实验。

假设在|直播|场景中加上美颜的效果。从表格中横着看,两行的实验的观众组,控制观众是否可以看到|直播|美颜前后的差异。表格中的列表示主播有没有美颜对实际的影响。将以上两方面结合,当且仅当实验组主播对照实验组观众时,才给视频开美颜功能。实际另外三个组无法看到美颜功能。但是 BC 看不到美颜,和 D 看不到美颜存在区别。AD 的区别是常规的 AB 实验的常见场景。本场景通过双边设计可以观察到观众侧是否存在溢出。

针对主播美没有美颜功能,若不存在观众溢出,则 BD 应该数据表现一致,但实际上,数据 BD 若存在差异,如果主播没有美颜功能,观众在其他主播侧看到美颜功能,则实际效果就存在了正影响或者负影响。同理,主播侧的溢出也可以通过此种双边实验,更好理解实验中的作用机制,和实验双方是否存在溢出。

二、激励策略的挑战

供给侧-消费侧生态体系内部,业务时长有政策性流量扶持的需求,这就是激励策略,主要包括以下三种场景:

(1)运营引入优质作者,但不确定作者在平台上的数据表现;

(2)某些业务需要挖掘特定类型作者,给一些宏观调控上的流量扶持,予以更强的流量分发力度;

(3)平台意志场景下,按照某种特定方向发展,认为改变流量分配方式强化某些对应内容供给。

在以上场景下往往并非网络学习的方式,而是通过人为的角度对平台流量做宏观的调控。针对关注相对长期的,需要观察学习效应(促生产等),时间片轮转之类的方法不太试用。例如如下场景:给一类定向流量的作者流量的支持,来研究这样的流量在长期场景下,互动以及生产是否可以长久。

首先是作者侧的挤占:大多数此类实验,平台的总曝光数量有限,平台扶持的场景下,实验组作者曝光增加,不被扶持的对照组曝光量减少。若作者侧冷启动曝光提升幅度比读者侧冷启动曝光幅度更大,就证明存在挤占情况。

根据上图根据实验组对照组关系以及开展各组曝光相对基线 diff,可以看出,随着实验开始对作者 boost 最后会通过推荐系统不仅传递给用户组 B 也会传递给用户组 A,并且作者 B 用户 B,作者 B 用户 A 的曝光 diff 是基本趋于一致的。传统实验一直致力于对此种策略扭曲的流量情况矫正。

SUTVA 假设,个体 i 在实验过程中只与自身被分配在实验组或者对照组相关,与实验体系下其他节点在哪个分组无关,不论其他节点是合作关系还是竞争关系。SUTVA 是 AB 实验得到有效结论最基础的假设。

实际双边网络违背了 SUTVA 假设。

在短视频场景下,如果把每一种记录策略看作一种排序算法。不同的激励策略代表短视频的不同排序结果。上图 RC 代表对照组,RT_25% 实验组流量是 25% 时的算法排序组合,RT 代表实验组实验推全 100% 算法排序组合。BCDE 为实验目标用户类型,即被选中的激励作者作品。而 D 为当实验推量 25% 时,正好落在实验组中。假设通过推荐加权的方式实验,D 的排序直接排到前面位置。若策略增加至 100%,BCDE 均被加权,这种情况,D 作品却排序反而下降。这种场景就是实验组挤占,以及出现挤占的原因。

三、可选解决方案

1、方案1:逐步扩量

实验组排序 gap 会随着实验组数据比例扩大而逐渐接近,挤占的效应随着对照组流量减少而减少。

【先发优势】实验过程中发现,针对流量扶持的场景下,相等扶持力度,先扶持作者会始终保持流量优势。更早的扶持和加速发掘过程本身逻辑是前后一致的。

​分阶段扩量的实验详情:上图展示了分阶段扩量,纵坐标为相对 base 组涨粉数据差异。实验初期,20% 实验组的情况,只扶持了实验组 1,实验组一数据指标开始上升;当实验放量 60%,实验组 123 均开始扶持,另外两组实验指标也开始上升,但始终没有超过实验组 1;后面将实验组改成了 124124,发现 4 也开始提升,但是 4 仍然无法超过实验组 3。

由此可以得出以下结论:逐步扩量是有用的,指标会根据扩量提升,提升会不会随着流量扩大而变小则无法确认。目前实验结果可以得出,先获得流量扶持的实验组数据表现会比后获得流量扶持的实验组更好。​

2、方案2:划分小世界

如上图所示方法,将实验组和对照组完全隔离,实验组读者只能看到实验组作品,控制组读者只能看到控制组作品。由此避免出现作者和读者之间的挤压情况。

类似的做法有,将作者和读者的流量分发当成一个网络图,这个网络图并不是处处联通,部分读者只爱看部分几类作品,基于这样的网络图可以做实验组对照组的切分。以上做法与划分小世界方式思路一致,实践效果更好,但与此同时也具有更大的计算成本。

划分小世界主要存在的问题为:

(1)算法推荐系统需要一定的规模量级才能冷启动,当切分池子一定小的时候,影响实际个性化分发空间。不同业务不同平台保留推荐弹性效果前提下,对切分结构最细粒度要求各不相同。大多数情况,推荐边际效应递减。

(2)明确的流量隔离,会对样本进行的实验数量和检验方式有一定限制。针对并行实验场景需要不断得将隔离开的用户重新打散重新拆分。

从分析方法中矫正而不是实验设计的方式矫正:

  • 根据实际网络效应做矫正分析;
  • 根据实验结果做一些线性假设以及其他的一些条件假设。

采用实验方式矫正的原因:

首先实际的分析矫正方法中假设很难验证,对于差异较大的实验,网络效应的溢出挤占情况各不相同,很难在短时间内总结规律,无法得到通用方法。而实际我们的解决方案希望可以解决一大类问题。

四、构建综合方案

基于排序融合的方案构建——本质上我们希望可以保证实验组 RT_a% 的排序和实验组RT_100% 的实际排序可以保持一致结果。

实现方式:首先同时用 RT/RC 两套排序算法进行排序,记录对应的作品顺序;将作者分为实验组和对照组,对于实验组给读者展示的为两个算法的排序融合顺序。

将 RC 为当前所有作者均没有扶持的线上排序方案,RT 中将所有知识类作者提权。将RC 于 RT 的排序结果融合,先将实验组 RT 对应的作者(T1T2)放在 final 分组的对应排序位置上,将对照组的作者根据原先实验无关的次序继续保留。保守起见,小流量时期建议除了实验作品以外,其他作品均按照原先次序填充。若实验已经推全,则全量使用 RT 的结果。

如果实验组和对照组竞争同一个位置怎么办?

根据以上实验设计,如果出现实验组作品和对照组作品竞争同一个位置,最简单的方式是随机选择。这种情况出现的概率很低。

如果实验组和对照组都是 a% 的总流量,假设 a=2,

假设一次推 10 个作品,top10 同时出现实验组和对照组作品的概率计算如上图,约为 3.3%。如果两个算法完全独立,前 10 相同位置出现冲突的概率更低。

​往往改进具有一定的渐进式的,RC 和 RT 关联性很高,冲突性更小。于此同时也可以通过离线测试的方式提前预估冲突的概率。

以上双边实验主要的指标评估可分为以下三类:​

  • 作者侧指标:作品数量,生产作者数,直接从作者侧检验;
  • 报告观看量指标:CTR,EVTR,作者作品曝光提升=读者观看次数提升进行推算;
  • 读者侧指标:读者侧单边实验验证。

方案可能存在其他一些问题:

首先任何的方案都会存在问题。双边市场强的溢出效应很难通过一个解决方案解决所有问题。

目前实验设计的主要问题包括以下几个方面:

(1)首先,保留两套排序从工程侧存在一定成本,若政策激励会更好推进,算法的角度不容易一直保持两套不做融合;

(2)其次,从算法数据的隔离的角度,部分改进来自于数据本身,模型本身存在较大变化,结果排序算法逻辑不再成立。

(3)第三,计算假设 a=2%,如果更多的流量检验小的效果是否可以增加 a 值?随机选择比例混排,使得更大流量冲突可能性更小。最后,双边问题退换为单边来解决,是否可以通过双边可以解决,待后续继续探究。


# 排序算法  # 算法  # 对照组  # 主播  # 切分  # 很难  # 更大  # 可以通过  # 两套  # 也会  # 上图  # 有一定 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: ChatGPT如何进行数据可视化构思 ChatGPT图表设计指南  DeepSeek V3 本地部署对硬件要求的详细说明  提升企业效率:QR Platform管理后台功能全面解析  百度ai助手快捷键怎么关 百度ai助手快捷键取消设置  标准渣打银行电子账单下载完全指南:轻松管理财务  深度学习姿态估计:技术、应用与未来趋势全解析  Claude怎么用新功能代码辅助_Claude代码辅助使用攻略【方法】  tofai官网最新入口地址 tofai网页版免下载  TechInternPath.ai:AI驱动的实习之路,助你梦想成真  想做自媒体?教你用AI批量生成视频脚本,实现内容自由  ChatGPT官方入口 ChatGPT官网网页版访问步骤详解  VHEER AI:免费在线AI图像生成器终极指南  ChatGPT 角色扮演实战:提升沟通技巧与问题解决能力  豆包AI里的智能体有什么用_不同类型智能体使用场景介绍  MediCa AI:AI赋能的智能医疗保健平台全面解析  通义千问网页版怎么切换账号_通义千问账号切换步骤【指南】  探索泰勒·斯威夫特《August》的深层含义:歌词解析与情感分析  播客剪辑软件选择指南:新手到专业,总有一款适合你  Claude怎么用新功能会议纪要_Claude纪要生成使用【步骤】  Brevio AI:利用AI代理提升电商营销效果  法国历史古迹修复:探秘 Château de Purnon 城堡的艺术与挑战  批改网ai检测工具怎样生成改进建议_批改网ai检测工具改进建议查看与应用【攻略】  百度AI助手官方入口 文心一言网页版登录入口  AI简历生成器:提升求职效率的智能工具  百度输入法智能预测怎么关 百度输入法ai联想词关闭  Straico团队案例研究:AI赋能,效率提升的秘诀  雷小兔ai智能写作怎么设置写作风格_雷小兔ai智能写作风格选择方法【指南】  AI聊天机器人:朋友还是谄媚者?深度解析与实用建议  Azure AI 文本分类指南:自定义模型,提高文本分析精度  Google Gemini 在跨时区团队管理中的应用技巧  Jetson SegNet: 语义分割深度探索与实践  2025年最佳免费AI艺术生成器:POD终极指南  如何用AI生成正则表达式?再也不怕复杂的文本匹配  AI写作工具检测:学生如何避免学术不端行为  Weavernote:AI驱动的知识管理与高效笔记应用  GitHub Copilot CLI:终端中的 AI 编码助手  Vizeo AI视频生成器:无需技术,轻松打造营销利器  Android图像翻译器应用:技术、应用与未来展望  Descript vs. Wisecut:AI视频编辑工具深度测评与最佳选择  2025最佳AI效率工具:释放生产力,革新业务运营  使用 Claude 4 和 n8n 实现 AI 工作流自动化  利用 DeepSeek 进行大规模 C++ 代码库审计  ClickUp AI Agents:项目管理的革命性突破  如何用文心一言写简历 快速生成高含金量求职简历方法  怎么使用网页版deepseek【教程】  掌握写作技巧:小说情节设计的核心要素解析  面试必胜:五大面试技巧助你斩获Offer  通义千问网页版怎么清历史_通义千问历史清理方法【方法】  Gemini怎样用快捷指令_Gemini快捷指令使用教程【步骤】  孩子作文写不出来?教你用AI引导孩子构思,写出优秀范文 

 2023-04-15

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.