1、目录,数据跟产品的结合,Stitch Fix的模式,数据科学渗透到产品环节,度量指标AB测试,1,Stitch fix服装推荐,数据驱动的服装新零售公司:$2.6B/3M用户帮助用户发现适合的风格款式忙碌、寻求搭配建议、追逐时尚100%的销售源于推荐:Amazon 35%,LinkedIn 50%盲盒推荐出错成本:造型师服务双向物流,风格偏好、身材尺寸、颜色偏好、价位,$20可抵扣的服务费,数据反馈:size价位版型风格颜色,盲盒,算法筛选排序+造型师搭配,Stitch fix产品流程,仓库分配,用户请求 选仓发货(运费,投递时间,库存匹配,),用户造型师匹配,用户请求 匹配造型师(交易历史,
2、用户打分,资料匹配,.),数据科学渗透到产品环节,服务于算法和造型师年龄,地理,职业,身材尺寸,颜色价格偏好pinterest 种草-embedding风格画像(Style rainbow)经典,浪漫,波西米亚风,前卫,闪亮,休闲,preppy隐式尺寸,latent price,latent style,数据科学渗透到产品环节,用户画像,人货匹配,数据科学渗透到产品环节,数据 用户画像 商品ID 商品泛化特征(图像,标签)反馈模型(2016年)混合效应模型Factorization machine DNNword2vec,LDA,推荐算法的数据挑战 搜广推挑战 item的样本不均衡 数据回流带
3、来的误差 特征和反馈数据缺失 折扣带来的偏差 数据规模和速度对大数据平台能力的挑战,库存管理,有哪些货?(仿真与库存快照)进哪些货?进多少?(lead time)分配到哪个仓?哪些库存要清仓?,数据科学渗透到产品环节,DS与产品结合的思考,度量指标AB测试用户画像,渗透:产品的环节发现可以用数据提升效率的机会,定义并解决问题,DS与产品结合的思考:度量指标,Stitch fix:转化率、GMV、留存度量体系必须要基于对于产品与业务行业的理解:二手车交易:看重交易而不是日访问量;短视频社交:日活;职场社交:月活、季活;如何选择度量指标?数据源的可靠性:清洗、数据测试、交叉验证 指标与结果的相关度
4、:搜索质量、平台生态 信号质量与敏感度:过于敏感 vs 过于不敏感,If you cannot measure it,you cannot improve it,DS与产品结合的思考:AB测试,Stitch Fix AB测试的挑战 线下交易带来的延时 造型师人为因素(惯性、纠正)AB测试需谨慎 实验正交设计:实验1:uid尾号为奇数 vs 偶数 实验2:uid尾号(0,1)vs 2 用户适应曲线 小流量实验与全流量上线的区别 实验效果叠加:季度上线了6个+1%的实验,但整体提升只有3%,DS与产品结合的思考:用户画像,应用方向 基础数据的搭建 推荐业务 用户运营 渠道画像三步走 收集画像需求
5、构建标签框架 填充数据挑战 数据与应用脱节 多业务需求近似实用的破局 放弃大而全的框架,业务场景倒推(价值)自动化生成标签(手段):规则或算法 有效的标签管理机制(可持续性),人机耦合服装推荐:1+1 2,对大量库存SKU筛选和排序从大规模数据中找到Pattern降噪,人机耦合:1+1 2,处理非结构化数据1v1情感沟通创造性算法开发免于考虑边缘情况,人机耦合:1+1 2,Context sensitivity/nuance,非结构化数据,人机耦合面临的问题,人会成为速度和规模的瓶颈:订单分布跟 造型师工作时间不匹配衡量人和机器彼此的价值对算法多反馈渠道:用户反馈与造型师挑选算法的优化目标要慎重选择,Stitch fix数据科学团队,数据团队的搭建,定位原则 以业务与产品为核心。要聚焦在产品和业务使得数据产生实际价值 数据科学团队要结合基础设施部门与业务部门,尤其是业务跨度很大的公司 公司决策层的耐心支持,并与具体工程与产品团队成为有机的一体,目标对齐一致实际的问题 分析如何落地 分析处理数据需求与数据驱动业务 数据平台的稳定性,工具易用性,效率工具,总结,数据跟产品的结合,Stitch Fix的模式,数据科学渗透到产品环节,度量指标AB测试,1,谢谢,数据科学团队的搭建,