上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

1-2 推荐算法中的特征工程.pdf

编号:102544 PDF 26页 2.82MB 下载积分:VIP专享
下载报告请您先登录!

1-2 推荐算法中的特征工程.pdf

1、推荐算法中的特征工程杨旭东阿里巴巴算法专家自我介绍 杨旭东 阿里云-计算平台事业部-机器学习PAI 前 阿里巴巴-搜索事业部-推荐算法团队 知乎专栏算法工程师的进阶之路作者 欢迎扫码关注大纲一为什么要精做特征工程二何谓好的特征工程三常用的特征变换操作四搜推广场景下的特征工程为什么要精做特征工程 数据和特征决定了效果的上界,算法和模型只是逼近上界的手段 特征工程是编码领域专家经验的重要手段 好的特征工程能够显著提升模型性能 高质量的特征能够大大简化模型复杂度特征工程的常见误区 误区一:深度学习时代不需要特征工程搜索、推荐、广告领域,数据主要以关系型结构组织特征生成、变换操作的两大类型:Row-b

2、ased:e.g.feature interactionColumn-based:e.g.counting,tf-idf模型某种程度上可以学习row-based的特征变换;但无法学习column-based的特征变换一次只能接受一个小批次的数据特征工程的常见误区 误区二:有了AutoFE工具就不再需要手工做特征工程 AutoFE的研究尚处于初级阶段 主要依赖特征变换、生成、搜索与评估 无法自动识别场景的特殊性 瓶颈:评估特征子集的有效性 特征工程非常依赖于数据科学家的业务知识、直觉和经验 富有创造性和艺术性特征工程的常见误区 误区三:特征工程没有技术含量算法模型的学习特征工程的经验大纲一为什么

3、要精做特征工程二何谓好的特征工程三常用的特征变换操作四搜推广场景下的特征工程什么是好的特征工程 高质量特征 有区分性(Informative)特征之间相互独立(Independent)简单易于理解(Simple)伸缩性(Scalable):支持大数据量、高基数特征 高效率(Efficient):支持高并发预测、低维 灵活性(Flexible):对下游任务有一定的普适性 自适应(Adaptive):对数据分布的变化有一定的鲁棒性Refer:https:/yangxudong.github.io/good-feature/大纲一为什么要精做特征工程二何谓好的特征工程三常用的特征变换操作四搜推广场景

4、下的特征工程数值型特征的常用变换 特征缩放1.Min-Max:!#$=%&()(%),-%&()(%)0,12.Scale to 1,1:!#$=%&.,)(%),-%&()(%)3.Z-score:!#$=%&/0!(%)123(%)(0,1)4.Log-based:45=log 1+45&!#$=%!#&$/0!(%!#)678%!#5.L2 normalize:!#$=%$6.Gauss Rank:思考题:1.如何量化短视频的流行度(播放次数)?2.如何量化商品“贵”或“便宜”的程度?3.如何量化用户对新闻题材的偏好度?数值型特征的常用变换 Robust scaling:!#$%&=()

5、%&*#+()./0数值型特征的常用变换 Binning(分箱)连续特征离散化 E.g.年龄段划分:儿童、青少年、中年、老年 Why 非线性变换 增强特征可解释性 对异常值不敏感、防止过拟合 统计、组合 无监督分箱 固定宽度分箱 分位数分箱 对数转换并取整 有监督分箱 卡方分箱 决策树分箱思考题1:如何度量用户的购买力?如何给用户的购买力划分档位?思考题2:经纬度如何分箱?特征Binning示例UserCategoryCountAliceBeauty209AliceFashion34AliceEntertainment90AliceWomen10AliceTechnology1BobMilit

6、ary811BobSport999BobPolitics570BobScience210JoeSociety7JoeGame124binboundary020054006800710008Binning Bad idea:全局 binning Good idea:按用户分组 binning(不同用户的行为频次可能差异较大)Bad idea:storge boundaries foronline binning(may not beupdated in time,and need onegroup of boundaries per user)Good idea:storg

7、e#bin for onlinepredicting统计特征的binning本质上是按照count排序后对rank做一个划分类别型特征的常用变换 交叉组合 单特征区分性不强时,可尝试组合不同特征9=:;类别型特征的常用变换 分箱 高基数特征相对于低基数特征处于支配地位(尤其在tree based模型中)容易引入噪音,导致模型过拟合 一些值可能只会出现在训练集中,另一些可能只会出现在测试集中 如何装箱 基于业务理解 Back Off 决策树模型类别型特征的常用变换 Count Encoding 统计类别特征的frequency Target Encoding 按照类别特征分组计算 target

8、的概率 概率值不置信时需要做平滑 Odds Ratio =3!/(563!)3/(563)类别型特征的常用变换 WOE(Weight Of Evidence)=789:;%=:789:;%时序特征 历史事件分时段统计 统计过去1天、3天、7天、30天的总(平均)行为数 统计过去1天、3天、7天、30天的行为转化率 差异 环比、同比 行为序列 需要模型配合大纲一为什么要精做特征工程二何谓好的特征工程三常用的特征变换操作四搜推广场景下的特征工程关系型数据下的数据挖掘 高基数(high-cardinality)属性表示为特征时的挑战 Scalable:to billions of attribute

9、 values Efficient:10?predictions/sec/node Flexible:for a variety of downstream learners Adaptive:to distribution changeUserId=IP=131.107.65.14ItemId=1001054353category=foodTitle=fresh juice ,#users10#items10Learning with countsUserN+N-Alice7134Bob17235Joe2274REST7891129437(ou()(ou(,)(ou()

10、AliceCounts(Alice)Alice,Item Counts(Alice,)Item Counts()Features are per-behavior-type,per-time-period,per-label counts+backoff Scalablehead in memory+tail in backoff Efficientlow cost,low dimensionality Flexiblelow dimensionality works well with non-linear learners Adaptivenew values easily added,b

11、ack-off for infrequent values,temporal counts=&_=,&Learning with counts:aggregation Aggregate ,for different ItemN+N-2474AgeN+N-607891129437UserN+N-Alice7134Bob17235Joe12274REST7891129437Category,Price LevelN+N-Food,1112790134Food,35172350Furniture,5925274binbinUser,Cat,PriceLv

12、lN+N-Alice,Hat,57134Bob,Food,89101Joe,Stationery,3299REST7891129437Cross Bin function:any projection无监督:等距、等频、聚类有监督:卡方分箱、决策树分箱 Backoff option:“tail bin”timeTnowCountingLearning from counts:combiner trainingUserN+N-Alice7134Bob17235REST7891129437User,Cat,PriceLvlN+N-Alice,Bag,57134Bob,Food,89101REST7

13、89129437ItemN+N-2474IsRest(!)()(!,)Aggregated featuresOther featurestimeTnowCountingTrain predictorTrain non-linear model on count-based featuresCounts,transforms,lookup propertiesAdditional features can be injectedWhere did it come from?查漏补缺1.列存实体(entity)2.实体分箱&单维度统计/编码3.特征交叉&多维度统计/编码

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(1-2 推荐算法中的特征工程.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部