(一)原始数据获取与预处理
(1)数据获取:根据用户参与方式的不同,用户画像原始数据的获取可以分为显式获取与隐式获取两种方式。显式获取数据是指用户手动输入基本信息、行为偏好等相关数据,这种方式简单直接、数据质量较高,但需用户主动参与,且通常能够获取的数据信息有限。隐式获取数据对用户是透明的,主要包括在用户的交互过程中记录用户的信息和对用户的行为习惯进行分析获取用户的特征两种方式。由于获取的数据越丰富,用户画像就越全面,在实际操作中,业界与学术界一般会将两种数据获取方式相结合,以便充分利用用户留下的各种数据。
(2)数据处理:数据处理是指对获取的原始数据进行脏数据清理,以获得适合进行用户画像构建的规范化数据,主要数据处理方式包括:分词、数据过滤、数据规范化等。分词是针对非结构化文本数据处理必不可少的一个环节;数据过滤能够有效的剔除脏数据,保证基础数据可靠性;数据规范化是为了保持输入模型数据的一致性。
(二)标签选择与指标体系构建
(1)标签的选择。标签是将某种用户特征通过符号进行表示,是一种关联性很强的内容组织方式,能迅速帮我们找到合适的内容及内容分类。标签从运算层级角度可以分为事实标签和模型标签,事实标签是通过对原始数据进行统计分析得到的,比如用户购买次数,是针对用户一段时间内实际购买行为的统计;模型标签是以事实标签为基础,通过构建其与业务问题之间的关联关系,得到适用于用户画像选择模型的标签,比如,结合用户实际购买次数、用户购买产品类型、购买金额等,进行用户购买倾向类型的识别。
(2)特征指标赋权。标签解决的是描述问题,在实际应用中还需要解决数据间的关联问题,所以通常将标签作为一个体系来设计,在这个特征体系中会涉及到众多标签,而每个标签的对于特定维度用户画像刻画的重要程度又不尽相同,因此我们必须按照标签对用户画像刻画的重要程度为这些标签赋权。常用的赋权方法主要包括主观赋权法和客观赋权法两类。客观赋权法主要有熵权法、相关系数法、标准离差法等,其优点是通过数学方法来确定权重,结果不依赖于人的主观判断,缺点在于太过依赖数据,通用性不强,无法体现不同指标的重要程度。主观赋权法包括主观经验法、专家调查加权法、德菲尔法和层次分析法,前三种方法易于实现,但主观性强;相比之下,层次分析法将定性和定量结合,不仅降低了主观性,还能够进行指标间的横向比较,合理判断各指标间的重要程度。
(三)建模方法选择及应用实施
(1)用户画像建模方法。用户画像技术是多学科的结合,需要知识图谱、自然语言处理、机器学习和数据挖掘等方面的知识融合。常用的用户画像模型主要分为文本挖掘技术、分类算法、聚类算法等三类,文本挖掘主要是针对非结构化数据的挖掘与处理,包括TF-IDF、向量空间模型、主题模型等;分类算法适用于有监督学习的用户分类,包括人工神经网络ANN、邻近算法KNN、支持向量SVM等;聚类算法适用于无监督学习的用户聚类,包括k-均值聚类算法、k-中心点算法、基于密度的聚类算法DBSCAN、层次凝聚聚类算法HAC等。
(2)用户画像的应用。用户画像的应用范围非常广泛,主要包括三个方面:第一,通过分析潜在用户,针对特定用户群体进行广告投放,减少不必要的费用投入;第二,通过分析用户数据的关联性,构建面向用户的个性化推荐系统,对服务或产品做到千人千面的定制化部署;第三,进行企业经营效果评估,完善产品运营,提升服务质量和用户体验,促进企业的良性发展[2]。