用户标签属性流程处理方法

本文分享自天翼云开发者社区《用户标签属性流程处理方法》,作者:石泽涛

用户画像是一种勾画目标用户、联系用户诉求与设计方向的有效工具,目前用户画像算法普遍存在的问题是数据源较少、数据特征不明显、处理效率低下、分析维度单薄。在分布式计算的架构基础上,我们搭载主框架程序,打造5维8类DPI过滤、打标签算法,攻克处理效率低下、耗费资源大的难题,高效、准确的实现用户上网行为进行深度解析,实现每天百TB数据量级处理入库解析,同时大大加强了用户特征的提取与归类,体现数据价值,依靠精细化运营实现对用户的覆盖,以更好的服务好各类用户群体,带来商业价值。

用户标签属性流程处理:

主框架程序加载

通过读取DPI数据并对数据进行过滤、去噪音处理,再把数据依次传给A、B、C标签程序, A、B、C标签程序通过对传进来的DPI数据分别进行匹配,最终将结果发给框架程序,由框架程序汇总后输出到HDFS

噪音数据过滤

制定噪音过滤规则库,输入的每条DPI记录的URL首先和噪音规则库里的噪音规则匹配,如果URL以上述噪音后缀结尾,该条DPI数据就被过滤,从而提高打标效率

异常数据清洗

制定异常规则库,对无法定位用户的dpi记录进行清洗,如数据字段不足、手机号、MEID号同时为空、URL异常等

相关推荐
西猫雷婶33 分钟前
STAR-CCM+|K-epsilon湍流模型溯源
大数据·云计算
2501_924889552 小时前
商超高峰客流统计误差↓75%!陌讯多模态融合算法在智慧零售的实战解析
大数据·人工智能·算法·计算机视觉·零售
曼岛_3 小时前
[系统架构设计师]大数据架构设计理论与实践(十九)
大数据·系统架构·系统架构设计师
计算机编程小咖4 小时前
《基于大数据的农产品交易数据分析与可视化系统》选题不当,毕业答辩可能直接挂科
java·大数据·hadoop·python·数据挖掘·数据分析·spark
.Shu.4 小时前
git实战(7)git常用命令速查表
大数据·git
软件开发明哥5 小时前
BigData大数据应用开发学习笔记(03)离线处理--数据仓库Hive
大数据
haidizym5 小时前
质谱数据分析环节体系整理
大数据·人工智能·数据分析·ai4s
2501_924890526 小时前
商超场景徘徊识别误报率↓79%!陌讯多模态时序融合算法落地优化
java·大数据·人工智能·深度学习·算法·目标检测·计算机视觉
2401_8914092610 小时前
商品与股指类ETF期权买卖五档Tick分钟级历史行情数据分析
大数据·#基准指标动态·#level2毫秒级tick流·#美股数据获取方案·#期货期权合约行情
武子康11 小时前
大数据-76 Kafka 从发送到消费:Kafka 消息丢失/重复问题深入剖析与最佳实践
大数据·后端·kafka