用户标签属性流程处理方法

本文分享自天翼云开发者社区《用户标签属性流程处理方法》,作者:石泽涛

用户画像是一种勾画目标用户、联系用户诉求与设计方向的有效工具,目前用户画像算法普遍存在的问题是数据源较少、数据特征不明显、处理效率低下、分析维度单薄。在分布式计算的架构基础上,我们搭载主框架程序,打造5维8类DPI过滤、打标签算法,攻克处理效率低下、耗费资源大的难题,高效、准确的实现用户上网行为进行深度解析,实现每天百TB数据量级处理入库解析,同时大大加强了用户特征的提取与归类,体现数据价值,依靠精细化运营实现对用户的覆盖,以更好的服务好各类用户群体,带来商业价值。

用户标签属性流程处理:

主框架程序加载

通过读取DPI数据并对数据进行过滤、去噪音处理,再把数据依次传给A、B、C标签程序, A、B、C标签程序通过对传进来的DPI数据分别进行匹配,最终将结果发给框架程序,由框架程序汇总后输出到HDFS

噪音数据过滤

制定噪音过滤规则库,输入的每条DPI记录的URL首先和噪音规则库里的噪音规则匹配,如果URL以上述噪音后缀结尾,该条DPI数据就被过滤,从而提高打标效率

异常数据清洗

制定异常规则库,对无法定位用户的dpi记录进行清洗,如数据字段不足、手机号、MEID号同时为空、URL异常等

相关推荐
AI优秘企业大脑23 分钟前
音频库管理在数字媒体中的应用探索
大数据·人工智能
武子康1 小时前
大数据-108 Flink 流批一体化入门:概念解析与WordCount代码实践 批数据+流数据
大数据·后端·flink
cetcht88881 小时前
从 “有人值守” 到 “少人运维”:智能巡检机器人重塑配电室管理模式
大数据·运维·人工智能·机器人
lifallen1 小时前
Flink Watermark机制解析
大数据·算法·flink
Sui_Network2 小时前
Sui Stack Messaging SDK:为 Web3 打造可编程通信
大数据·人工智能·科技·web3·去中心化·区块链
QYR_112 小时前
机器人定位器市场报告:2025-2031 年行业增长逻辑与投资机遇解析
大数据·人工智能
StarRocks_labs3 小时前
StarRocks 助力印度领先即时零售平台 Zepto 构建实时洞察能力
大数据·starrocks·clickhouse·存算一体·postgres mvp
大数据CLUB3 小时前
基于hive和mapreduce的地铁数据分析及可视化_hive作为数据库
大数据·hive·hadoop·分布式·数据分析·mapreduce
说私域3 小时前
蒸汽机革命后工业生产方式的变革与AI智能名片S2B2C商城小程序的影响
大数据·人工智能·小程序
深圳UMI4 小时前
AI笔记在学习与工作中的高效运用
大数据·人工智能