用户标签属性流程处理方法

本文分享自天翼云开发者社区《用户标签属性流程处理方法》,作者:石泽涛

用户画像是一种勾画目标用户、联系用户诉求与设计方向的有效工具,目前用户画像算法普遍存在的问题是数据源较少、数据特征不明显、处理效率低下、分析维度单薄。在分布式计算的架构基础上,我们搭载主框架程序,打造5维8类DPI过滤、打标签算法,攻克处理效率低下、耗费资源大的难题,高效、准确的实现用户上网行为进行深度解析,实现每天百TB数据量级处理入库解析,同时大大加强了用户特征的提取与归类,体现数据价值,依靠精细化运营实现对用户的覆盖,以更好的服务好各类用户群体,带来商业价值。

用户标签属性流程处理:

主框架程序加载

通过读取DPI数据并对数据进行过滤、去噪音处理,再把数据依次传给A、B、C标签程序, A、B、C标签程序通过对传进来的DPI数据分别进行匹配,最终将结果发给框架程序,由框架程序汇总后输出到HDFS

噪音数据过滤

制定噪音过滤规则库,输入的每条DPI记录的URL首先和噪音规则库里的噪音规则匹配,如果URL以上述噪音后缀结尾,该条DPI数据就被过滤,从而提高打标效率

异常数据清洗

制定异常规则库,对无法定位用户的dpi记录进行清洗,如数据字段不足、手机号、MEID号同时为空、URL异常等

相关推荐
TDengine (老段)9 小时前
TDengine 转化类函数 TO_CHAR 用户手册
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
黄雪超9 小时前
Kafka——多线程开发消费者实例
大数据·分布式·kafka
ManageEngineITSM10 小时前
从混乱到秩序:IT服务管理如何重塑企业运营效率
大数据·人工智能·程序人生·职场和发展·itsm
青云交11 小时前
Java 大视界 -- 基于 Java 的大数据分布式存储在工业互联网数据管理与边缘计算协同中的创新实践(364)
java·大数据·边缘计算·工业互联网·分布式存储·paxos·数据协同
数据爬坡ing12 小时前
软件工程之可行性研究:从理论到实践的全面解析
大数据·流程图·软件工程·可用性测试
晴天彩虹雨13 小时前
统一调度与编排:构建自动化数据驱动平台
大数据·运维·数据仓库·自动化·big data·etl
SelectDB16 小时前
浩瀚深度:从 ClickHouse 到 Doris,支撑单表 13PB、534 万亿行的超大规模数据分析场景
大数据·数据库·apache
SelectDB16 小时前
公开免费!Apache Doris & SelectDB 培训与认证课程正式上线
大数据·数据库·apache
mykyle16 小时前
Elasticsearch-8.17.0 centos7安装
大数据·elasticsearch·jenkins
大视码垛机16 小时前
协作机器人掀起工厂革命:码垛场景如何用数据重塑制造业命脉?
大数据·数据库·人工智能