拼多多笔试

拼多多2022数据分析笔试(0822)

一、选择题

1.已知样本量n,样本均值及方差求置信区间

2.决策树

3.峰度系数

4.协方差

5.第一、第二熵变

6.充分统计量

7.xgboost

8.方差分析中的多重比较

二、编程题

  1. 一张用户点击路径的表,找出某一日用户路径为店铺页-商详页-下单页的用户数(本人用的是笛卡尔积三张表where限制条件通过)

CREATE TABLE log_info (

uid varchar(255)

, page_name varchar(255)

, starttime varchar(255)

, rnk int

, dt date

)

;

INSERT INTO log_info

(uid,page_name,starttime,rnk,dt)

VALUES

('un670', '首页', '2021-08-10 08:01:00',1,'2021-08-10'),

('un670', '商详页', '2021-08-10 08:01:10',2,'2021-08-10'),

('un670', '店铺页', '2021-08-10 08:01:20',3,'2021-08-10'),

('un670', '商详页', '2021-08-10 08:01:30',4,'2021-08-10'),

('un670', '下单页', '2021-08-10 08:01:40',5,'2021-08-10'),

('un123', '首页', '2021-08-10 00:02:00',1,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:03:00',2,'2021-08-10'),

('un123', '店铺页', '2021-08-10 00:04:00',3,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:05:00',4,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:06:00',5,'2021-08-10')

;

2021-08-10|1

  1. 一张活跃商品表,找出2021-08-02和2021-08-03新增活跃商品数,新增活跃商品数定义为今日活跃但昨日不活跃的商品(本人用(date,goods_id) not in (选出今日活跃昨日也活跃的商品)作为限制通过)

-- CREATE DATABASE test;

-- use test;

CREATE TABLE act_goods_d(

stat_date DATE

,goods_id BIGINT

);

INSERT INTO act_goods_d

(stat_date, goods_id)

VALUES

('2021-08-01', 27923)

,('2021-08-01', 23456)

,('2021-08-01', 86534)

,('2021-08-02', 27923)

,('2021-08-02', 23456)

,('2021-08-02', 23545)

,('2021-08-03', 23456)

,('2021-08-03', 23545)

,('2021-08-03', 98213)

;

2021-08-02|1

2021-08-03|1

  1. 一张用户点击表,一张用户下单表,找出某一日点击商品数和引导下单量,引导下单量定义为在同一日点击商品到下单的单量,注意点击时间要早于下单时间,比较简单,要用的date_format

CREATE TABLE flow_clk_i_d (

clk_time VARCHAR(30)

,uid BIGINT

,goods_id BIGINT

);

INSERT INTO flow_clk_i_d

(clk_time, uid, goods_id)

VALUES

('2021-08-06 11:30:50', 2111, 27023)

,('2021-08-07 12:30:56', 2133, 27023)

,('2021-08-07 15:46:23', 2132, 21346)

,('2021-08-07 15:50:56', 2132, 27053)

,('2021-08-07 20:46:23', 2133, 21348)

,('2021-08-07 20:50:56', 2132, 27023)

,('2021-08-08 20:46:23', 2132, 21346)

;

CREATE TABLE ordr_goods_i_d (

ordr_time VARCHAR(30)

,ordr_id BIGINT

,uid BIGINT

,goods_id BIGINT

);

INSERT INTO ordr_goods_i_d

(ordr_time, ordr_id, uid, goods_id)

VALUES

('2021-08-07 10:48:29', 641841, 2132, 21346)

,('2021-08-07 15:48:29', 642841, 2132, 21346)

,('2021-08-07 12:46:45', 753473, 2132, 27023)

,('2021-08-07 12:46:45', 763473, 2133, 27123)

;

2021-08-07|2|1

相关推荐
Carl_奕然1 分钟前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
数据智研3 小时前
【数据分享】(2005–2016年)基于水资源承载力的华北地区降水与地下水要素数据
大数据·人工智能·信息可视化·数据分析
UrbanJazzerati4 小时前
解码数据分布:茎叶图和箱形图初学者指南
面试·数据分析
少林码僧5 小时前
2.29 XGBoost、LightGBM、CatBoost对比:三大梯度提升框架选型指南
人工智能·机器学习·ai·数据挖掘·数据分析·回归
Golang编程笔记6 小时前
电商数据分析的未来发展路径
ai·数据挖掘·数据分析
城数派14 小时前
2019-2025年各区县逐月新房房价数据(Excel/Shp格式)
大数据·数据分析·excel
橙露14 小时前
从零基础到实战:Python 数据分析三剑客(Pandas+NumPy+Matplotlib)核心应用指南
python·数据分析·pandas
YangYang9YangYan18 小时前
2026高职大数据与会计专业学数据分析的技术价值分析
大数据·数据挖掘·数据分析
FIT2CLOUD飞致云1 天前
操作教程|DataEase企业总-分公司数据填报场景搭建实践
数据分析·开源·数据可视化·dataease·bi
DX_水位流量监测1 天前
无人机测流之雷达流速仪监测技术分析
大数据·网络·人工智能·数据分析·自动化·无人机