拼多多笔试

拼多多2022数据分析笔试(0822)

一、选择题

1.已知样本量n,样本均值及方差求置信区间

2.决策树

3.峰度系数

4.协方差

5.第一、第二熵变

6.充分统计量

7.xgboost

8.方差分析中的多重比较

二、编程题

  1. 一张用户点击路径的表,找出某一日用户路径为店铺页-商详页-下单页的用户数(本人用的是笛卡尔积三张表where限制条件通过)

CREATE TABLE log_info (

uid varchar(255)

, page_name varchar(255)

, starttime varchar(255)

, rnk int

, dt date

)

;

INSERT INTO log_info

(uid,page_name,starttime,rnk,dt)

VALUES

('un670', '首页', '2021-08-10 08:01:00',1,'2021-08-10'),

('un670', '商详页', '2021-08-10 08:01:10',2,'2021-08-10'),

('un670', '店铺页', '2021-08-10 08:01:20',3,'2021-08-10'),

('un670', '商详页', '2021-08-10 08:01:30',4,'2021-08-10'),

('un670', '下单页', '2021-08-10 08:01:40',5,'2021-08-10'),

('un123', '首页', '2021-08-10 00:02:00',1,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:03:00',2,'2021-08-10'),

('un123', '店铺页', '2021-08-10 00:04:00',3,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:05:00',4,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:06:00',5,'2021-08-10')

;

2021-08-10|1

  1. 一张活跃商品表,找出2021-08-02和2021-08-03新增活跃商品数,新增活跃商品数定义为今日活跃但昨日不活跃的商品(本人用(date,goods_id) not in (选出今日活跃昨日也活跃的商品)作为限制通过)

-- CREATE DATABASE test;

-- use test;

CREATE TABLE act_goods_d(

stat_date DATE

,goods_id BIGINT

);

INSERT INTO act_goods_d

(stat_date, goods_id)

VALUES

('2021-08-01', 27923)

,('2021-08-01', 23456)

,('2021-08-01', 86534)

,('2021-08-02', 27923)

,('2021-08-02', 23456)

,('2021-08-02', 23545)

,('2021-08-03', 23456)

,('2021-08-03', 23545)

,('2021-08-03', 98213)

;

2021-08-02|1

2021-08-03|1

  1. 一张用户点击表,一张用户下单表,找出某一日点击商品数和引导下单量,引导下单量定义为在同一日点击商品到下单的单量,注意点击时间要早于下单时间,比较简单,要用的date_format

CREATE TABLE flow_clk_i_d (

clk_time VARCHAR(30)

,uid BIGINT

,goods_id BIGINT

);

INSERT INTO flow_clk_i_d

(clk_time, uid, goods_id)

VALUES

('2021-08-06 11:30:50', 2111, 27023)

,('2021-08-07 12:30:56', 2133, 27023)

,('2021-08-07 15:46:23', 2132, 21346)

,('2021-08-07 15:50:56', 2132, 27053)

,('2021-08-07 20:46:23', 2133, 21348)

,('2021-08-07 20:50:56', 2132, 27023)

,('2021-08-08 20:46:23', 2132, 21346)

;

CREATE TABLE ordr_goods_i_d (

ordr_time VARCHAR(30)

,ordr_id BIGINT

,uid BIGINT

,goods_id BIGINT

);

INSERT INTO ordr_goods_i_d

(ordr_time, ordr_id, uid, goods_id)

VALUES

('2021-08-07 10:48:29', 641841, 2132, 21346)

,('2021-08-07 15:48:29', 642841, 2132, 21346)

,('2021-08-07 12:46:45', 753473, 2132, 27023)

,('2021-08-07 12:46:45', 763473, 2133, 27123)

;

2021-08-07|2|1

相关推荐
白水先森5 小时前
ArcGIS Pro制作人口三维地图教程
arcgis·信息可视化·数据分析
是一只努力的小菜鸡啦7 小时前
数据分析和数据挖掘的工作内容
信息可视化·数据挖掘·数据分析
Sharewinfo_BJ9 小时前
智信BI:解决Power BI全面兼容问题的新选择
数据分析·数据可视化·powerbi
亿信华辰软件13 小时前
政策解读:制造企业如何实施数字化转型
大数据·数据分析·制造
GIS遥感数据处理应用14 小时前
MATLAB | 设置滑动窗口计算栅格数据的CV变异系数
matlab·arcgis·数据分析
Tianyanxiao14 小时前
【探商宝】2025年2月科技与商业热点头条:AI竞赛、量子计算与芯片市场新格局
大数据·人工智能·经验分享·数据分析
数据小爬虫@14 小时前
爬虫获取的数据能用于哪些数据分析?
爬虫·数据挖掘·数据分析
pianmian11 天前
python绘图之箱型图
python·信息可视化·数据分析
补三补四1 天前
金融时间序列【量化理论】
机器学习·金融·数据分析·时间序列
胖子君2 天前
聊聊 FocusSearch/focus_mcp_sql:Text2SQL 的新玩法
数据分析