拼多多笔试

拼多多2022数据分析笔试(0822)

一、选择题

1.已知样本量n,样本均值及方差求置信区间

2.决策树

3.峰度系数

4.协方差

5.第一、第二熵变

6.充分统计量

7.xgboost

8.方差分析中的多重比较

二、编程题

  1. 一张用户点击路径的表,找出某一日用户路径为店铺页-商详页-下单页的用户数(本人用的是笛卡尔积三张表where限制条件通过)

CREATE TABLE log_info (

uid varchar(255)

, page_name varchar(255)

, starttime varchar(255)

, rnk int

, dt date

)

;

INSERT INTO log_info

(uid,page_name,starttime,rnk,dt)

VALUES

('un670', '首页', '2021-08-10 08:01:00',1,'2021-08-10'),

('un670', '商详页', '2021-08-10 08:01:10',2,'2021-08-10'),

('un670', '店铺页', '2021-08-10 08:01:20',3,'2021-08-10'),

('un670', '商详页', '2021-08-10 08:01:30',4,'2021-08-10'),

('un670', '下单页', '2021-08-10 08:01:40',5,'2021-08-10'),

('un123', '首页', '2021-08-10 00:02:00',1,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:03:00',2,'2021-08-10'),

('un123', '店铺页', '2021-08-10 00:04:00',3,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:05:00',4,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:06:00',5,'2021-08-10')

;

2021-08-10|1

  1. 一张活跃商品表,找出2021-08-02和2021-08-03新增活跃商品数,新增活跃商品数定义为今日活跃但昨日不活跃的商品(本人用(date,goods_id) not in (选出今日活跃昨日也活跃的商品)作为限制通过)

-- CREATE DATABASE test;

-- use test;

CREATE TABLE act_goods_d(

stat_date DATE

,goods_id BIGINT

);

INSERT INTO act_goods_d

(stat_date, goods_id)

VALUES

('2021-08-01', 27923)

,('2021-08-01', 23456)

,('2021-08-01', 86534)

,('2021-08-02', 27923)

,('2021-08-02', 23456)

,('2021-08-02', 23545)

,('2021-08-03', 23456)

,('2021-08-03', 23545)

,('2021-08-03', 98213)

;

2021-08-02|1

2021-08-03|1

  1. 一张用户点击表,一张用户下单表,找出某一日点击商品数和引导下单量,引导下单量定义为在同一日点击商品到下单的单量,注意点击时间要早于下单时间,比较简单,要用的date_format

CREATE TABLE flow_clk_i_d (

clk_time VARCHAR(30)

,uid BIGINT

,goods_id BIGINT

);

INSERT INTO flow_clk_i_d

(clk_time, uid, goods_id)

VALUES

('2021-08-06 11:30:50', 2111, 27023)

,('2021-08-07 12:30:56', 2133, 27023)

,('2021-08-07 15:46:23', 2132, 21346)

,('2021-08-07 15:50:56', 2132, 27053)

,('2021-08-07 20:46:23', 2133, 21348)

,('2021-08-07 20:50:56', 2132, 27023)

,('2021-08-08 20:46:23', 2132, 21346)

;

CREATE TABLE ordr_goods_i_d (

ordr_time VARCHAR(30)

,ordr_id BIGINT

,uid BIGINT

,goods_id BIGINT

);

INSERT INTO ordr_goods_i_d

(ordr_time, ordr_id, uid, goods_id)

VALUES

('2021-08-07 10:48:29', 641841, 2132, 21346)

,('2021-08-07 15:48:29', 642841, 2132, 21346)

,('2021-08-07 12:46:45', 753473, 2132, 27023)

,('2021-08-07 12:46:45', 763473, 2133, 27123)

;

2021-08-07|2|1

相关推荐
秀儿还能再秀2 小时前
基于Excel的数据分析思维与分析方法
数据分析·excel
好开心啊没烦恼7 小时前
Python 数据分析:numpy,说人话,说说数组维度。听故事学知识点怎么这么容易?
开发语言·人工智能·python·数据挖掘·数据分析·numpy
涤生大数据10 小时前
Apache Spark 4.0:将大数据分析提升到新的水平
数据分析·spark·apache·数据开发
可观测性用观测云10 小时前
Pipeline 引用外部数据源最佳实践
数据分析
大数据CLUB16 小时前
基于spark的奥运会奖牌变化数据分析
大数据·hadoop·数据分析·spark
好开心啊没烦恼1 天前
Python 数据分析:计算,分组统计1,df.groupby()。听故事学知识点怎么这么容易?
开发语言·python·数据挖掘·数据分析·pandas
数据饕餮1 天前
Python数据分析基础03:探索性数据分析
python·信息可视化·数据分析
用户Taobaoapi20141 天前
母婴用品社媒种草效果量化:淘宝详情API+私域转化追踪案例
大数据·数据挖掘·数据分析
key062 天前
电子水母函数解析
数据分析
Brduino脑机接口技术答疑2 天前
脑机新手指南(二十一)基于 Brainstorm 的 MEG/EEG 数据分析(上篇)
数据挖掘·数据分析