拼多多笔试

拼多多2022数据分析笔试(0822)

一、选择题

1.已知样本量n,样本均值及方差求置信区间

2.决策树

3.峰度系数

4.协方差

5.第一、第二熵变

6.充分统计量

7.xgboost

8.方差分析中的多重比较

二、编程题

  1. 一张用户点击路径的表,找出某一日用户路径为店铺页-商详页-下单页的用户数(本人用的是笛卡尔积三张表where限制条件通过)

CREATE TABLE log_info (

uid varchar(255)

, page_name varchar(255)

, starttime varchar(255)

, rnk int

, dt date

)

;

INSERT INTO log_info

(uid,page_name,starttime,rnk,dt)

VALUES

('un670', '首页', '2021-08-10 08:01:00',1,'2021-08-10'),

('un670', '商详页', '2021-08-10 08:01:10',2,'2021-08-10'),

('un670', '店铺页', '2021-08-10 08:01:20',3,'2021-08-10'),

('un670', '商详页', '2021-08-10 08:01:30',4,'2021-08-10'),

('un670', '下单页', '2021-08-10 08:01:40',5,'2021-08-10'),

('un123', '首页', '2021-08-10 00:02:00',1,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:03:00',2,'2021-08-10'),

('un123', '店铺页', '2021-08-10 00:04:00',3,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:05:00',4,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:06:00',5,'2021-08-10')

;

2021-08-10|1

  1. 一张活跃商品表,找出2021-08-02和2021-08-03新增活跃商品数,新增活跃商品数定义为今日活跃但昨日不活跃的商品(本人用(date,goods_id) not in (选出今日活跃昨日也活跃的商品)作为限制通过)

-- CREATE DATABASE test;

-- use test;

CREATE TABLE act_goods_d(

stat_date DATE

,goods_id BIGINT

);

INSERT INTO act_goods_d

(stat_date, goods_id)

VALUES

('2021-08-01', 27923)

,('2021-08-01', 23456)

,('2021-08-01', 86534)

,('2021-08-02', 27923)

,('2021-08-02', 23456)

,('2021-08-02', 23545)

,('2021-08-03', 23456)

,('2021-08-03', 23545)

,('2021-08-03', 98213)

;

2021-08-02|1

2021-08-03|1

  1. 一张用户点击表,一张用户下单表,找出某一日点击商品数和引导下单量,引导下单量定义为在同一日点击商品到下单的单量,注意点击时间要早于下单时间,比较简单,要用的date_format

CREATE TABLE flow_clk_i_d (

clk_time VARCHAR(30)

,uid BIGINT

,goods_id BIGINT

);

INSERT INTO flow_clk_i_d

(clk_time, uid, goods_id)

VALUES

('2021-08-06 11:30:50', 2111, 27023)

,('2021-08-07 12:30:56', 2133, 27023)

,('2021-08-07 15:46:23', 2132, 21346)

,('2021-08-07 15:50:56', 2132, 27053)

,('2021-08-07 20:46:23', 2133, 21348)

,('2021-08-07 20:50:56', 2132, 27023)

,('2021-08-08 20:46:23', 2132, 21346)

;

CREATE TABLE ordr_goods_i_d (

ordr_time VARCHAR(30)

,ordr_id BIGINT

,uid BIGINT

,goods_id BIGINT

);

INSERT INTO ordr_goods_i_d

(ordr_time, ordr_id, uid, goods_id)

VALUES

('2021-08-07 10:48:29', 641841, 2132, 21346)

,('2021-08-07 15:48:29', 642841, 2132, 21346)

,('2021-08-07 12:46:45', 753473, 2132, 27023)

,('2021-08-07 12:46:45', 763473, 2133, 27123)

;

2021-08-07|2|1

相关推荐
Allen_LVyingbo16 小时前
2025.10月报 Cherry Stuido 1.6.4、Ollama 0.12.5、Dify 1.9.1升级使用摘要
信息可视化·数据分析·健康医疗
派可数据BI可视化17 小时前
商业智能BI与业务结构分析
大数据·数据仓库·信息可视化·数据分析·商业智能bi
闲人编程1 天前
从多个数据源(CSV, Excel, SQL)自动整合数据
python·mysql·数据分析·csv·存储·数据源·codecapsule
码界筑梦坊1 天前
267-基于Django的携程酒店数据分析推荐系统
python·数据分析·django·毕业设计·echarts
Bony-1 天前
奶茶销售数据分析
人工智能·数据挖掘·数据分析·lstm
B站_计算机毕业设计之家1 天前
大数据实战:Python+Flask 汽车数据分析可视化系统(爬虫+线性回归预测+推荐 源码+文档)✅
大数据·python·数据分析·flask·汽车·线性回归·预测
Q26433650232 天前
大数据实战项目-基于K-Means算法与Spark的豆瓣读书数据分析与可视化系统-基于python的豆瓣读书数据分析与可视化大屏
大数据·hadoop·机器学习·数据分析·spark·毕业设计·kmeans
大数据CLUB2 天前
基于spark的抖音短视频数据分析及可视化
大数据·hadoop·分布式·数据分析·spark
观远数据2 天前
A Blueberry 签约观远数据,观远BI以一站式现代化驱动服饰企业新增长
大数据·数据库·人工智能·数据分析
Q26433650232 天前
【有源码】基于Hadoop生态的大数据共享单车数据分析与可视化平台-基于Python与大数据的共享单车多维度数据分析可视化系统
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计