拼多多笔试

拼多多2022数据分析笔试(0822)

一、选择题

1.已知样本量n,样本均值及方差求置信区间

2.决策树

3.峰度系数

4.协方差

5.第一、第二熵变

6.充分统计量

7.xgboost

8.方差分析中的多重比较

二、编程题

  1. 一张用户点击路径的表,找出某一日用户路径为店铺页-商详页-下单页的用户数(本人用的是笛卡尔积三张表where限制条件通过)

CREATE TABLE log_info (

uid varchar(255)

, page_name varchar(255)

, starttime varchar(255)

, rnk int

, dt date

)

;

INSERT INTO log_info

(uid,page_name,starttime,rnk,dt)

VALUES

('un670', '首页', '2021-08-10 08:01:00',1,'2021-08-10'),

('un670', '商详页', '2021-08-10 08:01:10',2,'2021-08-10'),

('un670', '店铺页', '2021-08-10 08:01:20',3,'2021-08-10'),

('un670', '商详页', '2021-08-10 08:01:30',4,'2021-08-10'),

('un670', '下单页', '2021-08-10 08:01:40',5,'2021-08-10'),

('un123', '首页', '2021-08-10 00:02:00',1,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:03:00',2,'2021-08-10'),

('un123', '店铺页', '2021-08-10 00:04:00',3,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:05:00',4,'2021-08-10'),

('un123', '商详页', '2021-08-10 00:06:00',5,'2021-08-10')

;

2021-08-10|1

  1. 一张活跃商品表,找出2021-08-02和2021-08-03新增活跃商品数,新增活跃商品数定义为今日活跃但昨日不活跃的商品(本人用(date,goods_id) not in (选出今日活跃昨日也活跃的商品)作为限制通过)

-- CREATE DATABASE test;

-- use test;

CREATE TABLE act_goods_d(

stat_date DATE

,goods_id BIGINT

);

INSERT INTO act_goods_d

(stat_date, goods_id)

VALUES

('2021-08-01', 27923)

,('2021-08-01', 23456)

,('2021-08-01', 86534)

,('2021-08-02', 27923)

,('2021-08-02', 23456)

,('2021-08-02', 23545)

,('2021-08-03', 23456)

,('2021-08-03', 23545)

,('2021-08-03', 98213)

;

2021-08-02|1

2021-08-03|1

  1. 一张用户点击表,一张用户下单表,找出某一日点击商品数和引导下单量,引导下单量定义为在同一日点击商品到下单的单量,注意点击时间要早于下单时间,比较简单,要用的date_format

CREATE TABLE flow_clk_i_d (

clk_time VARCHAR(30)

,uid BIGINT

,goods_id BIGINT

);

INSERT INTO flow_clk_i_d

(clk_time, uid, goods_id)

VALUES

('2021-08-06 11:30:50', 2111, 27023)

,('2021-08-07 12:30:56', 2133, 27023)

,('2021-08-07 15:46:23', 2132, 21346)

,('2021-08-07 15:50:56', 2132, 27053)

,('2021-08-07 20:46:23', 2133, 21348)

,('2021-08-07 20:50:56', 2132, 27023)

,('2021-08-08 20:46:23', 2132, 21346)

;

CREATE TABLE ordr_goods_i_d (

ordr_time VARCHAR(30)

,ordr_id BIGINT

,uid BIGINT

,goods_id BIGINT

);

INSERT INTO ordr_goods_i_d

(ordr_time, ordr_id, uid, goods_id)

VALUES

('2021-08-07 10:48:29', 641841, 2132, 21346)

,('2021-08-07 15:48:29', 642841, 2132, 21346)

,('2021-08-07 12:46:45', 753473, 2132, 27023)

,('2021-08-07 12:46:45', 763473, 2133, 27123)

;

2021-08-07|2|1

相关推荐
用户Taobaoapi201411 小时前
京东店铺所有商品API技术开发文档
大数据·数据挖掘·数据分析
华科云商xiao徐17 小时前
告别IP被封!分布式爬虫的“隐身”与“分身”术
爬虫·数据挖掘·数据分析
没有梦想的咸鱼185-1037-16631 天前
【高分论文密码】大尺度空间模拟预测与数字制图
信息可视化·数据分析·r语言
m0_575046341 天前
FPGA数据流分析
数据分析·fpga·数据流分析
思辨共悟1 天前
Python的价值:突出在数据分析与挖掘
python·数据分析
用户Taobaoapi20142 天前
京东图片搜索相似商品API开发指南
大数据·数据挖掘·数据分析
带娃的IT创业者2 天前
《AI大模型应知应会100篇》第69篇:大模型辅助的数据分析应用开发
人工智能·数据挖掘·数据分析
数据科学作家2 天前
学数据分析必囤!数据分析必看!清华社9本书覆盖Stata/SPSS/Python全阶段学习路径
人工智能·python·机器学习·数据分析·统计·stata·spss
liliangcsdn2 天前
Leiden社区发现算法的学习和示例
学习·数据分析·知识图谱
云天徽上2 天前
【数据可视化-107】2025年1-7月全国出口总额Top 10省市数据分析:用Python和Pyecharts打造炫酷可视化大屏
开发语言·python·信息可视化·数据挖掘·数据分析·pyecharts