SQL之LIMIT子句踩坑记录

部分场景下,我们可能希望从一个大表 unparsed 中抽取前100行并对这些行应用UDF,一种容易想到的SQL语句如下:

sql 复制代码
@pyspark
insert into table parsed
select url, parse_func(content) as parsed_content from unparsed
limit 100;

但这个语句实际上会对 unparsed 中的所有行先应用UDF然后再抽取前100行,不符合我们的期望,为此可以作出如下修改

sql 复制代码
@pyspark
insert into table parsed
select url, parse_func(content) as parsed_content
from (
    select url, content from unparsed
    limit 100
);

注意,以下这种语句是无效的,速度并不会有任何改变:

sql 复制代码
@pyspark
insert into table parsed
(select url, parse_func(content) as parsed_content from unparsed limit 100);
相关推荐
安然无虞15 分钟前
「MongoDB数据库」初见
数据库·mysql·mongodb
一起养小猫23 分钟前
Flutter for OpenHarmony 实战:番茄钟应用完整开发指南
开发语言·jvm·数据库·flutter·信息可视化·harmonyos
Mr_Xuhhh27 分钟前
MySQL视图详解:虚拟表的创建、使用与实战
数据库·mysql
AI_567827 分钟前
MySQL索引优化全景指南:从慢查询诊断到智能调优
数据库·mysql
老虎062734 分钟前
Redis入门,配置,常见面试题总结
数据库·redis·缓存
一起养小猫36 分钟前
Flutter for OpenHarmony 实战:数据持久化方案深度解析
网络·jvm·数据库·flutter·游戏·harmonyos
codeRichLife37 分钟前
TimescaleDB保存100万条设备采集数据的两种存储方案对比分析
数据库
J&Lu1 小时前
[DDD大营销-Redis]
数据库·redis·缓存
咚咚?1 小时前
麒麟操作系统达梦数据集群安装(一主多从)
数据库
u0109272711 小时前
使用XGBoost赢得Kaggle比赛
jvm·数据库·python