SQL之LIMIT子句踩坑记录

部分场景下,我们可能希望从一个大表 unparsed 中抽取前100行并对这些行应用UDF,一种容易想到的SQL语句如下:

sql 复制代码
@pyspark
insert into table parsed
select url, parse_func(content) as parsed_content from unparsed
limit 100;

但这个语句实际上会对 unparsed 中的所有行先应用UDF然后再抽取前100行,不符合我们的期望,为此可以作出如下修改

sql 复制代码
@pyspark
insert into table parsed
select url, parse_func(content) as parsed_content
from (
    select url, content from unparsed
    limit 100
);

注意,以下这种语句是无效的,速度并不会有任何改变:

sql 复制代码
@pyspark
insert into table parsed
(select url, parse_func(content) as parsed_content from unparsed limit 100);
相关推荐
Johnstons4 分钟前
2026企业网络流量监控与分析工具对比
运维·网络·数据库·网络流量监控·网络流量分析
IMPYLH18 分钟前
Linux 的 dirname 命令
linux·运维·服务器·数据库
摇滚侠26 分钟前
限流的方法,Redis 计算器限流算法、滑动时间窗口限流算法、漏漏桶限流算法、令牌桶限流算法,Java 开发
java·数据库·redis
吾诺28 分钟前
mysql用户名怎么看
数据库·mysql
不会写DN1 小时前
GORM 实战入门:从环境搭建到企业级常用特性全解析
sql·mysql·go·gin
fy121631 小时前
Redis 下载与安装 教程 windows版
数据库·windows·redis
F1FJJ1 小时前
Shield CLI:MySQL 插件 vs phpMyAdmin:轻量 Web 数据库管理工具对比
前端·网络·数据库·网络协议·mysql·容器
果果燕1 小时前
SQLite3数据库查询学习笔记2
数据库·sqlite
2501_908329852 小时前
实战:用OpenCV和Python进行人脸识别
jvm·数据库·python
认真的薛薛2 小时前
Docker网络模式
linux·运维·数据库·面试·github