SQL之LIMIT子句踩坑记录

部分场景下,我们可能希望从一个大表 unparsed 中抽取前100行并对这些行应用UDF,一种容易想到的SQL语句如下:

sql 复制代码
@pyspark
insert into table parsed
select url, parse_func(content) as parsed_content from unparsed
limit 100;

但这个语句实际上会对 unparsed 中的所有行先应用UDF然后再抽取前100行,不符合我们的期望,为此可以作出如下修改

sql 复制代码
@pyspark
insert into table parsed
select url, parse_func(content) as parsed_content
from (
    select url, content from unparsed
    limit 100
);

注意,以下这种语句是无效的,速度并不会有任何改变:

sql 复制代码
@pyspark
insert into table parsed
(select url, parse_func(content) as parsed_content from unparsed limit 100);
相关推荐
玉面小白龍(peng)4 分钟前
sql优化进阶
数据库
Adorable老犀牛5 分钟前
Linux-db2look创建表结构详细参数
linux·数据库·db2
disanleya24 分钟前
MySQL时间格式转换,时间数据混乱不堪如何彻底重构?
数据库·mysql·重构
奥尔特星云大使25 分钟前
mysql读写分离中间件——Atlas详解
数据库·mysql·中间件·dba·读写分离
默|笙1 小时前
【c++】set和map的封装
android·数据库·c++
一水鉴天1 小时前
整体设计 逻辑系统程序 之20 程序设计 含分层架构、CNN 数据处理支撑、监督闭环与多场景交付物 之1 cnn_project
数据库·人工智能·算法
zym大哥大2 小时前
Redis-List
数据库·redis·缓存
正在走向自律2 小时前
国产之光金仓数据库,真能平替MongoDB?实测来了!
数据库
RestCloud2 小时前
PostgreSQL的数据集成之路:ETL+CDC实现实时多源聚合
数据库·数据仓库·postgresql·etl·数据处理·数据传输·数据同步