SELECT url, jq(html.document, 'h1').text as title
FROM crawl(['https://example.com']);
使用 read_html(类似Google Sheets的 =IMPORTHTML)
sql复制代码
-- 提取表格
SELECT * FROM read_html('https://en.wikipedia.org/wiki/...', 'table.wikitable', 1);
-- 提取JS变量
SELECT * FROM read_html('https://example.com/page', 'js=jobs');
数据提取示例
sql复制代码
SELECT
url,
jq(html.document, '.price', 'data-amount') as price,
html.readability.title as article_title
FROM crawl(['https://example.com/products']);
使用 MERGE 进行智能合并
sql复制代码
CRAWLING MERGE INTO pages
USING crawl(['https://example.com']) AS src
ON (src.url = pages.url)
WHEN MATCHED THEN UPDATE BY NAME
WHEN NOT MATCHED THEN INSERT BY NAME;
✨ 核心特性
crawl() 表函数 : 支持自动速率限制和 robots.txt 合规性
crawl_url() : 支持 LATERAL 连接
sitemap(): 解析 XML 网站地图
read_html() : 类似 Google Sheets 的 IMPORTHTML,支持提取表格、列表、JS变量