PostgreSQL 技术文章
Lakebase Search:向量与 BM25 检索在 Neon 上的实现
摘要:
Neon 发布了 Lakebase Search 的 beta 版本,提供两个 PostgreSQL 扩展------lakebase_vector 和 lakebase_text,支持向量检索与全文检索的混合查询。向量部分采用 IVF 结合 RaBitQ 量化方案,而非常见的 HNSW;全文部分则使用带 top-K 下推优化的 BM25,而非传统的基于 tsvector 的 GIN 索引。在架构上,索引存储于对象存储中,这使其能在 scale-to-zero 后保持持久化,并支持 Neon 平台的即时分支功能。
原文链接:https://pgnexus.ai/tech-blogs?url=https%3A%2F%2Fneon.com%2Fblog%2Flakebase-search-on-neon
2026年受管制行业应优先关注的10大企业数据库功能
摘要:
Timothy Steward 梳理了受监管行业在迈入 2026 年时应重点关注的十项 PostgreSQL 功能。随着数据量持续增长、合规要求日趋严格,金融、医疗、政府等强监管行业的企业需要的不只是一个存储数据的平台,而是能够切实强化安全性、支持合规审计、提升系统韧性并应对未来挑战的数据库解决方案。文章聚焦于 PostgreSQL 在企业级部署场景中的核心能力,具体功能列表在摘要中未作展开。
AI 对数据中心的改造:物理基础设施的挑战
摘要:
AI 基础设施已触及物理极限,正在从根本上重塑数据中心的设计逻辑。以 NVIDIA GB300 NVL72 为代表的现代 AI 机柜功耗高达 140 千瓦,约为传统机柜的十倍,迫使散热方式从风冷全面转向液冷。GPU 短缺的根本原因并不在于芯片制造本身,而在于先进封装产能和高带宽内存(HBM)的瓶颈。内存供给的结构性紧张源于全球仅三家厂商主导市场,且均将晶圆产能集中倾斜至高利润的 AI 产品。电网接入审批周期如今长达四至五年,而同步训练任务产生的大幅功率波动,也超出了电网原有的设计承载范围。水资源消耗虽在局部地区影响显著,但通过闭式循环冷却设计可有效控制。
PostgreSQL Hacker 电子邮件讨论精选
新增 pg_stat_kind_info 系统视图
该讨论围绕向 PostgreSQL 添加 pg_stat_kind_info 系统视图展开。争议点在于是否应包含 entry_size 字段以便计算内存消耗。有观点指出,该字段可能引发用户困惑------即使条目被删除、实际存储占用下降,DSA 的内存占用也不会随之收缩,用户可能因此产生误解。经过讨论,Michael Paquier 决定暂时去掉 entry_size 字段,将其余部分以 3b066de6c0a1 提交。双方均认为与内存大小相关的设计需要进一步讨论,不应因此阻塞整个功能的合入。
原链接:https://pgnexus.ai/hacker-discussions?subject=Add pg_stat_kind_info system view
实现 CAST(expr AS type FORMAT 'template') 语法
该讨论围绕在 PostgreSQL 中实现 CAST(expr AS type FORMAT 'template') 展开。Haibo Yan 更新了补丁,改用 CREATE FORMAT CAST 语法并引入独立的 pg_format_cast 系统目录。讨论的核心分歧有三点:一是 format cast 应作为独立对象类型,还是作为普通 cast 的附加元数据、通过 CREATE CAST 统一管理;二是数组元素级别的格式化转换是否需要在初始补丁中一并解决------David G. Johnston 主张应完整实现后再提交;三是该功能是否具有实际价值,因为现有的格式化函数已能满足需求。Peter Eisentraut 和 Robert Haas 对该功能的根本动机提出质疑,认为其主要意义仅在于标准合规性。
原链接:https://pgnexus.ai/hacker-discussions?subject=implement CAST(expr AS type FORMAT 'template')
从 psql 制表符补全中移除 VersionedQuery 支持
Nathan Bossart 提议从 psql 的 tab 补全代码中移除 VersionedQuery 基础设施,指出该机制由 commit 722408bcd1 引入,仅用于 publications 和 subscriptions。由于 psql 支持的最低服务器版本已提升至 v10,该机制目前已无任何使用场景。Ayush Tiwari 基本认可该补丁,但发现测试文件 010_tab_completion.pl 中仍有一处引用 VersionedQuery 的注释和标签未被清理,需要更新或删除。Tom Lane 则对此提出异议,认为未来的目录变更可能仍需在 tab 补全中使用版本条件查询,而替代方案 SchemaQuery 使用难度更高,因此不宜贸然移除该基础设施。
原链接:https://pgnexus.ai/hacker-discussions?subject=remove VersionedQuery support from psql tab completion
修复 UPDATE/DELETE FOR PORTION OF 时 RLS 检查对剩余行的遗漏
该讨论针对时态表操作中的一个安全漏洞:UPDATE/DELETE FOR PORTION OF 在保留目标范围外的历史数据时,会隐式插入"剩余行",但这些隐式插入此前绕过了 RLS INSERT 策略检查,从而为绕过 INSERT 限制提供了可乘之机。Chao Li 提交了一个补丁,在上述操作中强制执行 INSERT RLS WITH CHECK 检查。Paul A Jungwirth 对此提出顾虑:希望允许历史记录更新、同时禁止新增实体的用户,将因 INSERT 策略同时作用于两者而受到影响。经过测试(包括无剩余行的情况)确认无误报后,v2 版本补充了文档说明,Chao Li 在 v3 中进一步优化了措辞,Paul 表示认可。
报告实际发送到下游的字节数和事务数
讨论围绕一个补丁展开,该补丁旨在通过新增统计字段来报告逻辑复制实际向下游发送的字节数和事务数。Masahiko Sawada 此前建议将共享指标重构为一个公共结构体,由 PgStat_StatReplSlotEntry 和 ReorderBuffer 共同嵌入,而非逐一添加字段。Ashutosh Sharma 表示认同,并提交了一个合并补丁。Sawada 随后建议将两部分拆分为独立补丁,并调换顺序:output_bytes 统计补丁与重构部分应分开处理。他还特别指出,应避免在 reorderbuffer.h 中引入 pgstat.h。下一步需重新排列补丁顺序,并另行讨论重构方案。
原链接:https://pgnexus.ai/hacker-discussions?subject=Report bytes and transactions actually sent downtream
行业新闻
Microsoft 投入 25 亿美元成立 AI 部署公司
摘要:
Microsoft 宣布成立一家专注于 AI 部署的新公司,并承诺投入 25 亿美元。此举与 Amazon、OpenAI 和 Anthropic 此前的布局如出一辙,标志着大型科技公司正加速将 AI 商业化落地。此举不仅反映出行业对 AI 部署能力的重视,也表明头部企业正将竞争重心从模型研发扩展至大规模商业化应用。目前,该新部门的具体架构、领导团队及目标市场尚未披露。
Meta 悄然推出编码游戏应用 Pocket
摘要:
Meta 悄然推出实验性 AI 应用 Pocket,用户只需输入文字提示,即可生成并分享互动小游戏。此次低调上线,意在测试市场对 AI 生成互动内容的接受程度。Pocket 是"氛围编程"(vibe coding)趋势的典型产品------借助 AI,即便没有编程基础的用户也能通过自然语言创作出可运行的小程序。这也是 Meta 在核心社交媒体业务之外,持续探索生成式 AI 应用场景的最新举措。
Anthropic 与 Samsung 洽谈定制芯片合作
摘要:
据报道,Anthropic 正与 Samsung 就研发定制 AI 芯片展开谈判。此前约一周,OpenAI 刚宣布与 Broadcom 合作推出自研 AI 芯片。这一动向折射出头部 AI 公司加速布局自研芯片、降低对 Nvidia 等第三方供应商依赖的共同趋势。一旦合作落地,Anthropic 将在 AI 基础设施的成本控制与性能优化上拥有更大主动权。作为半导体制造巨头,Samsung 将在该合作中承担芯片量产角色。
社交媒体动态
单个 PostgreSQL 数据库中表过多,可能悄然引发内存耗尽、OOM 崩溃和元数据查询缓慢
摘要:
在单个 PostgreSQL 数据库中堆积过多的表,可能悄然引发内存耗尽、OOM 崩溃以及元数据查询变慢等严重问题。CYBERTEC 工程师 Laurenz Albe 通过一个真实客户案例,深入分析了问题的根本原因,并给出了切实可行的缓解方案。这篇文章对那些在不知不觉中积累了大量表、却未充分意识到其对性能和稳定性影响的数据库管理员,具有重要的参考价值。
DataAISummit 2026 回顾:产品发布、实操培训与技术洞察
摘要:
DataAISummit 2026 涵盖了多项产品发布、实操培训及技术分享。如果错过了现场,主题演讲和部分分会场内容现已支持按需回放,涉及 Genie One、LTAP、CustomerLake 等多个主题。感兴趣的观众可通过官方链接访问录播内容,了解本次峰会披露的最新进展。
【演示】AI 编程提速,数据库如何跟上节奏
摘要:
随着 AI 编程的快速发展,数据库也需要跟上步伐。Lakebase Branching 通过创建隔离的临时数据库环境,让 AI 编程代理可以自由实验和迭代,同时不影响生产数据的安全。该演示介绍了分支功能的工作原理、其快速与低成本的优势,以及如何通过 Databricks CLI 和 AGENTS.md 搭建完整的 AI 代理工作流。