InfoWorld 今天发布了2023年最佳开源榜（The best open source software），笔者整理了一下这篇文章并按照分类列出，包括「AI，前端，数据库，云原生」等各个领域的开源产品，让我们一起来看看吧！

友情提示：如果只对特定领域的产品感兴趣，请直接点击右侧目录跳转到相应位置。

声明

本榜单完全由 InfoWorld 的编辑挑选和评定，具有争议的内容请理性看待
榜单的分类和顺序不代表任何实质排名
每段介绍基本来自原文的翻译，部分术语会在括号中标明英文原文，有兴趣的话可以直接阅读原文
软件不一定是今年（2023年）才开源的，也有可能是当下有重大突破或意义的

原文地址：🔗链接

榜单内容

前端

Bun

就在你认为 JavaScript 已经适应了一个可预测的发展方向时，Bun 出现了。这个无聊的名字掩盖了一个严肃的目标：将服务器端JS所需的一切------运行时、bundler、包管理器统一放在一个工具中。让它成为 Node.js 和 NPM 的替代品，但速度要快得多。这个简单的命题似乎使 Bun 成为了自 Node 以来最具破坏性的 JavaScript 工具。

Bun 的一些速度归功于 Zig；其余的都归功于创始人对性能的痴迷。你可以在命令行中立即感受到差异。除了性能之外，仅仅是将所有工具集成在一个集成包中这一条，Bun 就能成为 Node 和 Deno 的一个引人注目的替代品。

HTMX and Hyperscript

HTMX 采用您熟悉和喜爱的HTML，并通过增强功能对其进行扩展，使编写现代 web 应用程序变得更容易。HTMX 消除了许多用于连接 web 前端和后端的 JavaScript。相反，它使用直观的 HTML 属性来执行诸如发出 AJAX 请求和用数据填充元素之类的任务。它伴随的项目 Hyperscript 引入了类似 HyperCard 的语法，以简化许多JavaScript 任务，包括异步操作和DOM操作。总的来说，HTMX 和 Hyperscript 为响应式（Reactive）框架的趋势提供了一个大胆的替代愿景。

数据库

这里的数据库代表广义的数据库，不仅仅是 SQL/NoSQL，也包括了一系列大数据储存和分析工具。

Apache Hudi

在构建开放的数据湖（data lake & data lakehouse)时，许多产业都需要一个更先进和灵活的平台。以广告商和媒体的广告平台为例，仅仅对数据进行快速的分析是不够的。Apache Hudi不仅提供了高性能的数据储存格式、表和SQL，而且可以进行低延迟的实时分析。它集成了Apache Spark、Apache Flink以及Presto、StarRocks 和Amazon Athena 等工具。简而言之，如果你想在数据湖上寻找实时分析的工具，Hudi是一个很好的选择。

Apache Iceberg

HDFS 和 Hive 太慢了，我选择 Apache Iceberg！它可以与Hive一起工作，也可以直接与Apache Spark和Apache Flink以及ClickHouse、Dremio 和 StarRocks 等其他系统一起工作。Iceberg为所有这些系统提供了一种高性能的表格式，同时实现了完整的模式演化（schema evolution）、数据压缩和版本回滚。Iceberg 是许多现代开放数据湖的关键组成部分。

DuckDB

OLAP数据库应该是巨大的，对吧？没有人会把 IBM Cognos、Oracle OLAP、SAP Business Warehouse 或ClickHouse 描述为"轻量级"。然而，如果你只需要一个OLAP，运行嵌入式、进程内、没有外部依赖关系的分析数据库，该怎么办？DuckDB 是一个基于 SQLite 等微小且强大的项目而构建的分析数据库。DuckDB 提供了所有熟悉的RDBMS 功能 ------ SQL查询、ACID事务、二级索引 ------ 并且添加了分析功能，如大型数据集上的联接和聚合。它还可以吸收并直接查询常见的大数据格式，如Parquet。

CockroachDB

作为一个能够实现强一致性 ACID 事务的分布式 SQL 数据库，CockratchDB 通过实现数据库读写的水平可扩展性，解决了高性能、事务量大的应用程序的关键可扩展性问题。CockratchDB 还支持多区域和多云部署，以减少延迟并遵守数据法规。部署案例包括 Netflix 的数据平台，该平台有100多个生产环境 CockratchDB 集群，支持媒体应用程序和设备管理。Marquee 这家公司的客户还包括 Hard Rock Sportsbook、JPMorgan Chase、Santander 和DoorDash。

PostgreSQL

PostgreSQL 已经开发了35年，有700多个贡献者参与，在关系数据库管理系统中估计占有 16.4% 的市场份额。最近的一项调查显示，PostgreSQL 是 90000 名开发者中 45% 的首选，这一趋势只会越来越大。9月发布的PostgreSQL 16 提高了聚合和选择不同查询的性能，提高了查询并行性，带来了新的I/O监控功能，并添加了更细粒度的安全访问控制。同样在2023年，AWS Aurora PostgreSQL 添加了 pgvector 来支持生成人工智能嵌入，谷歌云也为 AlloyDB PostgreSQL 发布了类似的功能。

云原生 & 虚拟化

Istio

Istio 简化了基于容器的微服务的网络和通信，是一个服务网格，提供流量路由、监控、日志记录和可观察性，同时通过加密、身份验证和授权功能增强安全性。Istio 将通信及其安全功能与应用程序和基础设施分离，从而实现更安全、更一致的配置。该体系结构由部署在 Kubernetes 集群中的控制平面和用于控制通信策略的数据平面组成。2023年，Istio 从 CNCF 孵化中心毕业，在云原生社区具有重要影响力，包括谷歌、IBM、Red Hat、Solo.io和其他公司的支持和贡献。

Kata Containers

Kata containers 结合了容器的速度和虚拟机的隔离，是一个安全的容器运行时，它使用Intel Clear containers 和 Hyper.sh runV（一个基于虚拟机监控程序的运行时）。Kata-Containers 与 Kubernetes 和 Docker 协同工作，同时支持多种硬件架构，包括x86_64、AMD64、Arm、IBM p 系列和 IBM z系列。谷歌云、微软、AWS和阿里云是基础设施赞助商。其他支持 Kata-Containers 的公司包括 Cisco、Dell、Intel、Red Hat、SUSE 和 Ubuntu。最近发布的一个版本为GPU设备和设备管理的抽象带来了机密容器。

AI & 大语言模型

毫无疑问，因为 ChatGPT 的热潮，AI 和大语言模型是目前技术领域最火热的话题之一，让我们来看看有什么吧。

Claude 2

Anthropic 的 Claude 2在一个 prompt 输入中接受多达10万个token（约7万字），并且可以生成多达几千个token的回复。Claude 可以编辑、重写、总结、分类、提取结构化数据、根据内容进行问答等等。它接受了最多的英语内容训练，在一系列其他常见语言中也表现良好。Claude 对通用编程语言也有广泛的了解。

Claude 被训练成乐于助人且诚实无害的（HHH，helpful-honest-harmless），并被广泛地训练成更无害、更难产生进攻性的输出。它不会根据你的数据进行训练，也不会在互联网上寻找答案。Claude作为免费测试版向美国和英国地区的用户开放，并已被 Jasper Sourcegraph 和 AWS 等商业合作伙伴采用。

LangChain

LangChain 是一个模块化大语言模型框架，它简化了由语言模型支持的应用程序的开发。LangChain 使语言模型能够连接到数据源并与其环境交互。LangChain 组件是模块化抽象和抽象实现的集合。LangChain 现成链是用于完成特定高级任务的组件的结构化组件。可以使用零部件自定义现有链和构建新链。LangChain 目前有三个版本：一个在Python 中，一个在 TypeScript/JavaScript 中，还有一个在 Go 中。截至本文撰写之时，大约有160个LangChain 的集成。

Language Model Evaluation Harness

当一个新的大型语言模型（LLM）发布时，你通常会看到一组评估分数，将该模型与某个基准上的 ChatGPT 进行比较。更有可能的是，该模型背后的公司将使用lm评估工具来生成这些分数。Language Model Evaluation Harness 由分布式人工智能研究机构 EleutherAI 创建，包含200多个基准，并且易于扩展。该工具甚至被用来发现现有基准中的不足，并为 Hugging Face 的 Open LLM 排行榜提供动力。就像 xkcd 漫画中一样，它是支撑整个世界的小支柱之一。

Llama 2

Llama 2 是 Meta AI 的下一代大型语言模型，其训练的数据（来自公开来源的2万亿个 token）比Llama 1多40%，上下文长度是前者的两倍（4096）。Llama 2是一个自回归语言模型，它使用了优化的转换器架构。调整后的版本使用监督微调（SFT）和带有人类反馈的强化学习（RLHF），以符合人类对有用性和安全性的偏好。Code Llama是通过在特定于代码的数据集上微调Llama 2来训练的，它可以根据代码或自然语言提示生成代码和关于代码的自然语言描述。

Ollama

Ollama是一个命令行程序，可以在 macOS 和 Linux 上本地运行 Llama 2、Code Llama 和其他模型，并计划支持 Windows。Ollama 目前支持近20多个语言模型族，每个模型族都有许多"标签"。标签是使用不同微调以不同大小训练的模型的变体，并在不同级别量化以在本地运行良好。量化级别越高，模型就越准确，但运行速度越慢，所需内存越多。 Ollama 支持的模型包括一些未经审查的变体。例如，如果你问Llama 2如何制造火药，它会警告你制造炸药是非法和危险的。然而，如果你问一个未经审查的Llama 2型号同样的问题，它只会直接告诉你答案。

QLoRA

Tim Dettmers 和团队的使命似乎是让大型语言模型在你的烤面包机上运行。去年，他们的 bitsandbytes 库为消费级别的硬件带来了更强大的 LLM 的推断。今年，他们转向了训练，缩减了已经令人印象深刻的 LoRA 技术，转而研究模型。使用 QLoRA 意味着您可以在普通台式机上微调 30B 以上的大型参数模型，与跨多个 GPU 的全面调整相比，精度几乎没有损失。事实上，有时 QLoRA 做得更好。低比特推理和训练意味着 LLM 可以被更多的人访问------这难道不是开源的全部吗？

其它

Apache Superset

多年来，Apache Superset一直是数据可视化的利器。Superset实际上是任何想要大规模部署自助、面向客户或面向用户分析的人的最佳选择。Superset为几乎任何分析场景提供可视化，包括从饼图到复杂地理空间图的所有内容。它可以与大多数SQL数据库对话，并提供拖拽生成器和SQL IDE。如果你想可视化数据，Superset值得你第一眼看看。

CPython

机器学习、数据科学、任务自动化、web开发 ...... 热爱 Python 编程语言的原因数不胜数。遗憾的是，运行时性能不是其中之一，但它正在改变。在最近的两个版本 Python 3.11 和 Python 3.12 中，Python 核心开发团队公布了对 CPython 的一系列变革性升级，CPython 是 Python 解释器的参考实现。优化的结果是是，Python 运行时对每个人来说都会更快，而不仅仅是对少数选择使用新库或极端语法的人。本次升级计划删除的全局解释器锁（GIL）是 Python中真正的多线程并行性的长期障碍，团队目前已经为更大的改进做好了准备。

Polars

你可能会问，既然我们已经有了很好的 Pandas，为什么 Python 需要另一个数据处理库。深入一点看，你可能会发现 Polars 正是你想要的。Polar 不能做 Pandas 能做的所有事情，但对于它能做的事情，它做得很快 ------ 比 Pandas 快10倍，并且仅占用一半的内存。来自 PySpark 的开发人员在使用 Polars API 时会感觉比在 Pandas中使用更自在。如果您正在处理大量数据，Polars 将带来更好的性能。

RAPIDS

RAPID 是用于常见数据科学和分析任务的 GPU 加速库的集合。每个库处理一个特定的任务，如用于数据帧处理的cuDF、用于图形分析的 cuGraph 和用于机器学习的 cuML。其他库涵盖图像处理、信号处理和空间分析，而集成则将 RAPID 引入 Apache Spark、SQL 和其他工作负载。如果现有的库都不符合要求，RAPID 还包括 RAFT，这是一个用于构建自己的解决方案的 GPU 加速基元集合。RAPID 还与 Dask携手合作，跨多个节点进行扩展，并与Slurm 携手在高性能计算环境中运行。

结尾

榜单内容就这么多了，如果有明显的翻译问题或描述可以在评论中指出。

【技术讯息】InfoWorld 评 2023 最佳开源产品榜单

声明