谷歌新作:AI 检测文件内容类型,5ms 即可完成 | 开源日报 No.192

google/magika

Stars: 5.0k License: Apache-2.0

magika 是一个利用深度学习来检测文件内容类型的工具。

  • 使用自定义、高度优化的 Keras 模型,仅约 1MB 大小,在单个 CPU 上能够在毫秒内实现精确的文件识别。
  • 在超过 1M 文件和 100 种内容类型(包括二进制和文本文件格式)的评估中,达到了 99% 以上的准确率和召回率。
  • 可作为 Python 命令行工具、Python API 和实验性 TFJS 版本使用,并支持批处理以加快推理速度。
  • 推理时间大约为每个文件 5ms,且独立于文件大小而保持近恒定。

karpathy/minbpe

Stars: 4.3k License: MIT

minbpe 是用于 LLM 分词中常用的字节对编码(BPE)算法的最小、干净代码。

  • 实现了基本 BPE 算法,直接在文本上运行。
  • 实现了 RegexTokenizer,通过正则表达式模式进一步拆分输入文本,在标记化之前将输入文本按类别(如:字母、数字、标点符号)进行分割。确保不会跨越类别边界进行合并。
  • 实现了 GPT4Tokenizer,是 RegexTokenizer 的轻量级包装器,完全复制了 tiktoken 库中 GPT-4 的标记化过程。

facebookresearch/DiT

Stars: 2.7k License: NOASSERTION

DiT 是 "Scalable Diffusion Models with Transformers" 的官方 PyTorch 实现。 该项目的主要功能、关键特性、核心优势:

  • 提供了基于 PyTorch 的 DiT 模型定义和预训练权重
  • 支持训练和采样代码
  • 分析了通过 Transformer 进行操作的潜在扩散模型(DiTs)的可扩展性
  • 在 ImageNet 512×512 和 256×256 基准测试中,DiT-XL/2 模型表现出色,取得最先进 FID 结果

ajeetdsouza/zoxide

Stars: 15.6k License: MIT

zoxide 是一个更智能的 cd 命令,支持所有主要的 shell。 主要功能是记住您经常使用的目录并快速跳转。

Stars: 6.1k License: MIT

chainlink 是一个去中心化预言机网络的节点,连接了链上和链下计算。

  • 扩展智能合约功能,实现对真实世界数据和链下计算的访问
  • 保持区块链技术固有的安全性和可靠性保证
  • 包含 Chainlink 核心节点和合约
  • 提供预构建 Docker 镜像以供下载使用
  • 活跃社区支持,并提供 Discord 作为主要沟通渠道
  • 提供详细文档指导、Solidity 开发资源等信息
相关推荐
qzhqbb2 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨3 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041083 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
NiNg_1_2343 小时前
SpringBoot整合SpringSecurity实现密码加密解密、登录认证退出功能
java·spring boot·后端
AI极客菌4 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭4 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^4 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Chrikk4 小时前
Go-性能调优实战案例
开发语言·后端·golang
幼儿园老大*4 小时前
Go的环境搭建以及GoLand安装教程
开发语言·经验分享·后端·golang·go
canyuemanyue4 小时前
go语言连续监控事件并回调处理
开发语言·后端·golang