AI 检测文件类型 Magika

magika 介绍

Magika 是 Google 推出的一个新型工具,使用 AI 用来文件类型的检测,采用了高度优化的 Keras 模型,具有较高的准确性、模型较小等优点,支持100多种文件类型,准确性高达 99%,推测每个文件的时间大约 5 ms。

Magika 在 Google 内部已被大量使用,用于 Gmail,网络硬盘等应用,检测各种文件,提高了用户的安全性。

Magika 提供了 Pyhton 命令行、 Pyhton API和 js 包等多种方式使用,还支持批量处理提高推理速度。

安装

可以使用 pip 命令进行安装: pip install magika

如果没有 Python 环境,还可以 Docker 中进行使用:

bash 复制代码
git clone https://github.com/google/magika
cd magika/
docker build -t magika .
docker run -it --rm -v $(pwd):/magika magika -r /magika/tests_data

如果 Docker 环境也没有,那你可以使用Google 部署的网站进行试用 google.github.io/magika/。

运行

运行仓库提供的测试数据(magika -r /magika/tests_data):

可以看到文件的类型很精准的被识别出来了。

接下来做个试验,将一个 png 的图片的后缀修改为jpg ,看看还能否正确识别,可以看到还是成功精准识别了。

小结

本文介绍了一种使用 AI 进行文件类型检测的工具 magika,相较于其它类型检测工具,magika 依托于数据集和模型的精度,可以大大提高识别文件类型的精度和速度。

参考

相关推荐
新智元5 分钟前
谷歌重磅推出全新 Scaling Law,抢救 Transformer!3 万亿美元 AI 面临岔路
人工智能·openai
九鼎创展科技6 分钟前
LGA封装 Z3588开发板,8K视频编解码
arm开发·人工智能·嵌入式硬件
moreface7 分钟前
uni.request 配置流式接收+通义千问实现多轮对话
前端·vue.js·人工智能
Jackson@ML9 分钟前
一分钟了解深度学习
人工智能·深度学习·deep learning
神经星星9 分钟前
入选ICLR 2025!剑桥大学提出Celcomen模型,首次在空间转录组学分析中实现因果推断可识别性
人工智能·深度学习·机器学习
掘金詹姆斯10 分钟前
从Guava缓存源码提炼业务开发心法:Get方法暗藏的12个高并发设计哲学
后端
数字供应链安全产品选型12 分钟前
2025移动端软件供应链安全开源治理方案最佳实践
网络·人工智能·安全·开源·开源软件
新智元12 分钟前
2025 年 99% 代码 AI 生成!OpenAI 高管宣告没有退路,人类将被全面超越
人工智能·openai
零零壹1113 分钟前
理解Akamai EdgeGrid认证在REST API中的应用
前端·后端
uhakadotcom15 分钟前
DataWorks邮件外发完全指南:从零开始实现数据自动推送(2025最新实践)
后端·面试·github