20240702 每日AI必读资讯

程序员的店小二2024-07-02 1:08

🔍GPTPdf：使用类似GPT-4o的多模态LLM分析PDF文件

使用类似 GPT-4o 多模态模型解析 PDF 文件，转换为 Markdown 格式。
代码简洁高效，仅293行。
解析结果几乎完美包括排版、数学公式、表格、图片、图表等内容。

🔗详情链接：https://github.com/CosmosShadow/gptpdf

🔗 GPTPDF：293行代码，GPT-4o颠覆PDF板式分析，每页仅需1美分！-CSDN博客

🎥炸裂！Runway Gen 3可以生成电影片头3D巨幅字幕效果了

Runway Gen3 可模仿漫威电影片头效果制作3D巨幅字幕效果
极度稳定的光影效果，保持高质量输出，即使在高速移动场景中
控制模式包括 Motion Brush、高级摄像头控制、导演模式，生成速度快，审美强大

🔗 官网地址：https://runwayml.com/blog/introducing-gen-3-alpha/

🔗 https://blink.csdn.net/details/1746276

💻Llama 3-405B 出现在 WhatsApp Android测试版客户端

WhatsApp正在测试 AI 对话的功能
默认模型是Llama 3-70B，但是测试客户端中出现了Llama 3-405B模型。
Llama 3-405B模型提供有限数量的使用，达到限制后用户将回到使用默认模型。
早在4月份的时候，Meta就预告了该模型，这可能是第一个 GPT-4 级别的开源模型。

🔗信息来源：https://wabetainfo.com/whatsapp-beta-for-android-2-24-14-7-whats-new/

🔊NVIDIA Broadcast：利用 AI提升音频和视频质量

-通过AI技术自动消除背景噪音和房间回声

提供背景移除、替换和模糊功能：用户可以在不需要实际绿幕或复杂灯光设置的情况下，自定义背景。
自动对焦：实时动态跟踪用户的移动，自动裁剪和缩放画面。
眼神接触：即使你在看其他地方时，会自动纠正让你与摄像头对视的效果。

🔗 https://blink.csdn.net/details/1746274

🚀知乎宣布推出独立AI搜索平台「知乎直答」

知乎直答是基于知乎丰富问答数据开发的AI产品，提供简略和深入两种答案生成方式，支持用户快速找到所需内容或专家。
产品定位为生产力工具和发现世界的连接器，帮助用户通过提问来探索世界的能力。
未来计划推出App版本，引入多模态能力，与知乎社区深度融合，探索对外合作，为整个问答领域带来新的发展方向。

🔗详情链接：https://zhida.zhihu.com/

👗 AI换装黑科技 MMTryon虚拟试穿框架可按需搭配一键叠穿

一键生成模特试穿效果，质量高且操作简便
打破传统算法束缚，获得新SOTA，支持组合换装
利用服装编码器和多模态多参考注意机制，换装更精确灵活

🔗详情链接：https://arxiv.org/abs/2405.00448

上一篇：Mouse Albumin ELISA Kit小鼠白蛋白ELISA试剂盒

下一篇：OOAD的概念

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结