GitHub 一周热点汇总第10期(2024/02/11-02/17)

GitHub 一周热点汇总第10期(2024/02/11-02/17) ,梳理每周热门的GitHub项目,了解热点技术趋势,来看看这周的热门项目。

#1 MoneyPrinter

这个项目的名字真是太直白了 MoneyPrinter ,本项目是利用多种AI工具来最终实现输入期望的文本,自动输出视频短片的效果。

作者的想法非常的直白和落地,就是通过python将一些现有的技术进行整合,最终实现一个可用的效果。其实项目的内容非常简单直白,核心只有几个python文件。

来说说作者的实现思路,很值得大家借鉴。

  • 使用GPT来写视频脚本
  • 使用pexels的API来搜索相关的视频
  • 用TikTok-Voice-TTS 来做语音生成
  • 使用moviepy来剪切和增加字幕
  • 最后还可以通过Google API来上传youtube

怎么样,看起来似乎很简单,很多事情都是一样,做了就不难。

下面是它的GitHub star,看来外国的友人们也很喜欢项目的实操精神。

#2 pkl

  • 项目名称:pkl - 配置即代码语言
  • GitHub 链接:github.com/apple/pkl
  • 上周 Star 数:4000+

这是一个苹果的开源项目,Pkl(发音为Pickle  )是一种配置即代码语言,具有丰富的验证和工具。它可以用作命令行工具、软件库或构建插件。Pkl 的规模可以从小到大、从简单到复杂、从临时配置任务到重复配置任务。

创建 Pkl 是因为他们相信配置最好用专用配置语言来表达;静态配置格式和通用编程语言的混合。

目前的使用场景主要包括生成静态配置和应用程序运行时配置*。*目前主持的语言包括了Java,Kotlin,Swift和go

Pkl支持输出的格式包括如下:

  • JSON
  • Jsonnet
  • Pcf (a static subset of Pkl)
  • (Java) Properties
  • Property List
  • XML
  • YAML

并且 Pkl 为配置内容提供更好的验证支持,以便在部署前发现内容的错误。

#3 StableCascade

Stable Cascade 是由 StabilityAI发布了新的一代文生图模型,Stable Cascade是基于Wuerstchen架构包含三阶段的文生图扩散模型,相比Stable Diffusion XL,它不仅更快而且效果更好。

本项目是Stable Cascade的官方代码库。我们提供训练和推理脚本,以及可以使用的各种不同模型。

Stable Cascade 在视觉和评估方面都取得了令人印象深刻的结果。根据我们的评估,在几乎所有比较中,Stable Cascade 在快速对齐和美观质量方面都表现最好。上图显示了使用部分提示(链接)和审美提示相结合的人类评估结果。具体来说,将 Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较。

Stable Cascade 对效率的关注通过其架构和更高压缩的潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多包含 14 亿个参数,但它仍然具有更快的推理时间,如下图所示。

Stable Cascade由三个模型组成:Stage A、Stage B和Stage C,代表生成图像的级联,因此得名"Stable Cascade"。A 阶段和 B 阶段用于压缩图像,类似于稳定扩散中 VAE 的工作。然而,如前所述,通过此设置可以实现更高的图像压缩。此外,阶段 C 负责在给定文本提示的情况下生成小的 24 x 24 潜伏。下图直观地展示了这一点。请注意,阶段 A 是 VAE,阶段 B 和 C 都是扩散模型。

#4 ml-mgie

本项目是由苹果推出的一款开源人工智能模型 ,能够基于多模态大语言模型(multimodal large language models,MLLM)来解释用户命令,并处理各种编辑场景的像素级操作,比如,全局照片优化、本地编辑、Photoshop 风格的修改等。

Apple ML-MGIE 的主要特性

  • 视觉感知响应生成。ML-MGIE 可以通过语言模型生成对视觉内容的响应,这意味着它可以理解图像内容并生成相关的文本描述或回答与图像相关的问题。此功能在提供图像描述、增强现实应用和视觉数据分析方面特别有用。
  • 跨模式理解。ML-MGIE 在跨模态理解方面表现出强大的能力,可以链接不同模态(例如文本和图像)的信息以实现全面理解。例如,它可以通过分析图像内容和相关文本描述来增强场景理解。这种跨模式理解对于改善人机交互、增强搜索引擎结果和创建更智能的教育工具至关重要。
  • 图像编辑指南。ML-MGIE 的一个重要应用是指导基于指令的图像编辑。它可以根据用户指令编辑图像,例如更改图像中对象的颜色、形状或大小。这是通过将多模态大语言模型与扩散模型集成来实现的,其中 ML-MGIE 与 InstructPix2Pix 等技术相比显示出卓越的性能。该能力可应用于自动化图像编辑工具,提高图像编辑的效率和准确性。

#5 free-for-dev

本项目整理了一个针对开发者提供免费套餐的服务集合,包含SaaS、PaaS、IaaS 等多个方面,帮助开发者可以快速的找到自己需要的资源。

因为免费的开发资源范围很广,项目保持专注性,主要针对的人群是基础设施开发人员(系统管理员、DevOps 从业人员等),这类用户可以更好在本项目中发现价值。以下是一部分的目录,内容还是很多的。

这里也要提醒国内的开发者一句,这个项目包括的内容主要还是针对海外,如果你做出海业务应该非常适合,如果你是完全的国内开发,需要更加仔细的筛选合适自己的内容。

相关推荐
HackTorjan1 小时前
2026年5月29日:全球首个通用人工智能操作系统正式发布,开启人机协同新纪元
人工智能
cup111 小时前
[Full Clock 技术复盘] 一、浏览器前端如何实现百毫秒级时间校准?时间 API 推荐、模拟 NTP 算法原理及局限
typescript·开源·api·时钟·时间同步
刘大猫.2 小时前
智造短剧新引擎:火山引擎上线「火山剧创 1.0」,制作效率提升 80%
人工智能·ai·chatgpt·机器人·大模型·火山引擎·短剧新引擎
红尘散仙2 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗2 小时前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston2 小时前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz2 小时前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家2 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰2 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型
cxr8283 小时前
高分子复合材料 AI 逆向设计合——验证闭环、决策优化与中试放大
人工智能·材料逆向设计合成