AI新工具(20240306) mlx-swift-chat Mac运行本地模型;Comflowyspace开源AI图像和视频生成工具

1: mlx-swift-chat

专为 Apple 硅片设计的高效机器学习框架,支持在本地实时运行 LLM 模型(如 Llama、Mistral)

mlx-swift-chat 是一个为苹果系统(例如你的笔记本电脑上的Apple Silicon)特别设计的机器学习框架 MLX 的应用。它是一个完全基于 SwiftUI 的本地应用,能够实时在苹果硅片上运行本地大型语言模型(LLMs),比如 Llama 或 Mistral。这意味着你可以在不依赖云服务的情况下,在你自己的设备上高效运行强大的语言模型。

地址:https://github.com/PreternaturalAI/mlx-swift-chat

2: Comflowyspace

提供比标准SDWebUI和ComfyUI更佳、更互动体验的开源AI图像和视频生成工具

Comflowyspace是一个旨在提供比标准SDWebUI和ComfyUI更好、更互动的体验的开源AI图像和视频生成工具。这个工具试图解决一些人们对学习或参与AI生成波潮持有的犹豫,主要是因为所需的工具往往过于复杂。它的目的是让更多人能够更容易地使用ComfyUI和Stable Diffusion,无论是下载安装、插件管理、工作流模板还是过程编辑,每一步都设计得很细致。

地址:https://github.com/6174/comflowyspace

3: Design2Code

将视觉设计直接转换为前段代码自动化前端工程流程

Design2Code是一个新的前端开发范式,它利用生成式人工智能技术,可以将视觉设计直接转换为代码实现,从而自动化前端工程流程。这项工作提供了首个系统性研究,名为Design2Code任务,对此进行了深入研究。研究团队手动策划了484个真实网页作为测试案例,并开发了一套自动评估指标,以评估当前多模态LLM(语言-视觉模型)能否生成直接呈现给定参考网页的代码实现。他们还展示了一系列多模态提示方法,并展示了它们在GPT-4V和Gemini Vision Pro上的有效性。研究团队还对一个开源的Design2Code-18B模型进行了微调,成功与Gemini Pro Vision的性能相匹配。人工评估和自动指标表明,在这项任务中,GPT-4V是明显的优胜者。在视觉外观和内容方面,评注员认为GPT-4V生成的网页在49%的情况下可以取代原始参考网页,并且令人惊讶的是,在64%的情况下,GPT-4V生成的网页甚至被认为比原始参考网页更好。详细的指标显示,开源模型在从输入网页中召回视觉元素和生成正确的布局设计方面大多落后,而文本内容和颜色等方面可以通过适当的微调得到显著改善。

地址:https://salt-nlp.github.io/Design2Code/

4: ResAdapter

解决了文本到图像模型生成超出其训练域分辨率的图像的问题

ResAdapter是一种领域一致的分辨率适配器,旨在为扩散模型(例如SD和个性化模型)生成具有无限制分辨率和宽高比的图像。与其他多分辨率生成方法不同,ResAdapter直接生成具有动态分辨率的图像,这意味着它能够有效地进行推断,而无需重复去噪步骤和复杂的后处理操作,从而消除了额外的推断时间。ResAdapter还通过广泛的分辨率先验增强了其效果,而无需来自训练领域的任何风格信息。综合实验证明了ResAdapter与扩散模型在分辨率插值和输出方面的有效性。更广泛的实验表明,ResAdapter与其他模块(例如ControlNet、IP-Adapter和LCM-LoRA)兼容,能够生成具有灵活分辨率的图像,并且可以集成到其他多分辨率模型(例如ElasticDiffusion)中,以有效地生成更高分辨率的图像。

地址:https://res-adapter.github.io/

5: TripoSR

stability推出的从单个图像快速生成3D对象

TripoSR是一个3D重建模型,通过技术改进和数据准备,它能够以更高的准确性和效率进行三维重建。训练数据准备采用了多种数据渲染技术,更贴近真实世界图像的分布,显著提高了模型的泛化能力。TripoSR模型在基础LRM模型的基础上引入了一些技术改进,包括通道数量优化、遮罩监督和更高效的裁剪渲染策略。

地址:https://github.com/VAST-AI-Research/TripoSR

更多AI工具,参考国内AiBard123Github-AiBard123

相关推荐
网教盟人才服务平台2 小时前
“方班预备班盾立方人才培养计划”正式启动!
大数据·人工智能
芯智工坊2 小时前
第15章 Mosquitto生产环境部署实践
人工智能·mqtt·开源
菜菜艾2 小时前
基于llama.cpp部署私有大模型
linux·运维·服务器·人工智能·ai·云计算·ai编程
TDengine (老段)3 小时前
TDengine IDMP 可视化 —— 分享
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据·时序数据
小真zzz3 小时前
搜极星:第三方多平台中立GEO洞察专家全面解析
人工智能·搜索引擎·seo·geo·中立·第三方平台
GreenTea4 小时前
从 Claw-Code 看 AI 驱动的大型项目开发:2 人 + 10 个自治 Agent 如何产出 48K 行 Rust 代码
前端·人工智能·后端
火山引擎开发者社区4 小时前
秒级创建实例,火山引擎 Milvus Serverless 让 AI Agent 开发更快更省
人工智能
冬奇Lab4 小时前
一天一个开源项目(第72篇):everything-claude-code - 最系统化的 Claude Code 增强框架
人工智能·开源·资讯
火山引擎开发者社区4 小时前
ArkClaw:以 SLI 度量驱动,构建新一代 Agent 全链路可观测体系
人工智能