AI新工具(20240306) mlx-swift-chat Mac运行本地模型;Comflowyspace开源AI图像和视频生成工具

1: mlx-swift-chat

专为 Apple 硅片设计的高效机器学习框架,支持在本地实时运行 LLM 模型(如 Llama、Mistral)

mlx-swift-chat 是一个为苹果系统(例如你的笔记本电脑上的Apple Silicon)特别设计的机器学习框架 MLX 的应用。它是一个完全基于 SwiftUI 的本地应用,能够实时在苹果硅片上运行本地大型语言模型(LLMs),比如 Llama 或 Mistral。这意味着你可以在不依赖云服务的情况下,在你自己的设备上高效运行强大的语言模型。

地址:https://github.com/PreternaturalAI/mlx-swift-chat

2: Comflowyspace

提供比标准SDWebUI和ComfyUI更佳、更互动体验的开源AI图像和视频生成工具

Comflowyspace是一个旨在提供比标准SDWebUI和ComfyUI更好、更互动的体验的开源AI图像和视频生成工具。这个工具试图解决一些人们对学习或参与AI生成波潮持有的犹豫,主要是因为所需的工具往往过于复杂。它的目的是让更多人能够更容易地使用ComfyUI和Stable Diffusion,无论是下载安装、插件管理、工作流模板还是过程编辑,每一步都设计得很细致。

地址:https://github.com/6174/comflowyspace

3: Design2Code

将视觉设计直接转换为前段代码自动化前端工程流程

Design2Code是一个新的前端开发范式,它利用生成式人工智能技术,可以将视觉设计直接转换为代码实现,从而自动化前端工程流程。这项工作提供了首个系统性研究,名为Design2Code任务,对此进行了深入研究。研究团队手动策划了484个真实网页作为测试案例,并开发了一套自动评估指标,以评估当前多模态LLM(语言-视觉模型)能否生成直接呈现给定参考网页的代码实现。他们还展示了一系列多模态提示方法,并展示了它们在GPT-4V和Gemini Vision Pro上的有效性。研究团队还对一个开源的Design2Code-18B模型进行了微调,成功与Gemini Pro Vision的性能相匹配。人工评估和自动指标表明,在这项任务中,GPT-4V是明显的优胜者。在视觉外观和内容方面,评注员认为GPT-4V生成的网页在49%的情况下可以取代原始参考网页,并且令人惊讶的是,在64%的情况下,GPT-4V生成的网页甚至被认为比原始参考网页更好。详细的指标显示,开源模型在从输入网页中召回视觉元素和生成正确的布局设计方面大多落后,而文本内容和颜色等方面可以通过适当的微调得到显著改善。

地址:https://salt-nlp.github.io/Design2Code/

4: ResAdapter

解决了文本到图像模型生成超出其训练域分辨率的图像的问题

ResAdapter是一种领域一致的分辨率适配器,旨在为扩散模型(例如SD和个性化模型)生成具有无限制分辨率和宽高比的图像。与其他多分辨率生成方法不同,ResAdapter直接生成具有动态分辨率的图像,这意味着它能够有效地进行推断,而无需重复去噪步骤和复杂的后处理操作,从而消除了额外的推断时间。ResAdapter还通过广泛的分辨率先验增强了其效果,而无需来自训练领域的任何风格信息。综合实验证明了ResAdapter与扩散模型在分辨率插值和输出方面的有效性。更广泛的实验表明,ResAdapter与其他模块(例如ControlNet、IP-Adapter和LCM-LoRA)兼容,能够生成具有灵活分辨率的图像,并且可以集成到其他多分辨率模型(例如ElasticDiffusion)中,以有效地生成更高分辨率的图像。

地址:https://res-adapter.github.io/

5: TripoSR

stability推出的从单个图像快速生成3D对象

TripoSR是一个3D重建模型,通过技术改进和数据准备,它能够以更高的准确性和效率进行三维重建。训练数据准备采用了多种数据渲染技术,更贴近真实世界图像的分布,显著提高了模型的泛化能力。TripoSR模型在基础LRM模型的基础上引入了一些技术改进,包括通道数量优化、遮罩监督和更高效的裁剪渲染策略。

地址:https://github.com/VAST-AI-Research/TripoSR

更多AI工具,参考国内AiBard123Github-AiBard123

相关推荐
achi0101 分钟前
Ubuntu 24 Desktop LTS 部署 AI 智能体 OpenClaw
人工智能·ai agent·openclaw·openclaw 安装·openclaw 部署·ubuntu openclaw·agent 部署
吴佳浩 Alben4 分钟前
CUDA_VISIBLE_DEVICES、多进程与容器化陷阱
人工智能·pytorch·语言模型·transformer
用户27042728381213 分钟前
排查 OpenClaw token 暴涨:MEMORY.md 藏了83行废话,3个Cron任务静默失败
人工智能
郑同学zxc15 分钟前
机器学习19-tensorflow4.2
人工智能·机器学习
zxsz_com_cn20 分钟前
设备预测性维护方案设计的关键要素
大数据·人工智能
格林威21 分钟前
工业相机参数解析:曝光时间与运动模糊的“生死博弈”
c++·人工智能·数码相机·opencv·算法·计算机视觉·工业相机
KG_LLM图谱增强大模型26 分钟前
EICopilot:基于LLM智能体和大规模知识图谱的企业信息智能搜索与探索系统
人工智能·知识图谱
GISer_Jing27 分钟前
阿里开源纯前端浏览器自动化 PageAgent,[特殊字符] 浏览器自动化变天啦?
前端·人工智能·自动化·aigc·交互
大模型任我行39 分钟前
腾讯:揭示评估幻觉并构建知识驱动新范式
人工智能·语言模型·自然语言处理·论文笔记
LaughingZhu1 小时前
Product Hunt 每日热榜 | 2026-03-21
人工智能·经验分享·深度学习·神经网络·产品运营