LLM增强LLM;通过预测上下文来提高文生图质量;Spikformer V2;同时执行刚性和非刚性编辑的通用图像编辑框架

文章首发于公众号:机器感知

LLM增强LLM;通过预测上下文来提高文生图质量;Spikformer V2;同时执行刚性和非刚性编辑的通用图像编辑框架

LLM Augmented LLMs: Expanding Capabilities through Composition

本文研究了如何高效地组合现有的基础模型以实现新功能的问题,文章提出了CALM(Composition to Augment Language Models)方法,通过跨模型注意力机制来组合模型表示,以此实现新功能。CALM的主要特点是:(i) 通过"重用"现有LLM以及一些额外的参数和数据扩展LLM到新任务上;(ii) 保持现有模型权重不变,从而保留现有功能;(iii) 适用于不同领域和场景。将PaLM2-S与一个小模型相结合实现了最高13%的绝对提升,当PaLM2-S与特定代码模型相结合时,在代码生成和解释任务上的相对提升达到了40%,与完全微调后的模型相当。

Improving Diffusion-Based Image Synthesis with Context Prediction

本文提出了一种名为ConPreDiff的扩散模型,该模型通过预测上下文来提高图像生成的语义连接性和质量。ConPreDiff在训练阶段使用一个上下文解码器来强化每个点的预测,但在推理时移除解码器。这一方法可应用于任意离散或连续的扩散backbones,且在无条件图像生成、文本到图像生成和图像补全任务中取得了显著优于之前方法的性能。

Spikformer V2: Join the High Accuracy Club on ImageNet with an SNN Ticket

本文提出了一种新型的Spiking神经网络结构,称为Spiking Self-Attention(SSA)和Spiking Transformer(Spikformer),这种结构借鉴了生物神经网络的原理和Transformer的自注意力机制来提高性能。SSA机制通过使用基于脉冲的Query、Key和Value,消除了softmax的需要,并捕获稀疏视觉特征。此外,还开发了一种Spiking Convolutional Stem(SCS)结构来增强Spikformer。为了训练更大更深的Spikformer V2,引入了自监督学习(SSL)方法。实验结果表明,Spikformer V2在性能上优于先前的方法,并首次在ImageNet上实现了80%以上的准确率。

Understanding LLMs: A Comprehensive Overview from Training to Inference

随着ChatGPT的引入,大语言模型(LLMs)在下游任务中的应用显著增加,低成本训练和部署成为未来发展趋势。本文回顾了大语言模型训练技术和推理部署技术的演变,并探讨了模型压缩、并行计算、内存调度和结构优化等主题。同时,本文还探索了LLMs的应用,并对其未来发展提供了见解。

Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image Guidance

现有的文本到图像编辑方法在刚性或非刚性编辑方面表现优秀,但在结合两者时却无法得到与文本提示对齐的输出。为了解决这些问题,本文提出了一种能够执行刚性和非刚性编辑的通用图像编辑框架。该方法利用双路径注入方案来处理各种编辑场景,并引入集成的自注意力机制来融合外观和结构信息。为了减少潜在的视觉伪影,还采用了潜码融合技术来调整中间潜码。与现有方法相比,该方法在实现精确和通用图像编辑方面取得了重大进展。

相关推荐
AI即插即用20 分钟前
超分辨率重建 | CVPR 2024 DarkIR:轻量级低光照图像增强与去模糊模型(代码实践)
图像处理·人工智能·深度学习·神经网络·计算机视觉·超分辨率重建
OpenBayes29 分钟前
HY-MT1.5-1.8B 支持多语言神经机器翻译;Med-Banana-50K 提供医学影像编辑基准数据
人工智能·深度学习·自然语言处理·数据集·机器翻译·图像生成
木卫二号Coding1 小时前
第七十四篇-ComfyUI+V100-32G+SeedVR2+图片放大
图像处理
MF_AI2 小时前
苹果病害检测识别数据集:1w+图像,5类,yolo标注
图像处理·人工智能·深度学习·yolo·计算机视觉
美狐美颜sdk3 小时前
Android直播美颜SDK:选择指南与开发方案
android·人工智能·计算机视觉·第三方美颜sdk·视频美颜sdk·人脸美型sdk
sali-tec3 小时前
C# 基于OpenCv的视觉工作流-章7-膨胀
图像处理·人工智能·opencv·算法·计算机视觉
努力犯错4 小时前
LTX-2 进阶 Prompt 技巧:从入门到专业视频创作
人工智能·数码相机·机器学习·计算机视觉·开源·prompt·音视频
杜子不疼.5 小时前
计算机视觉热门模型手册:Spring Boot 3.2 自动装配新机制:@AutoConfiguration 使用指南
人工智能·spring boot·计算机视觉
格林威16 小时前
传送带上运动模糊图像复原:提升动态成像清晰度的 6 个核心方案,附 OpenCV+Halcon 实战代码!
人工智能·opencv·机器学习·计算机视觉·ai·halcon·工业相机
棒棒的皮皮17 小时前
【深度学习】YOLO模型速度优化Checklist
人工智能·深度学习·yolo·计算机视觉