“ 昨天选了2篇RAG相关的,一起发的放在第二篇可能很难注意到,后面有同类型的就合并到一起了。另外最近多模态文生图的工作有点多,本文后面附上几个多模态,文生图的工作。
https://arxiv.org/pdf/2310.07064.pdf
在推理任务领域,当提供示例和中间步骤时,大型语言模型(LLMs)显示出了卓越的性能。然而,依赖于LLM内部知识的方法有时会在隐含知识不正确或与指令描述不一致时产生错误答案。
为了解决这个问题,来自Google、Mila - 魁北克人工智能研究所、蒙特利尔大学、HEC蒙特利尔、亚伯达大学和CIFAR AI主席的研究人员介绍了假设到理论(HtT)框架,重点是为基于LLM的推理获取规则库。HtT包括两个关键阶段:归纳阶段和演绎阶段。在归纳阶段中,LLM最初的任务是基于一组训练示例生成和验证规则。
上图演示了将假设转化为理论应用于解决九进制算术问题的思维链方法。为了简洁起见,省略了一些示例。在归纳阶段,使用思维链技术生成规则并利用训练样本进行验证。
随后,生成的规则被收集和完善,以构建一个规则库。在推理阶段,CoT提示被增强,其中包含从规则库中得出的知识。正确的规则用绿色标记表示,而错误的规则用红色标记表示。经常导致正确答案的规则被累积起来建立规则库。在推理阶段,LLM随后被提示利用获得的规则库进行推理,以回答测试问题。 在对HtT的评估中,研究人员将其整合为现有的少样本提示技术的增强,例如思维链和由少到多提示。性能评估针对两个具有挑战性的多步推理问题进行,这些问题对于当前的少样本提示方法来说是有问题的。
数值推理和关系推理问题的实验结果表明,HtT增强了现有的提示方法,准确率提高了11%到27%。此外,获得的规则可以有效地转移到不同模型和同一问题的各种形式上。这种方法为利用LLM获取文本知识开辟了一种新途径。预计HtT将能够实现一系列应用,并在LLM领域激发进一步研究。
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion
https://arxiv.org/abs/2310.08579
https://github.com/snap-research/HyperHuman
HyperHuman是一个生成超逼真人类图像的框架。它包括一个广泛的以人类为中心的数据集HumanVerse,其中包含340M个带注释的图像。HyperHuman采用了一种潜在结构扩散模型,可以去噪深度和表面法线,同时生成RGB图像。结构引导的细化器可以增强合成图像的质量和细节。他们的框架可以在各种情况下产生超逼真的人类图像。
他们的研究使用各种指标评估HyperHuman框架,包括FID、KID和FID CLIP用于图像质量和多样性,CLIP相似度用于文本-图像对齐,以及姿势准确度指标。HyperHuman在图像质量和姿势准确度方面表现出色,尽管使用了较小的模型,在CLIP评分中排名第二。他们的框架展示了在图像质量、文本对齐和常用CFG比例方面的平衡性能。
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
https://arxiv.org/abs/2309.15818
https://github.com/showlab/Show-1
利用基于像素和潜在变量的VDM(变分动力学模型)进行文本到视频的生成。基于像素的VDM确保了准确的文本与视频的对齐和运动表现,而基于潜在变量的VDM则高效地进行超分辨率处理。训练过程包括关键帧模型、插值模型、初始超分辨率模型和文本到视频(t2v)模型。使用多个GPU,关键帧模型需要三天的训练时间,而插值和初始超分辨率模型分别需要一天的训练时间。t2v模型使用WebVid-10M数据集进行三天的专家自适应训练。
研究人员在UCF-101和MSR-VTT数据集上评估了提出的方法。对于UCF-101,Show-1在IS指标衡量下展现出强大的零样本能力,超越了其他方法。在FID-vid、FVD和CLIPSIM得分方面,MSR-VTT数据集优于最先进的模型,表明具有出色的视觉一致性和语义连贯性。这些结果证实了Show-1生成高度忠实和逼真的视频的能力,在光学质量和内容连贯性方面表现出色。
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
https://arxiv.org/abs/2306.05178
https://github.com/KAIST-Geometric-AI-Group/SyncDiffusion
研究人员引入了SYNCDIFFUSION作为一个模块,通过基于感知相似性损失的梯度下降来同步多个扩散。关键创新在于使用每个去噪步骤中预测的去噪图像来计算感知损失的梯度。这种方法为创建连贯的拼贴图提供了有意义的指导,因为它确保图像在保持内容一致性的同时无缝融合。
在使用Stable Diffusion 2.0模型进行一系列SYNCDIFFUSION实验中,研究人员发现他们的方法明显优于以前的技术。进行的用户研究显示出对SYNCDIFFUSION的显著偏好,偏好率为66.35%,而以前的方法只有33.65%。这一显著改进证明了SYNCDIFFUSION在生成连贯全景图像方面的实际效益。
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models
https://github.com/yingqinghe/scalecrafter
https://arxiv.org/abs/2310.07702v1
一个研究团队提出了ScaleCrafter,用于推理时更高分辨率的视觉生成。它使用了重新扩张的方法,这是一种简单但非常强大的解决方案,通过在图片生成过程中动态调整卷积感知域,使模型能够更有效地处理更高分辨率和不同纵横比的图片。该模型可以通过动态调整感受野来提高生成图像的连贯性和质量。该工作还提出了两个进一步的改进:分散卷积和噪声抑制的无分类器引导。借助这些改进,该模型可以生成高达4096×4096像素尺寸的超高分辨率照片。这种方法不需要任何额外的训练或优化阶段,使其成为解决高分辨率图片合成的重复和结构问题的可行解决方案。
对于这项研究进行了全面的测试,结果显示所提出的方法成功解决了物体重复问题,并在生成更高分辨率图像方面取得了领先水平的结果,特别擅长显示复杂纹理细节。这项工作还揭示了使用已经在低分辨率图像上训练过的扩散模型生成高分辨率视觉效果的可能性,而无需进行大量重新训练,这可能会指导未来在超高分辨率图像和视频合成领域的工作。
