本文揭示了 U-ViT 架构在扩散模型中尚未开发的潜力。该研究初步探索了 U-ViT 架构在多模态扩散模型的视觉生成任务中的贡献,并提出了一种专门为 U-ViT 架构设计的改进方案“FreeV”,标志着基于 U-Net 的 FreeU 增强框架在 Transformer 架构中的首次应用。FreeV 框架可显着提高生成质量,而无需额外的训练或微调。这项研究的关键见解在于平衡 U-ViT 中的主干网络、跳过连接和融合特征图的贡献,以充分利用两个组件的优势,同时规避 U-ViT 中特征融合的局限性。项目页面:https://github.com/GoldenFishes/FreeV