在图像、视频生成上，语言模型首次击败扩散模型，tokenizer是关键

发布时间：2023-10-11

点击次数：

大型语言模型（LLM 或 LM）最初用于生成语言，但随着时间的推移，它们已经能够生成多种模态的内容，并在音频、语音、代码生成、医疗应用、机器人学等领域开始占据主导地位

当然，LM 也能生成图像和视频。在此过程中，图像像素会被视觉 tokenizer 映射为一系列离散的 token。然后，这些 token 被送入 LM transformer，就像词汇一样被用于生成建模。尽管 LM 在视觉生成方面取得了显著进步，但 LM 的表现仍然不如扩散模型。例如，在图像生成的金标基准 —ImageNet 数据集上进行评估时，最佳语言模型的表现比扩散模型差了 48% 之多（以 256ˆ256 分辨率生成图像时，FID 为 3.41 对 1.79）。

为什么语言模型在视觉生成方面落后于扩散模型？来自谷歌、CMU 的研究者认为，主要原因是缺乏一个良好的视觉表示，类似于我们的自然语言系统，以有效地建模视觉世界。为了证实这一假设，他们进行了一项研究。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/pdf/2310.05737.pdf

Voicepods

Voicepods是一个在线文本转语音平台，允许用户在30秒内将任何书面文本转换为音频文件。

142 查看详情 Voicepods

这项研究表明，在相同的训练数据、可比模型大小和训练预算条件下，利用良好的视觉 tokenizer，掩码语言模型在图像和视频基准的生成保真度和效率方面都超过了 SOTA 扩散模型。这是语言模型在标志性的 ImageNet 基准上击败扩散模型的首个证据。

需要强调的是，研究者的目的不是断言语言模型是否优于其他模型，而是促进 LLM 视觉 tokenization 方法的探索。LLM 与其他模型（如扩散模型）的根本区别在于，LLM 使用离散的潜在格式，即从可视化 tokenizer 获得的 token。这项研究表明，这些离散的视觉 token 的价值不应该被忽视，因为它们存在以下优势：

1、与 LLM 的兼容性。token 表示的主要优点是它与语言 token 共享相同的形式，从而可以直接利用社区多年来为开发 LLM 所做的优化，包括更快的训练和推理速度、模型基础设施的进步、扩展模型的方法以及 GPU/TPU 优化等创新。通过相同的 token 空间统一视觉和语言可以为真正的多模态 LLM 奠定基础，后者可以在我们的视觉环境中理解、生成和推理。

2、压缩表示。离散 token 可以为视频压缩提供一个新的视角。可视化 token 可以作为一种新的视频压缩格式，以减少数据在互联网传输过程中占用的磁盘存储和带宽。与压缩的 RGB 像素不同，这些 token 可以直接输入生成模型，绕过传统的解压缩和潜在编码步骤。这可以加快生成视频应用的处理速度，在边缘计算情况下尤其有益。

3、视觉理解优势。以前的研究表明，在自监督表示学习中，将离散的标记作为预训练目标是有价值的，就像BEiT和BEVT中所讨论的那样。此外，研究发现，将标记用作模型输入可以提高其鲁棒性和泛化性能

在这篇论文中，研究者提出了一个名为MAGVIT-v2的视频分词器，旨在将视频（和图像）转化为紧凑的离散标记

该内容的重写如下：该模型是基于VQ-VAE框架内的SOTA视频tokenizer——MAGVIT进行的改进。研究人员提出了两种新技术：1）一种创新的无查找（lookup-free）量化方法，使得可以学习大量词汇，从而提高语言模型的生成质量；2）通过广泛的实证分析，他们确定了对MAGVIT的修改方案，不仅提升了生成质量，还允许使用共享词汇表对图像和视频进行token化

实验结果显示，新模型在三个关键领域优于之前表现最好的视频分词器——MAGVIT。首先，新模型显著提高了MAGVIT的生成质量，在常见的图像和视频基准上刷新了最佳结果。其次，用户研究表明，它的压缩质量超过了MAGVIT和当前的视频压缩标准HEVC。此外，它与下一代视频编解码器VVC相当。最后，研究者表明，与MAGVIT相比，他们的新的分词在两个设置和三个数据集的视频理解任务中表现更强