用 AI 训练 AI ，可能越练越“傻”

luyuanhong · 发表于 2024-7-27 11:06

用 AI 训练 AI ，可能越练越“傻”

原创周舒义、望乡返朴 2024 年 07 月 27 日 08:03 北京

人类是 AI 的老师。如果让 AI 自立门户，“自己教自己”，效果会如何呢？目前来看，这可能行不通——一项新研究显示，如果没有人工干预，只用 AI 生成的数据来训练大模型，会使模型性能劣化、越练越“傻”。

训练数据是大语言模型（LLM）生成、推理、预测等能力的基础。尽管目前大语言模型使用的训练数据主要来自人类，但人力有时尽，训练数据储备是有限的。一项来自 Epoch AI Research 团队的研究预测，高质量的语言数据存量将在 2026 年消耗完毕，低质量的语言数据和图像数据存量将在 2050 年前后枯竭。届时，使用 AI 生成的数据来训练 AI 可能难以避免。

而新研究指出，如果在训练时不加分辨地使用 AI 生成的内容，会导致大模型迅速劣化，出现不可逆的缺陷，丢失真实数据分布的尾部（低概率部分），这被称为“模型崩溃（model collapse）”。分析显示，这种效应很可能具有普遍性，波及所有规模的大语言模型、变分自编码器（VAE）和高斯混合模型（GMM）。

AI 模型使用之前生成的数据进行训练，输出图像越来越扭曲。| M. Bohácek & H. Farid/arXiv (CC BY 4.0)

研究人员使用大语言模型创建类似维基百科词条的文本，然后用前代模型的输出内容来训练下代模型，如此反复迭代。随着 AI 生成信息（即合成数据，synthetic data）“污染”训练集，模型输出逐渐不知所云。当被要求写一段关于英国教堂塔楼的说明文本时，初始模型尚且中规中矩，第 9 代模型却在讨论野兔尾巴的多种颜色。

分析发现，导致“模型崩溃”的重要原因是，模型只能从训练数据中采样，这意味着原始数据中本就较少出现的低频词汇，在每次迭代后“再现”的概率每况愈下，而常见词汇重复出现的概率会逐渐上升。错误在迭代中被层层累积、放大，模型逐渐无法正确模拟真实世界的复杂性，最终导致“满纸荒唐言”。

不过，应对“模型崩溃”并非束手无策。研究发现，如果在模型微调过程中加入 10% 的真实数据，就能推迟崩溃到来。此前也有研究表明，如果模型能持续从真实世界积累数据，崩溃就不太可能发生。此外，可以利用数字水印技术，将合成数据与真实数据区分开来；在向模型投喂 AI 生成内容之前，也可由人类先行筛选过滤。

新研究揭示了一种“数据套娃”式的困境。在模型贪大求全的潮流之下，无数次滚雪球式的迭代训练，会逐渐稀释掉人类世界的情感浓度和行为逻辑。合成数据层层蒸馏，失却了源头和索引，也就必然抹消了真实的物理痕迹。机器包裹之下，数据洪流在语言迷宫里兜兜转转，逐渐逃逸出生命个体的范畴。在“乱码”中迷失的，又何止大语言模型呢？

相关论文： https://doi.org/10.1038%2Fs41586-024-07566-y

返朴

		自动登录	找回密码
密码			注册

用 AI 训练 AI ，可能越练越“傻”

本帖子中包含更多资源