人类是 AI 的老师。如果让 AI 自立门户,“自己教自己”,效果会如何呢?目前来看,这可能行不通——一项新研究显示,如果没有人工干预,只用 AI 生成的数据来训练大模型,会使模型性能劣化、越练越“傻”。
训练数据是大语言模型(LLM)生成、推理、预测等能力的基础。尽管目前大语言模型使用的训练数据主要来自人类,但人力有时尽,训练数据储备是有限的。一项来自 Epoch AI Research 团队的研究预测,高质量的语言数据存量将在 2026 年消耗完毕,低质量的语言数据和图像数据存量将在 2050 年前后枯竭。届时,使用 AI 生成的数据来训练 AI 可能难以避免。
而新研究指出,如果在训练时不加分辨地使用 AI 生成的内容,会导致大模型迅速劣化,出现不可逆的缺陷,丢失真实数据分布的尾部(低概率部分),这被称为“模型崩溃(model collapse)”。分析显示,这种效应很可能具有普遍性,波及所有规模的大语言模型、变分自编码器(VAE)和高斯混合模型(GMM)。
AI 模型使用之前生成的数据进行训练,输出图像越来越扭曲。| M. Bohácek & H. Farid/arXiv (CC BY 4.0)
研究人员使用大语言模型创建类似维基百科词条的文本,然后用前代模型的输出内容来训练下代模型,如此反复迭代。随着 AI 生成信息(即合成数据,synthetic data)“污染”训练集,模型输出逐渐不知所云。当被要求写一段关于英国教堂塔楼的说明文本时,初始模型尚且中规中矩,第 9 代模型却在讨论野兔尾巴的多种颜色。