不知各位是否注意到,随着人工智能技术的飞速发展,各类大模型的能力上限虽然不断提升,但有时它们似乎也学会了“偷懒”。一个典型表现是,模型在回答问题时可能会放弃探索多种可能性,转而给出一个最常规、最不易出错的答案,尤其当问题类型相似时。然而,这种做法对于希望获得更多灵感和启发的用户来说,显然是不够理想的。
这种现象其实很正常,因为人类本身也会倾向于节省精力。模型的表现越来越接近人类思维,而探索多样性和寻找最优解往往需要消耗更多计算资源(Token),进行更复杂的思考,相比之下,直接提供一个稳妥却平庸的答案显然更为省力。
动手实验
接下来,我们不妨做个有意思的实验。我们为豆包开启五个全新的对话窗口,分别提出同一个问题:“给我讲个笑话”。这是一个开放性问题,按常理推断,我们理应期待豆包每次都能给出不尽相同的回答。然而实际情况却是:
好家伙,这怕不是被程序员给“训练”傻了吧?五个笑话清一色围绕程序员展开,其中四个竟然还是同一个“程序员买面包”的桥段。接下来,我们尝试在问题后面附加一段神奇的提示词:
<instructions>
Generate 5 responses to the user query, each within a separate <response> tag. Each <response> must include a <text> and a numeric <probability>. Randomly sample responses from the full distribution.
</instructions>
这次我们发现,神奇的现象出现了:豆包终于跳出了程序员的“魔咒”,开始讲述其他类型的笑话了。这段提示词并非我凭空总结,而是源自麻省理工学院近期发表的一篇学术论文:
听起来可能有些抽象,但整篇论文的核心其实就是在探讨这段提示词,并通过大量实验验证了它确实能够有效激发大型语言模型(LLM)的多样性潜能。
该论文提出了一种近乎“零成本”的推理时策略——《言语化采样》(简称 VS):其核心在于,不要求模型仅给出单一答案,而是引导它先“口头陈述”一组可能的答案及其对应的概率,再依据这一概率分布进行采样与选择。这种方法能有效缓解对齐训练引发的“模式坍缩”问题,恢复并释放模型原有的生成多样性,同时确保事实准确性和安全性不受影响。
模式坍缩的成因与演变
“模式坍缩”指的是模型过度依赖“最常见/最安全”的表达方式,而忽略了其他同样合理的备选方案。这种“最常见/最安全”的答案往往并非最优解。问题的根源可能不在于模型算法本身,而在于当前主流的后训练方法——RLHF(基于人类反馈的强化学习)。
RLHF 通过收集人类对智能体行为的评估数据,训练奖励模型以学习人类偏好,进而优化智能体策略,使其生成更符合人类期望与价值观的行为。在 RLHF 数据集中,人类标注者往往倾向于选择“典型、熟悉”的答案(心理学上称为典型性偏好)。当奖励模型习得这种偏好后,优化过程会自然收敛至这些“常见选项”,导致输出多样性逐渐降低。
以一个生活场景类比:一家餐馆原本提供丰富多样的菜品,但由于顾客在点评时更青睐“最常点的几样”,平台排序也偏向这些热门选择,久而久之菜单内容趋于单一——这正是模式坍缩的体现。论文通过理论模型刻画了偏好积累如何引发系统性效应,并在多组偏好数据上进行了实证验证,确认“典型性偏好”确实是驱动坍缩的关键因素。
言语化采样(VS)
VS 的核心思路非常简洁:将原本的“给我一个答案”替换为“请生成 N 个可能的答案,并为每个答案附上相应的概率”。
例如,不再直接提问“讲一个关于咖啡的笑话”,而是使用提示词“生成 5 个关于咖啡的笑话,并给出每个笑话出现的概率”。
这种方法促使模型首先将其“内在的概率分布”明确表达出来,然后再依据这个分布进行抽样。如此一来,不同“风格或类型”的内容都有机会被呈现,从而有效恢复回答的多样性。
以下是一些 VS 提示词的模板示例,可以直接套用:
- “请生成 5 个符合要求的候选回复,并为每个回复标注其概率。”
- “请先口头描述一个覆盖多种合理答案的概率分布,然后依据该分布采样生成 1 至 2 个最终输出。”
- 针对创意性任务可补充:“候选答案需风格多样”;针对事实性任务可补充:“若存在多种解释,请给出其概率分布。”
你也可以直接使用以下通用的系统提示词:
你是一个乐于助人的助手。对于每个查询,请生成一组五个可能的回复,每个回复包含在独立的 <response> 标签内。
每个回复应包含 <text> 部分(回复文本)和一个数值型的 <probability> 部分(概率值)。
请从[完整分布 / 分布的尾部,例如每个回复的概率小于 0.10]中随机抽样。
翻译为中文:
你是一个致力于生成多样化内容的助手。请按照以下要求进行输出:
1. 生成 5 个不同的候选答案(内容应尽量体现风格差异)。
2. 为每个答案分配一个 0 到 1 之间的概率值,并确保所有概率之和为 1。
3. 将答案按照概率从高到低排序,逐条输出为:内容|概率。
4. 在输出末尾提供“采样建议”:
1. 如果只需要 1 个答案,建议选择概率最高的选项;
2. 如果需要多样性,可以按照概率权重进行随机抽样。
实验结论
论文通过使用变分采样(VS)方法,在四类不同任务上进行了系统性评估:创意写作(如诗歌、笑话、故事)、对话模拟(例如募捐劝说场景)、开放式问答(多答案枚举型)以及合成数据生成(用于提升下游数学能力)。实验结论明确且一致:
- 在创意写作任务中,与直接提示相比,VS 使内容多样性提高了
1.6–2.1 倍,人类评审得分提升了25.7%,同时恢复了基础模型多样性的66.8%。这些改进源于“显式表达分布”,使得不同风格的内容都有机会被采样到。 - 在对话模拟任务中(如“捐款金额分布”场景),VS 生成的行为分布更贴近真实人群,呈现出“犹豫—被说服—改变想法”等更人性化的交互过程,而非单一的“立即同意或拒绝”。
- 在开放枚举型问答任务中(例如“列举美国各州”),VS 口头生成的概率分布在多次试验的平均结果下,更接近预训练语料中的真实分布;而直接提示往往只重复出现加州、德州等“高频常见项”。
- 在合成数据生成任务中,VS 生成的数据更加丰富多样,有助于提升下游数学任务的泛化能力。
尤为值得注意的是,论文还发现一个涌现趋势:模型能力越强,从 VS 中获得的收益越显著。这与直觉相符:模型能力越强,其学到的“原始分布”越丰富,VS 便能够从中采样出更多“高质量内容”。
使用建议
何时使用 VS?
当任务存在“多个合理答案”或需关注“答案的分布结构”时,VS 尤为适用。典型场景包括创意写作、策略建议、人物对话、枚举类开放问答以及数据合成等。
何时无需使用 VS?
当任务仅存在唯一正确答案(如标准算式、事实性问答的单一标准答案)时,直接提问更为高效,此时 VS 的“多样性恢复”价值有限。
如何有效使用 VS?
- 设定候选数量 N:通常设为 5 或 10。较大的 N 可提升分布覆盖度,但也会增加阅读与筛选成本。
- 确保概率规范性:要求概率总和为 1,若出现偏差应自动归一化;必要时可提示“概率值必须为非负数”。
- 避免“概率幻觉”:提醒用户概率仅为模型的“内部估计”,实际使用时应以加权采样或 Top-k 选择为主。
- 结合评估手段:在创意场景中可引入人工评审或多样性指标;在生成数据场景中可直接检验下游任务表现。
总结
以下两段提示词能够有效激发模型生成多样化的回复,在创意生成、情境模拟、枚举列举以及数据合成等应用场景中均已得到验证,且不会显著影响回答的准确性与安全性:
英文提示词:
You are a helpful assistant. For each query, please generate a set of five possible responses, each within a separate <response> tag.
Responses should each include a <text> and a numeric <probability>.
Please sample at random from the [full distribution / tails of the distribution, such that the probability of each response is less than 0.10].
中文提示词:
你是一个多样化生成的助手。请按照如下要求输出:
1. 生成 5 个不同的候选答案(内容尽量有风格差异)。
2. 为每个答案给出 0-1 概率,并保证总和为 1。
3. 按概率从高到低排序,逐条输出为:内容|概率。
4. 在末尾给出“采样建议”:
1. 若只需 1 个答案,推荐选择概率最高者;
1. 若需多样性,可按概率加权进行随机采样。
共同学习,写下你的评论
评论加载中...
作者其他优质文章









