从概率分布到流畅文本:解码策略与生成控制
LLM通过逐词预测生成文本,每次选择下一个最合适的token。本讲深入探讨解码策略(Greedy、Beam Search、Sampling等)、 温度参数、Top-k/Top-p采样等生成控制技术。你将理解如何平衡生成质量、多样性与可控性, 掌握不同应用场景下的最佳解码策略选择。
LLM采用自回归(Autoregressive)方式生成文本:在已生成的tokens基础上,预测下一个token的概率分布, 采样或选择概率最高的token,将其追加到序列中,重复此过程直到生成结束标记或达到最大长度。 这个过程看似简单,但每一步的选择都会影响后续生成,需要精心设计解码策略。
自回归生成的最大挑战是误差累积(Error Accumulation): 如果某一步选择了次优token,后续所有生成都会受影响。 这也是为什么需要多样化的解码策略来平衡质量与探索。
解码策略决定了如何从概率分布中选择下一个token。Greedy Search简单但容易陷入局部最优, Beam Search通过维护多条候选路径提高质量但计算开销大,Sampling方法引入随机性增加多样性。 不同策略适用于不同场景,没有一劳永逸的最佳方案。
温度(Temperature)、Top-k、Top-p(Nucleus Sampling)是控制生成多样性的关键参数。 温度调节概率分布的"锐度",Top-k/Top-p限制候选token范围。 合理设置这些参数,可以在创造性和连贯性之间找到平衡点。
如何评估LLM生成文本的质量?自动化指标(困惑度Perplexity、BLEU、ROUGE)提供快速反馈, 但难以捕捉流畅性、创造性等人类视角。人工评价是黄金标准,但成本高昂。 实践中常结合多种评估方法,构建全面的质量评价体系。
逐词预测生成,每步选择影响全局,需要精心设计解码策略
事实性任务用Greedy/Beam,创造性任务用Sampling,无最佳方案
温度、Top-k、Top-p控制生成多样性,平衡质量与创造性
完整的讲义PDF,包含所有图表和详细内容