5

文本输出生成

从概率分布到流畅文本:解码策略与生成控制

⏱️ 90分钟📊 难度:进阶🎯 模块2:核心技术

📖课程概述

LLM通过逐词预测生成文本,每次选择下一个最合适的token。本讲深入探讨解码策略(Greedy、Beam Search、Sampling等)、 温度参数、Top-k/Top-p采样等生成控制技术。你将理解如何平衡生成质量、多样性与可控性, 掌握不同应用场景下的最佳解码策略选择。

🎯学习目标

1.理解自回归生成过程与概率建模
2.掌握Greedy、Beam Search、Sampling等解码策略
3.理解温度、Top-k、Top-p等生成控制参数
4.认识生成质量评估指标与优化方法

🔑核心知识点

自回归生成解码策略采样控制质量评估

💡核心概念详解

🔄

自回归生成:逐词预测的艺术

LLM采用自回归(Autoregressive)方式生成文本:在已生成的tokens基础上,预测下一个token的概率分布, 采样或选择概率最高的token,将其追加到序列中,重复此过程直到生成结束标记或达到最大长度。 这个过程看似简单,但每一步的选择都会影响后续生成,需要精心设计解码策略。

自回归生成流程:
输入:"今天天气"
第1步:P(w₁|"今天天气") → "很" (概率0.65)
第2步:P(w₂|"今天天气很") → "好" (概率0.82)
第3步:P(w₃|"今天天气很好") → "," (概率0.58)
第4步:P(w₄|"今天天气很好,") → "适合" (概率0.43)
...
💡 累积误差问题

自回归生成的最大挑战是误差累积(Error Accumulation): 如果某一步选择了次优token,后续所有生成都会受影响。 这也是为什么需要多样化的解码策略来平衡质量与探索。

🎯

解码策略:Greedy、Beam Search与Sampling

解码策略决定了如何从概率分布中选择下一个token。Greedy Search简单但容易陷入局部最优, Beam Search通过维护多条候选路径提高质量但计算开销大,Sampling方法引入随机性增加多样性。 不同策略适用于不同场景,没有一劳永逸的最佳方案。

Greedy Search
每步选概率最高的token
优点:快速、确定性
缺点:重复、单调、局部最优
Beam Search
维护k条最优路径
优点:质量高、全局搜索
缺点:计算慢、仍可能重复
Sampling
按概率随机采样
优点:多样性高、创造性
缺点:质量不稳定
🎛️

温度与采样控制:调节生成的多样性

温度(Temperature)、Top-k、Top-p(Nucleus Sampling)是控制生成多样性的关键参数。 温度调节概率分布的"锐度",Top-k/Top-p限制候选token范围。 合理设置这些参数,可以在创造性和连贯性之间找到平衡点。

三大采样控制参数:
Temperature(温度)
公式:P'(w) = exp(logits(w) / T) / Σ exp(logits(v) / T)
T→0: 接近Greedy(确定性) | T=1: 原始分布 | T>1: 更随机更多样
Top-k Sampling
只从概率最高的k个tokens中采样,其余置为0
k=1: Greedy | k=50: 常用值 | k=∞: 无限制
Top-p (Nucleus) Sampling
从累积概率≥p的最小token集合中采样
p=0.9: 常用值(GPT默认) | p=1.0: 无限制 | 动态调整候选集大小
📊

生成质量评估:困惑度、BLEU与人工评价

如何评估LLM生成文本的质量?自动化指标(困惑度Perplexity、BLEU、ROUGE)提供快速反馈, 但难以捕捉流畅性、创造性等人类视角。人工评价是黄金标准,但成本高昂。 实践中常结合多种评估方法,构建全面的质量评价体系。

自动化指标
  • Perplexity:困惑度,越低越好(模型确信度)
  • BLEU:n-gram重叠度(机器翻译常用)
  • ROUGE:召回率指标(摘要生成常用)
  • BERTScore:语义相似度(基于BERT嵌入)
人工评价维度
  • 流畅性:语法正确、表达自然
  • 相关性:与输入主题一致
  • 连贯性:逻辑清晰、结构合理
  • 创造性:新颖度、信息量

🎯 核心概念总结

自回归是基础

逐词预测生成,每步选择影响全局,需要精心设计解码策略

策略看场景

事实性任务用Greedy/Beam,创造性任务用Sampling,无最佳方案

参数调多样

温度、Top-k、Top-p控制生成多样性,平衡质量与创造性

📚学习资源

📄

课程Slides

完整的讲义PDF,包含所有图表和详细内容

本讲测评

15道题目,检验你对文本生成技术的掌握

开始测评 →