2

大语言模型的发展简史

70年AI语言处理演进之路

⏱️ 90分钟📊 难度:基础🎯 模块1:基础理论

📖课程概述

本讲将带你穿越70年的时光,追溯从1954年第一个机器翻译系统到2024年多模态大模型的完整演进历程。 你将了解每个关键里程碑背后的技术突破、理解LLM发展的内在逻辑和规律。

🎯学习目标

1.了解LLM的发展历程和关键里程碑
2.理解技术演进的内在逻辑和规律
3.认识Transformer的革命性意义

🔑核心知识点

历史里程碑技术演进Transformer革命ChatGPT时代

🕰️70年发展历程

🕰️ 大语言模型70年发展历程

1954

机器翻译诞生

IBM-Georgetown机器翻译系统,人类语言处理的开端

🔬
1966

ELIZA聊天机器人

世界第一个聊天机器人,模拟心理治疗师

🤖
2017

Transformer发布

Attention is All You Need论文,开启新时代

2018

BERT & GPT

预训练范式确立,双向和单向语言模型

🧠
2020

GPT-3

1750亿参数,Few-shot学习能力惊艳世界

🚀
2022

ChatGPT

对话式AI走向大众,全球AI革命开启

💬
2024

多模态时代

GPT-4V、Gemini等多模态大模型涌现

🎨

📍关键里程碑详解

🔬
1954年

IBM-Georgetown机器翻译实验

1954年1月7日,IBM与乔治敦大学联合展示了世界上第一个机器翻译系统。 该系统能够将60个俄语句子自动翻译成英语,虽然使用的是简单的词典查找和规则匹配, 但这标志着计算机语言处理时代的正式开启。

技术特点:
  • 基于词典查找和简单规则
  • 需要预先编写翻译规则
  • 只能处理特定领域的简单句子
  • 标志着NLP从理论走向实践
🤖
1966年

ELIZA:世界第一个聊天机器人

MIT的约瑟夫·魏森鲍姆教授开发了ELIZA,世界上第一个聊天机器人。 它模拟心理治疗师,通过模式匹配和模板回复工作。虽然技术简单, 但很多用户产生了"ELIZA效应"——觉得程序真的"理解"了他们。

对话示例:
病人:"我觉得很难过"
ELIZA:"为什么你会觉得难过呢?"
病人:"我需要帮助"
ELIZA:"你为什么觉得你需要帮助呢?"
💡 ELIZA效应

很多用户产生了错觉,觉得程序真的"理解"了他们。 这种效应直到今天还在影响我们对AI的认知。

2017年

Transformer:Attention is All You Need

Google团队发表了划时代的论文《Attention is All You Need》,提出了完全基于注意力机制的Transformer架构。 它抛弃了循环结构,实现了并行处理,彻底改变了NLP领域。 GPT、BERT等现代大模型都基于Transformer架构。

核心创新:
  • Self-Attention:让每个词直接"看到"所有其他词
  • 并行处理:不再依赖串行的RNN,训练速度大幅提升
  • 长距离依赖:有效建立远距离词之间的关联
  • 可扩展性:为超大规模模型奠定了基础
🔥 革命性影响

Transformer是NLP历史上最重要的突破之一。它不仅解决了RNN的技术问题, 更开启了大模型时代。没有Transformer,就没有GPT-3、ChatGPT等现代LLM。

🧠
2018年

BERT与GPT:预训练范式确立

2018年是预训练大模型爆发的一年。Google发布了BERT(双向Encoder), OpenAI推出了GPT(单向Decoder)。两者都证明了"预训练+微调"范式的强大威力, 确立了现代LLM的基本范式。

BERT(双向理解)
  • • Masked Language Model训练
  • • 双向上下文理解
  • • 适合理解类任务
  • • 在11个NLP任务上SOTA
GPT(单向生成)
  • • 自回归语言建模
  • • 从左到右预测
  • • 适合生成类任务
  • • 展现Zero-shot能力
🚀
2020年

GPT-3:规模的力量

OpenAI发布了拥有1750亿参数的GPT-3,参数量是GPT-2的100倍。 GPT-3展现了惊人的Few-shot学习能力——只需几个示例,就能完成各种任务, 无需专门训练。这证明了"规模法则"(Scaling Law)的威力。

关键数据:
参数量
1750亿
训练数据
45TB
训练成本
约$460万
Few-shot能力
惊艳世界
💡 Scaling Law(规模法则)

模型性能与参数量、数据量、计算量呈幂律关系。 这意味着:更大的模型 + 更多数据 + 更多算力 = 更强的能力。 GPT-3证明了这一理论,推动了后续的大模型竞赛。

💬
2022年

ChatGPT:AI走向大众

2022年11月,OpenAI发布ChatGPT,2个月内用户突破1亿。 ChatGPT通过RLHF(基于人类反馈的强化学习)实现了更好的对齐, 能够拒绝不当请求、承认错误、挑战不正确的前提。它让AI真正走进了千家万户。

成功要素:
  • 预训练:GPT-3.5作为基础
  • SFT:监督微调提升对话能力
  • RLHF:基于人类反馈对齐
  • 产品化:简单易用的聊天界面
🌍 全球影响

ChatGPT引发了全球AI热潮,推动了各行各业的AI应用探索。 从教育到医疗,从法律到编程,AI助手成为了新的生产力工具。 这标志着AI从实验室走向了真实世界。

🎯 核心概念总结

从规则到统计

早期(1954-1990s)依赖人工规则,后期逐渐转向统计方法和机器学习

从小到大

模型规模从数百万参数增长到数千亿,规模效应带来能力跃升

从专用到通用

从针对单一任务到Few/Zero-shot通用能力,LLM展现了真正的智能

📚学习资源

📄

课程Slides

完整的讲义PDF,包含所有图表和详细内容

本讲测评

12道题目,检验你对发展历史的掌握

开始测评 →