70年AI语言处理演进之路
本讲将带你穿越70年的时光,追溯从1954年第一个机器翻译系统到2024年多模态大模型的完整演进历程。 你将了解每个关键里程碑背后的技术突破、理解LLM发展的内在逻辑和规律。
IBM-Georgetown机器翻译系统,人类语言处理的开端
世界第一个聊天机器人,模拟心理治疗师
Attention is All You Need论文,开启新时代
预训练范式确立,双向和单向语言模型
1750亿参数,Few-shot学习能力惊艳世界
对话式AI走向大众,全球AI革命开启
GPT-4V、Gemini等多模态大模型涌现
1954年1月7日,IBM与乔治敦大学联合展示了世界上第一个机器翻译系统。 该系统能够将60个俄语句子自动翻译成英语,虽然使用的是简单的词典查找和规则匹配, 但这标志着计算机语言处理时代的正式开启。
MIT的约瑟夫·魏森鲍姆教授开发了ELIZA,世界上第一个聊天机器人。 它模拟心理治疗师,通过模式匹配和模板回复工作。虽然技术简单, 但很多用户产生了"ELIZA效应"——觉得程序真的"理解"了他们。
很多用户产生了错觉,觉得程序真的"理解"了他们。 这种效应直到今天还在影响我们对AI的认知。
Google团队发表了划时代的论文《Attention is All You Need》,提出了完全基于注意力机制的Transformer架构。 它抛弃了循环结构,实现了并行处理,彻底改变了NLP领域。 GPT、BERT等现代大模型都基于Transformer架构。
Transformer是NLP历史上最重要的突破之一。它不仅解决了RNN的技术问题, 更开启了大模型时代。没有Transformer,就没有GPT-3、ChatGPT等现代LLM。
2018年是预训练大模型爆发的一年。Google发布了BERT(双向Encoder), OpenAI推出了GPT(单向Decoder)。两者都证明了"预训练+微调"范式的强大威力, 确立了现代LLM的基本范式。
OpenAI发布了拥有1750亿参数的GPT-3,参数量是GPT-2的100倍。 GPT-3展现了惊人的Few-shot学习能力——只需几个示例,就能完成各种任务, 无需专门训练。这证明了"规模法则"(Scaling Law)的威力。
模型性能与参数量、数据量、计算量呈幂律关系。 这意味着:更大的模型 + 更多数据 + 更多算力 = 更强的能力。 GPT-3证明了这一理论,推动了后续的大模型竞赛。
2022年11月,OpenAI发布ChatGPT,2个月内用户突破1亿。 ChatGPT通过RLHF(基于人类反馈的强化学习)实现了更好的对齐, 能够拒绝不当请求、承认错误、挑战不正确的前提。它让AI真正走进了千家万户。
ChatGPT引发了全球AI热潮,推动了各行各业的AI应用探索。 从教育到医疗,从法律到编程,AI助手成为了新的生产力工具。 这标志着AI从实验室走向了真实世界。
早期(1954-1990s)依赖人工规则,后期逐渐转向统计方法和机器学习
模型规模从数百万参数增长到数千亿,规模效应带来能力跃升
从针对单一任务到Few/Zero-shot通用能力,LLM展现了真正的智能
完整的讲义PDF,包含所有图表和详细内容