7

大语言模型的部署与使用

从训练到生产:模型推理、优化与服务化

⏱️ 90分钟📊 难度:进阶🎯 模块2:核心技术

📖课程概述

训练好的大语言模型如何真正投入使用?本讲将系统讲解LLM的三种主要使用方式: 网页访问(零门槛)、API调用(可编程自动化)、本地部署(完全自主可控)。 你将学习如何选择合适的模型、如何通过API实现自动化处理、以及如何在本地部署开源模型。 从个人学习到企业应用,掌握大模型使用的最佳实践。

🎯学习目标

1.理解主流大语言模型的特点,学会根据需求选择合适模型
2.掌握网页、API、本地部署三种使用方式的特点与适用场景
3.学会使用API进行编程调用和自动化处理
4.了解本地部署的硬件要求、成本控制与优化方法

🔑核心知识点

模型选择使用方式API调用本地部署成本控制

💡核心概念详解

🎯

如何选择合适的大语言模型?

当前市场上有数十种大语言模型,从GPT-4到国产DeepSeek,从闭源商业到开源免费, 如何选择最适合你的模型?核心是理解不同模型的特点和你的实际需求。 没有"最好"的模型,只有"最合适"的选择。

🌍国际主流模型
  • GPT-4o:综合能力最强,多模态支持
  • Claude 3.7 Sonnet:长文本处理,分析能力强
  • Gemini 2.5:Google出品,深度集成
  • Grok 3:实时信息,X平台数据
🇨🇳国内优秀模型
  • DeepSeek-V3:性价比之王,推理能力强
  • 通义千问:阿里出品,中文优秀
  • Kimi:超长上下文(200万tokens)
  • 文心一言:百度技术,中文理解好
🧠 推理模型(Reasoning Models)

新一代推理模型通过"思维链"展现推理过程,在数学、编程、科学等复杂任务上表现突出:

  • DeepSeek R1:开源推理模型,性能接近o1
  • GPT-o3:OpenAI推理模型,复杂推理能力强
  • Gemini 2.5 Pro:多模态推理能力

🔄 三种使用方式对比

🌐

网页访问

Web Interface

  • ✓ 零门槛,即开即用
  • ✓ 无需编程知识
  • ✓ 界面友好直观
  • ✓ 适合个人使用
适用场景:
学习辅助、写作帮助、日常咨询

API调用

API Access

  • ✓ 可编程自动化
  • ✓ 批量处理能力
  • ✓ 灵活定制集成
  • ✓ 适合开发应用
适用场景:
批量分析、系统集成、自动化处理
🖥️

本地部署

Local Deployment

  • ✓ 数据完全私密
  • ✓ 完全自主可控
  • ✓ 无使用限制
  • ✓ 适合敏感数据
适用场景:
医疗、法律、金融等隐私敏感领域
🌐
方式1

网页访问:最友好的使用方式

网页访问是使用大语言模型最简单的方式,就像使用搜索引擎一样。 打开浏览器,访问ChatGPT、DeepSeek或Claude等平台网站,注册账号后即可开始对话。 这种方式完全不需要编程知识,界面友好直观,是绝大多数人接触LLM的第一种方式。

主要优势:
✓ 便捷性
  • • 零门槛:无需任何技术背景
  • • 无需安装:打开浏览器即可
  • • 跨平台:电脑/平板/手机通用
✓ 功能丰富
  • • 对话历史:自动保存
  • • 语音输入:说话也能用
  • • 文件上传:处理图片/文档
⚠️ 局限性

自动化程度低:批量处理1000条评论需要手动复制粘贴,效率极低。定制化有限:无法调整温度等参数,无法与其他系统集成。 当需要自动化或定制功能时,就需要考虑API了。

方式2

API调用:可编程的自动化方式

API(Application Programming Interface,应用程序接口)让你的程序能够直接与大模型对话。 这就像一根直通管道,程序发送请求,大模型处理后返回结果,整个过程自动化完成。 API是实现批量处理、系统集成、自动化应用的关键方式。

API工作流程:
1
发送请求:程序发送"帮我分析这段文本的情感"
2
模型处理:大语言模型服务器接收并处理
3
返回结果:"这段文本表达了积极情感"
4
程序使用:你的程序接收结果并继续处理
💡 API计费方式

API按使用量计费,通常以"每百万tokens"为单位。输入和输出价格不同(输出更贵):

DeepSeek R1: 4元/16元(输入/输出)
GPT-4o: 108元/433元(输入/输出)
GPT-3.5: 7元/14元(输入/输出)
Claude 3: 50元/125元(输入/输出)

示例:处理10万字文档,DeepSeek约2-5元,GPT-4o约50-200元

⚠️ 使用注意事项

API密钥安全:妥善保管,不要泄露到代码仓库。成本控制:设置使用限额,避免意外高额账单。数据隐私:敏感数据会发送到云端,注意隐私保护。

💬 问AI:如何使用API
🖥️
方式3

本地部署:完全自主可控

本地部署是将开源大语言模型下载到自己的电脑或服务器上运行,数据完全不出本地。 这种方式提供最高的数据隐私保护和使用自由度,但需要投入硬件资源和掌握一定技术能力。 对于医疗、法律、金融等对数据安全要求极高的领域,本地部署是唯一选择。

硬件要求参考:
7B小模型
如LLaMA-7B、Qwen-7B
8-16GB显存
RTX 4060 (约3000元)
适用:个人学习、轻量应用、快速响应
13B中模型
如LLaMA-13B、Qwen-14B
16-24GB显存
RTX 4090 (约1.5万元)
适用:专业应用、小团队、平衡性能
70B大模型
如LLaMA-70B、DeepSeek-V3
40-80GB显存
A100 (约8-10万元)
适用:企业应用、高性能需求、复杂任务
💡 量化技术降低门槛

通过INT8/INT4量化,可以将显存需求降低2-4倍。例如13B模型量化后只需6-8GB显存, 普通游戏显卡(RTX 3060)即可运行。虽然性能略有损失,但大幅降低了硬件成本。

📊三种方式详细对比

对比维度网页访问API调用本地部署
使用门槛零门槛需要编程技术要求高
自动化能力手动操作完全自动化完全自动化
批量处理不适合非常适合非常适合
数据隐私数据上云数据上云完全本地
硬件成本无需投入无需投入较高(3千-50万)
使用成本订阅费(月付)按量计费电费为主
模型性能顶级模型顶级模型中小模型为主
定制能力受限中等完全自由

🤔 如何选择使用方式?

✓ 选择网页访问,如果你:
  • • 只是个人使用,偶尔问几个问题
  • • 不会编程,也不想学编程
  • • 需要快速上手,立即使用
  • • 对话历史、语音输入等功能就够用
✓ 选择API调用,如果你:
  • • 需要批量处理大量数据(如分析1000条评论)
  • • 要将AI集成到自己的应用或系统中
  • • 会编程(Python/JavaScript等)
  • • 数据不是特别敏感,可以上云
✓ 选择本地部署,如果你:
  • • 处理高度敏感数据(医疗、法律、金融)
  • • 需要完全自主可控,不想依赖第三方
  • • 有硬件资源投入能力(GPU服务器)
  • • 有技术团队支持(环境配置、模型优化)

🎯 核心要点总结

网页:入门首选

零门槛、即开即用,适合个人学习和日常使用。 但自动化能力弱,不适合批量处理。

API:自动化利器

可编程、自动化、批量处理。是开发应用和系统集成的最佳选择。 需要编程能力和成本管理。

本地:隐私至上

数据完全私密、完全自主可控。适合敏感数据处理。 需要硬件投入和技术能力。

💡实践建议

📌
学习阶段: 从网页访问开始,熟悉基本功能和使用技巧,建立对LLM能力的直观认知
📌
开发应用: 学习API调用,从简单的单次请求开始,逐步实现批量处理和系统集成
📌
敏感数据: 评估数据安全需求,如需本地部署,优先选择7B/13B量化模型降低成本
📌
成本优化: 优先选择性价比高的模型(如DeepSeek),设置使用限额,合理控制成本

📚学习资源

📄

课程Slides

详细的讲义,包含API示例和部署指南

本讲测评

测试你对部署与使用的理解

开始测评 →
🔗

实践资源

API文档、部署教程、代码示例