AI安全、可信与道德规范
大语言模型虽然强大,但也存在幻觉、偏见等问题,可能带来伦理和安全风险。 本讲将系统探讨大语言模型的局限性、潜在风险,以及如何负责任地开发和使用AI系统。 我们将学习幻觉问题的本质与缓解方法,了解AI伦理的核心原则, 掌握偏见检测与公平性评估的方法,建立负责任AI的实践框架。
幻觉(Hallucination)是指大语言模型生成的内容看似合理,但实际上是错误的、不准确的或无法验证的信息。 模型会"一本正经地胡说八道",编造不存在的事实、引用虚假的来源、或给出错误的推理。 幻觉是当前大语言模型最严重的问题之一,可能导致误导用户、传播错误信息,甚至造成实际损失。
幻觉的类型
编造不存在的事实和信息
例:虚构历史事件、编造统计数据
引用不存在的文献或来源
例:虚构论文、伪造引用链接
推理过程看似合理但存在逻辑错误
例:因果倒置、循环论证
忽略或误解给定的上下文信息
例:与文档内容矛盾的总结
幻觉示例
用户提问:
"介绍一下2025年诺贝尔物理学奖获得者的成就"
幻觉输出示例:
"2025年诺贝尔物理学奖授予了张三教授,以表彰他在量子纠缠远程传输方面的突破性研究。 他的团队在2024年成功实现了100公里距离的量子态传输,相关论文发表在Nature Physics 2024年3月刊..."
⚠️ 问题:编造了获奖者、研究内容和论文信息
🔍幻觉产生的原因
🛡️缓解幻觉的方法
技术手段
使用策略
AI伦理是指在开发、部署和使用AI系统时应遵循的道德规范和价值准则。 随着AI能力的增强和应用范围的扩大,确保AI系统符合伦理标准变得至关重要。 以下是AI伦理的核心原则:
AI系统的决策过程应该是透明的,用户有权了解系统如何做出决策。
实践要求:
AI系统不应因种族、性别、年龄、宗教等因素产生不公平的对待。
实践要求:
保护用户数据隐私,防止未经授权的访问和滥用。
实践要求:
AI系统应该安全可靠,不会造成意外伤害或损失。
实践要求:
明确AI系统的责任归属,确保有人对系统的行为负责。
实践要求:
AI应增强而非取代人类决策,保留人类的最终控制权。
实践要求:
AI系统可能会学习和放大训练数据中的社会偏见,导致对某些群体的不公平对待。 识别、评估和减轻偏见是构建公平AI系统的关键。
偏见的来源
训练数据不平衡、不代表或包含历史歧视。
例:招聘数据中男性占比远高于女性,导致模型偏好男性候选人
数据标注者的主观判断引入偏见。
例:不同文化背景的标注者对"专业形象"的理解不同
模型架构或优化目标导致的系统性偏差。
例:优化准确率可能忽视少数群体的表现
用户反馈循环强化现有偏见。
例:推荐系统根据历史点击优化,导致信息茧房
偏见示例:简历筛选系统
场景:某公司使用AI系统筛选技术岗位简历
问题:系统对女性候选人的评分系统性地低于男性候选人
偏见分析:
缓解措施:
📏公平性评估方法
统计公平性
不同群体获得正面结果的比例应该相似
指标:Demographic Parity
机会平等
真正符合条件的人被选中的概率应该相同
指标:Equal Opportunity
预测公平性
模型预测的准确率在各群体间应该一致
指标:Equalized Odds
个体公平性
相似的个体应该得到相似的对待
指标:Individual Fairness
⚠️公平性权衡
不同的公平性定义可能相互冲突,无法同时满足。需要根据具体应用场景选择合适的公平性标准。
例:统计公平性可能要求降低某些群体的准确率,与预测公平性产生冲突。
构建和部署负责任的AI系统需要系统化的方法和完整的生命周期管理。 以下是负责任AI的最佳实践框架:
数据治理
模型设计
开发文档
团队组成
性能评估
公平性审计
安全评估
用户测试
透明披露
用户控制
监控系统
应急响应
持续评估
模型更新
审计合规
社区参与
📋负责任AI检查清单
开发前
开发中
部署前
运行中
了解幻觉、偏见等问题的本质和表现形式
掌握检测和评估AI系统问题的系统方法
建立负责任AI的完整生命周期管理实践
完整的讲义PDF,包含所有图表和详细内容