14

应用:LLM与文本分析

情感分析、文本分类与信息抽取实战

🧪 实践课⏱️ 120分钟🎯 模块:应用案例

🧪实践课概述

从本讲开始,我们进入大语言模型在社会科学中的具体应用实践。 本节课将介绍三大核心文本分析技术:情感分析、文本分类和信息抽取。 每个技术都配有可运行的Python代码示例,你可以直接在浏览器中体验这些强大的文本分析能力。 这些技术在政策研究、消费者研究、历史研究、社会网络分析等领域都有广泛应用。

🎯三个核心模块

📊 情感分析

判断文本的情感倾向(正面/负面/中性)

📁 文本分类

自定义类别对文本进行归类

🔍 信息抽取

提取实体和关系,构建知识图谱

📊模块一:情感分析实战

什么是情感分析?

情感分析(Sentiment Analysis),也称为意见挖掘,是指通过自动化方法判断文本所表达的情感倾向。 简单来说,就是让计算机自动判断一段文字表达的是正面情绪、负面情绪,还是中性态度。

社会科学应用场景

1. 政策研究

政府推出新政策后,通过分析社交媒体评论了解公众反应(支持/反对),为政策优化提供数据支撑

2. 消费者研究

分析电商平台产品评论,了解用户真实感受,识别产品优势和不足

3. 舆情监测

重大社会事件后,追踪公众情绪变化,理解舆论发展规律

传统方法 vs 大模型方法

传统方法

  • • 需要标注成千上万条数据
  • • 训练专门的分类器
  • • 换领域需重新标注
  • • 耗时数周到数月

大模型方法

  • ✅ 零样本,无需标注数据
  • ✅ 几行代码即可实现
  • ✅ 跨领域通用
  • ✅ 准确率高

📁模块二:文本分类实战

什么是文本分类?

文本分类是指根据文本内容将文本归入预先定义的类别中。 与情感分析不同,文本分类的类别可以**完全自定义**,这带来了巨大的灵活性。 情感分析实际上是文本分类的一个特例(类别固定为正面/负面/中性)。

社会科学应用场景

1. 媒体研究

收集多家媒体新闻,分类为"时政/体育/娱乐/科技/财经",统计各媒体报道倾向,研究媒体议程设置

2. 问卷分析

开放题"为什么选择这个专业?",自动分类为"兴趣/就业/家长建议/社会地位",快速处理2000条回答

3. 政策文本研究

环保政策文件分类为"污染治理/生态保护/绿色发展/能源转型",分析政策重点随时间的演变

4. 学术文献综述

将社会学论文分类为"定性研究/定量研究/混合研究/理论研究",分析研究方法的分布和趋势

💡文本分类的强大之处

  • 完全自定义类别:可以定义任何领域、任意数量的类别
  • 无需训练数据:模型直接理解你定义的类别,无需示例
  • 跨领域通用:从新闻到论文,从政策到社交媒体,都能应用

🔍模块三:信息抽取实战

什么是信息抽取?

信息抽取不是给文本"贴标签",而是从文本中"提取信息"。 它包含两个核心任务:命名实体识别(NER)找出专有名词,关系抽取(RE)找出实体间的关系。 两者结合可以构建知识图谱、分析社会网络。

示例说明

文本:"1999年,马云在杭州创立了阿里巴巴公司。"

命名实体识别(NER)

  • • 1999年(时间)
  • • 马云(人名)
  • • 杭州(地名)
  • • 阿里巴巴(组织)

关系抽取(RE)

  • • (马云, 创立, 阿里巴巴)
  • • (马云, 位于, 杭州)
  • • (阿里巴巴, 成立于, 1999年)

社会科学应用场景

1. 历史研究

从史书中自动提取人物及其关系,构建历史人物社会网络(如晚清维新派网络),分析权力结构

2. 政策研究

从政策文件中提取政策主体及其关系(牵头/配合/监督),构建政策执行网络,分析协作结构

3. 社会网络研究

从新闻报道中提取人际互动和组织联系,构建真实的社会网络数据,分析信息传播路径

4. 企业关系研究

构建中国互联网企业创始人网络,分析创业者背景和公司关联,研究创业生态

💡NER + RE = 知识图谱

将命名实体识别和关系抽取结合起来,可以:

  • 构建知识图谱:节点表示实体,边表示关系
  • 网络分析:识别核心人物、桥接者、社群结构
  • 自动化处理:从文本到结构化数据,大幅提高研究效率

🔄 三个技术的递进关系

📊

情感分析

给文本贴情感标签

• 类别:固定
• 输出:标签
• 应用:舆情、评价分析

📁

文本分类

给文本贴主题标签

• 类别:自定义
• 输出:标签
• 应用:主题归类、文献分类

🔍

信息抽取

提取结构化信息

• 类别:-
• 输出:结构化数据
• 应用:知识图谱、网络分析

分类分类(灵活)抽取

🎯 核心要点总结

大幅提高效率

原本需要几周甚至几个月的文本标注工作,现在几小时就能完成

降低技术门槛

不需要深厚编程背景,不需要训练复杂模型,只需会写提示词

扩展研究可能

以前成本太高无法做的研究,现在可以做了(如百万级文本分析)

⚠️重要提醒

  • 大模型不是完美的,会出错、会产生幻觉,关键研究需人工复核
  • 大模型是辅助工具,不能替代研究者的思考和判断
  • 最终的研究设计、理论解释、结论推导,仍需研究者的智慧

📚学习资源

📄

课程Slides

完整的讲义PDF,包含所有案例和代码

💻

Jupyter Notebook

下载完整的.ipynb文件,本地运行实践