情感分析、文本分类与信息抽取实战
从本讲开始,我们进入大语言模型在社会科学中的具体应用实践。 本节课将介绍三大核心文本分析技术:情感分析、文本分类和信息抽取。 每个技术都配有可运行的Python代码示例,你可以直接在浏览器中体验这些强大的文本分析能力。 这些技术在政策研究、消费者研究、历史研究、社会网络分析等领域都有广泛应用。
判断文本的情感倾向(正面/负面/中性)
自定义类别对文本进行归类
提取实体和关系,构建知识图谱
情感分析(Sentiment Analysis),也称为意见挖掘,是指通过自动化方法判断文本所表达的情感倾向。 简单来说,就是让计算机自动判断一段文字表达的是正面情绪、负面情绪,还是中性态度。
政府推出新政策后,通过分析社交媒体评论了解公众反应(支持/反对),为政策优化提供数据支撑
分析电商平台产品评论,了解用户真实感受,识别产品优势和不足
重大社会事件后,追踪公众情绪变化,理解舆论发展规律
传统方法
大模型方法
文本分类是指根据文本内容将文本归入预先定义的类别中。 与情感分析不同,文本分类的类别可以**完全自定义**,这带来了巨大的灵活性。 情感分析实际上是文本分类的一个特例(类别固定为正面/负面/中性)。
收集多家媒体新闻,分类为"时政/体育/娱乐/科技/财经",统计各媒体报道倾向,研究媒体议程设置
开放题"为什么选择这个专业?",自动分类为"兴趣/就业/家长建议/社会地位",快速处理2000条回答
环保政策文件分类为"污染治理/生态保护/绿色发展/能源转型",分析政策重点随时间的演变
将社会学论文分类为"定性研究/定量研究/混合研究/理论研究",分析研究方法的分布和趋势
信息抽取不是给文本"贴标签",而是从文本中"提取信息"。 它包含两个核心任务:命名实体识别(NER)找出专有名词,关系抽取(RE)找出实体间的关系。 两者结合可以构建知识图谱、分析社会网络。
文本:"1999年,马云在杭州创立了阿里巴巴公司。"
命名实体识别(NER)
关系抽取(RE)
从史书中自动提取人物及其关系,构建历史人物社会网络(如晚清维新派网络),分析权力结构
从政策文件中提取政策主体及其关系(牵头/配合/监督),构建政策执行网络,分析协作结构
从新闻报道中提取人际互动和组织联系,构建真实的社会网络数据,分析信息传播路径
构建中国互联网企业创始人网络,分析创业者背景和公司关联,研究创业生态
将命名实体识别和关系抽取结合起来,可以:
给文本贴情感标签
• 类别:固定
• 输出:标签
• 应用:舆情、评价分析
给文本贴主题标签
• 类别:自定义
• 输出:标签
• 应用:主题归类、文献分类
提取结构化信息
• 类别:-
• 输出:结构化数据
• 应用:知识图谱、网络分析
原本需要几周甚至几个月的文本标注工作,现在几小时就能完成
不需要深厚编程背景,不需要训练复杂模型,只需会写提示词
以前成本太高无法做的研究,现在可以做了(如百万级文本分析)
完整的讲义PDF,包含所有案例和代码
下载完整的.ipynb文件,本地运行实践