当前位置：首页 > news >正文

R语言对简·奥斯汀作品中人物对话的情感分析

news 2026/2/8 8:42:04

项目背景

客户是一家文学研究机构，他们希望通过对简·奥斯汀作品中人物对话的情感分析，深入了解作品中人物的情感变化和故事情节的发展。因此，他们委托你进行一项情感分析项目，利用“janeaustenr”包中的数据集来构建情感分析模型。

数据来源

客户将提供“janeaustenr”包，该包包含了简·奥斯汀的几部小说（如《傲慢与偏见》、《理智与情感》等）的文本数据。你可以直接使用该包中的数据进行分析。
需求分析

1. 目标：构建一个情感分析模型，对简·奥斯汀作品中人物对话进行情感分类（正面、负面或中性）。
1. 数据集：使用“janeaustenr”包中的小说文本数据。
1. 情感分类：将对话分为正面、负面和中性三类。
1. 模型要求：
  • 需要考虑文本数据的预处理，如分词、去除停用词、词干提取等。
  • 需要选择合适的特征提取方法，如词袋模型、TF-IDF等。
  • 需要选择合适的分类算法，如朴素贝叶斯、支持向量机、随机森林等，并进行参数调优。
  • 需要对模型进行评估，包括准确率、召回率、F1分数等指标。
  交付成果
1. R代码：提供完整的R代码，包括数据预处理、特征提取、模型建立和模型评估等步骤。
1. 模型报告：提供一份详细的模型报告，包括数据预处理的结果、特征提取的方法、模型的性能评估结果等。
1. 情感分析结果：对简·奥斯汀作品中人物对话进行情感分类，并生成情感分析结果报告，包括对话的情感极性、情感强度等信息。

技术要求

1. 熟悉R语言：能够熟练使用R语言进行文本数据分析和情感分析。
1. 了解情感分析：熟悉情感分析的基本原理和步骤，能够独立完成模型的建立和评估。
1. 文本处理能力：能够处理大规模文本数据，进行数据预处理和特征提取。
1. 模型评估能力：能够使用合适的评估指标对模型进行评估，并解释评估结果。

按步骤构建整个流程，包括数据加载、预处理、特征提取、模型建立、评估等。以下是基于R语言的实现方案。

1. 加载必要的包

首先，确保安装并加载所需的R包，包括 janeaustenr, tidyverse, tm, textclean, text, caret, e1071 等：

# 安装必要的包
install.packages(c("janeaustenr", "tidyverse", "tm", "textclean", "text", "caret", "e1071"))# 加载包
library(janeaustenr)
library(tidyverse)
library(tm)
library(textclean)
library(text)
library(caret)
library(e1071)

2. 数据加载与准备

janeaustenr 包中包含了简·奥斯汀的作品数据。我们需要从该包中提取出人物对话的文本，并整理为适合情感分析的格式。

# 加载简·奥斯汀的文本数据
data("austen_books")# 查看数据结构
head(austen_books)# 选择对话文本，假设每行代表一段对话
dialogue_data <- austen_books %>% filter(str_detect(text, "[A-Za-z]")) %>%  # 筛选非空行select(book, text)  # 保留书名和文本

3. 数据预处理

数据预处理包括去除标点符号、数字、停用词等，进行分词，并进行词干提取。

# 文本清洗函数
clean_text <- function(text){text %>%tolower() %>%                      # 转小写removePunctuation() %>%             # 去除标点符号removeNumbers() %>%                 # 去除数字removeWords(stopwords("en")) %>%    # 去除英语停用词stripWhitespace() %>%               # 去除多余空格wordStem()                          # 词干提取
}# 应用文本清洗
dialogue_data$text_clean <- sapply(dialogue_data$text, clean_text)# 查看清洗后的结果
head(dialogue_data$text_clean)

4. 特征提取

使用 tm 包的 DocumentTermMatrix (DTM) 或 text 包的 dfm 来提取特征。这里我们将使用 tf-idf (词频-逆文档频率) 作为特征提取方法。

# 创建一个文档-词项矩阵 (Document-Feature Matrix)
corpus <- Corpus(VectorSource(dialogue_data$text_clean))
dtm <- DocumentTermMatrix(corpus, control = list(weighting = weightTfIdf))# 转换为矩阵
dtm_matrix <- as.matrix(dtm)# 查看提取的特征
head(dtm_matrix)

5. 情感标签

由于目前数据集中没有情感标签，我们假设可以基于一些预定义的情感词典来标注情感。可以使用 text 包中的情感分析工具，或结合情感词典进行标签分类。

例如，利用 text 包进行情感分析并为每段对话打标签。

# 使用text包进行情感分析
sentiment_scores <- textdata::lexicons$afinn# 假设情感分析返回一个情感分数（负数为负面，正数为正面，中性为0）
dialogue_data$sentiment <- sapply(dialogue_data$text_clean, function(text){score <- sum(sapply(str_split(text, " "), function(word) sentiment_scores$score[sentiment_scores$word == word]))return(ifelse(score > 0, "positive", ifelse(score < 0, "negative", "neutral")))
})# 查看情感标签
head(dialogue_data)

6. 构建模型

我们可以选择常用的分类算法，如朴素贝叶斯、支持向量机（SVM）或随机森林。这里以支持向量机为例。

# 将情感标签转换为因子类型
dialogue_data$sentiment <- factor(dialogue_data$sentiment, levels = c("negative", "neutral", "positive"))# 划分训练集和测试集
set.seed(123)
trainIndex <- createDataPartition(dialogue_data$sentiment, p = 0.8, list = FALSE)
train_data <- dialogue_data[trainIndex, ]
test_data <- dialogue_data[-trainIndex, ]# 使用SVM训练模型
svm_model <- svm(sentiment ~ ., data = train_data, kernel = "linear")# 预测情感标签
predictions <- predict(svm_model, test_data)# 评估模型
conf_matrix <- confusionMatrix(predictions, test_data$sentiment)
print(conf_matrix)

7. 模型评估

通过 confusionMatrix 函数评估模型的性能，包括准确率、召回率和F1分数等。

# 打印评估结果
conf_matrix# 提取性能指标
accuracy <- conf_matrix$overall["Accuracy"]
recall <- conf_matrix$byClass["Recall"]
f1_score <- conf_matrix$byClass["F1"]print(paste("Accuracy:", accuracy))
print(paste("Recall:", recall))
print(paste("F1 Score:", f1_score))

8. 生成情感分析报告

最后，将情感分析结果生成报告，包括每段对话的情感极性和强度。

# 为每段对话生成情感分析报告
sentiment_report <- dialogue_data %>%select(book, text, sentiment) %>%mutate(sentiment_score = ifelse(sentiment == "positive", 1, ifelse(sentiment == "negative", -1, 0)))# 输出情感分析报告
write.csv(sentiment_report, "sentiment_analysis_report.csv")

9. 结果展示

根据需求，你可以将情感分析结果可视化，例如使用 ggplot2 展示每本书的情感分布。

# 使用ggplot2绘制情感分布
ggplot(sentiment_report, aes(x = sentiment, fill = sentiment)) +geom_bar() +facet_wrap(~book) +labs(title = "Sentiment Distribution in Jane Austen's Books", x = "Sentiment", y = "Frequency")

总结

通过上述步骤，我们能够从简·奥斯汀的作品中提取人物对话，进行数据预处理、特征提取、情感分析，并利用机器学习模型进行情感分类。最后，我们能够提供模型评估指标以及生成情感分析报告。

这套方案考虑了文本数据的预处理、特征工程、情感分析和模型评估，适应了客户的需求。如果有更多的标注数据或优化空间，可以进一步改进模型和分析方法。

R语言对简·奥斯汀作品中人物对话的情感分析

项目背景客户是一家文学研究机构，他们希望通过对简奥斯汀作品中人物对话的情感分析，深入了解作品中人物的情感变化和故事情节的发展。因此，他们委托你进行一项情感分析项目，利用“janeaustenr”包中的数据集来构建情感分析模型。…...

编程日记 2024/12/7 6:06:20

股指期货基差为正数，这是啥意思？

在股指期货的世界里，有个挺重要的概念叫“基差”。说白了，基差就是股指期货的价格和它对应的现货价格之间的差价。今天，咱们就来聊聊当这个基差为正数时，到底意味着啥。基差是啥？ 先复习一下，基差股指…...

编程日记 2024/12/7 6:05:19

黑马程序员MybatisPlus/Docker相关内容

Day01 MP相关知识 1. mp配置类： 2.条件构造器： 具体的实现例子： ①QuerryWapper： ②LambdaQueryWrapper: 3.MP的自定义SQL 4.MP的Service层的实现 5.IService下的Lambda查询原SQL语句的写法： Lambda 查询语句的…...

编程日记 2024/12/7 6:03:17

使用 Vue 和 Canvas-Confetti 实现烟花动画特效

在开发中，为用户提供具有视觉冲击力的反馈是一种提升用户体验的好方法。今天，我们将结合 Vue 框架、canvas-confetti 和 Lottie 动画，创建一个动态对话框动画，其中包含炫酷的烟花特效。效果图： 效果简介当用户触发…...

编程日记 2024/12/7 6:02:17

【银河麒麟操作系统真实案例分享】内存黑洞导致服务器卡死分析全过程

了解更多银河麒麟操作系统全新产品，请点击访问麒麟软件产品专区：https://product.kylinos.cn 开发者专区：https://developer.kylinos.cn 文档中心：https://documentkylinos.cn 现象描述机房显示器连接服务器后黑屏&#xff…...

编程日记 2024/12/7 6:00:12

如何加强游戏安全，防止定制外挂影响游戏公平性

在现如今的游戏环境中，外挂始终是一个困扰玩家和开发者的问题。尤其是定制挂（Customized Cheats），它不仅复杂且隐蔽，更能针对性地绕过传统的反作弊系统，对游戏安全带来极大威胁。定制挂通常是根据玩家的需求…...

编程日记 2024/12/7 5:58:08

SpringBoot整合knife4j，以及会遇到的一些bug

这篇文章主要讲解了“Spring Boot集成接口管理工具Knife4j怎么用”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Spring Boot集成接口管理工具Knife4j怎么用”吧！ 一…...

编程日记 2024/12/7 5:56:06

城电科技|光伏廊道是什么？安装光伏廊道有什么好处？

光伏廊道是什么？光伏廊道专门设计用于集中安装太阳能光伏发电系统的建筑物或构筑物，它可以将光伏转换成可以用于供电的清洁绿电。光伏廊道通常由阳能电池板、太阳能电池、控制器、逆变器、混凝土、钢材等材料组成，具备发电、坚固、耐用、防水…...

编程日记 2024/12/7 5:54:04

当DHCP服务器分配了同一个IP地址

当DHCP服务器分配了同一个IP地址给多个设备时，这通常会导致网络问题，如IP地址冲突，进而影响设备的网络连接。以下是详细的分析和解决步骤： 原因分析： IP地址租约未过期： 租约管理：DHCP服务器维…...

编程日记 2024/12/7 5:53:03

储能能量自动化调配装置功能介绍

随着可再生能源的快速发展，光伏发电已成为全球能源结构转型的关键技术之一。与此同时，储能技术作为实现光伏发电稳定输出的核心技术，得到了广泛关注。在企业电网中，光伏储能系统的运维管理不仅关乎能源利用效率，还涉及…...

编程日记 2024/12/7 5:48:59

vite5+vue3+Ts5 开源图片预览器上线

images-viewer-vue3：一款Vue3的轻量级图像查看器，它基于Flip动画技术，支持PC和h5移动网页预览照片，如果它是Vue3开发的产品。 npm开源地址:https://www.npmjs.com/package/images-viewer-vue3?activeTabreadme Flip 动画 < …...

编程日记 2024/12/7 5:47:58

【深度学习】深入解析长短期记忆网络（LSTMs）

长短期记忆网络（Long Short-Term Memory networks, LSTMs）是一种特殊的递归神经网络（RNN），专门设计用来解决标准 RNN 在处理长序列数据时的梯度消失和梯度爆炸问题。LSTMs 在许多序列数据任务中表现出色，如…...

编程日记 2024/12/7 5:46:57

从Web3到智能合约：探索新一代数据交互模式

随着互联网技术的不断演进，Web3的到来标志着互联网的一个新纪元。与传统的Web2相比，Web3倡导去中心化、更加开放和透明的网络架构，而智能合约则是其中的核心技术之一。本文将介绍Web3与智能合约的概念、应用以及它们如何改变数据交互模式&…...

编程日记 2024/12/7 5:45:56

排查bug的通用思路

⭐️前言⭐️ APP点击某个按钮没有反应/PC端执行某个操作后，响应较慢，通用的问题排查方法: 从多个角度来排查问题 🍉欢迎点赞 👍 收藏 ⭐留言评论 🍉博主将持续更新学习记录收获，友友们有任何问题可以在评…...

编程日记 2024/12/7 5:44:55

如何利用Python爬虫获得商品类目

在当今数字化时代，获取和分析数据的能力对于任何希望在市场上保持竞争力的企业来说都是至关重要的。对于电子商务平台和市场研究公司而言，获取商品类目数据尤为重要，因为这些数据可以帮助他们更好地理解市场趋势、优化产品目录并制定有效的营…...

编程日记 2024/12/7 5:43:54

如何通过 Windows 自带的启动管理功能优化电脑启动程序

在日常使用电脑的过程中，您可能注意到开机后某些程序会自动运行。这些程序被称为“自启动”或“启动项”，它们可以在系统启动时自动加载并开始运行，有时甚至在后台默默工作。虽然一些启动项可能是必要的（如杀毒软件）&a…...

编程日记 2024/12/7 5:42:53

大模型学习有什么发展前景？

前景人工智能大模型是指拥有超大规模参数（通常在十亿个以上）、复杂计算结构的机器学习模型。它通常能够处理海量数据，完成各种复杂任务，如自然语言处理、图像识别等。 2024年政府工作报告提出“发展新质生产力”，并将…...

编程日记 2024/12/7 5:41:51

Excel技巧：如何批量调整excel表格中的图片？

插入到excel表格中的图片大小不一，如何做到每张图片都完美的与单元格大小相同？并且能够根据单元格来改变大小？今天分享，excel表格里的图片如何批量调整大小。方法如下： 点击表格中的一个图片，然后按住Ct…...

编程日记 2024/12/7 5:40:50

独著与编著的区别是？

独著和编著主要有以下区别： 一、创作性质 - 独著 - 独著是作者完全独立进行创作的作品。其内容是作者自己的研究成果、观点见解或者经验总结。作者从最初的选题构思，到资料收集、分析研究，再到内容撰写、修改润色等全过程都是独立完成的。…...

编程日记 2024/12/7 5:39:49

vue中pdf.js的使用，包括pdf显示，跳转指定页面，高亮关键词

目录一、下载pdf.js 二、引入到本地的项目中三、实现预览pdf 四、跳转到指定页面五、利用pdf里面的find查找关键词六、修改页面大小为实际大小一、下载pdf.js https://github.com/mozilla/pdf.js 里面有很多的版本， 高版本的可能浏览器不兼容或者还要考…...

编程日记 2024/12/7 5:38:48

PPT|230页| 制造集团企业供应链端到端的数字化解决方案：从需求到结算的全链路业务闭环构建

制造业采购供应链管理是企业运营的核心环节，供应链协同管理在供应链上下游企业之间建立紧密的合作关系，通过信息共享、资源整合、业务协同等方式，实现供应链的全面管理和优化，提高供应链的效率和透明度，降低供应链的成…...

编程新知 2026/1/30 22:07:56

DAY 47

三、通道注意力 3.1 通道注意力的定义 # 新增：通道注意力模块（SE模块） class ChannelAttention(nn.Module):"""通道注意力模块(Squeeze-and-Excitation)"""def __init__(self, in_channels, reduction_rat…...

编程新知 2026/2/4 23:29:22

高频面试之3Zookeeper

高频面试之3Zookeeper 文章目录高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个？3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制半数机制（过半机制&#xff0…...

编程新知 2026/1/25 13:13:20

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯第三方负载均衡（如 HAProxy、AWS NLB、阿里 SLB）发起上游连接时，将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后，ngx_stream_realip_module 从中提取原始信息…...

编程新知 2026/1/4 5:02:00

Java-41 深入浅出 Spring - 声明式事务的支持事务配置 XML模式 XML+注解模式

点一下关注吧！！！非常感谢！！持续更新！！！ 🚀 AI篇持续更新中！（长期更新） 目前2025年06月05日更新到： AI炼丹日志-28 - Aud…...

编程新知 2026/2/6 11:05:22

DBAPI如何优雅的获取单条数据

API如何优雅的获取单条数据案例一对于查询类API，查询的是单条数据，比如根据主键ID查询用户信息，sql如下： select id, name, age from user where id #{id}API默认返回的数据格式是多条的，如下： {&qu…...

编程新知 2026/2/2 22:06:13

RabbitMQ入门4.1.0版本（基于java、SpringBoot操作）

RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发，后来由Pivotal Software Inc.（现为VMware子公司）接管。RabbitMQ 是一个开源的消息代理和队列服务器，用 Erlang 语言编写。广泛应用于各种分布…...

编程新知 2026/1/31 3:52:49