当前位置：首页 > news >正文

波斯诗歌情感计算：多维度分析与技术实现

news 2026/6/17 1:02:56

1. 波斯诗歌情感计算的技术框架

数字人文领域的情感计算研究通常采用多层级分析框架。在波斯诗歌的分析案例中，研究者构建了一个包含9个核心情感维度的本体论体系：

1.1 情感维度定义

忧郁(Melancholia)：表现为悲伤、哀叹和存在性焦虑的情感基调
浪漫痴迷(Romantic Obsession)：对爱情对象的强迫性思念和理想化
情感依赖(Emotional Dependency)：人际关系中的依附性和需求感
自我毁灭理想化(Self-Destructive Idealization)：将牺牲与痛苦美化的倾向
矛盾依恋(Ambivalent Attachment)：爱恨交织的情感状态
精神自恋(Spiritual Narcissism)：精神优越感和自我神圣化
身份碎片化(Identity Fragmentation)：自我认知的不连贯性
内在投射(Internal Projection)：将情感体验内化的倾向
理想化(Idealization)：对人或概念的完美化想象

1.2 技术实现路径

分析流程包含三个关键阶段：

文本预处理：
- 波斯语文本的Unicode标准化
- 古典波斯语的特殊字符处理
- 诗节分割与元数据标注

特征提取：

# 示例：基于Transformer的特征提取 from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased") model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased") inputs = tokenizer(verse_text, return_tensors="pt") outputs = model(**inputs) verse_embedding = outputs.last_hidden_state.mean(dim=1)

情感标注：
- 使用多标签分类模型
- 每个维度输出0-1的置信度分数
- 设置0.7的置信度阈值(低于此值则标注为"弃权")

2. 诗人情感特征比较分析

2.1 数据概况

研究涵盖了10位波斯诗人共计61,573节诗，主要数据特征如下：

诗人	诗节数	弃权率	主要情感维度
Khayyam	356	38.5%	忧郁、身份碎片化
Parvin	5,573	38.4%	自我毁灭理想化
Jahan	12,299	6.5%	情感依赖
Hafez	5,221	18.2%	浪漫痴迷

2.2 关键发现

情感配置差异通过Jensen-Shannon散度(DJS)量化，结果显示：

Khayyam表现出最强的独特性(DJS=0.0901)：
- 忧郁维度显著高于基线(Δ=+0.232)
- 身份碎片化维度突出(Δ=+0.101)
- 示例诗句："若我的到来出于自愿，我本不会来；若成为我可能，为何我成了我？"
Hafez最接近情感基线(DJS=0.0035)：
- 平衡的多重情感表达
- 典型的浪漫痴迷诗句："你面容的记忆在我心中，是我晨昏的止痛药"

技术说明：DJS计算基于以下公式：
DJS(P||Q) = 1/2 [DKL(P||M) + DKL(Q||M)]
其中M=1/2(P+Q)，DKL为Kullback-Leibler散度

3. 方法论创新与验证

3.1 不确定性管理

研究采用三重不确定性机制：

弃权机制：低置信度预测自动排除
置信度加权：预测分数作为概率权重

温度缩放：校准预测置信度

# 温度缩放实现示例 def temperature_scale(logits, temperature): return logits / temperature scaled_probs = torch.softmax(temperature_scale(logits, T=0.56), dim=-1)

3.2 人工验证结果

在500节诗的验证集上：

平均标注者间一致性(κ)=0.818
模型与人工标注的宏观F1=0.794
弃权决策的适当性达到85.6%

4. 文学研究启示

4.1 传统解读的量化验证

Khaghani的修辞性自我定位：
- 精神自恋维度突出(Δ=+0.086)
- 典型诗句："他们称我为第二托勒密，认作当代智者"
Parvin的道德对话风格：
- 自我毁灭理想化显著(Δ=+0.073)
- "让它飞吧，它燃烧着，灰烬在微笑"

4.2 分析限制

本体论边界：
- 某些复杂情感可能无法被现有维度完全捕获
- 如苏菲诗歌中的神秘合一体验
历史语境缺失：
- 量化分析难以捕捉特定历史时期的文学惯例
- 需要与传统文学史研究结合

5. 实践应用建议

5.1 技术选型

对于类似研究项目推荐：

文本处理：
- 波斯语专用分词工具：Hazm
- 古典文本预处理库：Persian-preprocessing

模型架构：

# 多标签分类模型架构示例 from transformers import BertPreTrainedModel class PersianPoetryClassifier(BertPreTrainedModel): def __init__(self, config): super().__init__(config) self.bert = BertModel(config) self.dropout = nn.Dropout(0.1) self.classifier = nn.Linear(config.hidden_size, 9) # 9个情感维度 def forward(self, **inputs): outputs = self.bert(**inputs) pooled = outputs[1] pooled = self.dropout(pooled) return torch.sigmoid(self.classifier(pooled))

5.2 分析流程优化

迭代标注：
- 首轮分析后识别本体论缺口
- 针对性增加新维度
跨诗派比较：
- 建立不同文学流派的情感基准
- 如将苏菲诗人与宫廷诗人对比

可视化设计：

# 情感维度可视化示例 import matplotlib.pyplot as plt def plot_poet_profile(poet_name, deltas): colors = ['red' if x <0 else 'green' for x in deltas] plt.barh(emotion_names, deltas, color=colors) plt.title(f"{poet_name}情感特征偏移") plt.show()