当前位置: 首页 > news >正文

1. NLP课程大纲

NLP 学习大纲:
自然语言处理入门
文本预处理
RNN及其变体
Transformer
迁移学习

1. 自然语言处理入门

1.1 什么是自然语言处理

计算机科学与语言学中 关注于计算机与人类语言间转换的领域

1.2 AI 的几个时间点

1️⃣ CV领域 2012年分水岭:2012年alxnet网络出现,用深度学习的方法解决 CV问题
2️⃣ NLP领域 2017年分水岭:2017年之前,使用传统的机器学习技术,还有经典的循环网络来解决问题;2017年之后,深度学习技术来解决 NLP的问题 - 预训练模型

1.3 自然语言处理的应用场景

语言助手、机器翻译、搜索引擎、文本摘要、文本分类

2. 文本预处理

2.1 什么是文本预处理

将文本语料进行一系列的预处理,符合模型输入;
(自然语言处理就是处理文本的,文本即一段话或者字符串,需要把文本进行一系列预处理,让它符合模型的输入,但模型只认识数字,不认识中文、英文即其它,所以需要把文本处理成模型可识别的形式;处理的手段如下:)

2.2 文本处理的基本方法

1️⃣ 分词;
2️⃣ 命名实体识别;
3️⃣ 词性标注;

2.3 文本张量的表示方法

1️⃣ 什么是张量?
(就是把一段文本变成一个向量,如何变?:先分词,每个单词变成一个向量,把这些单词拼接到一块,变成一句话的向量,此为 文本张量;)
2️⃣ 张量的作用:
3️⃣ 实现方式:one-hot编码、Word2vec、Word Embedding
(对于张量的实现方式:① one-hot是所有文本张量表示的鼻祖,机器学习中通过get_dummies方法:churn_df = pd.get_dummies(churn_df, columns=['Churn', 'gender'])【案例之 逻辑回归_电信用户流失预测】
② 其次是Word2vec,Word2vec包含两种:CBOW、Skip-gram;
③ 最后是 词嵌入nn.Embedding:现在主要是 Embedding;在 Embedding和 Word2vec之间还有一个方法:GloVe;
④ GloVe 和 Word2vec区别:Word2vec是基于窗口来做的,一段话有一个滑动窗口,3个词滑动一次,滑动窗口有一个非常大的局限性:只考虑了局部状态;GloVe 考虑的是 全局状态;)

2.4 文本数据分析

文本数据分析的方法:
标签数量分布、句子长度分布、词频统计与关键词词云;

2.5 文本特征处理

文本特征处理的方法:添加 n-gram特征、文本长度规范;

2.6 文本数据增强

文本数据增强的方法:会议数据增强法;


3.RNN 及其变体

4. Transformer

5. 迁移学习

http://www.cnnetsun.cn/news/2535463.html

相关文章:

  • 海量时序数据困局破壁:DolphinDB 如何重新定义工业物联网的数据底座
  • Rust Trait系统设计模式:实现灵活的多态和代码复用
  • 终极消息保护方案:RevokeMsgPatcher轻松实现微信QQ防撤回
  • 加速科研、提出新假设:谷歌重磅推出Co-Scientist模型
  • 【c++面向对象编程】第48篇:Lambda表达式与std::function:OOP中的函数式编程
  • 山东防爆监控哪个品牌好用
  • 3分钟解决网易云音乐格式限制:免费NCM转换工具完全指南
  • ComfyUI Manager 终极安装指南:3种方法轻松管理AI工作流节点
  • CANN NPU 功耗优化:推理服务的能效比提升实战
  • 2026论文写作工具红黑榜:AI论文网站怎么选?清单来了
  • AI Agent Harness 在智能客服领域的应用
  • 2026年论文党必备:盘点2026年倾心之选的的降AIGC网站
  • 为什么92%的Lindy自动化项目在第90天遭遇断崖式停滞?资深架构师紧急披露3个临界预警信号
  • 10_函数递归_从阶乘到递归调用栈
  • C++ 学习笔记---容器---vector(后续会更新)
  • CANN-ops-nn-昇腾NPU神经网络算子的积木盒子
  • 从翻车到封神:1个被低估的--no参数+2个隐藏材质关键词,让水面倒影清晰度突破人眼分辨极限
  • 如何用开源工具实现自动化硬件适配?OpCore-Simplify让跨平台部署变得简单
  • gcc下载地址
  • Keil C166嵌入式开发中的宽字符实现与优化
  • 飞行人形机器人空气动力学建模与CFD仿真实践
  • 抖音内容批量下载实战指南:从单视频到用户主页的高效方案
  • 企业内如何通过Taotoken实现API访问控制与审计
  • PostgreSQL 性能优化:从 3 秒到 30 毫秒,我做了这 5 件事
  • 文件上传漏洞深度解析:从getshell到六维纵深防御
  • IDA与Frida协同逆向:静态定位+动态Hook实战指南
  • Unity风格化山脉管线:轮廓生成+分层材质+程序植被
  • ThingsVis v1.1.15 版本更新:补齐嵌入与运维体验短板,多场景集成更可靠
  • 鸿蒙签名验证报错UNABLE_TO_VERIFY_LEAF_SIGNATURE根因解析
  • PE-bear:专注PE文件结构解析的静态分析利器