设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 749|回复: 0

[c++] 文本的深度学习

[复制链接]

2

主题

38

金钱

49

积分

新手用户

发表于 2022-7-15 10:53:01 | 显示全部楼层 |阅读模式
1 使用文本数据
文本是常用的序列化数据类型之一。文本数据可以看作是一个字符序列或词的序列。对大多数问题,我们都将文本看作词序列。深度学习序列模型(如RNN及其变体)能够从文本数据中学习重要的模式。这些模式可以解决类似以下领域中的问题:
· 自然语言理解;
· 文献分类;
· 情感分类。
这些序列模型还可以作为各种系统的重要构建块,例如问答(Question and Answering,QA)系统。
虽然这些模型在构建这些应用时非常有用,但由于语言固有的复杂性,模型并不能真正理解人类的语言。这些序列模型能够成功地找到可执行不同任务的有用模式。将深度学习应用于文本是一个快速发展的领域,每月都会有许多新技术出现。我们将会介绍为大多数现代深度学习应用提供支持的基本组件。
与其他机器学习模型一样,深度学习模型并不能理解文本,因此需要将文本转换为数值的表示形式。将文本转换为数值表示形式的过程称为向量化过程,可以用不同的方式来完成,概括如下:
· 将文本转换为词并将每个词表示为向量;
· 将文本转换为字符并将每个字符表示为向量;
· 创建词的n-gram并将其表示为向量。
文本数据可以分解成上述的这些表示。每个较小的文本单元称为token,将文本分解成token的过程称为分词(tokenization)。在Python中有很多强大的库可以用来进行分词。一旦将文本数据转换为token序列,那么就需要将每个token映射到向量。one-hot(独热)编码和词向量是将token映射到向量最流行的两种方法。图6.1总结了将文本转换为向量表示的步骤。

6.1
下面介绍分词、n-gram表示法和向量化的更多细节。
6.1.1 分词
将给定的一个句子分为字符或词的过程称为分词。诸如spaCy等一些库,它们为分词提供了复杂的解决方案。让我们使用简单的Python函数(如splitlist)将文本转换为token。
为了演示分词如何作用于字符和词,让我们看一段关于电影Thor:Ragnarok的小评论。我们将对这段文本进行分词处理:
The action scenes were top notch in this movie. Thor has never been this epic in the MCU. He does some pretty epic sh*t in this movie and he is definitely not under-powered anymore. Thor in unleashed in this, I love that.
1.将文本转换为字符
Python的list函数接受一个字符串并将其转换为单个字符的列表。这样做就将文本转换为了字符。下面是使用的代码和结果:
以下是结果:
结果展示了简单的Python函数如何将文本转换为token。
2.将文本转换为词
我们将使用Python字符串对象函数中的split函数将文本分解为词。split函数接受一个参数,并根据该参数将文本拆分为token。在我们的示例中将使用空格作为分隔符。以下代码段演示了如何使用Python的split函数将文本转换为词:
在前面的代码中,我们没有使用任何的分隔符,默认情况下,split函数使用空格来分隔。
3.n-gram表示法
我们已经看到文本是如何表示为字符和词的。有时一起查看两个、三个或更多的单词非常有用。n-gram是从给定文本中提取的一组词。在n-gram中,n表示可以一起使用的词的数量。看一下bigram(当n = 2时)的例子,我们使用Python的nltk包为thor_review生成一个bigram,以下代码块显示了bigram的结果以及用于生成它的代码:
ngrams函数接受一个词序列作为第一个参数,并将组中词的个数作为第二个参数。以下代码块显示了trigram表示的结果以及用于实现它的代码:
在上述代码中唯一改变的只有函数的第二个参数n的值。
许多有监督的机器学习模型,例如朴素贝叶斯(Naive Bayes),都是使用n-gram来改善它的特征空间。n-gram同样也可用于拼写校正和文本摘要的任务。
n-gram表示法的一个问题在于它失去了文本的顺序性。通常它是和浅层机器学习模型一起使用的。这种技术很少用于深度学习,因为RNN和Conv1D等架构

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表