文本的深度学习-其他-EPS数据狗论坛

墨羽听风 发表于 2022-7-15 10:53:01

文本的深度学习

1　使用文本数据文本是常用的序列化数据类型之一。文本数据可以看作是一个字符序列或词的序列。对大多数问题，我们都将文本看作词序列。深度学习序列模型（如RNN及其变体）能够从文本数据中学习重要的模式。这些模式可以解决类似以下领域中的问题：· 自然语言理解；· 文献分类；· 情感分类。这些序列模型还可以作为各种系统的重要构建块，例如问答（Question and Answering，QA）系统。虽然这些模型在构建这些应用时非常有用，但由于语言固有的复杂性，模型并不能真正理解人类的语言。这些序列模型能够成功地找到可执行不同任务的有用模式。将深度学习应用于文本是一个快速发展的领域，每月都会有许多新技术出现。我们将会介绍为大多数现代深度学习应用提供支持的基本组件。与其他机器学习模型一样，深度学习模型并不能理解文本，因此需要将文本转换为数值的表示形式。将文本转换为数值表示形式的过程称为向量化过程，可以用不同的方式来完成，概括如下：· 将文本转换为词并将每个词表示为向量；· 将文本转换为字符并将每个字符表示为向量；· 创建词的n-gram并将其表示为向量。文本数据可以分解成上述的这些表示。每个较小的文本单元称为token，将文本分解成token的过程称为分词（tokenization）。在Python中有很多强大的库可以用来进行分词。一旦将文本数据转换为token序列，那么就需要将每个token映射到向量。one-hot（独热）编码和词向量是将token映射到向量最流行的两种方法。图6.1总结了将文本转换为向量表示的步骤。
图6.1下面介绍分词、n-gram表示法和向量化的更多细节。6.1.1　分词将给定的一个句子分为字符或词的过程称为分词。诸如spaCy等一些库，它们为分词提供了复杂的解决方案。让我们使用简单的Python函数（如split和list）将文本转换为token。为了演示分词如何作用于字符和词，让我们看一段关于电影Thor:Ragnarok的小评论。我们将对这段文本进行分词处理：The action scenes were top notch in this movie. Thor has never been this epic in the MCU.　He does some pretty epic sh*t in this movie and he is definitely not under-powered anymore.　Thor in unleashed in this, I love that.1．将文本转换为字符Python的list函数接受一个字符串并将其转换为单个字符的列表。这样做就将文本转换为了字符。下面是使用的代码和结果：以下是结果：结果展示了简单的Python函数如何将文本转换为token。2．将文本转换为词我们将使用Python字符串对象函数中的split函数将文本分解为词。split函数接受一个参数，并根据该参数将文本拆分为token。在我们的示例中将使用空格作为分隔符。以下代码段演示了如何使用Python的split函数将文本转换为词：在前面的代码中，我们没有使用任何的分隔符，默认情况下，split函数使用空格来分隔。3．n-gram表示法我们已经看到文本是如何表示为字符和词的。有时一起查看两个、三个或更多的单词非常有用。n-gram是从给定文本中提取的一组词。在n-gram中，n表示可以一起使用的词的数量。看一下bigram（当n = 2时）的例子，我们使用Python的nltk包为thor_review生成一个bigram，以下代码块显示了bigram的结果以及用于生成它的代码：ngrams函数接受一个词序列作为第一个参数，并将组中词的个数作为第二个参数。以下代码块显示了trigram表示的结果以及用于实现它的代码：在上述代码中唯一改变的只有函数的第二个参数n的值。许多有监督的机器学习模型，例如朴素贝叶斯（Naive Bayes），都是使用n-gram来改善它的特征空间。n-gram同样也可用于拼写校正和文本摘要的任务。n-gram表示法的一个问题在于它失去了文本的顺序性。通常它是和浅层机器学习模型一起使用的。这种技术很少用于深度学习，因为RNN和Conv1D等架构

页: [1]

EPS数据狗论坛's Archiver

文本的深度学习