13530722851
13530722851
时间:2024-12-22 07:05:48
本文将引导您尝试在不使用复杂的文本矩阵变换的情况下对文本进行分类。本文对以下数据中用于分类的3种方法进行了全面的描述和比较。完整的代码可以在下面的链接中找到。
代码: 数据集下载:
自然语言处理
所谓自然语言处理,就是让机器像人类一样理解人类的语言。这包括识别不同句子之间的情感联系网络情感,理解说话者的原意,最后生成与相关含义一致的新句子并将它们组合在一起等等。没有什么听起来太难理解的,所以我认为即使是初学者也不会。不必担心它会变得过于复杂。
现在我们知道机器(和大数据)可以比文本字符串更好地处理数字模式,解决 NLP 问题的第一步是将单词转换为向量,即向量化。一旦完成,需要做的就是使用向量作为特征,将文本处理问题转化为机器学习问题。在我们即将看到的具体案例中,SVM(支持向量机)、朴素贝叶斯分类器(NBC)和 Sigmoid 层已被用来解决同样的问题。我们比较所有这些算法。希望你能理解上面的算法,对理解本文有所帮助。另外,我不愿意解释SVM和朴素贝叶斯方法。但你可以在任何地方找到它,所以不用担心。
数据预处理
之前的推文
1. 删除 URL:URL 无法帮助您确定句子的特征。它们只是一些该死的链接佛山婚姻调查的费用,跟随它们不会为您提供基于您刚刚阅读的句子的良好描述。重新包中提供了删除 URL 的方法。
2、去掉正则表达式:URL中带了很多['@','#','%']等符号,这些符号称为正则表达式。有很多方法可以使这些符号出现在文本文档中。例如,re包提供了正则表达式查找表来解决这个问题。
3、词形还原:需要在同一页上列出所有与(picking、pick)、(motivation、motivation)等类似的单词。 NLTK 库(自然语言工具包)包含一个单词词形还原器包(WordLemmatizer),它通过提供全面的查找表来解决这个问题。
4.删除重复字母:我希望我的机器可以转换“I loooove you!”变成“我爱你!”使用itertools包提供的重复数据删除功能可以解决这个问题。
矢量化 SVM 和 NBC
SVM 是关于在 n 维空间(n 个指向特征)中的不同类之间创建最佳超平面以支持向量。对于我们的问题陈述,利用 SVM 的一个好方法是利用 Tf-Idf(词频,逆文档频率)向量化。
Tf-idf矢量化
如果您将词袋表示视为简单地计算每个文档中唯一单词的实例。那你还是没有抓住重点。在分类过程中,整个语料库中的每个特定单词(包括文本数据中所有句子的组合)都被赋予相同的权重。我们的机器还是个婴儿,它不理解文字的重要性。
解决这个问题的方法是在评估过程中减少所有句子中比较常见的单词的权重,增加不常见单词的权重。 Scikit Learn 的特征提取库提供了 Tf-Idf 函数来完成此任务,对句子中的所有单词进行两次加权并创建修改后的词袋。
ANN 的矢量化
一个简单的词袋就足够了,复杂性会进一步下降。
简而言之:SVM 和 NBC 方法
1.SVM指向Scikit Learn的SVM包,该包提供了内置函数,可以直接向SVM内核提供Tf-idf向量。在这种情况下侦探调查地址-【深度学习】AI如何用文字表达情感——利用人工神经网络进行文本分类与情感识别,选择线性核函数以获得更好的结果。
美联储矢量
支持向量机模型
2. NBC指向朴素贝叶斯分类器,需要直接输入文本和相应的标签。它假设例句的单词之间不存在相互关系。因此,该任务归结为根据字数和频率将情感与句子简单地关联起来。 textblob 库提供了一个全面的朴素贝叶斯分类器来实现此功能。
神经网络
我们构建了一个 3 层神经网络来解决这个问题。深度学习解决方案的原理是加深对句子的理解,即加强我们从句子创建的向量与映射的情感之间的联系。我们希望机器对单词进行排序以进行理解,并引导句子来传达有意义的情感。这里,构建了一个非常基本的神经网络,以更好地利用 SVM 和 NBC 提供的分类。让我们看一下构建神经网络的不同层。
1. 输入层包含句子的词袋表示。我们称之为“l0”。
逻辑分类器
2. 数据被输入到隐藏层,隐藏层被转换为逻辑分类器 (WX+b)。然而,偏置向量“b”不被添加到该层中的矩阵点积“WX”。损失函数和(W,B)参数矩阵都是以矩阵形式存储在“突触”中的,毕竟这是我们说的人工神经网络,我们应该用类比的方式!
3.然后,将logistic分类器矩阵缩放为sigmoid非线性(以处理缩放问题)。这就完成了我们的第二层 - 隐藏层“l1 = sigmoid_matrix_multiplication(l0,weight_parameters)”。
4.通过在训练数据上迭代特定次数并使用SGD(随机梯度下降)来优化损失函数,以获得最优参数矩阵“W”和“b”。
参数优化
5.第三层——输出层用于将SGD优化的偏置项“b”添加到矩阵点积“WX”中。您可以查看下面的链接,了解为什么需要在这里进行分类。
6. 最后,使用softmax函数将逻辑分数(logits)转换为概率。这些概率将为我们提供最接近特定情绪的感觉。
优化对完整数据进行指定次数的迭代。如果局部迭代次数对误差减少没有影响,则停止迭代。
结果
下面是训练后获得的总数据的15%。
虽然非常规的 ANN 方法看起来并不比传统的 NBC 和 SVM 方法更好,但当你有大量数据需要处理时,它很有用,因为它对所有样本都保持了强大的记忆能力。