7x24快讯 ·

文本分类指南:你真的要错过 Python 吗?

原标题 A Comprehensive Guide to Understand and Implement Text Classification in Python ,作者为 SHIVAM BANSAL 。

引言

文本分类作为自然语言处理任务之一,被广泛应用于解决各种商业领域的问题。文本分类的目的是将 文本/文档 自动地归类为一种或多种预定义的类别。常见的文本分类应用如下:

? 理解社交媒体用户的情感
? 识别垃圾邮件与正常邮件
? 自动标注用户的查询
? 将新闻按已有的主题分类

主要内容

在这篇文章中,我会讲解文本分类的知识并在 Python 中一步一步实现文本分类。

?

文本分类指南:你真的要错过 Python 吗?

?

文本分类属于有监督机器学习任务,这是因为文本分类任务利用一个包含 文本/文档 及其对应类标的有标注数据集来训练一个分类器。一个端到端的文本分类流程包括三个主要环节:

? 数据集准备: 第一步为数据准备,这一步包括数据加以及基本的预处理工作。数据集之后会被分割的训练集与验证集。

? 特征工程: 第二步为特征工程,在这一步中,原始数据会转变为适用于机器学习模型的特征。这一步还包括从已有数据中构建新的特征的过程。

? 模型训练: 最后一步为模型构建,在这一步中机器学习模型会在一个有标注数据集上进行训练。

提升文本分类器的性能: 在这篇文章中,我们还会关注各种提升文本分类器性能的方法。

说明 : 这篇文章不会深入探讨自然语言处理任务。如果你想要温习基础知识后再阅读本文,你可以浏览这篇文章(链接:https://www.analyticsvidhya.com/blog/2017/01/ultimate-guide-to-understand-implement-natural-language-processing-codes-in-python/)。

准备工作

让我们通过一步一步实现的方式用 Python 搭建一个文本分类框架。首先,需要导入所需的 Python 库。

你需要一些必要的 Python 工具库来运行这一程序,你可以在这些第三方 Python 库的官方链接下安装它们。

? Pandas
? Scikit-learn
? XGBoost
? TextBlob
? Keras

# 用于数据准备,特征工程,模型训练的库

?

文本分类指南:你真的要错过 Python 吗?

?

1. 数据集准备

根据本文的目标,我采用了亚马逊评论的数据集,这一数据集可以通过该链接(https://gist.github.com/kunalj101/ad1d9c58d338e20d09ff26bcc06c4235)下载。该数据集包含了 360 万文本评论及其对应的标签,我们只用其中的一小部分。为了准备数据,将下载好的数据加载到 pandas 的一个数据框中,该数据框包含两列——文本与标签。

?

文本分类指南:你真的要错过 Python 吗?

参与评论