手把手教你快速构建自定义分类器 2018-02-13

作者|Shashank Gupta
译者|刘志勇
编辑|Emily
AI 前线导读:对于数据挖掘来说,分类是一种非常重要的方法。分类器就是在已有数据的基础上学会一个分类函数或者构建出的一个分类模型。这个函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用数据预测。今天,AI 前线就给大家带来了由 Towards Data Science 的 Shashank Gupta 撰写的一篇文章,题为《介绍自定义分类器——在没有任何培训数据的情况下构建自己的文本分类模型 》(Introducing Custom Classifier — Build Your Own Text Classification Model Without Any Training Data)[1],给大家介绍了如何利用 ParallelDots 公司提供的 AI 驱动的 Web 服务,在没有任何训练数据的情况下,快速构建属于自己的文本分类器。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)

介绍

机器学习最成功的范例之一是监督学习(supervised learning),它允许您通过从大量训练实例中学习来构建泛化模型。监督学习广泛应用于自然语言处理(Natural Language Processing,NLP),构建多类或多标签的文本分类器,用于解决垃圾邮件检测、情感分析、表情分析、客户意向分析等多种用例。任何熟悉构建文本分类模型过程的人都知道,它包含以下三个步骤:

准备训练数据:训练数据(也称为标记数据)是特定领域的语料库,它是用分类器预期分类的标签手工标注的。

训练文本分类模型:然后选择合适的机器学习算法来训练标记数据集上的模型。我们已经在之前的博文《Breakthrough Research Papers and Models for Sentiment Analysis》[2] 中介绍了构建情感分析模型的一些技巧。

测试和验证:标记的数据集的一部分被留出用于测试和验证已训练的模型以评估其泛化能力。

当我们没有足够的标记数据来训练可靠的模型时,传统的监督学习范式就会崩溃。现实世界中的文本分类项目常常面临最大的障碍,即访问大量数据并手动注释数据。结果,大多数实际项目都滞留在第一步。那些成功迈过第一步的人们经常发现他们的数据要么不够充分,要么偏向某些类,导致 AI 模型出现偏差。

什么是自定义分类器?

深度学习的许多研究都是为了从更少的数据中学习更好的表征,而一个令人兴奋的领域是零样本学习(Zero-shot learning)。引用 Ian Goodfellow 在 Quora 的回答:“即使没有收到任何训练案例,零样本学习也能解决任务。”换句话说,设想一下在不提供任何带有情感标签的推文的训练例子的情况下,预测推特表达的情绪。

ParallelDots 的内部研究团队提出了他们自己的“零样本学习”的文本分类模式,并发表了一篇研究论文《一次训练,随处测试:文本分类的零样本学习》(Train Once, Test Anywhere: Zero-shot Learning For Text Classification)[3]。

另外,我们要履行承诺,让人工智能触手可及。我们决定将这一激动人心的研究成果转化为商业应用,因此,我们推出了一个新的 API,使您能够利用零样本学习的全部功能,为您的文本分类提供用例。我们称之为自定义分类器,因为它可以让你在自定义类别上构建你的文本分类器。这是我们开发尖端 AI 解决方案的革命性的一步,让用户无需构建任何训练数据即可开发和集成自定义文本分类模型。

通过实例学习–构建示例文本分类模型

由于不需要训练数据,因此它也降低了建立文本分类模型所需的成本和时间。有了所有的背景知识,让我们尝试在操作中查看自定义分类器。在下图所示自定义分类器演示 [4] 屏幕截图中,我们选取了一个体育新闻标题并定义了五个类别,我们要把这个标题分为:世界政治、体育、宗教、娱乐、商业。

从结果中可以看出,体育类别的概率得分最高,因此也是我们输入文本最有可能的类别。请注意,我们在测试的时候定义了类别,而底层的 AI 模型并没有对它们进行明确的训练。接下来,我们试着进一步将体育类别分为足球、高尔夫等不同类别,看看我们的分类器是否可以理解它们。

我们再次看到,分类器在没有明确训练的情况下准确地识别了体育类别。我希望现在您已经开始了解这项技术的潜力。作为最后一步,我们试着进一步将我们的足球类别划分成全球各地的不同类型的联赛,看看我们的分类器是否能够正确地预测同样的情况。

确实不可思议!我们的分类器正确地挑出了联赛。

综上所述,“自定义分类器”可以让您对文本分类的未来有一个粗略的了解,在这种分类中,很少或没有必要的训练示例可以可靠地将一段文本分类为自定义的定义类别。这种能力将为无数休眠的文本分析项目打开了无限的可能性,并赋予它们新的生机,由于缺乏训练数据或训练资源,这一项目将永远不能见天日。

设置自定义分类器

设置自定义分类器非常简单,可以通过以下三个简单步骤来完成:

  1. 到 https://www.paralleldots.com/ 注册免费的 ParallelDots API 帐户并登录到控制面板。

  2. 导航到控制面板中的自定义分类器部分,提供示例文本并定义一些类别来分析文本。默认情况下,您将处于测试模式,您可以随意多次调整您的类别列表,而无需花费任何费用。

  3. 一旦您对分类准确性感到满意,请单击“Publish”按钮来部署分类器以供生产使用,并获取分类器 ID。一旦发布,您就可以通过 API 端点访问您的自定义分类器。

自定义分类器的 API 文档可以在 https://www.paralleldots.com/docs 找到。专门为 Microsoft Excel 提供的加载项功能即将推出。

在这篇博文中,我们介绍了文本分类中的一个新范例,希望我们的用户能够从中受益。我们已经看到一些激动人心的用例被我们的用户通过自定义分类器解决,比如招聘信息分类、新闻文章分类、处理开放式调查反馈等等。通常,分析原始数据的第一步就是将其分类到您关心的类别中,并随着时间的推移监控这些趋势以获取可行的见解。

自定义分类相较标准文本分类的优势

在分析客户语音等非结构化数据时,像情感分析这样的标准文本分类模型并不总是足以获得整体视图。另一方面,自定义分类器可以使您能够将这些数据分类为我们所关心的更细微的类别。例如,通过自定义分类器,快餐连锁店主可以通过社交媒体,将从她的顾客的反馈分类,包括价格、环境、员工行为、食品质量等类别,更好地了解她需要改进哪些方面的业务。使用简单的情绪分析,她可能知道自己的业务整体如何,但也可能会遗漏关键的趋势,比如员工的行为和客流量之间的关联。自定义分类器的潜力在于,将文本分类为情感标签(正面、负面或中性)[5],这样您不仅可以知道产品有多少负面的反馈,而且也可以了解到用户在那些负面评论中提到的内容。

我们相信自定义分类器可以让没有数据科学背景的用户构建、部署他们自己的分类器,并在他们的竞争者中获得优势。它还将帮助企业从根本上转变为数据驱动型组织,最终加速人工智能和机器学习的产业化进程。您也可以访问以下网址探索更多的文本分类博客。

http://blog.paralleldots.com/category/product/text-analytics/ 

ParallelDots AI API 是由 ParallelDots 公司提供的深度学习驱动的 Web 服务,可以理解大量的非结构化文本和可视内容,从而为您的产品提供支持。

参考文本:

[1] Introducing Custom Classifier — Build Your Own Text Classification Model Without Any Training Data

https://towardsdatascience.com/introducing-custom-classifier-build-your-own-text-classification-model-without-any-training-data-40254d37e13d

[2] Breakthrough Research Papers and Models for Sentiment Analysis

https://blog.paralleldots.com/data-science/breakthrough-research-papers-and-models-for-sentiment-analysis/

[3] TRAIN ONCE, TEST ANYWHERE: ZERO-SHOT LEARNING FOR TEXT CLASSIFICATION

https://paralleldots.xyz/Zero-Shot-Learning-for-Text-Classification

[4] Custom Classifier DEMO

https://paralleldots.xyz/Zero-Shot-Learning-for-Text-Classification

[5] Analyze the sentiment of content on social networks, customer feedbacks and surveys

https://www.paralleldots.com/sentiment-analysis

标签: