17370845950

新闻动态

Azure AI 文本分类指南：自定义模型，提高文本分析精度

在信息爆炸的时代，文本数据无处不在。如何从海量文本中提取有价值的信息，并进行有效分类和利用，成为企业和开发者面临的重要课题。Azure AI 提供了强大的文本分析能力，其中的自定义文本分类功能，让您能够构建针对特定领域和需求的智能文本处理系统。本文将带您深入了解 Azure AI 文本分类，从零开始构建自定义模型，提升文本分析精度，并探索其广泛的应用场景。通过掌握这些技能，您将能够更好地理解和利用文本数据，为您的业务决策和应用创新提供有力支持。文本分类是自然语言处理（NLP）领域的一项基本任务，旨在将文本自动分配到预定义的类别中。这种技术在多个行业中都有广泛的应用，例如：情感分析：识别客户评论或社交媒体帖子中的情感倾向（正面、负面或中性）。主题分类：将新闻文章、博客帖子或研究论文归类到不同的主题领域（例如：体育、政治、科技）。意图识别：确定用户在对话或搜索查询中的意图（例如：预订航班、查询天气）。垃圾邮件过滤：将电子邮件或消息分类为垃圾邮件或非垃圾邮件。 Azure AI 文本分类提供了预训练的模型，可以用于执行常见的文本分类任务。然而，在许多情况下，企业需要构建针对特定领域和需求的自定义文本分类模型。这正是 Azure AI 自定义文本分类的用武之地。通过使用自定义文本分类，您可以训练模型识别与您的业务相关的特定类别，从而提高文本分析的精度和效率。

本文关键点

了解 Azure AI 文本分类的基本概念和应用场景。

掌握使用 Azure AI 构建自定义文本分类模型的步骤。

学习如何准备数据、训练模型、评估性能并部署模型。

探索自定义文本分类模型的应用案例，如情感分析、主题分类和意图识别。

熟悉 Azure AI 文本分类的最佳实践，以提高模型精度和效率。

Azure AI 文本分类：构建自定义模型

什么是 Azure AI 文本分类

azure ai 文本分类是 azure 认知服务的一部分，提供了一套全面的工具和服务，用于构建智能文本处理应用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

它利用自然语言处理（NLP）技术，可以分析文本数据，提取关键信息，并进行分类、情感分析、实体识别等任务。

自定义文本分类是 Azure AI 文本分类的一个重要功能，允许您使用自己的数据训练模型，识别与您的业务相关的特定类别。这种方法可以显著提高文本分析的精度和效率，从而更好地满足您的特定需求。

Azure AI 文本分类提供以下关键功能：

预训练模型： 用于执行常见文本分类任务，例如情感分析和主题分类。
自定义文本分类： 允许您使用自己的数据训练模型，识别特定类别。
多语言支持： 支持多种语言的文本分析。
易于使用： 提供了简单易用的 API 和 SDK，方便您集成到自己的应用中。
可扩展性： 可以处理大规模的文本数据，满足企业级应用的需求。

通过使用 Azure AI 文本分类，您可以构建各种智能文本处理应用，例如：

客户服务： 自动将客户咨询分配到正确的部门。
市场营销： 分析客户评论，了解产品或服务的优缺点。
风险管理： 识别潜在的欺诈行为或安全威胁。

创建 Azure AI 语言资源

成功部署语言服务后，需要配置基于角色的访问控制（RBAC），以确保用户具有访问存储帐户的适当权限。此步骤至关重要，以防止连接到自定义项目时出现 403 错误。

通过 RBAC，您可以精确控制哪些用户或组可以访问和管理存储帐户资源。

配置 RBAC 的步骤如下：

导航到 Azure 门户中的存储帐户页面。
在左侧导航菜单中，选择“访问控制（IAM）”。
单击“添加”>“添加角色分配”。
在“角色”选项卡上，搜索并选择“存储 Blob 数据所有者”角色。
在“成员”选项卡上，选择要授予访问权限的用户、组或服务主体。
单击“查看 + 分配”按钮。

完成这些步骤后，您选择的用户或组将具有对存储帐户的“存储 Blob 数据所有者”角色，允许他们访问和管理存储 Blob 数据。

准备样本文章

拥有了配置好的语言服务和存储帐户后，下一步是准备用于训练模型的样本文章。这些文章将用于训练模型识别不同的文本类别，并提高分类的准确性。

按照以下步骤准备样本文章：

在新的浏览器选项卡中，下载样本文章（aka.ms/text-classification-articles）。
将下载的 ZIP 文件解压到您选择的文件夹中。解压缩后，您将看到13个txt文件，它们将可以用于训练。
导航到Azure portal，选择您创建的存储帐户。选择在存储数据->容器
选择“添加容器”，填写容器相关信息，务必设置合适的访问权限，这里选择容器
将TXT文件上传到容器。

开始使用language studio

创建自定义文本分类项目

准备好数据和配置好访问权限后，就可以在Language Studio中创建自定义文本分类项目了。

按照以下步骤开始：

在新的浏览器选项卡中，打开 Azure AI 语言 Studio 门户（language.cognitive.azure.com），并使用与您的 Azure 订阅关联的 Microsoft 帐户登录。
如果系统提示您选择语言资源，请选择以下设置：
- Azure 目录： 包含您的订阅的 Azure 目录。
- Azure 订阅： 您的 Azure 订阅。
- 资源类型： 语言。
- 语言资源： 您先前创建的语言资源。
在页面顶部，单击“创建新的”菜单，选择“自定义文本分类”。
在“连接存储”页面上，接受默认存储帐户设置，然后单击“下一步”。
在“选择项目类型”页面上，选择“单标签分类”，然后单击“下一步”。
在“输入基本信息”页面上，设置以下值：
- 名称： 为您的项目指定一个名称。
- 文本主要语言： 选择“英语（美国）”。
- 说明： 添加项目的说明。
选择“在项目选择将我的文件标记为一部分”选项，然后单击“下一步”。
选择Blop存储容器页面，选择您在说明文本中提及Blop存储中下载的容器。
选择“否，需要标记我的文件作为项目的一部分”选项
单击“创建项目”按钮。

创建项目后，您将被重定向到数据标记页面，可以在其中开始标记您的文本数据。

数据标记和模型训练

项目创建成功后，就是对数据进行标记，然后模型就训练。

1.选择数据标记，若没有被选择，你就会看到你上传的存储帐户中文件的列表

2.在右侧的活动窗格中，单击添加分类，将您需要创建的所有类添加到此lab会让你跌入四个等级（分类的，体育，新闻和娱乐）

3.配置数据，确保一切运行正常

4.点击训练创建一个资源模型。

训练和评估模型

对数据贴标签后，就是训练模型，并且对模型进行评估

1.按照说明，开始训练和评估模型。

2.选择左侧Training jobs，然后Start A training job。命名为ClassifyArticles，并且选择手动分割训练和测试，然后开始训练！

训练完成之后，在模型性能preview里就显示模型训练结果了。

定价

Azure AI 语言服务定价

Azure AI 语言服务的定价根据您使用的功能和文本量而定。自定义文本分类的定价基于以下因素：

文本记录的数量： 您分析的文本记录越多，费用越高。
模型训练时间： 训练模型的时间越长，费用越高。
预测请求的数量： 您发送的预测请求越多，费用越高。

Azure AI 语言服务提供不同的定价层，以满足不同规模和需求的企业。

您可以根据您的实际用量选择合适的定价层，以优化成本。请务必查看最新的 Azure AI 语言服务定价页面，了解详细的定价信息。

优点与缺点

? Pros

提高文本分析精度

满足特定领域和需求

易于使用，无需专业的机器学习知识

可扩展性强，可处理大规模文本数据

提供全面的工具和服务

? Cons

需要准备和标记数据

模型训练需要一定的时间

模型性能可能受到数据质量的影响

需要一定的 Azure 知识

可能会产生一定的费用

核心功能

Azure AI 文本分类的核心功能

Azure AI 文本分类提供了以下核心功能，帮助您构建智能文本处理应用：

多标签分类： 将文本分配到多个类别中，例如：一篇新闻文章可以同时被分类为“政治”和“国际”。
置信度评分： 为每个分类结果提供一个置信度评分，表示模型对分类结果的确定程度。
模型评估： 提供了模型评估指标，例如精度、召回率和 F1 分数，帮助您评估模型性能。
版本控制： 允许您管理模型的不同版本，方便您进行实验和优化。
集成： 提供了简单易用的 API 和 SDK，方便您集成到自己的应用中。

应用场景

情感分析：

自动识别客户评论或社交媒体帖子中的情感倾向，帮助企业了解客户对产品或服务的看法。

主题分类：

自动将新闻文章、博客帖子或研究论文归类到不同的主题领域，方便用户快速查找所需信息。

意图识别：

自动确定用户在对话或搜索查询中的意图，为用户提供更个性化的服务。

垃圾邮件过滤：

自动将电子邮件或消息分类为垃圾邮件或非垃圾邮件，减少用户收到的垃圾信息。

常见问题解答

Azure AI 文本分类与其他文本分析服务有什么区别？

Azure AI 提供多种文本分析服务，例如情感分析、关键词提取、实体识别等。Azure AI 文本分类专注于将文本分配到预定义的类别中。其他服务则侧重于提取文本中的特定信息。

自定义文本分类是否需要专业的机器学习知识？

不需要。Azure AI 文本分类提供了简单易用的界面和工具，即使没有专业的机器学习知识，您也可以构建自定义模型。但是，了解一些基本的机器学习概念将有助于您更好地理解和优化模型。

如何提高自定义文本分类模型的精度？

提高模型精度的方法有很多，例如： * **准备更多的数据：** 更多的数据可以帮助模型更好地学习类别之间的区别。 * **选择合适的特征：** 选择与分类任务相关的特征可以提高模型精度。 * **调整模型参数：** 调整模型参数可以优化模型性能。 * **使用更复杂的模型：** 使用更复杂的模型可以提高分类精度，但也可能增加模型训练时间和计算成本。