1.Understanding the Rasa NLU Pipeline_LuoFan
来源:http://www.tudoupe.com时间:2021-12-23
NLU管道描述了在Rasa项目中将未结构化的用户通信转变为意图和实体的过程,由开发商可能设置和改变的若干组成部分组成。
本文件的目的是说明Rasa NLU输油管部件的作用以及它们如何相互作用。
一. NLU管道
Rasa是NLU输油管的家园。config.yml文档为检测意图和实体的所有阶段设置了Rasa, 以文字作为输入开始, 并一直工作到天体和意图被用作输出为止 。

这条输油管有各种组成部分,包括:
- 当当化
- 提取器是Featourizers的一个特征。
- IntClassizors 集成目录
- 实体抽取器
在描述它们如何相互作用之前,首先必须了解每一类组成部分的功能。
二、构成部分
1. 当当化
第一阶段是将用户输入的文字分为较小的文本块,称为符号。 在进行特性提取之前, 此阶段必须完成, 这就是为什么像传统机器学习的第一步一样, 通常在管道开始时提供文字框 。
Details on Tokenizers:
柠檬化解释:
它通常用英文,不是用中文写,是用打字法写,就是用这种方式工作。
这发生在Rasa,如Pacay, 创造的标语被以下的矢量计使用。
用户输入的每个单词都由单词框分为一个不同的符号。词组的输出通常是一个标记列表 。 对于英语,通常都是白色空间控制器但对于非英语,通常使用其他语言。SpaCy是欧洲非英语语言的绝佳选择。另一方面,拉萨则用中文宣传吉巴语。需要注意的是,字框对文本的情况没有影响。他们只是将文字分割成象征物。
2. 提取器是Featourizers的一个特征。
机器学习模型的数字特征由特质提取器生成,下面的插图说明了“你好”一词是如何编码的。

在《国家劳工政策》中,通常有两种中型文字特征:
- 稀疏特征 :通常由 CountVectorizer 生成。需要注意的是,这些数字可能是子词。 Rasa还有一个 LexicalSyntacticFeaturizer ,它创造了基于窗口的特征,可用于识别实体。当他与狂犬病并用的时候,您可以更改“ Syntactic Featurizer” 术语, 添加任何您想要的 。 部分语音特征 。
- 密集特征 一些经过预先培训的嵌入是密集的特征之一。通常来自 SpaCyFeaturizers 或者 huggingface 的 LanguageModelFeaturizers 。在使用它们时,在管道中, 您必须配置一个特定的单词框 。 更多详细信息在 文档 中。
它们是为完整句子而制作的, 除了 Tokens 特性之外。 它也被称为 CLS 符号 。
Details on sentence features:
CLS_token的稀有特征是所有 CLS_token的稀有特征的总数。单词矢量的和/平均值(在微粒情况下)或整个文字的上下文(在微粒情况下)是一个密集的特征。 huggingface models 的情况下)。
在Rasa中,允许使用自定义特征提取工具作为独立部件。 举例来说,有一项社区维修倡议,名为: rasa-nlu-examples ,它包含各种针对英语以外语言的实验性修饰。Rasa没有正式予以支持。然而,因为它代表了近275种语言,因此,许多用户可能受益。
3. IntClassizors 集成目录
拉萨正式提议使用DIET模式,该模式可以处理所需的分类和体力提取。

Details on DIE
DIET算法是独一无二的,因为它可以与实体同时计划和提取的分类。 在此之前,大多数Rasa的算法只允许物理测试或预期分类,这意味着预期的分类模式只能使用句子属性而忽略象征性属性。

4. 实体抽取器
DIET还可以学习如何测试该实体。这并不意味着每一类组织都必须使用它。 例如,遵守预先界定的模式的实体(例如,等级法不需要检测电话号码)。 可以只使用 RegexEntityExtractor 处理它。
这就是为什么输油管通常含有一种以上的物理提取物。

在对NLU输油管中各种部件的解释之后,可以说明这些部件如何相互交流信息。
三、交互:传递消息
Rasa NLU输油管的部件是相互关联的。 您可以放大下面的样本, 查看它是如何工作的 。config.yml文件。

NLU输油管由若干组成部分组成,这些组成部分按照上述顺序在输油管中经过培训和处理,这意味着输油管结构可被视为数据接下来的线性阶段序列。
Rasa每次用户在聊天协助下进行交流时都穿越内地。Message此项目将由管道的每个阶段处理, 因为临时文件夹无法关闭 :% s : 下面的图表描述了整个信息处理过程中发生的情况 。

这一流程图有许多重要内容需要考虑:
Message仅从标准用户输入开始Message提供语句后, 将将其分割为符号。 请注意, 在图形中, 符号显示为字符串, 但在代码中, 符号表示为数字 。Token对象表示的。- 当
Message在通过 VectorsFeaturizer 伯爵时, 发现要添加一个薄度特性。 序列特性与完整短语的特性有区别。 另请注意, 在第二个特性提取器通过后, 稀释特性的大小会上升 。 - 迪特克勒斯立体仪在路上了
Message中查找sparse_features和dense_features程序完成后,加上所期望的预测结果Message对象。
每当一条信息通过管道时Message现在所有物体都可以获取新信息。 这还意味着,如果我们想在信息中添加信息,我们可以继续在管道中添加更多步骤。 这就是为什么我们可以添加更多的物理提取模型。

管道中的每一个步骤都可以添加到信息中,因此我们可以增加几个实体提取过程,同时将实体添加到信息中。
自己检查消息对象
如果您想要查看信件状态, 请使用下面的代码检查模型的输出 。
四、关于项目的行动
使用NLU管道,我们有能力发现意图和实体。 但是,此管道无法预知下一场对话行动。这正是政策管道会做的。根据国家自由联盟的目标和实际预测以及目前的谈话条件,政策预测了下一步将采取的措施。

五、总结
在此研究中,我们审视了Rasa NLU管道各组成部分之间如何互动,了解管道各组成部分如何互动很重要,因为这有助于我们确定哪些组成部分与我们设计的对话助理相关。
也值得一提的是,我们可以 完全调整管道。 如果不需要组件,则可以删除它们。如果你说英语以外的语言,你就可以使用它。这不是做事情的唯一方法, 但它是一个你熟悉的方法, 它是使用自定义语言工具的方法。则这一点尤其重要。如果你想看一些样本,就到这儿来建议查看 rasa-nlu-examples 仓库。仓库里有很多代用品模型和增肥剂,它们可以用来为自己的倡议提出想法。
简言之,Rasa NLU管道是一个综合意图分类和物理提取机学习项目,尽管Rasa对每个部件都进行了模块化,使开发商能够利用和定制自己的专门部件。
我不知道,牛仔裤。这篇文章是我们特别报导全球之声的一部分。com/p/f2d20bc38587。
相关新闻
- 2023-05-06 微pe怎么初始化U盘(微pe怎么恢复初
- 2023-05-06 Xp系统boot 进入pe(boot manager 怎么进入
- 2023-05-06 win pe修复bcdboot(pe修复系统)
- 2023-05-06 win7更新失败 pe(win7更新失败还原更
- 2023-05-06 u盘装了pe读取不了(u盘能进pe读取不
- 2023-05-06 u盘pe 发热(u盘发热烫手)
- 2023-05-06 u盘pe下看不到硬盘(u盘启动pe看不到
- 2023-05-06 pe盘 ntfs(u盘ntfs格式)
- 2023-05-06 sony笔记本进入pe模式(联想笔记本怎
- 2023-05-06 pe启动盘进不去(pe启动盘进不去系统
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
