NLP模型读不懂人话?微软AdaTest挑错效率高5倍
来源:http://www.tudoupe.com时间:2022-06-02
新智元报道
大卫是编辑
微软的AI研发团队于2022年5月底在预印的网站上发布了一份文件,为调试NLP模型AdaTest提供了全新的方法。
在行业中,自然语言待遇范式是顽固的,它没有掌握人文语言,对文字的解释表明相反的情况。
微软公司现在表示,已经制定了解决这个问题的补救办法。
Microsoft 创建了 AdaTest 函数来验证 NLP 模式 。
开发广泛的模型或平台模型,作为广泛应用的基础,极大地增强了大赦国际处理自然语言的能力,然而,自然语言处理模式远非完美无缺,有时还以令人尴尬的方式显示出缺陷。
例如,一个成功的商业战略将葡萄牙语的“我不建议这种食物”改成英语的“我强烈推荐这道菜”。
这些问题之所以持续存在,部分原因是,发现和纠正国家采购计划模式中的错误十分困难,以致几乎所有主要的开放源码和商业的开放源码模型法问题都始终存在重大错误,部分原因是发现和纠正国家采购计划模式中的错误十分困难,以致重大错误影响到几乎所有主要的开放源码模型和商业的国家采购计划模式。
目前发现和纠正NLP模型错误有两种方法:用户驱动和自动化。
用户驱动技术具有多功能性,可以评估国家劳工政策模式行为的任何部分。 不幸的是,这一战略耗费了巨大的劳动力,取决于人类的想象力和发现缺陷的能力,因此在现实中,只有一定比例的输入数据可用于测试。
另一方面,自动化方法的速度足够快,足以处理所提供的大量数据。 但是,由于缺乏人的技能,它们只能评估模型在非常有限的情况下是否准确或不正确,例如模型在微小修改的情况下分析输入语言,其预测结果不一致。
据微软研究人员称,情况就是这样。几年来,政府一直在开发一个新的大型语言模式,如GPT-3(LLMs)。这给了工业一个机会。您可以将用户驱动技术和自动化技术的好处结合起来进行实验。允许用户指定测试模型应该做什么 。它还使创造巨大的现有语言模式的能力具有优势。根据某些模型行为类别创建大型测试。
微软研究人员使用AdaTest的缩略词AdaTest 来描述“适应性测试”和“去虫”等组合。
一种巨大的语言模式由于通过AdaTestegoige语言模式在试验模型中造成大量错误而承受了沉重的负担,由于通过AdaTestegge语言模式在试验模型中造成大量错误而承受了沉重的负担。
另一方面,人工干预通过选择成功的测试并将测试归为与语义有关的专题,指导语言模式的发展。
这一人工指导大大提高了语言模拟制造业的绩效,并将这些绩效引导到目标区域。
由于这些测试是一种贴有标签的数据,它们不仅可用于探测,而且可用于在与传统软件相似的迭代调试周期中固定NLP模型的故障。
AdaTest为专家利用者带来相当大的业绩优势,而对于没有编程背景的正常个人来说则容易有效地使用。
这意味着专家和非专业用户可以更好地了解和规范各种国家劳工政策模式中的行为,不仅改进AI系统的业绩,而且对用户需求作出反应。
用测试循环发现漏洞
AdaTestor模式包括内部检测问题测试周期和外部调试周期,以弥补错误。
尽管任务似乎直截了当,但即使商业上可以获得的SOTA模型也经常失败。
例如,一些SOTA模式认为,双重否定句子“我认为我生命中没有比这更好的时间”是否定的,正如“我是少数”这句话一样,“我是一个少数”。 声明SOTA模式认为,双重否定句子“我认为我生命中没有比这更好的时间”是否定的,正如“我是少数”这句话一样。
在这两种情况下,市场的商业模式都存在真正的缺陷。
微软研究小组展示了如何测试和修理NLP的文本公正错误。
NLP示范文本错误,即在文本中中性地描述特定一组特性可能导致NLP模式文本情感功能的错误和文本情感重量的错误,换句话说,在处理特定组别描述时,模型可能更加消极。
微软研究人员在开始试验周期时,用一套基于各种身份的文本模块,并将这套模块标为“敏感”。这些早期样本没有发现模型问题。
另一方面,AdaTesty函数产生大量可与GPT-3语言相比的暗示测试,以揭示试验对象模型的潜在问题。
尽管已经进行了数百次测试,但干预者只需查看先前的错误或接近错误的测试即可。
然后人类干预忽略了不含错误的测试结果,并将其他有效测试结果添加到当前主题中,偶尔将它们组织到其他次主题中。
这些人工过滤的测试结果将纳入下一个周期的语文模式提示,导致下一批数据输入处理结果被推到用户焦点和模型错误问题的交叉点。
这一内部测试周期使NLP模型能够无问题地启动,并逐步发现逐渐可见的错误和缺陷法,内部测试周期使NLP模型能够无问题地启动,并逐渐发现逐渐可见的错误和错误。
因此,即使用户无法识别模型的缺陷,他们也可以首先进行数量有限的通过测试,并迅速与NLP模式重叠,从而产生大量测试,表明测试模型存在问题。
内部测试循环示例
如果测试者不处理基于文字的情感分析问题,而是处理否定和双重否定词组等其他问题,测试者就会发现不同的缺陷。 选择者不会处理基于文字的情感分析问题,而是处理否定和双重否定词组等其他问题,测试者将发现不同的缺陷。
例如,"我从未像现在这样快乐过"可以对积极的商业模式进行适当分类。但是,使用AdaTest方法,类似「我从未见过更美的城市」这样复杂的句子,
测试者发现这些缺陷是坏的和明显的,但很难人工和直接识别,因为这些缺陷仅以非常精确的措辞出现。
微软研究小组进行了一项用户研究,以确定AdaTesto是否帮助专业和非专业用户更好地设计测试,并在国家实验室方案模型中发现问题。
请专业用户在两种模式中评估某些主题功能:商业文本情感编目和自动完成GPT-2的以下词句。
此函数用于预报应用程序,例如下个输入电子邮件的单词。
参加者被随机分配用于在每个专题和模型中使用核对表(代表用户驱动测试的SOTA)或AdaTest。
研究人员发现,不同的模型和专业参与者在AdaTest的改进率是AdaTest的五倍。
非专业用户的研究者测试标准之一是国家语言方案模式所审查的危险语言材料的内容管理,这是研究者对非专业用户的测试标准之一,要求与会者发现该模式确认为有毒的材料的非有毒内容,即他们个人认为可接受的材料。
在示范测试中,参与者可以利用Dynabench众包接口或AdaTest的升级版。
因此,AdaTest的改善是AdaTest的十倍。
为具有不同观点的人绘制测试参与者的测试影响图
使用调试环来修补错误 。
当发现大量故障时,模型的测试者经过外部调试周期(见下图),对试验周期发现的错误进行补救,然后重新测试模型。
在这个流程中,调试程序的“再测试”阶段(即必须重复试验周期)。所以,在用一个测试来修正模型之后,他们不再对数据进行测试。而是训练数据了。对错误的纠正往往补偿过高。在最初几轮调试中诱导快捷键或差错,只有根据新的“固定”模式量身定制的一系列测试才能发现这些缺陷。
使用开放源码 RoberTa-Large情感模型测试循环机制。
测试对模型进行了微调(与原始培训数据相结合,以保持特派团的业绩),并产生了一个不再失败的新模型。
然而,当试验环被重复的时候,人们发现,几乎所有的移民言论现在都被贴上“中立”的标签。它们实际上是坏的,即使它们是基于应用和测试情景。我们会再用这些额外的测试来微调一下因此,该模型准确地纠正了最初的问题。快捷键中不包括“任何移民评论是中性的”这一短语。
当然,这并不能确保模型中不再有捷径,但根据研究人员的经验,多轮周期已导致大量减少为纠正最初的缺陷而发生的意外错误。
因此,调试周期扩大了现有错误测试规范的限度,直到开发出良好的模型,而且测试者不需要事先确定每一个可能的错误,AdaTesto将主动提出并纠正下一轮测试和调试中引入的错误。
事实上,在软件工程NLP中,AdaTest可被视为测试-修复-再测试周期应用。
后代发现并恢复了在调试周期期间插入的捷径。
Roberta-Large利用Quora问题数据集进行了微调,以审查这两个问题是否重复出现,斯坦福情感图书馆(SST)数据集也进行了微调,以便进行正面/中性/负性情感分析,评估调试周期的成功与否。
研究发现,在53 P主题中的22个和39个情感主题中的11个都无法检测到基线模型,随后,研究人员为纠正这一问题提供了数据。
AdaTest用于执行调试环,在 P 数据集中平均41个。 6个测试,情感数据集中平均55个。 8个测试。
调查结果显示,在绝大多数情况下,AdaTest已经恢复了用于培训的专题以及以前未知的保留专题,但没有破坏任何专题,但旧的 " 支票清单 " 数据常常造成新的错误,损害了其他测试专题。
研究人员还评估了AdaTest在标准开发环境中的功效,经过三个月的开发、核对清单测试和增加基于GPT-3的初步数据后,实地获得的F1听觉数据的评分为零.66(全分1)。
同一小组使用AdaTest。四小时后,他们自己运行了调试环。同一未读数据集的F1分数为零.77。这些结果随后转录在第二套看不见的数据集中。这表明,AdaTest可能在传统技术覆盖的区域进行错误的更正。并取得更好的效果。
语言模式允许在更大规模和范围上进行高质量的测试,并将示范测试和调试结合起来,以便有效地解决修理问题,使模式的创建更接近常规软件开发的迭接性。
人类-大赦国际合作为机械学习进步提供了一条未来的道路,预计随着巨大语言模型能力的增长,这种协同作用将扩大。
参考资料:
https://www.microsoft.com/en-us/research/blog/partnering-people-with-large-language-models-to-find-and-fix-bugs-in-nlp-systems/
https://www.microsoft.com/en-us/research/publication/adaptive-testing-and-debugging-of-nlp-models/
上一篇:南方科技大学2022综合评价能力测试考核办法调整!取消面试和体育测试
下一篇:没有了
相关新闻
- 2022-06-02 南方科技大学2022综合评价能力测试
- 2022-06-02 如何搭建(AGV)控制系统?
- 2022-06-02 元宇宙“以虚强实”,Meta/微软/微
- 2022-06-02 全网爆火|把回收站变成小猫,让
- 2022-06-02 微软发布 Surface Laptop Go 2
- 2022-06-02 吾爱大神版|微软语音合成助手,
- 2022-06-02 618将至!游戏玩家的新选择――机
- 2022-06-02 618平板怎么选?推荐三款不同价位
- 2022-06-02 如何使 Windows 桌面图标超大或超小
- 2022-06-02 如何修复冻结的 Windows PC
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
