近日,可信人工智能教育部工程研究中心课题组在音频、声学、自然语言处理的顶级期刊《IEEE/ACM Transactions on Audio, Speech and Language Processing》(TASLP)(中科院一区TOP期刊)在线发表了题为“PROTECT: Parameter-Efficient Tuning for Few-Shot Robust Chinese Text Correction”的研究论文。该论文的第1作者为课题组的博士生冯旋,通讯作者为古天龙教授。
图1 论文在线发表截图
非规范文本和委婉语在互联网上广泛传播,使得内容审核变得更加困难。这一现象是由拼写错误或用户故意的文本攻击造成的。目前的方法缺乏鲁棒的设计,并且容易受到对抗性攻击。这对不断变化的社交媒体场景中的内容审核构成了重大威胁。因此,探索鲁棒的文本校正具有重要意义。文本纠正旨在自动检测和纠正句子中的错误,可以用作对抗性攻击的防御方法。在这项工作中,我们提出了 PROTECT:一个强大的中文语言模型,用于更通用的中文文本纠正。具体而言,我们提出了一种简单有效的自监督学习方法来校准表征,该方法能够鲁棒地适应不断变化的对抗性文本。具体来说,我们开发了一种建立辅助监督的对抗感知多特征表征方法。据我们所知,PROTECT 是第一个同时表征拼音、拼音缩写、字符分割、视觉和语音特征的模型。基于生成的对抗性示例,PROTECT 通过统一的文本到文本生成范例从头开始进行训练。这使得模型能够同时纠正多类型文本错误和不一致的长度。在获得对抗性鲁棒表征后,我们设计了一种新颖的参数高效微调方法,由特定上下文自适应前缀和语义一致的低秩自适应模块组成,以实现零样本和少样本学习。大量的实验结果表明,通过将参数调整0.2%,PROTECT在全量数据和低资源环境下获得了最佳性能。
图2 PROTECT框架
该研究工作得到了国家自然科学基金重点项目(U22A2099, 62336003)等的支持。