全部 焦点 综合 社会 企业 国内
研究人员开发出聊天机器人使用攻击性语言的算法
2022-04-24 08:27:40 前瞻网 A | A

日,美国加州大学圣地亚哥分校的研究人员已经开发出算法,以消除在线机器人在社交媒体和其他地方产生的攻击言论。

聊天机器人使用攻击语言是一个持续的问题。最有名的例子可能是微软在2016年3月发布的Twitter聊天机器人Tay。在不到24小时内,Tay从Twitter上的对话中学,开始重复一些在推特上发表的最令人反感的言论,包括种族主义和对女不尊重的言论。

研究人员说:“作为研究人员,我们正在全面考虑语言模型的社会影响,并解决相关问题。”

研究人员和业界人士已经尝试了几种方法来清理机器人的语音,但都成效甚微。

加州大学圣地亚哥分校的计算机科学家团队首先将有攻击的提示输入一个预先训练好的语言模型,让它产生有攻击预言。然后,研究人员对该模型进行了训练,以预测该模型产生有攻击内容的可能。他们称此为“邪恶模型”。然后他们训练了一个“好人模型”,这个模型被教导要避免所有被“邪恶模型”高度录用的内容。

研究验证,“好人模型”将“有毒”内容清干净的成功率达到23%。他们在2022年3月在线举行的AAAI人工智能会议上展示了他们的工作。

该研究论文题为"Leashing the Inner Demons: Self-Detoxification for Language Models",已发表在arXiv上。