人工智能能否学习人类幽默的微妙之处?

随着人们转向人工智能寻求治疗和陪伴,有人认为这些模型仍然不尽如人意
07月28日

作为一名深夜喜剧电视编剧,在他几十年的职业生涯中,乔·托普林曾为大卫·莱特曼和杰·雷诺等名人创作笑话。他曾教授成人喜剧写作课程,并指导数百名学生创作原创喜剧。他还分析了数百个笑话,以理解它们的模式和幽默之处,甚至就此写了一本书。因此,当生成式人工智能出现时,托普林想知道:他能否将大型语言模型(LLM)的语言技能与他教导人类学生的经验结合起来,创造一台笑话生成机?

结果是诞生了一个名为 Witscript 的诙谐人工智能工具——一个网络应用程序,用户每月支付 5.99 美元,即可输入新闻标题和图片描述等提示,并获得笑话、有趣的配文以及其他形式的巧妙文字游戏。

去年,托普林和 Witscript 参加了一场“笑话大战”。他们用三天时间,围绕八个经久不衰的新闻话题创作笑话。托普林选出了他最好的笑话,也挑选了 Witscript 最好的作品,然后由喜剧演员迈克·珀金斯在洛杉矶的现场观众面前表演。每组笑话中有一半由托普林创作,另一半由 Witscript 创作。

托普林与加州波莫纳学院的脱口秀演员兼神经科学家奥里·阿米尔合作,记录了表演,并测量了每个笑话引起的笑声的时长和响度。托普林和阿米尔发现,根据这些指标,人工智能和人类创作的笑话同样好笑,他们在一月份的首次计算幽默研讨会上公布了这一结果。

直到最近,笑话一直被认为超出人工智能的能力范围。托普林说,它们被认为非常复杂,以至于人们认为人工智能模型需要具备“一个普通人的所有思考能力”才能识别或创作它们。但现在情况已经不同了。

随着大型语言模型(LLM)的进步以及像 Witscript 这样基于这些模型构建的工具的出现,笑声不再被视为最后的边界。尽管幽默的表现形式远不止言语——一次巧妙的沉默或适时的扬眉都能像文字一样引人发笑——但阿米尔说,“事实证明,人工智能生成至少某些类型的幽默,比安全驾驶汽车更容易。”

但专家警告称,让人发笑与真正掌握人类幽默的细微差别之间存在巨大鸿沟。东德州农工大学计算语言学研究员克里斯蒂安·F·亨佩尔曼表示,幽默可以是微妙的。它需要理解社会规范——并知道何时可以打破它们。它还具有强大的社会功能:幽默的表达可以用来摆脱尴尬时刻,发出隐晦的嘲讽,或推动人际关系更进一步。鉴于人工智能聊天机器人正越来越多地被用作治疗师、助手和伴侣,许多专家认为,模型理解并适当回应讽刺、不敬和轻浮等更微妙的幽默形式至关重要。如果一个人在回应结肠镜检查预约提醒时写道“啊,现在就杀了我吧”,人工智能助手必须知道不要字面理解这些话。

根据曼尼托巴大学计算语言学专家特里斯坦·米勒的说法,创作一个巧妙的妙语与像人类一样运用幽默之间存在根本区别——部分原因是目前的机器未能体现人类使用幽默的全部方式和原因。米勒说,尽管如此,如果大型语言模型要像人类一样使用语言,实现幽默对其来说仍然很重要,因为幽默以其所有形式是“语言和交流中最具人性化的东西之一”。

几个世纪以来,笑声一直吸引着科学家。包括柏拉图和笛卡尔在内的哲学家大多不屑于笑声,并认为人们使用幽默主要是通过取笑他人来确立优越感或群体内部地位。神经学家赫伯特·斯宾塞等人推测,笑声是对感知到不恰当或不协调事物的一种神经性放松。近来,专家们试图理解某些语言模式为何能引人发笑。米勒说,一种普遍的理论是,大多数笑话都涉及歧义、不协调以及这种不协调的突然解决,从而刺激神经元连接。

试想一下这个笑话:两条鱼在一个水箱(tank)里。一条鱼对另一条鱼说:“你来操作炮台,我来开车。”正如数据科学家托马斯·温特斯在 2021 年一篇关于计算幽默的文章中所写,这个笑话之所以好笑,是因为“tank”一词的歧义以及持枪鱼的不协调性引发了惊喜——当文字游戏在大脑中理清时,人们便会发笑。这个笑话巧妙地平衡了那些创造出对立心理意象的词语:鱼在水箱里的合理形象,以及鱼在坦克里的荒谬形象。普渡大学计算幽默研究员朱莉娅·雷兹表示,这种平衡对于算法学习来说极具挑战。

然而,最近大型语言模型(LLM)已开始应对这一挑战。去年,南加州大学社会心理学研究员德鲁·戈伦茨及其同事发现,ChatGPT 3.5 在被输入《洋葱报》(The Onion)的 50 个头条新闻后,能够以该报的讽刺风格撰写头条,其水平足以与该出版物的人工生成内容相媲美。一组 200 名读者认为人工智能的作品与该杂志的原创头条不相上下。

Witscript 进一步完善了这一过程。它的创建者托普林花费数年时间将喜剧分解为一门科学。他分析了数百个笑话,将笑话创作过程提炼成几个简单的算法。经验丰富的喜剧演员通常会自动执行这些步骤:例如,他们可以为笑话想出铺垫和妙语,然后创造出连接这些材料的中间部分。

为了创建一个能够执行相同任务的系统,托普林将他的笑话创作算法与大型语言模型相结合。通过赋予 Witscript 逻辑规则和组织信息的结构化方式,他使该系统能够接受人类用户输入的主题句,并用它来生成原创回复。据他描述,这种内部框架赋予了 Witscript 捕捉关键词以及在讲笑话时混合和替换音节和单词的能力。在今年 6 月在 X 上分享的一次交流中,托普林向 Witscript 输入了提示“佳士得正在拍卖一颗稀有的十克拉粉钻,它曾属于玛丽·安托瓦内特”,应用程序回复道:“它的切割完美无瑕——就像她的头一样。”这个笑话既需要文字游戏,也需要对这位女王命运的了解。

托普林是众多研究人员之一,他们相信更具幽默感的人工智能能带来现实世界的好处。托普林说,随着孤独流行病的加剧,人们寻求人工智能的陪伴,他们可能会对偶尔能讲笑话的虚拟助手或机器人伴侣感到更自在,“那种你的朋友可能会在谈话中抛出的笑话”。

幽默感也可能带来职业上的提升:最近一项研究报告称,“幽默炫耀”提高了人们在求职面试中的成功率,以及企业家为项目获得资金的成功率。南加州大学的戈伦茨表示,人工智能工具已经可以帮助用户在写作中加入文字游戏和双关语,以化解紧张气氛或创作诙谐的电子邮件和社交媒体标题。当他计划一次葡萄酒和奶酪活动时,戈伦茨使用 ChatGPT 想出了双关语式的电子邮件结尾,例如“Brie in touch”(与“保持联系”的“be in touch”谐音,而“Brie”是一种奶酪)。

“这些小细节能为你所做的事情增色不少,”他说。

雷兹表示,尽管如此,人工智能创作的幽默在语气和质量上可能难以预测,并且无法理解更广泛或个人背景。正如算法可能在医疗保健和金融决策中延续偏见一样,人工智能创作的笑话也可能宣扬种族主义、性别歧视及其他有害的刻板印象。

宾夕法尼亚大学沃顿商学院的市场营销博士生罗杰·索莫尔注意到,当他要求像 ChatGPT 这样与图像创建工具 Dall-E 交互的大型语言模型来让卡通图像变得更有趣时,它会引入“非常奇怪和刻板印象化”的改变,例如用一个戴着超大眼镜的肥胖男子替换一个普通体型的男子。

索莫尔和他的博士导师进一步研究。他们提示 ChatGPT 生成人们阅读、洗衣服或从事其他日常活动的图片,然后提示它让这些图片变得更有趣。结果让他们感到惊讶:索莫尔说,“性别和种族少数群体的代表性显著下降”,而研究人员观察到“体重较高、老年人和视力受损个体”的代表性显著增加。索莫尔表示,这可能反映了对某些群体偏见的过度纠正,以及对其他群体偏见的纠正不足。

索莫尔说,这些数据强调了不让算法幽默不受限制的重要性。但托普林说这也并不令人意外。他说,这些有问题的结果并未揭示算法的缺陷;相反,它们凸显了社会中存在大量“认为只要你胖就意味着你很滑稽的可怕之人”。

亨佩尔曼表示,人工智能生成喜剧的另一个令人清醒的事实是,其中大部分都相当平庸。他指出,尽管 Witscript 在最近的笑话大战中成功创作了一套脱口秀作品,但这部分归因于托普林——一位经验丰富的喜剧演员——提供了 Witscript 的提示,然后亲手挑选了人工智能应用程序最初创作的几十个笑话中最有趣的一些。

托普林说,这种筛选过程需要对观众和表演者都有所了解。Witscript 可以创作笑话,但人们必须决定它们是否好笑。

人工智能能知道它何时以及为何好笑吗?这是困扰许多研究计算幽默的学者的问题,其答案很复杂。

ChatGPT 并非为产生幽默而设计;它旨在生成和预测文本。戈伦茨解释说,“它无法感受到与笑声相关的情绪,也无法真正欣赏一个好笑话。”

“但它仍然能产生有趣的东西,”他说。“这有点表明,或许你所需要的只是大量数据和模式识别,来注意到什么能让一个笑话好笑,从而你自己也能创造出一个好笑话。你可能不需要亲自欣赏它就能创作它。”

但对亨佩尔曼来说,真正的幽默与使用它的人的意图交织在一起。亨佩尔曼说,“幽默让你玩味意义”——它允许人们探索多种想法,而无需明确表达其意图。他说,一个探寻共同价值观但越界进入冒犯领域的笑话,可以用一句“不,不,我没那么说,我只是开玩笑”来收回。

换句话说,幽默允许人们以一种比其他方式更隐蔽、更微妙的方式来衡量彼此的意图、原则和情感包袱。一些初步研究表明,笑话背后的动机——以及它所包含的人类需求——可能是幽默的关键要素:在未发表的数据中,托普林和戈伦茨都发现,当人们意识到笑话是人工智能创作的时,他们会觉得笑话不那么好笑。

亨佩尔曼说,尽管人工智能可以被提示创作笑话,但它绝不会运用幽默来摆脱困境或探索可能性。“它不会有同样的人类需求。”他认为这是讲笑话和实现真正幽默之间的主要障碍。当被问及人工智能是否能弥合两者之间的鸿沟时,他用嘴唇发出轻蔑的声音。

亨佩尔曼说,“只有人类才能迈出的一步”,是对幽默产生情感反应,即使它并非严格意义上的好笑。“你可以觉得它恶心,你可以觉得它具有侵犯性,你可以觉得它揭示了新的真相,”他补充道。“所有这些,只有人类才能做到。”

本文最初发表于 Undark。阅读原文。