最新研究發表在《科學報告》期刊上指出,大型語言模型 (LLM) 的 AI 聊天機器人在創意任務方面可能超越了普通人類,例如 brainstorming (腦力激盪) 常見物品的其他用途 —— 這反映了發散性思維。然而,在這些任務中獲得最高分的個人仍然超越了表現最好的聊天機器人的結果。 發散性思維是一種與創造力經常聯繫在一起的思維過程,強調對於特定任務產生許多不同的想法或解決方案。 它通常通過「其他用途任務」(Alternate Uses Task,AUT)來評估,參與者被要求在短時間內想出一個日常物品的盡可能多的其他用途。回答分為四個不同的類別進行評分:流暢度、靈活性、獨創性和詳盡性。 Mika Koivisto 和 Simone Grassini 將 256 位人類參與者的回答與三個 AI 聊天機器人(ChatGPT3、ChatGPT4 和 Copy.Ai)對於四個物品(一根繩子、一個盒子、一支鉛筆和一根蠟燭)進行的 AUT 進行了比較。作者通過對回答的「語義距離」(回答與物品的原始用途有多密切相關)和創造力進行評分來評估回答的獨創性。 使用計算方法來定量語義距離,評分從 0 到 2,同時人類評估者盲目對創造力進行主觀評分,評分從 1 到 5。從平均來看,聊天機器人生成的回答在語義距離(0.95 vs. 0.91)和創造力(2.91 vs. 2.47)方面得分顯著高於人類的回答。 人類的回答在這兩個指標上範圍更大 —— 最低分比 AI 的回答低得多,但最高分通常更高。最好的人類回答在八個評分類別中有七個超越了每個聊天機器人的最佳回答。 這些發現表明,AI 聊天機器人現在至少能夠產生與普通人類一樣有創意的想法。然而,作者指出他們只考慮了與評估創造力相關的單一任務的表現。作者建議未來的研究可以探索如何將 AI 整合到創意過程中以提高人類的表現。 參考文獻:Mika Koivisto 和 Simone Grassini,《在創造性發散思考任務中,最佳的人類表現優於人工智能》, 2023 年 9 月 14 日, 《科學報告》。