来源:机器之心
没想到,AI 进化之后淘汰掉的第一批人,就是帮 AI 训练的人。
(资料图片仅供参考)
很多 NLP 应用程序需要为各种任务手动进行大量数据注释,特别是训练分类器或评估无监督模型的性能。根据规模和复杂程度,这些任务可能由众包工作者在 MTurk 等平台上以及训练有素的标注人(如研究助理)执行。
我们知道,语言大模型(LLM)在规模到达一定程度之后可以「涌现」—— 即获得此前无法预料的新能力。作为推动 AI 新一轮爆发的大模型,ChatGPT 在很多任务上的能力也超出了人们的预期,其中就包括给数据集做标注这种自己训练自己的工作。
近日,来自苏黎世大学的研究者证明了 ChatGPT 在多项注释任务(包括相关性、立场、主题和框架检测)上优于众包工作平台和人类工作助理。
此外,研究人员还做了计算:ChatGPT 的每条注释成本不到 0.003 美元 —— 大约比 MTurk 便宜 20 倍。这些结果显示了大型语言模型在大幅提高文本分类效率方面的潜力。
论文链接: https://arxiv.org/abs/2303.15056
研究细节
许多 NLP 应用程序需要高质量的标注数据,特别是用于训练分类器或评估无监督模型的性能。例如,研究人员有时需要过滤嘈杂的社交媒体数据以获得相关性,将文本分配给不同的主题或概念类别,或者衡量他们的情绪立场。无论用于这些任务的具体方法是什么(监督、半监督或无监督学习),都需要准确地标注数据来构建训练集,或用其作为评估性能的黄金标准。
对此,人们通常的处理方式是招募研究助理,或者使用 MTurk 这样的众包平台。OpenAI 在打造 ChatGPT 时,也将负面内容问题 分包给了肯尼亚的数据标注机构 ,进行了大量标注训练才敢正式上线。
由瑞士苏黎世大学提交的这篇报告探讨了大语言模型(LLM)在文本标注任务中的潜力,并重点关注了 2022 年 11 月发布的 ChatGPT。它证明了零样本(即没有任何额外训练)ChatGPT 在分类任务上优于 MTurk 标注 ,而成本仅需人工的几十分之一。
研究人员使用了之前的研究收集的 2382 条推文样本。这些推文由训练有素的注释者(研究助理)标记为五种不同的任务:相关性、立场、主题和两种框架检测。实验中,研究者将任务作为零样本分类提交给 ChatGPT,并同时给 MTurk 上的众包工作者,然后根据两个基准评估了 ChatGPT 的性能:相对于众包平台上人类工作者的准确性,以及相对于研究助理注释者的准确性。
结果发现,在五分之四的任务上,ChatGPT 的零样本准确率高于 MTurk。对于所有任务,ChatGPT 的编码器协议都超过了 MTurk 和训练有素的注释者。此外在成本上,ChatGPT 比 MTurk 便宜得多:五个分类任务在 ChatGPT(25264 个注释)上的成本约为 68 美元,在 MTurk(12632 个注释)上的成本约为 657 美元。
这么一算,ChatGPT 的每条注释成本约为 0.003 美元,即三分之一美分 —— 比 MTurk 便宜约 20 倍,而且质量更高。鉴于此,我们现在已有可能对更多样本进行注释,或者为监督学习创建大型训练集。根据现有的测试,10 万个注释的成本约为 300 美元。
研究人员表示,虽然需要进一步研究以更好地了解 ChatGPT 和其他 LLM 如何在更广泛的环境中发挥作用,但这些结果表明它们有可能改变研究人员进行数据注释的方式,并破坏 MTurk 等平台的部分业务模型。
实验过程
研究人员使用了包含 2382 条推文的数据集,这些推文是之前针对内容审核相关任务的研究手动注释的。具体来说,训练有素的注释者(研究助理)为五个具有不同类别数量的概念类别构建了黄金标准:推文与内容审核问题的相关性(相关 / 不相关);关于第 230 条(美国 1996 年《通信规范法》的一部分)的立场,这是美国互联网立法的一个关键部分;主题识别(六类);第一组框架(内容审核作为问题、解决方案或中性);以及第二组框架(十四类)。
然后,研究人员使用 ChatGPT 和在 MTurk 上招募的众包工作者进行了这些完全相同的分类。对于 ChatGPT 进行了四组标注。为了探索控制输出随机程度的 ChatGPT 温度参数的影响,这里使用默认值 1 和 0.2 进行注释,这意味着随机性较小。对于每个温度值,研究人员进行了两组注释来计算 ChatGPT 的编码器协议。
对于专家,该研究找到了两名政治学研究生,对所有五项任务对推文进行注释。对于每项任务,编码员都获得了相同指令集,其被要求逐个任务独立地注释推文。为了计算 ChatGPT 和 MTurk 的准确性,对比只考虑了两个训练有素的注释者都同意的推文。
对于 MTurk,研究的目标是选择最好的工作者群体,特别是通过筛选被亚马逊归类为「MTurk 大师」、好评超过 90% 且在美国的工作者。
该研究使用「gpt-3.5-turbo」版本的 ChatGPT API 对推文进行分类。注释于 2023 年 3 月 9 日至 3 月 20 日之间进行。对于每个注释任务,研究人员有意避免添加任何特定于 ChatGPT 的提示(prompt),例如「让我们逐步思考」,以确保 ChatGPT 和 MTurk 众包工作者之间的可比性。
在测试了几种变体之后,人们决定使用这样的提示将推文一条一条地提供给 ChatGPT:「这是我选择的推文,请将其标记为 [任务特定说明(例如,说明中的主题之一)]。此外,该研究中每条推文收集了四个 ChatGPT 响应,也为每条推文创建一个新的聊天会话,以确保 ChatGPT 结果不受注释历史记录的影响。
图 1. 与 MTurk 上高分标注人相比,ChatGPT zero-shot 的文本标注能力。ChatGPT 在五项任务中的四项中的准确性优于 MTurk。
在上图中 ChatGPT 有优势的四项任务中,在一种情况下(相关性)ChatGPT 略有优势,但其性能与 MTurk 非常相似。其他三种情况下(frams I、frams II 和 Stance),ChatGPT 的性能比 MTurk 高 2.2 到 3.4 倍。此外,考虑到任务的难度、类的数量以及注释是零样本的事实,ChatGPT 的准确度总体来说绰绰有余。
对于相关性,有两个类别(相关 / 不相关),ChatGPT 的准确率为 72.8%,而对于立场,有三个类别(正面 / 负面 / 中性)的准确率为 78.7%。随着类别数量的增加,准确性会降低,尽管任务的内在难度也有影响。关于编码器协议,图 1 显示 ChatGPT 的性能非常高,当温度参数设置为 0.2 时,所有任务的性能都超过 95%。这些值高于任何人类,包括训练有素的注释者。即使使用默认温度值 1(这意味着更多的随机性),编码器间一致性始终超过 84%。编码器间一致性和准确性之间的关系是正的,但很弱(皮尔逊相关系数:0.17)。尽管相关性仅基于五个数据点,但它表明较低的温度值可能更适合注释任务,因为它似乎可以提高结果的一致性而不会大幅降低准确性。
必须强调的是,对 ChatGPT 进行测试非常困难。内容审核是一个复杂的主题,需要大量资源。除了立场之外,研究人员还为特定研究目的开发了概念类别。此外,一些任务涉及大量类别,然而 ChatGPT 仍然达到了很高的准确率。
使用模型来注释数据并不是什么新鲜事,在使用大规模数据集的计算机科学研究中,人们经常会标注少量样本然后用机器学习进行扩增。不过在表现超过人类之后,未来我们或许可以更加信任来自 ChatGPT 的判断了。
关键词:
(责任编辑:黄俊飞)推荐内容
- 淘宝店铺名称可以修改吗?在哪里改? 每
- 满坤科技:公司产品的研发、生产及应用暂
- 今日看点:中国证监会对集海资源出具境外
- 重点聚焦!《中沙群岛造礁石珊瑚》出版
- 世界热资讯!法律规定拆迁被打怎么办?
- 丰元股份7月3日盘中涨幅达5% 热门看点
- 油画雕塑领域的“新青年”们 又有哪些新
- 离岸人民币兑美元较日低反弹约200点
- 天天新资讯:南非祖鲁王疑遭投毒正接受治
- 教你如何修复msgsvc.dll丢失 每日焦点
- iphone4s手机铃声最好(iphone4s手机铃声
- 矢志不渝飞天 卅年奋斗梦圆(科技名家
- 酸菜碎肉干捞粉,南宁夏天的必选美食,爽
- 腾龙健康IPO:境外销售占比超八成藏风险
- 最新!芦恒路新建工程迎来重要节点,预计
- 胡望明与宝武在鄂单位负责人座谈交流,提
- 环球观点:桂林大学生遇难_5名大学生死亡
- 12567910打一成语(1256789打一成语)
- 中金:港股市场迎接关键政策窗口期-天天
- 致公堂
- 广州白云湖上“群龙争霸”!白云区龙舟邀
- 比亚迪混动汽车哪款好_比亚迪混动汽车有
- 百胜中国(09987.HK):6月30日耗资约100万
- 中通客车:预计上半年净利润同比增长82%-
- 热门:迎峰度夏电力保供有坚实基础 多个
- 鸿星尔克两个商标的区别_严厉打击侵权假
- 仲春上浣(仲春)
- 小麻雀怎么养才能养活_小麻雀应该吃什么虫
- 价格触底了!4TB梵想PCIe4固态破千
- 北京中外服_北京外服进口时装有限公司相
- 首届亚洲霹雳舞锦标赛在杭州开幕 上演世
- 157轮竞拍!台州一热门地块拍出9.64亿元
- 7.85亿元!史上第二贵肖像画诞生:克林姆
- 中国海水入侵的主要原因是什么-焦点
- 7档双离合手自一体是什么意思 七档双离
- 大学生如何担当民族复兴大任论文_青少年
- 快讯2023-07-01 23:23:51-世界快播
- 天天即时:燃!久久不见,海南“村VA”球
- 湘潭:深化合作交流 构建研学体系-天天
- 头条:极氪 6 月交付破万 极氪 001
- 蹦蹦,是转职成辣妹的小时! 今日关注
- 潘功胜任央行党委书记
- 电脑电源接通但未充电解决办法(电脑电源
- 施工资料由哪八项资料组成_施工资料包括
- 翼神传说OVA_关于翼神传说OVA介绍-天天报
- 【环球快播报】皮蛋瘦肉粥的详细配料及做
- 全球快看点丨国家发改委主任郑栅洁:坚决
- 快资讯:切实做好全市民政系统火灾防控工
- 财联社创投通:一级市场本周94起融资环比
- 前沿热点:六级难度是4级的几倍_六级英语
- 工会送清凉 防暑保安康|广东工会:“智
- 西平县文广旅局开展文化市场综合执法“闪
- 云南文旅登场西旅会 政企合作文旅融合
- 小鸡宝宝考考你不小心把水银体温计摔碎后
- 股票行情快报:海螺新材(000619)6月30
- 变异性咳嗽哮喘能根治吗_哮喘能根治吗-天
- 世界动态:最高时速350公里!广西这条铁路
- 三国演义人物分析曹操_三国演义人物分析
- 每日热讯!各地多措并举为高校毕业生拓岗
- 快看点丨苍兰诀的男主(徐海乔说苍兰诀结
- 广州白云湖上“群龙争霸”!白云区龙舟邀
- 比亚迪混动汽车哪款好_比亚迪混动汽车有
- 百胜中国(09987.HK):6月30日耗资约100万
- 中通客车:预计上半年净利润同比增长82%-
- 热门:迎峰度夏电力保供有坚实基础 多个
- 鸿星尔克两个商标的区别_严厉打击侵权假
- 仲春上浣(仲春)
- 小麻雀怎么养才能养活_小麻雀应该吃什么虫
- 价格触底了!4TB梵想PCIe4固态破千
- 北京中外服_北京外服进口时装有限公司相
- 首届亚洲霹雳舞锦标赛在杭州开幕 上演世
- 157轮竞拍!台州一热门地块拍出9.64亿元
- 7.85亿元!史上第二贵肖像画诞生:克林姆
- 中国海水入侵的主要原因是什么-焦点
- 7档双离合手自一体是什么意思 七档双离
- 大学生如何担当民族复兴大任论文_青少年
- 快讯2023-07-01 23:23:51-世界快播
- 天天即时:燃!久久不见,海南“村VA”球
- 湘潭:深化合作交流 构建研学体系-天天
- 头条:极氪 6 月交付破万 极氪 001
- 蹦蹦,是转职成辣妹的小时! 今日关注
- 潘功胜任央行党委书记
- 电脑电源接通但未充电解决办法(电脑电源
- 施工资料由哪八项资料组成_施工资料包括
- 翼神传说OVA_关于翼神传说OVA介绍-天天报
- 【环球快播报】皮蛋瘦肉粥的详细配料及做
- 全球快看点丨国家发改委主任郑栅洁:坚决
- 快资讯:切实做好全市民政系统火灾防控工
- 财联社创投通:一级市场本周94起融资环比
- 前沿热点:六级难度是4级的几倍_六级英语
- 工会送清凉 防暑保安康|广东工会:“智
- 西平县文广旅局开展文化市场综合执法“闪
- 云南文旅登场西旅会 政企合作文旅融合
- 小鸡宝宝考考你不小心把水银体温计摔碎后
- 股票行情快报:海螺新材(000619)6月30
- 变异性咳嗽哮喘能根治吗_哮喘能根治吗-天
- 世界动态:最高时速350公里!广西这条铁路
- 三国演义人物分析曹操_三国演义人物分析
- 每日热讯!各地多措并举为高校毕业生拓岗
- 快看点丨苍兰诀的男主(徐海乔说苍兰诀结
- 为何蜀戏冠天下?“梅花”陈智林刘谊与香
- 营造拥军爱军浓厚氛围 城步县举办国防教
- 当前资讯!老农出门拾粪遇大汉奸,怒而将
- 当前快讯:纬创斥资9.99亿新台币入股芯片
- 莱茵生物:公司天然甜味剂主要从甜叶菊、
- 石榴木命好不好(命运发展如何)-热点评
- 中小学幼儿园学生“暑期陪伴计划”出台
- 天天热议:IneosGrenadierQuartermaster皮
- 吉林省小学生篮球联赛总决赛在长开赛 焦
- A股异动|中药股冲高 莱茵生物涨停
- 美联邦最高法院裁定大学招生不得考虑种族
- 马云出山,淘宝变革,中小商家的机会来了
- 全球短讯!华达科技:6月29日获融资买入4
- 每日简讯:wcdma是什么网络制式_wcdma是
- 拍卖行拍出假艺术品后不认怎么办? 鉴定
- 【环球报资讯】下半年股价有望“翻倍”股
- 一岁半宝宝食谱100例_一岁半宝宝食谱_天
- 黄磊豆腐花做法?
- 【全球独家】全职高手dnd_全职高手dnf
- 血糖高怎么办什么方法降最好_血糖高怎么
















