同行评议也是聊天机器人写的吗?一项近日公布于 arXiv 预印本服务器的研究,在同行评议报告中确定了可能具有人工智能文本特征的流行形容词。这表明,研究人员正在转向 ChatGPT 和其他人工智能工具来评价他人的工作。
作者研究了自 ChatGPT 发布以来,人工智能聊天机器人可以在多大程度上修改提交给 4 个主要计算机科学会议的论文集的同行评议报告。
分析表明,高达 17% 的同行评议被聊天机器人大幅修改,尽管尚不清楚研究人员是使用这些工具从头开始创作评议报告的,还是仅为了编辑和改进书面草稿。
德国柏林工程应用技术大学的 Debora Weber-Wulff 表示,鉴于聊天机器人经常产生误导性或捏造的信息,其为未发表的作品撰写评议报告“非常令人震惊”。“人工智能系统会‘产生幻觉’,我们不知道它们何时产生幻觉,何时不产生幻觉。”
自 2022 年 11 月发布以来,ChatGPT已被用于撰写大量科学论文,在某些情况下甚至被列为作者。在接受《自然》杂志 2023 年调查的 1600 多名科学家中,近 30% 的人表示曾使用生成式人工智能撰写论文,约 15% 的人表示曾将其用于自己的文献综述和经费申请书。
在这项研究中,由美国斯坦福大学计算机科学家梁伟欣(音,下同)领导的团队开发了一种技术,通过识别人工智能比人类更频繁使用的形容词来搜索人工智能创作的文本。
研究人员比较了 ChatGPT 发布前后提交给同一会议的 14.6 万多篇同行评议中的形容词使用情况。分析发现,自聊天机器人的使用成为主流以来,某些积极形容词的频率显著增加,如“值得称赞的”“创新的”“细致的”“复杂的”“显著的”和“多才多艺的”。这项研究列出了使用频率最高的 100 个形容词。
研究发现,对会议论文集评价较低、在截止日期前提交的以及作者最不可能回应或反驳的评议中,最有可能包含这些形容词。因此,至少在某种程度上,这最有可能是聊天机器人撰写的。“当人们没有时间的时候,倾向于使用 ChatGPT。”梁伟欣说。
该研究还调查了 2019 年至 2023 年间,15 种《自然》期刊接受发表的约 1 万篇手稿的 2.5 万多篇同行评议。结果发现,自 ChatGPT 发布以来,相同形容词的使用并没有出现激增。
施普林格 · 自然的一位发言人表示,出版商要求同行评议人员不要将手稿上传到生成式人工智能中,并指出这些工具仍有“相当大的局限性”,评议可能包括敏感或专有信息。
该发言人表示,施普林格 · 自然正在探索为同行评议人员提供安全的人工智能工具以指导他们评议的想法。
英国伦敦大学学院的 Andrew Gray 表示,梁伟欣的研究发现,在 ChatGPT 发布后的评议中,流行词的增加“非常惊人”。他近期的一项研究估计,2023 年发表的至少 6 万篇论文的作者在某种程度上使用了聊天机器人,至少占当年发表的所有学术研究的 1%。
Gray 说,同行评议人员可能只是在编辑或翻译时使用了聊天机器人,但由于缺乏透明度,很难判断。“有证据表明这些工具正在被使用,但我们并不真正了解是如何被使用的。”
“我们不希望做出价值判断,也不希望声明使用人工智能工具审查论文一定是好是坏。”梁伟欣说,“但我们确实认为,为了透明度和问责制,估计最终文本中有多少可能被人工智能生成或修改是很重要的。”
来源:中国科学报;作者:王方;图片来自:Pixabay,如有侵权,请联系本账号删除。
作者研究了自 ChatGPT 发布以来,人工智能聊天机器人可以在多大程度上修改提交给 4 个主要计算机科学会议的论文集的同行评议报告。
分析表明,高达 17% 的同行评议被聊天机器人大幅修改,尽管尚不清楚研究人员是使用这些工具从头开始创作评议报告的,还是仅为了编辑和改进书面草稿。
德国柏林工程应用技术大学的 Debora Weber-Wulff 表示,鉴于聊天机器人经常产生误导性或捏造的信息,其为未发表的作品撰写评议报告“非常令人震惊”。“人工智能系统会‘产生幻觉’,我们不知道它们何时产生幻觉,何时不产生幻觉。”
自 2022 年 11 月发布以来,ChatGPT已被用于撰写大量科学论文,在某些情况下甚至被列为作者。在接受《自然》杂志 2023 年调查的 1600 多名科学家中,近 30% 的人表示曾使用生成式人工智能撰写论文,约 15% 的人表示曾将其用于自己的文献综述和经费申请书。
在这项研究中,由美国斯坦福大学计算机科学家梁伟欣(音,下同)领导的团队开发了一种技术,通过识别人工智能比人类更频繁使用的形容词来搜索人工智能创作的文本。
研究人员比较了 ChatGPT 发布前后提交给同一会议的 14.6 万多篇同行评议中的形容词使用情况。分析发现,自聊天机器人的使用成为主流以来,某些积极形容词的频率显著增加,如“值得称赞的”“创新的”“细致的”“复杂的”“显著的”和“多才多艺的”。这项研究列出了使用频率最高的 100 个形容词。
研究发现,对会议论文集评价较低、在截止日期前提交的以及作者最不可能回应或反驳的评议中,最有可能包含这些形容词。因此,至少在某种程度上,这最有可能是聊天机器人撰写的。“当人们没有时间的时候,倾向于使用 ChatGPT。”梁伟欣说。
该研究还调查了 2019 年至 2023 年间,15 种《自然》期刊接受发表的约 1 万篇手稿的 2.5 万多篇同行评议。结果发现,自 ChatGPT 发布以来,相同形容词的使用并没有出现激增。
施普林格 · 自然的一位发言人表示,出版商要求同行评议人员不要将手稿上传到生成式人工智能中,并指出这些工具仍有“相当大的局限性”,评议可能包括敏感或专有信息。
该发言人表示,施普林格 · 自然正在探索为同行评议人员提供安全的人工智能工具以指导他们评议的想法。
英国伦敦大学学院的 Andrew Gray 表示,梁伟欣的研究发现,在 ChatGPT 发布后的评议中,流行词的增加“非常惊人”。他近期的一项研究估计,2023 年发表的至少 6 万篇论文的作者在某种程度上使用了聊天机器人,至少占当年发表的所有学术研究的 1%。
Gray 说,同行评议人员可能只是在编辑或翻译时使用了聊天机器人,但由于缺乏透明度,很难判断。“有证据表明这些工具正在被使用,但我们并不真正了解是如何被使用的。”
“我们不希望做出价值判断,也不希望声明使用人工智能工具审查论文一定是好是坏。”梁伟欣说,“但我们确实认为,为了透明度和问责制,估计最终文本中有多少可能被人工智能生成或修改是很重要的。”
来源:中国科学报;作者:王方;图片来自:Pixabay,如有侵权,请联系本账号删除。
一些广为流传的谣言
Q&A1 有造谣称本账号是“垂直多层靶等同于垂直半无限靶”的源头。
然而实际上对于两者的区别,本账号至少在2020-2021年就明确提到了【https://t.cn/A6Ygmbec】即便最早的表述也没有什么不妥之处,因为模拟并不是等同,实践中也多层垂直靶可以在一定条件下模拟垂直半无限靶板,没见过用斜靶模拟垂直靶的。
Q&A2 那么大倾角单层靶板(法线角60°+)和多层垂直靶孰水? 如果不考虑目的(防护标定/威力鉴定等),单纯是穿甲威力摸底,那很显然,在现阶段实践中,对现有的、正式型号的大口径高性能长杆穿甲弹试验(弹药、着速及靶板硬度等条件一致)那几乎都是打大倾角单层靶的临界穿透比打多层垂直靶DOP成绩更“优秀”。【https://t.cn/A6HL4l0n,图1】,虽然这个曲线的样本量很少,但是也不难看出在兵器速度范围内,4层垂直靶的防护系数依旧比50~60°单层靶要好得多,不用说现在的大倾角靶板角度都在68~75°。那些所谓多层垂靶水分比单层斜靶更大的东西,可能不仅是看不懂图表。
Q&A3 至于采用大倾角靶板鉴定威力就是跑分吗? 凡事都是相对的,如果你在证明自己产品先进性的表格中“严于律人,宽以待己”,那你不跑分注水谁跑分注水?典型案例如: https://t.cn/A6YdgxX5,https://t.cn/A6HL4l0u。还有那些明知是大倾角斜靶穿深却注明{相当于垂直靶}的,是什么目的我不好说,而且实际上内行都很清楚物理上并不相等【图2】,尽管单层靶的规律已经很清晰且易于归一化,但是展示给你或者“外行”的却不是那样。
Q&A4 多层垂直靶模拟半无限垂直靶需要控制哪些因素? 实践中多层垂直靶系统总体的防护系数受间隙和约束影响,简单来说贴的越紧、边框焊得越牢固就越接近一整块靶板,微小间隙将削弱靶板整体的防护系数。随着间隙增大,防护系数下降(P/L增大)并趋于稳定,分层越多在一定间隙范围内防护系数下降越厉害。而间隙足够大时,由于弹芯并非完美对称,微小扰动的积累又导致防护系数增加。此类研究并不少见【图3,在仿真理想条件下0间隙多层靶跟单一靶没有区别,这是因为边界条件理想化,实际多层靶拼起来并没有那么牢固】。
Q&A5 有没有国外全都采用垂直靶作为唯一标准这种说法?
不仅没有,甚至网上广为流传的各类西方斜靶/垂直靶的档案数据都是从我这发布的,传谣者显然记吃不记打。我在非公开场合提到过主要是德国一系列使用Rh120及衍生产品的国家常用垂直靶,还很早就提到了多层垂直靶常用于作为穿甲试验的空白对照组,当然这也跟豹2一类西方坦克采用垂直组合装甲有关系【图4-5】。然而在一型穿甲弹的威力指标中多层垂直靶只是其中一项,其他包括多层斜靶和特殊目标装甲也是重点考核指标。此外,模拟垂直半无限靶是要求不被击穿的,而用于穿甲威力鉴定不击穿自然没得后效可测,垂直靶板也不好模拟锅盖头假想敌大角度的装甲区。西方少有的公开的成熟穿甲弹产品宣传数据【图6,以色列设计的弹药】,都是给出大倾角靶板指标,毕竟这玩意的应用场景合理、数据漂亮、规律门清、易于验证、且试验成本低廉,何乐而不为?但是也没有特意标注“相当于垂直靶”[doge]。
Q&A1 有造谣称本账号是“垂直多层靶等同于垂直半无限靶”的源头。
然而实际上对于两者的区别,本账号至少在2020-2021年就明确提到了【https://t.cn/A6Ygmbec】即便最早的表述也没有什么不妥之处,因为模拟并不是等同,实践中也多层垂直靶可以在一定条件下模拟垂直半无限靶板,没见过用斜靶模拟垂直靶的。
Q&A2 那么大倾角单层靶板(法线角60°+)和多层垂直靶孰水? 如果不考虑目的(防护标定/威力鉴定等),单纯是穿甲威力摸底,那很显然,在现阶段实践中,对现有的、正式型号的大口径高性能长杆穿甲弹试验(弹药、着速及靶板硬度等条件一致)那几乎都是打大倾角单层靶的临界穿透比打多层垂直靶DOP成绩更“优秀”。【https://t.cn/A6HL4l0n,图1】,虽然这个曲线的样本量很少,但是也不难看出在兵器速度范围内,4层垂直靶的防护系数依旧比50~60°单层靶要好得多,不用说现在的大倾角靶板角度都在68~75°。那些所谓多层垂靶水分比单层斜靶更大的东西,可能不仅是看不懂图表。
Q&A3 至于采用大倾角靶板鉴定威力就是跑分吗? 凡事都是相对的,如果你在证明自己产品先进性的表格中“严于律人,宽以待己”,那你不跑分注水谁跑分注水?典型案例如: https://t.cn/A6YdgxX5,https://t.cn/A6HL4l0u。还有那些明知是大倾角斜靶穿深却注明{相当于垂直靶}的,是什么目的我不好说,而且实际上内行都很清楚物理上并不相等【图2】,尽管单层靶的规律已经很清晰且易于归一化,但是展示给你或者“外行”的却不是那样。
Q&A4 多层垂直靶模拟半无限垂直靶需要控制哪些因素? 实践中多层垂直靶系统总体的防护系数受间隙和约束影响,简单来说贴的越紧、边框焊得越牢固就越接近一整块靶板,微小间隙将削弱靶板整体的防护系数。随着间隙增大,防护系数下降(P/L增大)并趋于稳定,分层越多在一定间隙范围内防护系数下降越厉害。而间隙足够大时,由于弹芯并非完美对称,微小扰动的积累又导致防护系数增加。此类研究并不少见【图3,在仿真理想条件下0间隙多层靶跟单一靶没有区别,这是因为边界条件理想化,实际多层靶拼起来并没有那么牢固】。
Q&A5 有没有国外全都采用垂直靶作为唯一标准这种说法?
不仅没有,甚至网上广为流传的各类西方斜靶/垂直靶的档案数据都是从我这发布的,传谣者显然记吃不记打。我在非公开场合提到过主要是德国一系列使用Rh120及衍生产品的国家常用垂直靶,还很早就提到了多层垂直靶常用于作为穿甲试验的空白对照组,当然这也跟豹2一类西方坦克采用垂直组合装甲有关系【图4-5】。然而在一型穿甲弹的威力指标中多层垂直靶只是其中一项,其他包括多层斜靶和特殊目标装甲也是重点考核指标。此外,模拟垂直半无限靶是要求不被击穿的,而用于穿甲威力鉴定不击穿自然没得后效可测,垂直靶板也不好模拟锅盖头假想敌大角度的装甲区。西方少有的公开的成熟穿甲弹产品宣传数据【图6,以色列设计的弹药】,都是给出大倾角靶板指标,毕竟这玩意的应用场景合理、数据漂亮、规律门清、易于验证、且试验成本低廉,何乐而不为?但是也没有特意标注“相当于垂直靶”[doge]。
#莽星星莽辰辰[超话]##重庆动物园大熊猫投喂泛滥##重庆动物园大熊猫投喂记录#
2024年5月7日星辰院子投喂扔垃圾记录(至少1次):
① 2024年5月7日上午10:40左右:有游客扔了不明垃圾进星辰院子,10:45饲养员进院子捡走
本账号从3月26日开始记录到今天5月3日、5月5日、5月7日,41天共记录星辰院子投喂、扔垃圾等不文明行为127次,而且这还只是看到的部分情况。
2024年5月7日下午,院子内施工,装好了防护网,希望能有用。
2024年5月7日星辰院子投喂扔垃圾记录(至少1次):
① 2024年5月7日上午10:40左右:有游客扔了不明垃圾进星辰院子,10:45饲养员进院子捡走
本账号从3月26日开始记录到今天5月3日、5月5日、5月7日,41天共记录星辰院子投喂、扔垃圾等不文明行为127次,而且这还只是看到的部分情况。
2024年5月7日下午,院子内施工,装好了防护网,希望能有用。
✋热门推荐