因为即使是一个在当前情况下能给出70个真标记的人，面对非常差的人工智能的时候，也会只

首页发布

#华为重启门[超话]#我也来发一下求助我的华为p30是前段时间摔了内屏坏了在此之前手机使用没有问题然后因为疫情昨天终于可以到华为售后换了内外屏由于是我家人拿去修的今天我收到开机发现一直打不开一直重启然后联系售后说是让我试试恢复出厂设置因为我备份不了数据就不想这样然后就是一直打不开进不去后面隔了一会重启突然发现可以进去了没点几下再次没反应重启[泪][泪]
因为昨天刚花了七百多换屏所以这次重启我肯定应该还是要修的请问大家有没有修好的呀像这种情况售后负责吗急死了大学生封了这么久好不容易能修了还这样[泪][泪][泪][泪]

好像没发过禁言期间做的灵魂戳戳绣。
P1，我的第一个作品，名字叫《可怕的大嘴水母》，用色大胆（毛线颜色没选好），多处混色晕染（戳的技术不好），虽然有借鉴太太的图但是大家应该看不出。
P2，我的第二个作品，名字叫《差不多的爱禾》，图标是我用爱禾logo拓上去的，但是戳到一半才发现是logo的镜像（我应该镜像了再拓的），由于不想重来只好安慰自己差不多然后戳完了。
目前还没有第三个作品。[开学季]

围观教授讨论实验设计

今天我的两个导师和一个统计系的教授围绕图灵测试的实验设计和数据分析展开了激烈的讨论。再简单回顾一下图灵测试。图灵测试是让人工检验生成数据真实度。比如说混合50个真实数据和50个生成数据。当人工智能比较差的时候，人能轻松分辨出真实数据和生成数据的区别，对应的会选择出50个数据为真，50个数据为假。

但是当人工智能越来越好的时候，生成数据就会越来越接近真实数据。人的判断开始出现误差。一方面人们还保持着自身的误差；另一方面，由于越来越多生成数据过于真实，人们判断真实数据为真的数量会变少，生成数据为真的数量会变多。最后人们给出的数据标记为真的数量会偏离五十。

比方说，我们能很清楚的判断出50个人和50个计算器声音的区别，从而给出50个真实标记。但是当计算器被换成最先进的人工智能语音的话，我们知道里面有一部分声音是合成的。所以不光我们会把人工智能的声音当成人发出来的，我们也会把一部分人的声音当成是合成的。这样我们给出的标记为真的数量就很难恰好为50。有时候可能是70，有时候可能是35。

这种偏差是有三部分决定的，一个是我们本身的判断偏差，一部分是δ(判断为真 | 图片为真)的偏差，还有一部分是δ(判断为假 | 图片为假)的偏差。

从假说检验的角度来看，如果我们想要验证每个人有区分真实和生成图片的能力，我们的零假设是：
H0: P(判断为真 | 图片为真) p = P(判断为真 | 图片为假) 1-q
或者：
H0: P(判断为假 | 图片为真) 1-p = P(判断为假 | 图片为假) q
这两个假设数学上等价。

但是由于测试者不同，大家的偏差也不一样，从而p_i和q_i并不服从同一个高斯分布。即使我们有了一系列的 (p_i, q_i), 也不能直接计算它们的检验统计量。

但是我之前提出的计算z-score方法也存在问题。因为即使是一个在当前情况下能给出70个真标记的人，面对非常差的人工智能的时候，也会只给出50个真标记。只有当人工智能足够以假乱真的时候，这个人的判断才会服从以~70%为中心的高斯分布。模型稍微弱一点的时候，他的选择并不等同于随机选择。

经历了七个小时的讨论，他们对问题达成了共识。但每个测试者面对的是众多单个的样本，不同的测试者又有着不一样的评价误差，所以还是没有讨论出一个切实可行的方案。我也该好好想想该用什么更准确的统计方法来归一化图灵测试的结果。

#浆果科研日常#