因为即使是一个在当前情况下能给出70个真标记的人，面对非常差的人工智能的时候，也会只

首页发布

真的好烦啊！现在正在过双十一，我家这边也没有红头文件说禁快递和出门的，小区明明有快递柜但是不让快递进来投递一天八百个快递电话叫我下楼拿快递[哆啦A梦害怕] 只有我觉得居委和物业都是废物吗？超级无敌多的解决方法外加完全没有文件要求禁止快递进小区。而且实际情况来看，不让快递投递快递柜和投放到家门口，在小区门口疯狂聚集人流，比如我家这几天明明只有做核酸需要下楼，现在变成一天出门3-4趟。平时偏早或者偏晚才去拿快递，现在被逼在下午人流最多的时候和一堆小区的人有接触，我还得24h候着快递，快递也浪费时间等我，真的不考虑规范一下哪些地方应该禁快递哪些地方不要草木皆兵吗？

微软承认 Win11 22H2 存在游戏掉帧 / 卡顿问题，现已暂停向受影响的 N 卡用户推送

在 Windows 11 2022 更新 (22H2) 发布之后，就有用户注意到此次更新后可能会出现一些游戏和其它相关的性能问题，尤其是使用英伟达显卡的用户。

不过，英伟达将该问题归咎于微软，称 Windows 11 22H2 中新的 GPU 调试工具存在异常，结果会导致游戏性能出现大幅下滑。尽管后来英伟达特意针对这一问题发布了驱动更新，但问题仍然存在。

近两个月之后，微软终于承认了这个问题，并确认英伟达是对的。微软在其 Windows Health Dashboard 上发布了有关该问题的详细信息，并表示将阻止了受影响设备自动更新到 22H2。

提醒，微软还提供了一种临时解决方案，建议用户更新他们的游戏或相关应用到最新版本。最后，微软还表示，他们正在修复这个问题，并要求用户避免手动更新操作系统。

实际上，除了英伟达 GPU 的兼容性问题外，许多评测者和游戏玩家也一直在反馈 AMD Ryzen 处理器的性能问题，虽然 AMD 声称自己没有发现此类问题，但一些测试人员坚持认为问题确实存在，并引用了许多的测试结果以证明 Win11 存在兼容性问题。目前来看，似乎只有英特尔平台的用户没有太大影响。

围观教授讨论实验设计

今天我的两个导师和一个统计系的教授围绕图灵测试的实验设计和数据分析展开了激烈的讨论。再简单回顾一下图灵测试。图灵测试是让人工检验生成数据真实度。比如说混合50个真实数据和50个生成数据。当人工智能比较差的时候，人能轻松分辨出真实数据和生成数据的区别，对应的会选择出50个数据为真，50个数据为假。

但是当人工智能越来越好的时候，生成数据就会越来越接近真实数据。人的判断开始出现误差。一方面人们还保持着自身的误差；另一方面，由于越来越多生成数据过于真实，人们判断真实数据为真的数量会变少，生成数据为真的数量会变多。最后人们给出的数据标记为真的数量会偏离五十。

比方说，我们能很清楚的判断出50个人和50个计算器声音的区别，从而给出50个真实标记。但是当计算器被换成最先进的人工智能语音的话，我们知道里面有一部分声音是合成的。所以不光我们会把人工智能的声音当成人发出来的，我们也会把一部分人的声音当成是合成的。这样我们给出的标记为真的数量就很难恰好为50。有时候可能是70，有时候可能是35。

这种偏差是有三部分决定的，一个是我们本身的判断偏差，一部分是δ(判断为真 | 图片为真)的偏差，还有一部分是δ(判断为假 | 图片为假)的偏差。

从假说检验的角度来看，如果我们想要验证每个人有区分真实和生成图片的能力，我们的零假设是：
H0: P(判断为真 | 图片为真) p = P(判断为真 | 图片为假) 1-q
或者：
H0: P(判断为假 | 图片为真) 1-p = P(判断为假 | 图片为假) q
这两个假设数学上等价。

但是由于测试者不同，大家的偏差也不一样，从而p_i和q_i并不服从同一个高斯分布。即使我们有了一系列的 (p_i, q_i), 也不能直接计算它们的检验统计量。

但是我之前提出的计算z-score方法也存在问题。因为即使是一个在当前情况下能给出70个真标记的人，面对非常差的人工智能的时候，也会只给出50个真标记。只有当人工智能足够以假乱真的时候，这个人的判断才会服从以~70%为中心的高斯分布。模型稍微弱一点的时候，他的选择并不等同于随机选择。

经历了七个小时的讨论，他们对问题达成了共识。但每个测试者面对的是众多单个的样本，不同的测试者又有着不一样的评价误差，所以还是没有讨论出一个切实可行的方案。我也该好好想想该用什么更准确的统计方法来归一化图灵测试的结果。

#浆果科研日常#