回顾这一切，我们看到 Vision Pro 和混合现实功能“空间环境”质上也是中介的

首页发布

Apple 的 Vision pro 诸多博主已经介绍得足够多，我个人不看好（主要是太贵）。当然，也可以说贵是我的错，和 Apple 无关。但我倒是想吹点别的，更本质的一些东西。

Vision pro 与其他同类设备相比，真正有区别的也就只有三点：

首先，Vision Pro 配备了超高分辨率的面板，并结合注视点渲染技术（foveated rendering），为用户带来优质视觉效果。官方表示，Vision Pro 能让用户清晰地看到文字，媒体实测结果亦证实了这一优势。

其次，Vision Pro 通过12颗镜头和5组传感器配置，实现卓越的自然交互。首先是手势识别功能，由于设备特意配置了下方镜头，用户无须抬手即可轻松操作。其次是支持眼球追踪技术，除了成为注视点渲染技术基础外，还允许用户通过注视来与界面互动，例如查看某个应用程序图标。

最后，Vision Pro 提供创新的穿透画面体验，官方称之为“空间环境”。用户仅需调整设备上的旋钮，即控制画面的透明度。简而言之，想象虚拟画面好像是一个可调节透明度的画布图层。在完全沉浸的情况下，将透明度调至最低；若想感知周围环境，可将透明度调至适中，进入混合现实状态。

具体而言，Vision Pro 这种混合现实设备到底满足或创造了哪些体验？我认为可以大致划分为两大类。

第一类是“扩展输出”，最直观的体现是传统观点中的“戴上头盔就像拥有100英寸屏幕”或“无限屏幕”。人类与数字信息之间的最大隔阂一直是屏幕，甚至可以说它是一种带宽限制。屏幕限制了我们接收信息的数量以及信息接收的位置。无论是 Vision Pro 还是其他虚拟现实头戴式设备，最直观、也最易于消费者沟通的就是屏幕在理论上可以无穷尽，并且可以出现在任何地方。

第二类是“自然输入”，最具体的表现是手部操作信息、用眼睛表达意图、用声音下达指令。长久以来，人们一直在寻找“键盘/鼠标”之后的下一代操作界面。例如，眼球追踪大厂 Tobii 曾与 Intel 合作，推出笔记本用的眼球操控外挂套件，但结局并不理想。

关键问题可能在于新的输入范式必须与新的输出环境相结合，才能发挥其潜力。手势和眼球操作在虚拟现实中的价值不仅仅是因为键盘输入受限，而是因为面对理论上无限数量的屏幕时，手势和眼球的特点才能得以充分发挥。

扩展输出与然输入是相互关联、相辅相成的，两者扩大了用户的信息接收带宽和信息处理能力，但这并非 Vision Pro以及接下来的类似设备的全部潜力。我认为第二层潜力来自于“中介”。

Vision Pro 有一个名为 Persona 的有趣功能，使用设备前置的 3D 摄像头扫描自己后即可制作一个相对真实的 3D 虚拟形象这个虚拟形象何时派上用场？通讯环境中，除了官方的 FaceTime，未来还将支持 Zoom、Teams、Web 等主流在线会议软件。

Apple 并不是第一个想到这个点子的公司。NVIDIA 几年前就针对视频会议场景推出了 Maxine SDK，通过整合的 AI 模型，用户只需用手机简单扫描自己就能生成一个栩如生的 3D 化身。

什么时候会用到 3D 形象/化身？不愿露脸、今天状态不佳、脸受伤、刚起床头发乱、需要视频会议但衣冠不整等。3D 形象刚好提供了一个位于静态图片与实时视频之间的中间选项。

回顾这一切，我们看到 Vision Pro 和混合现实功能“空间环境”质上也是中介的结果，因为用户眼睛所见的画面都是摄像机和传感器捕捉到的信息重新计算形成的。

实际上，“中介”的现象早已存在于我们周围的生活，如现场演出使用的自动调音就是一种中介。然而，我们正极其快速地通过新技术体验到中介真实。

WWDC 上还有一项“微不足道”的更新，未来 AirPods Pro 将自动侦测环境，为穿戴者提供最佳的听觉体验。例如，在吵闹的环境中自动降噪，但当有人要与你交谈时，会自动通透，并增强对方的声音。

令人印象深刻的，并非创新本身，而是科技巨头们的共同愿景。Meta 实验室的首席科学家 Michael Abrash，在 Connect 2020 大会上也进行了一项相关的研究演讲。当时，Abrash 描述一个更具未来感的场景：

一群人在酒吧里喝着酒聊天，耳机会自动进行降噪并增强彼此的说话声音。当有一个无法现场参加的友打来电话时，接电话的人可以将对方“投影”到对面的空位上，并让在场的每个人都能够聆听仿佛对方就在现场的立体声音效。

头戴设备（或未来可能的眼镜式穿戴设备）将为现实世界的中介带来全新的感官体验，这超越了所谓的“历其境”。实际上，临场感的目标在2016年近代的第一波VR热潮期间已经接近实现，因为类对临场感的感知门槛其实比想象中的要低。

对现实世界的中介将会让更多的不可能变为，比如使用3D化身改变人与人之间的沟通。此外，它可以调节家居环境的灯光或布置以改善心情，或让每个人在互动体验中享受定制化主观经历。

然而，不论是更强大的信息输入和输出能力，还是电脑中介的感官体验，我认为目都还不具备“杀手级”的效益。因此，人们很可能把这类设备当作大屏幕显示器或游戏机等专用设备，而并无特定范围的专业适用场景，如教育、建筑等。

我认为赋予这类头戴设备价值的关键方向是AI，尤其是作为一个“情境助手”（contextual assistant）。

比如说iOS17 上的输入法更新：未来手机都会运行一个Transformer模型，帮助打出正确的字，甚至预测用户的意图并提出单词与句子的建议。

另一个例子出自Meta在Connect 2021上发布的Project Aria研究录像。研究员通过佩戴能够实时识别物体的眼镜，在坐到沙发上、看着电视并按下眼镜配套的通用设计按钮后，眼镜已经识别出穿戴者正在注视的是电视，因此判断按钮信号就是启动电视。

Project Aria 的研究方向让人联想到 Meta 之前发布的 Segment Anything Model（SAM）的 AI 模型。SAM 是一个图像分割（image segmentation）AI模型，可以更准确地为物件生成遮挡。实际应用中，SAM 可以提供更好的识别成果。

具有上下文、脉络、情境解释能力的AI在头戴设备中将发挥前所未有的价值。它可以在时间、空间和感知方面与穿戴者同步共享所有情境信息。

配置具有境助手能力的AI将带来生产力上的飞跃。过去，我们在观看各种概念视频时，都会思考：“如果AR眼镜只能显示物品信息，我会想要拥有这个眼镜吗？”。然而，一个缺乏情境助手AI的AR眼镜可能只会给我们带来麻烦。因为如果它不能充当良好的“伙伴”（sidekick）或“副驾”（copilot），只是把信息推向我们的视觉画面这就可能会让我们陷入信息过载，而不是帮助我们更有效地浏览现实世界。

当看到 Vision Pro 的时，我的首要关注点并非产品规格本身，而是：“为什么Apple也要走上这条道路？”在过去的十年里，除了Amazon，美国的主要科技巨头都涉足了XR领域。

不少人都认为XR是下一个计算平台，但即便如Oculus Quest等经济实惠的设备，其销量也仅为2000万台，与愿景相甚远。很多人认为 Apple 可以将生态优势有效地复制到 Vision Pro 上，但首先定价本身便是实现生态优势的一个瓶颈。

因此，我们可以看到一个两极化的讨论：有人觉得这种设备解决了市场上头戴设备面临的一系列问题，提供了卓越体验和操作性能；同时也有人认为它仍只是一个头戴设备，没有什么杀手级突破。

作为一名长期关注VR设备发展的观察者，我越来越清楚地认识到，每一代产品都一个漫长过程中的节点，我们关注的重点应该是每个节点是否更接近最终爆发点。

从这个角度来看，Vision Pro 确实具有里程碑意义。它不仅大幅提高了“信息输入输出能力”，还首次针对“中介”体验提出了充满创意、技术优势品质的解决方案。

未来，我们还将看到更多中介时期产品的迭代。更让人期待的是随着AI技术的突破性发展，这样很快我们就能看到搭载情境助理AI的头戴设备问世。届时，XR领域将迎来真正的爆发点。

同事问我，要出差去办中国签证的时候带这些材料以外还带啥么？
我说：带上笔记本电脑、一瓶水和饼干、最好在带个板凳[求饶]
这可都是经验啊！这样呢就可以先去拿预约号，然后留一个人轮流在里面盯着，其他人出来在走廊里找个凉快地方支起小板凳开始办公。[嘘]这经验其他人我都不告诉～
#日本[超话]##微博新锐博主##亿点曝光计划#