苹果Vision Pro的5个关键问题,我们问了开发者

苹果Vision Pro的5个关键问题,我们问了开发者
0:00
0:00
文章来源: - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
(被阅读 次)


2 月 2 日,苹果 Vision Pro 在美发售,吸引了全球的目光。

Vision Pro 实际试戴体验如何?与过去的那么多款 VR、AR 设备有什么不同?

空间计算是一个噱头吗?库克宣布 All-in Vision Pro,那么开发者现在是不是也该 All-in?

关于这些大家关心的话题,极客公园邀请了两位在 XR 领域有多年经验的从业者,也是早早用上了 Vision Pro 的尝鲜者,聊聊他们使用 Vision Pro 的真实体验,以及基于这样的体验,他们会不会选择现在投入 Vision Pro 的应用开发中。

两位嘉宾之一是刘天一,从 2015 年开始接触 AR 行业,有多年 XR 行业解决方案和 C 端产品设计的经验。曾任职于国内 AR 公司亮亮视野多年,目前是独立开发者。

另一位是 Allen Xiang,虚实之间网络科技的创始人。Allen 2016 年就接触了 XR 行业,曾在多家互联网大厂任职,包括腾讯的 XR 部门。目前,Allen 接受了美元基金的投资,正在进行 XR 应用开发的创业。

极客公园与两位在 XR 领域有着多年从业经验的创业者进行了两个小时的对话。在对话中,两位创业者指出了 Vision Pro 的体验突破性的关键,苹果在推进 Vision Pro 的发展中将出现哪些优势和劣势,中国厂商有没有可能追上 Vision Pro,以及他们认为,未来哪些应用或将成为爆款。

以下是极客公园与刘天一、Allen Xiang 的对话节选,由极客公园整理。

体验:连玩 7 小时不累,透视功能强大

极客公园:两位都已经上手了这款产品,先简单讲讲拿到 Vision Pro 使用的第一印象吧?

刘天一:我是在北京商场里的「空间计算网吧」,Vision Pro 的租赁体验店里体验到的,玩了大概两个小时左右。

接触到 Vision Pro 的第一印象是,整体感觉非常苹果。无论是包装,还是各种设计风格,融合了 iPhone、Airpods Max 以及 Apple Watch 上面的各种设计元素,拿到手的第一感觉是很熟悉。

使用后印象最深的,是它上手非常简单。很多人都体验过不同种类的 XR 设备,上手的难度其实是 XR 设备中的一大痛点。通常情况下,旁边要有一个人告诉你说,「你看见那个点了吗?你按这个键,去点一下那个点。」非常麻烦。

而 Vision Pro,我从戴上,开机,到被引导着使用数字表冠,再到被引导注册我的手和眼,全套流程大概也就是 2 分钟就完成了,而且过程中没有什么我要去学习的东西,上手难度非常低,这一点让我印象很深。

苹果专卖店里消费者无需引导自己试用 Vision Pro | 图片来源:视觉中国

Vision Pro 手眼交互的易用性也很强。过去的 XR 设备,我们如果用手来交互,都需要把手抬起来,放在面前去点击和捏合。苹果这一次把向下的摄像头做的非常好。

这是我用了这么多设备,第一个能让我非常慵懒地躺在沙发上,然后手都不用从腿上抬起来,简单地捏合一下我的食指和拇指,看哪里点哪里,就能完成交互的设备。

Allen:我的 Vision Pro 是刚好有朋友从美国飞回来带回给我的。我刚刚拿到,从中午拿到到刚刚我们连线的晚上七点左右一直没有摘过。

我体验了多个场景,包括带着它下楼,去便利店买东西吃,晚上去到商场里,和同事一起吃快餐。我也带着它使用透视的功能,使用我的 Windows 电脑进行办公了一段时间。

我在仔细调整完角度后,觉得佩戴上没有任何体验上的问题。7 个小时下来眼睛不会酸也不会累。

我体验过的朋友中,大家普遍评价都非常高。我认为 Vision Pro 带来了一个转折点,是它的透视(Video See-Through, VST)达到了一种基本可用的程度。

因为视觉透视功能中,需要算力对现实世界的物体在 XR 头显中实时进行 3D 重建,你看到的景象都是实时生成的,如果算的不够快的话,就会出现水波纹。

水波纹的效果指的是,如果你拿一个近场的物体,比如拿手在面前挥一挥,然后远景的物体就会产生一种波纹的感觉,像你在扰动水面一样。那种感觉像是你是魔法师,你的手一动就会扰动这个世界。而在 Vision Pro 上,这种感觉被完全干掉了,让人真的觉得带着它干什么都可以,可以戴着它正常生活了。

槽点的话是,整个 OS 交互完全限制了用户移动中使用,系统级窗口不是自认为中心跟随的,移动超过 1.5 米,独占的 MR 应用也会消失,想要把用户局限在一个固定的场景来使用 Vision Pro,还是缺失了很多想象空间的。

另外还有一些比较细的技术难点,可能苹果都很难跨越:比如说如果你在走路的话,每次落足时的撞动会带来运动模糊,我在便利店买饮料时,感觉每次踏一下步,画面会糊一下。

再比如你要定睛看某些字的时候,比如看手机,手机还是得保持完全不动。手机保持稳定的情况下回微信,刷淘宝都可以,但是要是一边走路一边看手机就不行。

极客公园:Vision Pro 有六百多克,也看到许多外媒报道,Vision Pro 设计的前坠感比较明显,长时间佩戴可能不舒服。连续戴 7 个小时没有不舒服,是幸存者偏差吗?

Allen:真的不是。因为我是 XR 行业的从业者,我的朋友圈里面有非常多去美国购买 Vision Pro 的人,一些朋友从坐美国飞回中国,很长的旅程中也能一直戴着,两个电池换着充电。

华尔街日报记者挑战 24 小时佩戴 Vision Pro|图片来源:YouTube 频道 The Wall Street Journal

目前我们看到的网上所有关于重量的差评,基本上都是说它会挤压眼睛下方颧骨的位置。这个位置一旦感觉到挤压,超过 10 分钟可能就觉得很不舒服。这可能是因为 Solo 的绑带没有绑紧,或者是没有换上双环的绑带。一定要进行细微调整,让头显的上方更多地去贴合面部。

我自己体感,唯一有点感觉脖子酸的场景是你完全坐直,脖子有一点点前倾的时候,眼眶那个位置会感觉到重量,有点往下沉的感觉。

但是能有这样的感觉,前提是要脖子保持长时间不动。比如在你全神贯注地用一个姿势看电影,或者是你去投屏 Mac 的电脑办公在 Vision Pro 里办公的时候。只要不要坐的非常直,身体有一个低一点或者抬一点的角度,其实都可以很舒服地看完两个小时的电影。

这样的不舒服其实不是重量带来的,而是由于力矩分布不均匀带来的。因为本身 Vision Pro 的设计也有一些前坠的感觉,如果在后面挂一个一两百克的小电池,均衡一下前后配重,重量就完全不是问题。

刘天一:如果说看电影两个小时的话,我觉得半躺或者全躺在沙发上,应该是没有任何问题的。

这个设备确实有一些明显的前坠感,但戴在头上绝对没有那种不舒适的感觉,我戴了一个小时,用下来感觉没有什么疲劳感。

空间计算,XR 的另一种叫法

极客公园:两位也都是体验过很多款 XR 设备的人,Vision Pro 的区别在哪?

刘天一:我感觉 Vision Pro 应该是我第一款能够带着到各个场景里面去走动的一个产品。

在此之前,只有芬兰公司的 Varjo 产品的视觉透视效果让我感受到有点接近于肉眼看世界的效果,但 Varjo 产品并不是一款无线的产品。而且它是纯针对 B 端的产品,为飞行员、汽车建模等等专业用户设计的,在国内一套买下来要 5-8 万左右,比苹果的产品还贵。

Vision Pro 的视觉透视效果上,它的色彩,面对大光比光源不会出现某些区域的严重的过曝或者死黑,以及弱光下没有明显的噪点,没有很强的水波纹和拼接,都做到了非常好。

苹果在方便用户走起来以及考虑用户安全性方面,也做了很多的细节的处理。我记得苹果最早这款设备设计的充电线是磁吸的,而我体验的时候,它是变成旋转卡紧的卡扣式的了。我想这也是考虑了行走中,万一线被突然碰掉,眼前一片黑有危险的。移动的时候,人眼前的弹窗也会淡出消失,停下来才会重新回到视野中心。

此外,苹果相对于 Meta(Quest)这样的设备的一个最大的差别,在于算力。它具有桌面级的算力,市场上没有第二个产品有这样的性能。

Vision Pro 使用了双芯片 其中 M2 芯片之前被用在苹果笔记本电脑上|苹果官网

举个例子,如果我们使用 Vision Pro 直播,它的算力足够我们每个人做出一个数字分身,实时生成我们的动态,而之前 Meta 公司的设备做这些就很难,它只能用一些抽象的卡通形象去完成。Vision Pro 的算力跑分到达了 Quest 设备的四五倍、五六倍,这是非常高的一个水平。

Allen:我可以把 Vision Pro 与 Quest 头显做一个对比。Quest 头显是欧美非常主流的一款产品。

Quest 设备也有视频透视功能。Pico 等产品使用单目画面做扭曲重建,而 Quest3 的视频透视功能采用了双目立体建模和点云重建,扭曲感和深度的感觉已经很不错。但是它的视频透视功能,出来的效果仍然有水波纹。而 Vision Pro 做出来的效果已经达到了 80 分,是一个普通消费者不需要再去关注的属性了。

清晰度方面是硬参数,苹果也没有办法突破物理学。Quest 实际上的入眼像素只有 400 多万,然后再加上 FOV 的话,折算可能就 260 万左右。Vision Pro 入眼像素大概 600 多万,从噪点上,能感受到 Vision Pro 的清晰度提升了大概 60% 左右。

「你会感觉现实有一点糊,但你不会感觉它就不是现实了。」|图片来源:影视飓风

延迟方面,人眼的反应的灵敏度大概就在 20 毫秒上下。普通消费者在 60 毫秒以下,已经感知不到很明显的区别。Vision Pro 大概 12 毫秒延迟,Quest 实测 50 毫秒左右。这个东西可能有点因人而异,敏感一点的人或许能感觉到流畅性的差别。

佩戴体验上,Vision Pro 跟 Quest3 的体验是相近的,但面罩更硬一点,所以我觉得改第三方面罩和头戴配件,来提升体验对这两种设备来说都是必要的。

而且由于 Vision Pro 的纵向 FOV 要比 Quest3 小很多,透视的潜望镜效应会更明显,或许未来会有很多用户会改成类似 Quest Pro 那样的开放式面罩来获得更沉浸的透视体验。

我觉得 Vision Pro 属于已经达到了一个大家已经挑不出刺的水平。而 Quest 头显则是普通戴着,玩游戏和一些 MR 应用没什么问题,但是视频透视,则能感受到很明显的水波纹等等问题。体验上可能是 60 分到 80 分的区别。

Vision Pro 和 Quest 3 从价格上来说,一个两万多,一个三千多。Vision Pro 的定位偏观影和办公,它没有很好的游戏生态,开发者没办法那么好地从 Unity 的生态迁移过来。Quest 头显就是游戏机。我也尝试着戴着它办公过,确实没办法骗自己,我觉得那个是大多数人都无法接受的一个状态。

极客公园:这次苹果很努力地宣传「空间计算」这个概念,而不是 XR。从你们的感觉,空间计算和 XR,有很大的不同吗?

刘天一:我觉得本质上是同一个东西,但是苹果作为一个厂商,想要使用一个不同的品牌,在一个自己创造的品牌里,有一个领导者的地位。

其实大家可以回忆一下,在 Vision Pro 前,苹果一直讲的是 AR,但是现在主提空间计算,其实无外乎是因为在 VR 也好、AR 也好、元宇宙也好,这几个专属名词的赛道上,苹果都不能算是先行者,或者是之前最耀眼的那个公司。

那么如果提出一个朗朗上口,易于传播并且契合自己理念的名字,未来它可能想用空间计算来去取代掉过去的这些名词。

目前我们看到苹果的很多应用,仍然是 2D 的。对于 iOS,Mac 的开发者来说,其实是能够很轻易的在 Vision Pro 上去完成新应用的构建,甚至把 iPad 之类的应用移植过来都很方便,所以在可预见的将来,它会是 XR 行业里面应用生态成长最快的一个平台。但我其实 2D 应用不算代表了空间计算。

苹果宣传片中也是 2D 应用居多|图片来源:苹果 Vision Pro 宣传片

前面提到苹果的芯片算力非常强,3-6 个月后,应该会有一些真正的 3D 应用做出来,能够突破我们所熟悉的物理的限制和束缚。这时候苹果应该会进一步去给大家洗脑,强化大家认知,说这个才叫空间计算,你们以前玩的都是垃圾,我觉得可能会这样发展。

Allen:对,我也觉得现在 Vision Pro 首发的这些应用,还完全没有办法代表苹果想打出的这个空间计算的愿景。

基于 SwiftUI 或者是原生的 ARKit 的开发者并不多。因为之前使用这些工具去开发的,都是为手机开发 AR 场景,拿手机扫一扫出来一些特效,是一个很小众的场景。

而使用 VisionOS 原生的 RealityKit 去做 3D 的包装,你又会发现它的整个组装能力没有那么的丰富,跟 Unity、Unreal 这样成熟的 3D 引擎比起来还差得远。

而 Unity 改过来兼容移植过来的应用,Unity 又卡了一手——你要开 Pro 版,你要交会员费,你才能去用这个功能,否则只有一个月的免费的试用期,一个月的试用期可能是移植不完的。

所以很多大的 VR 厂商,如果没有去跟苹果谈一些二方合作的话,不会那么急着去做制作兼容、移植。

这造成现在原生的 3D 应用不多。但并不是说 Vision Pro 未来只有这些 2D 的应用,或者苹果只想要做这样的东西。

「Android 版」空间计算会跟上吗?

极客公园:聊到生态,未来一两年会不会出现 Vision Pro 这边有一个苹果的空间计算的生态,而另一边会有像一个Android这样的生态出现?

刘天一:我个人觉得短时间内还是有难度的,长时间是有机会的。这一次苹果在 Vision Pro 上甩其他厂商甩的比当年 iOS 甩 Android 要远很多,我比较悲观,我觉得可能在 5 年左右才会出现这样的机会。

比如,首先苹果在潜心去研发 M 系列芯片的时候。英特尔、高通的芯片并没有在低功耗无风扇化的这条路上走的那么激进。所以其实到苹果真正把这个算力堆出一个满足及格线的产品的时候,我们在市场上找不到任何一款可以和它媲美的芯片,更不用说里面的 R1(Vision Pro 里处理视觉追踪数据的芯片)。

硬件的层面甩了其他家很多,就意味着在相当长的一段时间内,苹果这个平台上能够看到的内容的质量,在其他的平台上我们是很难看到的。

苹果公司总部对面的苹果商店开始售卖 Vision Pro|图片来源:视觉中国

整套系统的延迟优化,眼动手势交互,文字和图形渲染的优化,都需要追赶。

举个例子,我们在 PC 电脑上和手机上看到文字是经过渲染优化的,让我们看起来没有明显的锯齿。但是这个基于静态屏幕做的这种文字栅格填充和次像素渲染的算法,如果拿到 XR 上就不适用了,因为在 XR 中,人们可能倾斜着对着屏幕,有可能远,有可能近,因此使用原先的那一套字体渲染的方法就不适用了。

Meta 追赶的是不错,但是就 Android 系统本身来说,系统层面这方面应该没有看到有什么动作。我们如果想解决它的延迟问题,解决渲染的清晰度问题,一些预设的手势、眼动的交互的问题,还是要交给厂商自己来做,这个代价就会非常大。

如果想要做一个复杂度接近 Vision Pro 可能 60%、 70% 的产品,一个小几百号人的团队其实是非常捉襟见肘的,因为 Android 在底层没有提供这方面能力,大家不太好做。

但是如果时间再久一点,尤其是我觉得可能在两年以后,苹果的应用生态和内容生态得到一个大发展的时候,市场也会希望有苹果的替代品,更便宜的、更轻的,或者其他功能更适合我自己,它市场的需求摆在这了,相应的 Android 的生态也会跟到位,但是下一代平台,是不是还属于 Android?

我其实认为很多厂商的机会是比较平等的,除了Android,国内的系统,包括其他的第三方系统我觉得也不是不可期待的。

Allen:我的感受是追 VST 这个形态没有那么的难,难的可能是在于生态上面。

我们把它拆成三层,一层是硬件本身,另外一层 OS 的基建,然后再上面一层才是生态和开发者的这些东西。

如果我们单纯说硬件的话,硬件比手机复杂,主要在透视和光学上面。这是手机行业没有接触过的领域。手机拍照镜头跟我们去做这种放大的这种镜头,它其实不属于同一种光学领域,所以这些对应的人才都是要重新培养的。

但因为 XR 头显本身比较大,大其实代表着冗余。这里面有非常多硬件可以取舍的地方。苹果确实有优势,苹果的结构件做的特别特别复杂,但是它的复杂来自于为了做到极致。如果不做到那么极致,可能成本会掉的非常快。用一些现成的解决方案,你还是能攒出来一个感觉上有苹果 80% 硬件实力的东西的。

华米 OV 里面一个做手表的团队可能都有一两千人,所以团队方面,完全是看厂商认不认可这是一个未来市场,BG 的老大感没感受到压力。纯硬件角度的差距可能就是一年半、两年左右的一个时间,而且就在当下的每一个切片,可能都能拿出来一个苹果 80% 的一个体验的一个硬件出来。

为了极致而复杂的 Vision Pro|图片来源:苹果官网

然后至于中间层,其实今天 OS 层开发的研发人才海内外都很多,已经不是当年全球都找不出来多少做 OS 开发的情况,我觉得 OS 今天可能难在一些,像天一说的这种文字的次像素渲染这种很细的问题,它不是说特别难,但很刁钻,要做很多很多小细节的优化,可能是要花人力去堆的一个状态。但这里的窗口期拉的时间长一点,OS 层的这个底层优化我觉得是没有任何问题的,感觉也是两年左右的差距。

难可能难在生态上面。因为过去 Meta 有在游戏行业的生态号召力,然后 iOS 有帮助到很多的开发者赚钱。然后两家各拥抱了一个生态,Meta 选择拥抱 Unity,然后苹果也拥抱,但是还没有那么彻底,要推自己那套原生的开发的架构。

对应的 Android 阵营,我感觉 OpenXR(XR 领域的开源标准)还没有那么成熟,至少两三年内我看不到作为 MR 应用的开发者,大家很想要去拥抱 OpenXR 那套生态体系。比如说国内的厂商,想要基于 OpenXR 去推这个东西可能就很难了,里面优化的坑特别特别多。基于不同的底层架构,优化移植的成本很高。

听起来 OpenXR 和 Meta 的设备感觉还挺兼容的,但我们自己去尝试做架构的兼容移植,会发现这里的坑可能好像比当年Android去适应不同的机型的难度要大 10 倍以上。开发者就会考量,花这个时间值不值得,如果出货量很小,那为什么要做兼容移植呢?我感觉这里面有非常长的路要追。

应用:空间图片和轻娱乐

极客公园:Vision Pro 目前也有一些原生应用,比如空间视频和空间照片。它的体验感如何?

刘天一:Vision Pro 给我体验留下印象最深的应该就是它的照片和视频的部分。我的感受是已经非常接近你在实际场景中去看眼前这个人的感觉。

2D 照片和视频中,严格意义上来说人的鼻尖和脸颊其实是在一个深度上,只能是通过图片上的光影,用大脑的脑补出它的深度。

但是在空间视频和空间照片中,我们是可以这样轻轻地移动自己的头部和身体去环绕这个场景进行观察的,非常有真实场景的感觉。

我也和很多行业内的其他朋友交流过,他们说如果有这样一个设备,可以帮你显示那些不在你身边的亲朋好友,或者甚至说的再激进一点,已经不在人世的这些亲朋好友,能够去给你还原这个瞬间,那么你愿意花多少钱,多少的时间去使用这样的一个设备?这件事会让很多人的意向瞬间变得更强烈。

使用 iPhone 15 Pro 就能制作空间视频|图片来源:苹果

我当时使用的时候,看到了一张巴黎的照片。我之前去巴黎的时候,也在那个位置拍过照,当时感觉一下子就回到那个现场了,临场感特别强。

它的照片不是简单的这样平铺在我的眼前,而是透过一个大概一米六几,一米七左右的这样的一个窗口向外去观察。当我这样站起来或者低下去的时候,我能看到这画面的边缘以外,其实是还有画面的,好像是透过一个窗口向外看巴黎的这个城市。

这种临场感,我在其他的 XR 设备上确实还没有体验到这么好的感觉。

不过我个人感觉,空间视频和空间照片的清晰度可能还有点低,所以看起来也没有想象中的那么好。我觉得苹果在将来应该还会在这个拍照上继续去迭代,把这方面的体验去完善。

Allen:过去 180 3D 的内容其实很少,因为之前能够生产 180 3D 的设备就不是很多。播放端和生产端之间,因为参数的各种不一致,还会导致不匹配,纵深感会很弱,3D 感会很弱。

所以之前,其实我们是没有办法接触到很多日常场景的 180 度 3D 的优质内容的。即使是从业者也接触不到很多。

苹果其实没有创造一种真正很新颖的格式,但是它的景深,还有光圈比例等等,都调的很接近人眼,可能只是清晰度差一点。

我们也录了一些相关的视频,发现大家熟悉了之后,已经不会在使用中一直歪头去看它的 3D 效果了。所以,在一个固定的位置下,你的双目的纵深感和它给你呈现的畸变角度的还原,有没有很像真实世界,这个感觉才是最重要的。

不是说苹果有什么特殊的黑科技,而是苹果定义了这个行业规范。

空间计算,真正的创业机会

极客公园:作为开发者,你们会考虑为 Vision Pro 开发内容吗?

刘天一:我不太可能会把它当做一个主要的工作方向,但可能会闲暇时间去尝试做一些应用。

因为它目前还没有很大的出货量,很多的开发者把它买回去,或者是评测人士、行业内的人买它回去进行一个测试。我觉得可能还要再看两三批的出货,来看看它的表现如何,再进一步的决定。现在可能不适合把它作为一个公司的创业方向来去做。

但是个人闲暇时间如果有一些好玩的、小的应用或者想法是可以写一写,上去试一试的。前两天看群里有人就是相当于抢这个先机,因为这个平台它刚刚发布的时候,上边没多少应用,自己马上发一个,可能随便一卖几十万美元也到手了。

使用 Vision Pro 换眼睛显示效果的小应用效果图 实际开发者无权限开发类似应用|图片来源:X 平台 RAP MAIS

不过我觉得 Vision Pro 的互动空间网吧,类似于院线的这种模式,可能会有一定的商机。

消费者花一定的钱去租赁它的设备,包括后面有更多数字内容跟上的话,为了新鲜体验,消费者会愿意去购买。甚至是再往后有可能赚的钱都不定来自消费者,也有可能来自推广。

另一个我觉得比较好的模式,是 VR 的大空间互动,比如前段时间的《消失的法老》,我觉得做得很成功。我觉得这个模式在 Vision Pro 上是可能复制的。

在 Vision Pro 之前,其他的这些 XR 设备没有一个能够把视觉、听觉等等各方面的感官体验每一条都拉到一个及格线。

它在这方面体验上及格了之后,再配合上比如说嗅觉、触觉、味觉,包括现场的装置,去做一些互动的话,一次体验卖个几百的门票,我觉得不难。

Vision Pro 再往后发展个几代之后,我认为这很适合一些电影行业的人参与进来去做,可以观察一下。

Allen:我们目前在 Quest 平台上开发 MR 社交应用和 MR+AI 的一些互动游戏的体验的娱乐的应用。

如果要为 Vision Pro 开发的话,我现在自己的观察到的是,现在的用户很需要的,其实就是一些轻娱乐和更游戏化的场景。

尤其是我自己一直觉得桌游这个品类,会是非常非常适合 MR 的一个品类。或者墙上会跳出来那种有节奏的音符、歌词,一些垂直的一些小玩法,节奏音游类游戏的 MR 版本,都有很大可以挖掘的空间。

极客公园:为没有 Vision Pro 适配应用做第三方应用,是一个好生意吗?

刘天一:这就是我刚才所说的,短暂满足某一类群体需求,然后赚一些很小的快钱,它大概是这样的一个定位。

其实我觉得,那些没推出原生应用的大厂和大的品牌,反而是值得关注的。现阶段急着抢一个第一,其实做出来的往往就是很粗暴的把 iPad 上的应用给移植过去了。

真的能把这个三维空间的这种深度,包括这种直观的手眼交互给融入到下一代更高效的人机交互里面,应该怎么样去做?我觉得现在大家应该都还在探索。

极客公园:看到一个概念图,在 Vision Pro 里做 DeepFake,实时换脸,甚至走向黑镜里犯罪后别人在眼镜里看到的他是一个完全的马赛克,这个是可以实现的吗?

Allen:这个看苹果给不给权限了,给不给开发者实时的摄像头的视频的数据。

技术上是没有难度的,之前我看日本的一个大学已经做到了,对车辆实时抠图,让路过你身边的车辆都显示为外星飞船,应该是 2021 年,2022 年的事情了。

对应的包括现在的实时的视频处理技术已经非常非常成熟。今天在手机上,其实已经有一些没有上架的应用可以做到这样的功能了,包括一些违反伦理的 AI 一键脱衣等应用都已经出来了。

XR 平台上这样的事情只会更可怕。

在 Vision Pro 里看对方的虚拟分身|图片来源:YouTube 频道 Marques Brownlee

这就会回到应用生态,它想不想让你这种类型的产品上架,会不会开放这些权限。苹果不给做的话,那对应的 Android 厂商有没有某家厂商敢冒大不韪去做这样的事情。也有可能 20 年、 30 年,我们永远都不会走到这一天。

因为苹果它也做了很多的特殊的处理,它会给开发者点云深度的各种的信息,但它会做加密和处理,比如它会抹掉你的材质,他不会告诉你的开发者,这个用户的家里的桌子是木质的还是大理石制的,我只能知道有个桌子在这。

开发者生态,用户隐私以及平台的诉求,这三者之间会互相博弈,最后达到一个和谐共存的点,然后开发者只能在这个状态下,去探索出来各种有意思的应用。