万可分割环境语意理解对AR的影响

*画面分割是计算机视觉技术中的一个重要概念，它可以将图像中的每个像素都分配给其对应的语义类别，从而实现对图像内容的理解和分析。画面分割在很多领域都有广泛的应用和作用，比如人脸识别、虚拟化妆、自动驾驶等。

月初，Meta推出的SAM（Segment Anything model）分割一切带来的效果引爆AI社区。国内开发者通过很快就推出Grounded-SAM对这个进行了一次升级。

但是，你知道画面分割技术对于AR（增强现实）产品有什么作用和价值吗？在本文中，我将作为一个AR产品经理，和大家聊聊画面分割技术是如何实现AR空间的构建和增强、提高AR产品的视觉效果和真实感、优化AR产品的性能和稳定性等方面的。同时，我们还将探讨画面分割技术和SLAM（同时定位与地图构建）技术的混合应用，以及它们对于构建一个“泛在元宇宙空间”的体验场景的可能性。*

大家好，我是一个AR产品经理，今天我想和大家聊聊计算机视觉技术中的一个重要概念——画面分割，以及它对ar行业技术产品带来的影响。

什么是画面分割呢？

简单来说，就是将图像中的每个像素都分配给其对应的语义类别的任务。比如，我们看到一张照片，里面有人、车、树、房子等不同的物体，画面分割就是要把这些物体从背景中分离出来，并且标注出它们是什么。这样，我们就能更好地理解图像中的信息和含义。

画面分割有很多种方法。

常见的有语义分割、实例分割、全景分割等。语义分割是指将图像中属于同一类别的像素都归为一组，不区分具体的物体实例。比如，一张图像中有两辆车，语义分割只会把它们都标记为车，而不会区分它们是哪一辆车。实例分割则是在语义分割的基础上，进一步区分出不同的物体实例。比如，一张图像中有两辆车，实例分割会把它们分别标记为车1和车2。全景分割则是在实例分割的基础上，进一步细化出每个物体实例的轮廓和边界。比如，一张图像中有两辆车，全景分割会把它们的轮胎、车窗、车门等细节都标记出来。

画面分割技术对于AR产品作用和价值

作为锚定技术

画面分割技术可以实现AR空间的构建和增强。通过画面分割技术，我们可以将真实场景中的物体、人物、背景等进行分割和识别，从而获取场景的三维结构和语义信息。这样，我们就可以在真实场景中创建和定位虚拟物体，并且让它们与真实物体产生交互和融合效果，从而构建一个混合现实的空间。比如，在AR眼镜上，我们可以通过画面分割技术将真实环境中的建筑、道路、植物等进行分割和标注，并且在它们上面叠加虚拟信息或导航提示，从而提升用户的导航和认知能力。

沉浸感增强

画面分割技术可以提高AR产品的视觉效果和真实感。通过画面分割技术，我们可以将真实场景中的光照、阴影、反射等进行分析和模拟，从而使虚拟物体能够适应真实场景的光照条件，并且产生相应的阴影和反射效果。这样，我们就可以增强虚拟物体和真实场景之间的视觉一致性和协调性，从而增强用户的真实感和沉浸感。

减少渲染计算负荷

画面分割技术可以优化AR产品的性能和稳定性。通过画面分割技术，我们可以将真实场景中的不必要或干扰的信息进行过滤和抑制，从而减少对AR产品运行所需的计算资源和内存消耗。这样，我们就可以提高AR产品的运行速度和流畅度，并且降低出错或崩溃的风险。

画面分割技术和大空间定位技术的混合应用

SLAM技术和它的局限性

是指在没有任何先验知识的情况下，根据相机和IMU等数据实时构建周围环境地图，同时根据这个地图推测自身的定位。SLAM技术可以分为间接法和直接法，前者通过稀疏或稠密的特征点提取和匹配来实现，后者直接使用实际传感器测量值来实现。

SLAM技术可以实现对场景的三维重建和定位，从而为AR消费者提供一个相对空间中的6DOF体验。

但是SLAM技术只解决“在哪里”的问题，空间特征估算受环境变更的影响。如果环境布置光照等有很大的变化，那么地图的有效期和定位有效率都会受到极大的影响。

SLAM不解决“是什么”的问题，也就是系统是不知道空间中的内容是什么。要通过AR产品对人的智力增强，单一SLAM技术只能提前进行虚景标注，然后让标注信息作为虚景，锚定到空间坐标系中。