为了加强对这一新任务的研究，我们提出了两种类型的视频全光数据集。我们提出了两种通过

首页发布

【基于RGB-D的获取、可视化和测量用于饮食治疗的人体框架 | RGB-D-based Framework to Acquire, Visualize and Measure the Human Body for Dietetic Treatments】

本研究旨在使用最先进的RGB-D传感器和虚拟现实(VR)技术改进饮食营养治疗。最近的研究表明，使用多媒体技术可以提高对治疗的依从性。然而，为此目的使用3D数据和VR技术的研究很少。另一方面，在接受饮食治疗的患者中，获得人体的3D测量并随时间(4D)分析它们是一个具有挑战性的领域。这项工作的主要贡献是提供了一个框架来研究4D身体模型可视化对坚持肥胖治疗的影响。该系统可以使用低成本技术获得身体的完整3D模型，允许将来具有足够的准确性和逼真的可视化的直接转移，使得能够分析肥胖治疗期间形状的演变(4D)。3D身体模型将用于研究可视化对使用2D和VR设备进行肥胖治疗的依从性的影响。此外，我们将使用获取的3D模型来获得身体的测量。对所提出的获得合成对象和真实对象的测量方法的精度进行了分析。
arXiv.2007.00981: https://t.cn/A6yAqi3k
time: 2020-07-02T09:30:47Z
#CV论文上新咯#

【多深度：通过双深度传感器进行静态手势识别 | Duodepth: Static Gesture Recognition Via Dual Depth Sensors】

静态手势识别是用户和他们的设备之间有效的非语言通信通道；然而，许多现代方法对于用户的手相对于捕获设备的相对姿势是敏感的，因为手势的一部分可能会被遮挡。我们提出了两种通过来自两个深度摄像机的同步记录进行手势识别的方法，以缓解这个遮挡问题。一种是更经典的方法，使用迭代最近点配准来精确融合点云和用于分类的单一PointNet架构，另一种是用于无需配准的分类的双点网架构。在手动收集的20，100个点云数据集上，与标准的单摄像机管道相比，融合点云方法的错误分类减少了39.2%，双PointNet方法的错误分类减少了53.4%。
arXiv.2006.14691: https://t.cn/A6LkXDlI
time: 2020-06-25T20:41:47Z
#CV论文上新咯#

【视频全视图分割 | Video Panoptic Segmentation】

全视图分割将以往的语义分割和实例分割任务结合起来，成为视觉识别任务的新标准。在本文中，我们提出并探索了一个新的视频任务扩展，称为视频全光分割。该任务需要生成一致的全视图分割以及跨视频帧的实例 id 关联。为了加强对这一新任务的研究，我们提出了两种类型的视频全光数据集。第一个是将合成 VIPER 数据集重新组织成视频全光格式，以利用其大规模的像素注释。第二个是 Cityscapes val 上的时间延伸。集，通过提供新的视频全光注释(Cityscapes-VPS)。此外，我们还提出了一种新的视频全光分割网络(VPSNet) ，它可以联合预测视频帧中的对象类、边界盒、掩码、实例 id 跟踪和语义分割。为了给这个任务提供合适的度量，我们提出了一个视频全光质量(VPQ)度量，并评估了我们的方法和其他几个基线。实验结果验证了两个数据集的有效性。我们实现了最先进的结果在图像 PQ 的城市景观，也在 VPQ 的城市景观-vps 和 VIPER 数据集。数据集和代码是公开的。
arXiv.2006.11339: https://t.cn/A6LHrupU
time: 2020-06-19T19:35:47Z
#CV论文上新咯#