该文章是ECCV2022满分文章。文章首先分析了在VIS任务中,offline算法往往领先同时期online算法达到 10AP 左右的现象,并深入分析了导致 online 模型和 offline 模型的巨大性能差距的原因,提出了一个基于contrastive learning的 online 算法:IDOL。该算法可以学习更具有区分度的instance embedding,并且充分利用了视频的历史信息来保证算法的稳定性,将online模型表现提高到一个与offline模型相当甚至更高的水平上。IDOL 在 YouTube-VIS 2019 上达到了 49.5 AP,分别超越了之前的最优的 online / offline 算法 13.2 / 2.1 AP。在更有挑战的OVIS数据集上,IDOL 更是达到了30.2 AP,超越了之前的最优算法一倍。而在最近举行的 CVPR 2022 Large-Scale Video Object Segmentation Challenge, Video Instance Segmentation Track 上,IDOL也超越了一众 online/offline 模型,取得了第一名。
论文链接:https://arxiv.org/abs/2207.10661
代码:https://github.com/wjf5203/VNext