研究成果-Vision and Learning Representation Group

研究成果

研究成果

当前位置：首页 > 研究成果

22

2022-09

【ECCV 2022 Oral】In Defense of Online Models for Video Instance Segmenta...

该文章是ECCV2022满分文章。文章首先分析了在VIS任务中，offline算法往往领先同时期online算法达到 10AP 左右的现象，并深入分析了导致 online 模型和 offline 模型的巨大性能差距的原因，提出了一个基于contrastive learning的 online 算法：IDOL。该算法可以学习更具有区分度的instance embedding，并且充分利用了视频的历史信息来保证算法的稳定性，将online模型表现提高到一个与offline模型相当甚至更高的水平上。IDOL 在...

22

2022-09

【CVPR 2018】DOTA: A Large-scale Dataset for Object Detection in Aerial I...

本文构建了一个用于航空图像中旋转对象检测的大规模数据集DOTA。该数据集包含从不同的传感器和平台收集了2806幅航空图像，每幅图像的大小约为4000×4000像素，包含显示各种比例、方向和形状的物体，完全注释的数据集包含188282个物体实例，它比该领域现有的任何数据集都要大得多。与一般的自然图像相比，本文使用旋转边界框注释大量分布良好的旋转对象，这些遥感图像由航空图像判读专家使用15种常见物体类别进行标记。本文还建立...

21

2022-09

【ECCV 2020】Mask TextSpotter v3: Segmentation Proposal Network for Robus...

Mask TextSpotter V3是首个端到端文本检测识别器Mask TextSpotter (ECCV 18, TPAMI 21) 的V3版本，在此前工作的基础上，该算法提出基于分割的候选生成网络，从而能更好处理各种不规则文本，此外，本算法还提出一种hard RoI masking机制，利用生成的候选多边形从特征图中提取对应信息，提供给后续模块。该算法刷新了各个benchmark的性能峰值，是Spotting算法的新标杆。

21

2022-09

【TPAMI 2018】Aster: An attentional scene text recognizer with flexible r...

Aster是一个用于处理各种形变、不规则布局文本的识别算法，是RARE (CVPR 2016)的扩展版。 Aster包含了一个矫正网络以及一个识别网络，是可以端到端训练的神经网络。矫正网络通过Thin-Plate Spline变换将文本进行矫正。识别网络则是一个带有注意力机制的sequence-to-sequence模型，可以识别出被矫正图像上的字符序列。ASTER在文本图像识别任务以及端到端的整图文本识别任务中都展现了优异的性能。

21

2022-09

【TPAMI 2016】An end-to-end trainable neural network for image-based sequ...

CRNN全称为Convolutional Recurrent Neural Network，主要用于端到端地对图像中不定长文本序列进行识别，不需要先对单个字符进行切割，而是将文本识别转化为时序依赖的序列到序列学习问题。预测过程中，先使用标准的CNN网络提取文本图像的特征，再利用双向LSTM将特征向量进行融合以提取字符序列的上下文特征，然后得到每列特征的概率分布，最后通过基于时序连接序列解码(CTC)的转录层将特征向量解码为目标字符串序列。实验结果表明了该算法在场景文字识别中的优越性和实用性。

21

2022-09

【CVPR 2017】Detecting Oriented Text in Natural Images by Linking Segment...

SegLink是一种自下而上的文本检测算法。大多数先进的文本检测算法是针对水平的拉丁文本，并且速度难以满足实时性应用。SegLink将文本分解为两个独立的可检测的元素，分别称为segment和link。segment指包围单词或者文本行的可旋转框。link则是用于连接相邻的segment，用以指示segment属于同一单词或者文本行。这两个元素都可以通过神经网络进行预测。link对各个segment进行链接，从而组成最终检测结果。在水平、旋转以及多语言文本数据集上的卓越表现说明了SegLink的精度高、速度快和灵活性强的特点。

21

2022-09

【ECCV 2020】 Epnet: Enhancing point features with image semantics for 3d...

在本文中，我们旨在解决 3D 检测任务中的两个关键问题，包括利用多个传感器（即 LiDAR 点云和相机图像）的融合，以及定位和分类置信度之间的不一致。为此，我们提出了一种新颖的融合模块，以逐点的方式用带有丰富语义信息的图像特征来增强点云特征。此外，采用一致性强制损失来鼓励定位和分类置信度的一致性。通过集成这两个组件，我们设计了一个名为 EPNet 的端到端可学习框架。在 KITTI 和 SUN-RGBD 数据集上的大量实验证明了...

21

2022-09

【TPAMI 2022】Real-Time Scene Text Detection with Differentiable Binariza...

DBNet++是DBNet (AAAI 2020) 文本检测算法的扩展版。该算法主要解决基于分割的文本检测方法需要复杂的后处理将像素级别的结果组合成文字行，导致预测时速度慢的问题。通过提出新颖的可微分二值化和自适应尺度融合模块，DBNet++达到了SOTA的性能，同时具备实时的运行速度。该算法被工业界广泛采用，如微信，OpenCV等。

21

2022-09

【AAAI 2020】Tanet: Robust 3d object detection from point clouds with tri...

本文专注于探索点云中三维目标检测的鲁棒性，这在现有方法中很少讨论。本文观察到两个关键现象：1）困难的物体（例如行人）的检测精度不令人满意，2）当添加额外的噪声点时，现有方法的性能迅速下降。为了缓解这些问题，本文引入了一种新颖的三元注意力网络，命名为TANet，其主要包含一个三重注意模块和一个由粗到精回归模块。三元注意力模块通过同时考虑通道级、点级和体素级的注意力，增强了目标物的关键信息，同时抑制了不稳...

首页上页1下页尾页到第页跳转

Copyright © 2022 Vision and Learning Representation Group