快速访问通道
首页
新闻动态
研究团队
教学相关
招聘招生信息
English Vesion (Updating)
首页
新闻动态
大新闻
实验室动态
学术报告
研究团队
教授
博后
博士生
硕士生
毕业生
实验室助理
以往成员
研究成果
代表作论文
论文
专利及软著
主要获奖
专著书籍
讲座视频
支持的项目
研究方向
自动驾驶
文档图像智能
遥感检测
视频分析
工业检测
医疗辅助诊断
教学相关
招聘招生信息
联系我们
照相馆
Open Menu
首页
新闻动态
返回
大新闻
实验室动态
学术报告
研究团队
返回
教授
博后
博士生
硕士生
毕业生
实验室助理
以往成员
研究成果
返回
代表作论文
论文
专利及软著
主要获奖
专著书籍
讲座视频
支持的项目
研究方向
返回
自动驾驶
文档图像智能
遥感检测
视频分析
工业检测
医疗辅助诊断
教学相关
招聘招生信息
联系我们
返回
照相馆
研究成果
代表作论文
论文
专利及软著
主要获奖
专著书籍
讲座视频
支持的项目
代表作论文
当前位置:
首页
>
研究成果
>
代表作论文
27
2020-11
【ECCV 2020】Mask TextSpotter v3: Segmentation Proposal Network for Robus...
Mask TextSpotter V3是首个端到端文本检测识别器Mask TextSpotter (ECCV 18, TPAMI 21) 的V3版本,在此前工作的基础上,该算法提出基于分割的候选生成网络,从而能更好处理各种不规则文本,此外,本算法还提出一种hard RoI masking机制,利用生成的候选多边形从特征图中提取对应信息,提供给后续模块。该算法刷新了各个benchmark的性能峰值,是Spotting算法的新标杆。
21
2019-11
【TPAMI 2020】Gliding vertex on the horizontal bounding box for multi-ori...
本文提出了一个简单而有效的检测多方向对象的框架。该方法不直接回归四个顶点,而是滑动每个对应边上的水平边界框的顶点,以准确描述多方向对象。具体来说,本文回归了四个长度比,这四个长度比值表征了每一侧的相对滑动偏移量。这可以避免定向对象顺序标签点的混淆问题。为了进一步解决近水平对象的混淆问题,我们还引入了一个基于对象与其水平边界框之间面积比的倾斜因子,指导每个对象的水平或定向检测的选择。我们将这五个...
22
2018-09
【CVPR 2018】DOTA: A Large-scale Dataset for Object Detection in Aerial I...
本文构建了一个用于航空图像中旋转对象检测的大规模数据集DOTA。该数据集包含从不同的传感器和平台收集了2806幅航空图像,每幅图像的大小约为4000×4000像素,包含显示各种比例、方向和形状的物体,完全注释的数据集包含188282个物体实例,它比该领域现有的任何数据集都要大得多。与一般的自然图像相比,本文使用旋转边界框注释大量分布良好的旋转对象,这些遥感图像由航空图像判读专家使用15种常见物体类别进行标记。本文还建立...
25
2018-06
【TPAMI 2018】Aster: An attentional scene text recognizer with flexible r...
Aster是一个用于处理各种形变、不规则布局文本的识别算法,是RARE (CVPR 2016)的扩展版。 Aster包含了一个矫正网络以及一个识别网络,是可以端到端训练的神经网络。矫正网络通过Thin-Plate Spline变换将文本进行矫正。识别网络则是一个带有注意力机制的sequence-to-sequence模型,可以识别出被矫正图像上的字符序列。ASTER在文本图像识别任务以及端到端的整图文本识别任务中都展现了优异的性能。
30
2017-07
【CVPR 2017】Detecting Oriented Text in Natural Images by Linking Segment...
SegLink是一种自下而上的文本检测算法。大多数先进的文本检测算法是针对水平的拉丁文本,并且速度难以满足实时性应用。SegLink将文本分解为两个独立的可检测的元素,分别称为segment和link。segment指包围单词或者文本行的可旋转框。link则是用于连接相邻的segment,用以指示segment属于同一单词或者文本行。这两个元素都可以通过神经网络进行预测。link对各个segment进行链接,从而组成最终检测结果。在水平、旋转以及多语言文本数据集上的卓越表现说明了SegLink的精度高、速度快和灵活性强的特点。
29
2017-03
【TPAMI 2017】An end-to-end trainable neural network for image-based sequ...
CRNN全称为Convolutional Recurrent Neural Network,主要用于端到端地对图像中不定长文本序列进行识别,不需要先对单个字符进行切割,而是将文本识别转化为时序依赖的序列到序列学习问题。预测过程中,先使用标准的CNN网络提取文本图像的特征,再利用双向LSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过基于时序连接序列解码(CTC)的转录层将特征向量解码为目标字符串序列。实验结果表明了该算法在场景文字识别中的优越性和实用性。
首页
上页
1
2
下页
尾页
到第
页
跳转
Copyright © 2022 Vision and Learning Representation Group