学术报告:以文字为中心的自然场景理解:从文字识别到视觉问答

发布者:发布时间:2020-10-10浏览次数:10

报告题目:以文字为中心的自然场景理解:从文字识别到视觉问答

报告时间:20201014日下午16:00-18:00

报告地点:理工楼211

报告人:殷绪成

报告摘要:文字是自然场景中最直接最重要的信息,如何提取和理解这些文字成为自然场景理解中一个重要的中心任务。同时,复杂环境下的文本检测与识别、视觉问答也是模式识别、计算机视觉领域中的研究热点和应用难点。本报告首先简要回顾自然场景中的文本检测、文本识别及基于场景文本的视觉问答技术;然后重点介绍团队最近提出的基于深度学习的文本检测和视觉问答技术:基于深度关系推理图网络的场景文本检测方法、基于多模态信息融合网络的文本视觉问答系统。

报告人简介:殷绪成,男,北京科技大学教授、博导,计算机与通信工程学院副院长,模式识别与人工智能技术创新实验室主任,IEEE Senior Member,中国图象图形学学会文档图像分析与识别专委会副主任/秘书长、中国自动化学会模式识别与机器智能专委会委员、中国计算机学会计算机视觉专委会委员、中国人工智能学会模式识别专委会委员。主要研究领域包括模式识别、文字识别、计算机视觉及人工智能芯片技术,近五年来在中国计算机学会推荐的国际期刊和会议上发表论文四十多篇,连续四届(2013201520172019年)荣获国际文档分析与识别大会技术竞赛文本检测和文本识别等15项冠军,连续四年(2015201620172018年年)荣获国际生物信息文本语义检索与问答技术挑战平台BioASQ Challenge多项第一名,获2019年度北京市科技进步一等奖(第一完成人)、2018年度教育部科技进步二等奖(第一完成人)。