首页 / 互联网 / 百度Q3期间_图像技术获突破_OCR斩获多项第一

百度Q3期间_图像技术获突破_OCR斩获多项第一

2016年Q3期间,百度文字识别(OCR)基于两项最新的深度…

2016年Q3期间,百度文字识别(OCR)基于两项最新的深度学习技术,在文字检测和识别方面取得了重大突破,并在国际文档分析与识别大会(ICDAR)最具挑战性的自然场景类文字识别任务中,斩获五项冠军,远超其余参赛者,并积极推进技术在产品端应用。

ICDAR由国际模式识别协会举办,是全球文档分析与模式识别领域最重要的国际学术会议之一。该会议自成立以来,先后吸引了来自美国、德国、中国、法国、新加坡、俄罗斯、日本、韩国、印度等十多个国家近三十支科研院所、高校和科技公司参加。

ICDAR竞赛中有两个最具挑战的OCR竞赛任务:Challenge 2: “Focused Scene Text”(自然场景对焦文字识别)以及Challenge 4: “Incidental Scene Text”(自然场景随拍文字识别)。这两个任务中的图片都来源于用户拍摄的自然场景图像,例如真实的街道和商场场景,由于待检测和识别的文字处于复杂的自然场景中,且待识别的文字往往有各种各样字体格式,文字的检测和识别具有较大的挑战性。对焦文字识别(Challenge 2)任务中,文字相对较为清晰,图片的拍摄角度尽量保证了文字处于水平的位置,随拍文字识别(Challenge 4)任务的难度更大,图片拍摄并不是专门针对文字区域进行的,存在噪声、模糊以及角度倾斜等不利因素。百度OCR的算法在这两个场景上,检测和识别两个核心技术步骤均取得了世界第一。特别是在随拍场景(Challenge 4)任务中,百度OCR技术的检测、识别、端到端系统,均大幅度领先第二名的指标,检测系统指标达到75.01%,超越第二名3.5%;识别系统68.27%,超越第二名6%;端对端技术的识别准确率达到64%,优于第二名10.7%。

OCR是计算机视觉领域的经典问题,该技术诞生之后,传统的实体文本资料就可以快速地实现数字化,大大提升数据录入和处理效率。作为智能计算机感知世界的入口级技术,OCR的科技应用价值也越来越重要,长期以来一直受到学术界和工业界的持续关注。近几年,Google、Microsoft、Amazon等大型互联网公司以及旷视科技(拥有Face++、Image++)等计算机视觉技术创业公司都在OCR技术上耕耘多年,且逐步将该技术应用于自身产品及业务中,提升产品体验的同时,也创造了巨大的商业价值。

通过深度学习技术的不断优化,OCR技术已经成为百度图像识别技术的重要功能之一,并成功地应用于多款产品中,如手机百度、百度翻译、百度地图、百度贴吧、百度图片、百度钱包、图片广告系统、百度词典、涂书笔记等。除此之外,OCR还在文档图片录入和检索、自然场景输入、网图推荐和反作弊等应用场景中发挥重要作用。百度地图运用OCR技术,自动识别采集全景图片中的信息,实现地图数据快速更新,效率大幅提升。目前,百度 OCR支持中、英、日、韩、葡、德、法、意、西、俄等十国语言,且通过百度开放云对外开放,以满足中小企业对图像文本识别技术的需求。

随着技术的进一步优化,OCR技术将逐步走向产业化发展,更多的投向日常的生产及生活中。以医疗为例,就医过程中常用的诊断书、药品清单、体检表等均有望实现拍照录入系统,快速实现数字化就医,提高看病效率。不仅如此,OCR技术还可应用于无人车、盲人导航、工业自动化、互联网信息挖掘、电商打假等多个领域。未来,百度将充分利用自身大数据及人工智能技术优势,快速提升OCR技术性能,将该技术应用于互联网的更多领域,创造更大的商业价值。

本文来自网络,不代表新科技吧立场,转载请注明出处:https://www.xinkejiba.com/434.html
上一篇
下一篇

为您推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

联系我们

在线咨询: QQ交谈

邮箱: 564999054@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息
返回顶部

Warning: error_log(/www/wwwroot/www.xinkejiba.com/wp-content/plugins/spider-analyser/#log/log-1003.txt): failed to open stream: No such file or directory in /www/wwwroot/www.xinkejiba.com/wp-content/plugins/spider-analyser/spider.class.php on line 2900