详情

基于opencv的OCR文字识别研究与实践

申报人:姚明轩 申报日期:2021-12-06

基本情况

2022校院级项目管理
基于opencv的OCR文字识别研究与实践 学生申报
创新训练项目
工学
计算机类
教师科研项目选题
一年期
OCR的概念诞生于1929年,由德国的科学家Tausheck首先提出, 由于目前互联网上干净准确的文字识别功能的缺失, 本项目希望通过opencv完成ocr文字识别的应用来补全互联网上文字识别的功能。 该项目应用面较广,大致能完成以下工作:证件识别、银行卡识别、车牌识别、名片识别、文字文档识别等。

近三年主持项目

1 PP视频智能推荐系统一期研发         2018.5~2019.1 苏宁人工智能研究院 600万 主持 已完成且应用于PPTV

2 基于多模型融合的千里传音项目研发 2018.9~2019.2 苏宁人工智能研究院 300万 主持 已完成且应用于苏宁易购APP

3 基于GBDT+LR的用户流失预警模型研发 2018.9~2019.2 苏宁人工智能研究院 300万 主持 已完成且应用于苏宁易购APP

4 PP视频智能推荐系统二期研发         2019.2~2019.10 苏宁人工智能研究院 800万 主持 已完成且应用于PPTV

5 PP体育智能推荐项目研发             2019.9~2020.9 苏宁人工智能研究院 800万 主持 已完成且应用于PP体育

6 苏宁易购电商APP内容推荐(图文、视频、直播等)研发 2020.9~2021.4 苏宁人工智能研究院 1000万 主持 已完成且应用于苏宁易购APP

7 基于多模态融合(NLP+CV)的智能打标项目研发          2020.10~2021.4  苏宁人工智能研究院  300万 主持 已完成且应用于PPTV/苏宁易购APP

项目实施过程中技术的指导

项目实施过程中资源上的支持

校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
姚明轩 计算机科学与工程学院(软件学院) 计算机科学与技术(本科) 2020 主研人员
黄易凡 计算机科学与工程学院(软件学院) 计算机科学与技术(本科) 2020 研究人员
何中良 计算机科学与工程学院(软件学院) 计算机科学与技术(本科) 2020 研究人员

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
许良武 计算机科学与工程学院(软件学院)

立项依据

目前互联网上的文字识别功能大多数都存在识别不准确、界面凌乱、广告繁杂等问题

本项目希望通过学习与研究填补市面上整洁、准确文字识别类产品的缺失

并且进一步深化对OCR文字识别技术的研究

基于该项目,用户能获得更简单方便、准确无误的文字识别使用体验

本项目研究内容如下:

1.本项目主要研究基于opencv的OCR技术研究开发

2.本项目可以实现图片到文字的转化,例如将车牌、证件上的信息读取并将其转化为文字形式

3.本项目还可以将图片形式的文档转换成文字文档

4.本项目主要克服杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本行复杂版式、检测框字符残缺等难点

国内研究现状:

1.颜家云等学者在今年通过光学识别技术完成了机车检修记录单的应用,

  较大程度完善了由检修人员填写的的机车检修记录单在电子化归档过程中,采用人工筛查分类,存在效率低、耗时长的问题。

2.孙宁静等学者完成了基于OCR的中文债券图表数据检测和文本识别

  基本解决了针对金融业务场景下海量债券图表的人工处理效率低、处理容错性低、数据安全性低的问题

国外研究现状:

1.Swapnil等学者通过OCR使用KIVY和TESSERACT的文件转换应用程序

  他们通过这项技术尝试帮助印度的农村教师,希望以此减轻印度的教育压力

创新点:

1.体验上:区别于市面上繁杂、模糊的文字识别功能,本项目在外观上更加简洁,体验上更加准确

2.内容上:本项目可以同时实现双语图片的文字识别

3.功能上:本项目可以在文字识别的同时将文件转换成用户想要的文档格式

特色:

在体验过市面上大量主流的文字识别功能之后,本团队发现市面上的文字识别主要存在以下一些问题:

外观繁杂:在百度的搜索中找出的文字识别网站大多充斥各种广告,往往因此找不到主题内容,使用体验非常糟糕

识别不准:有些文字识别功能网站没有做到最基本的识别准确,识别之后的文字与图片严重不符

功能不全:一部分网站仅支持英文或中文单语言的识别,一些网站识别之后的文字格式不是用户想要的

收费较高:功能全,效率高的识别功能大多需要收费且价格不低,对于只用一次的用户来说性价比很低

区别于市面上的文字识别功能,本项目的特色在于:

准确性高:本项目基于OCR光学识别,该技术准确性高,速度快,不会造成识别不准的情况

体验良好:本项目页面清爽,功能界面分布明确,开门见山,用户可以清晰明确地进行使用并且本项目完全免费

功能齐全:除了主要的文字识别功能外,本项目还为用户提供了其他相关服务,用户可以选择自己想要的格式,更加方便用户的使用

技术路线:

对OCR技术进行学习并掌握,

然后基于opencv完成文字识别功能的开发,

完善文字识别功能之后建立相配套的前端网页和文档转换功能,

最后进行实际测试。

主要问题有:

    1.遇到弯曲变形的文字应该怎么处理

    2.背景有干扰的文字怎么处理

    3.怎么判断文字是否颠倒

    3.怎么分别两张不同的语言

预期成果为:

    1.一套基于opencv的OCR文字识别功能

    2.一份该系统的需求、设计文档

    3.一个提供前端服务的网页

    4.文字识别功能能分别辨认多种语言

    5.较完善地实现文档转化功能

第一阶段:准备阶段(2021年12月——2022年3月)

  (1)与课程团队撰写开题报告。

  (2)制定调研方案,完成具体细节规划。

  (3)学习针对opencv与OCR技术的学习。

第二阶段:实施阶段(2022年3月——2022年8月)

  (1)整合学习内容,分工初步完成项目的构建。

  (2)与团队成员分享实践内容,不断完善项目。

  (3)对项目进行修缮包装,基本完成项目内容。

第三阶段:结题阶段(2022年8月——2022年10月)

  (1)整理研究数据,进一步完善项目。

  (2)组织内部评估。

  (3)整理项目内容,撰写项目报告。

对相关技术有一定的掌握

对相关技术文献进行一定的阅读了解

1.已具备的研究条件:已经查阅到相关的论文和著作,并且研读了其中的文献,理清了项目实现的基本思路。

2.尚缺少的研究条件:

(1)还有细节内容的处理没有思路。

(2)对opencv的使用经验有限,仍需大量实践。

(3)对于OCR技术的理论基础不够扎实。

3.拟解决的途径:

(1)利用中国知网的论文进行查询

(2)向学校的老师请教相关内容的知识

(3)对OCR技术的文献和著作进行深入地阅读,提高自己的理论水平和素养。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 1500.00 项目中器材等物件的购买 750.00 750.00
1. 业务费 1100.00 550.00 550.00
(1)计算、分析、测试费 500.00 250.00 250.00
(2)能源动力费 300.00 150.00 150.00
(3)会议、差旅费 300.00 150.00 150.00
(4)文献检索费 0.00 0.00 0.00
(5)论文出版费 0.00 0.00 0.00
2. 仪器设备购置费 300.00 150.00 150.00
3. 实验装置试制费 0.00 0.00 0.00
4. 材料费 100.00 50.00 50.00
结束