基于opencv的OCR文字识别研究与实践

申报人：姚明轩申报日期：2021-12-06

基本情况

所属批次:

2022校院级项目管理

项目名称:

基于opencv的OCR文字识别研究与实践学生申报

项目类型:

创新训练项目

所属学科门类:

工学

所属专业类:

计算机类

项目来源名称:

教师科研项目选题

项目归属学院:

项目期限:

一年期

项目简介:

OCR的概念诞生于1929年，由德国的科学家Tausheck首先提出，由于目前互联网上干净准确的文字识别功能的缺失，本项目希望通过opencv完成ocr文字识别的应用来补全互联网上文字识别的功能。该项目应用面较广，大致能完成以下工作：证件识别、银行卡识别、车牌识别、名片识别、文字文档识别等。

负责人曾经参与科研的情况:

无

指导教师承担科研课题情况:

近三年主持项目

1 PP视频智能推荐系统一期研发 2018.5~2019.1 苏宁人工智能研究院 600万主持已完成且应用于PPTV

2 基于多模型融合的千里传音项目研发 2018.9~2019.2 苏宁人工智能研究院 300万主持已完成且应用于苏宁易购APP

3 基于GBDT+LR的用户流失预警模型研发 2018.9~2019.2 苏宁人工智能研究院 300万主持已完成且应用于苏宁易购APP

4 PP视频智能推荐系统二期研发 2019.2~2019.10 苏宁人工智能研究院 800万主持已完成且应用于PPTV

5 PP体育智能推荐项目研发 2019.9~2020.9 苏宁人工智能研究院 800万主持已完成且应用于PP体育

6 苏宁易购电商APP内容推荐（图文、视频、直播等）研发 2020.9~2021.4 苏宁人工智能研究院 1000万主持已完成且应用于苏宁易购APP

7 基于多模态融合（NLP+CV）的智能打标项目研发 2020.10~2021.4 苏宁人工智能研究院 300万主持已完成且应用于PPTV/苏宁易购APP

指导教师对本项目的支持情况:

项目实施过程中技术的指导

项目实施过程中资源上的支持

项目级别:

校级

项目成员

序号	学生	所属学院	专业	年级	项目中的分工	成员类型
1	姚明轩	计算机科学与工程学院(软件学院)	计算机科学与技术(本科)	2020	主研人员	第一主持人
2	黄易凡	计算机科学与工程学院(软件学院)	计算机科学与技术(本科)	2020	研究人员	成员
3	何中良	计算机科学与工程学院(软件学院)	计算机科学与技术(本科)	2020	研究人员	成员

指导教师

序号	教师姓名	所属学院	是否企业导师	教师类型
1	许良武	计算机科学与工程学院(软件学院)	否	第一指导教师

立项依据

研究目的:

目前互联网上的文字识别功能大多数都存在识别不准确、界面凌乱、广告繁杂等问题

本项目希望通过学习与研究填补市面上整洁、准确文字识别类产品的缺失

并且进一步深化对OCR文字识别技术的研究

基于该项目，用户能获得更简单方便、准确无误的文字识别使用体验

研究内容:

本项目研究内容如下：

1.本项目主要研究基于opencv的OCR技术研究开发

2.本项目可以实现图片到文字的转化，例如将车牌、证件上的信息读取并将其转化为文字形式

3.本项目还可以将图片形式的文档转换成文字文档

4.本项目主要克服复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本行复杂版式、检测框字符残缺等难点

国、内外研究现状和发展动态:

国内研究现状：

1.颜家云等学者在今年通过光学识别技术完成了机车检修记录单的应用，

较大程度完善了由检修人员填写的的机车检修记录单在电子化归档过程中，采用人工筛查分类，存在效率低、耗时长的问题。

2.孙宁静等学者完成了基于OCR的中文债券图表数据检测和文本识别

基本解决了针对金融业务场景下海量债券图表的人工处理效率低、处理容错性低、数据安全性低的问题

国外研究现状：

1.Swapnil等学者通过OCR使用KIVY和TESSERACT的文件转换应用程序

他们通过这项技术尝试帮助印度的农村教师，希望以此减轻印度的教育压力

创新点与项目特色:

创新点：

1.体验上：区别于市面上繁杂、模糊的文字识别功能，本项目在外观上更加简洁，体验上更加准确

2.内容上：本项目可以同时实现双语图片的文字识别

3.功能上：本项目可以在文字识别的同时将文件转换成用户想要的文档格式

特色：

在体验过市面上大量主流的文字识别功能之后，本团队发现市面上的文字识别主要存在以下一些问题：

外观繁杂：在百度的搜索中找出的文字识别网站大多充斥各种广告，往往因此找不到主题内容，使用体验非常糟糕

识别不准：有些文字识别功能网站没有做到最基本的识别准确，识别之后的文字与图片严重不符

功能不全：一部分网站仅支持英文或中文单语言的识别，一些网站识别之后的文字格式不是用户想要的

收费较高：功能全，效率高的识别功能大多需要收费且价格不低，对于只用一次的用户来说性价比很低

区别于市面上的文字识别功能，本项目的特色在于：

准确性高：本项目基于OCR光学识别，该技术准确性高，速度快，不会造成识别不准的情况

体验良好：本项目页面清爽，功能界面分布明确，开门见山，用户可以清晰明确地进行使用并且本项目完全免费

功能齐全：除了主要的文字识别功能外，本项目还为用户提供了其他相关服务，用户可以选择自己想要的格式，更加方便用户的使用

技术路线、拟解决的问题及预期成果:

技术路线：

对OCR技术进行学习并掌握，

然后基于opencv完成文字识别功能的开发，

完善文字识别功能之后建立相配套的前端网页和文档转换功能，

最后进行实际测试。

主要问题有：

1.遇到弯曲变形的文字应该怎么处理

2.背景有干扰的文字怎么处理

3.怎么判断文字是否颠倒

3.怎么分别两张不同的语言

预期成果为：

1.一套基于opencv的OCR文字识别功能

2.一份该系统的需求、设计文档

3.一个提供前端服务的网页

4.文字识别功能能分别辨认多种语言

5.较完善地实现文档转化功能

项目研究进度安排:

第一阶段：准备阶段(2021年12月——2022年3月)

　　(1)与课程团队撰写开题报告。

　　(2)制定调研方案，完成具体细节规划。

　　(3)学习针对opencv与OCR技术的学习。

第二阶段：实施阶段(2022年3月——2022年8月)

　　(1)整合学习内容，分工初步完成项目的构建。

　　(2)与团队成员分享实践内容，不断完善项目。

　　(3)对项目进行修缮包装，基本完成项目内容。

第三阶段：结题阶段(2022年8月——2022年10月)

　　(1)整理研究数据，进一步完善项目。

　　(2)组织内部评估。

　　(3)整理项目内容，撰写项目报告。

已有基础:

与本项目有关的研究积累和已取得的成绩:

对相关技术有一定的掌握

对相关技术文献进行一定的阅读了解

已具备的条件，尚缺少的条件及解决方法:

1．已具备的研究条件：已经查阅到相关的论文和著作，并且研读了其中的文献，理清了项目实现的基本思路。

2．尚缺少的研究条件：

（1）还有细节内容的处理没有思路。

（2）对opencv的使用经验有限，仍需大量实践。

（3）对于OCR技术的理论基础不够扎实。

3．拟解决的途径：

（1）利用中国知网的论文进行查询

（2）向学校的老师请教相关内容的知识

（3）对OCR技术的文献和著作进行深入地阅读，提高自己的理论水平和素养。

经费预算

开支科目	预算经费（元）	主要用途	阶段下达经费计划（元）
开支科目	预算经费（元）	主要用途	前半阶段	后半阶段
预算经费总额	1500.00	项目中器材等物件的购买	750.00	750.00
1. 业务费	1100.00	无	550.00	550.00
（1）计算、分析、测试费	500.00	无	250.00	250.00
（2）能源动力费	300.00	无	150.00	150.00
（3）会议、差旅费	300.00	无	150.00	150.00
（4）文献检索费	0.00	无	0.00	0.00
（5）论文出版费	0.00	无	0.00	0.00
2. 仪器设备购置费	300.00	无	150.00	150.00
3. 实验装置试制费	0.00	无	0.00	0.00
4. 材料费	100.00	无	50.00	50.00

结束

大学生创新创业训练计划管理系统

创新创业管理系统

详情