OCR -- 文本检测 - 训练DB文字检测模型

百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统预测部署简介与总览百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 Paddle Inference 模型推理（离线部署）百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统基于 Paddle Serving快速使用（服务化部署 - CentOS）百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统基于 Paddle Serving快速使用（服务化部署 - Docker）

PaddleOCR提供DB文本检测算法，支持MobileNetV3、ResNet50_vd两种骨干网络，可以根据需要选择相应的配置文件，启动训练。

本节以icdar15数据集、MobileNetV3作为骨干网络的DB检测模型（即超轻量模型使用的配置）为例，介绍如何完成PaddleOCR中文字检测模型的训练、评估与测试。

(资料图片仅供参考)

3.1 数据准备

本次实验选取了场景文本检测和识别(Scene Text Detection and Recognition)任务最知名和常用的数据集ICDAR2015。icdar2015数据集的示意图如下图所示：

图 icdar2015数据集示意图

该项目中已经下载了icdar2015数据集，存放在 /home/aistudio/data/data96799 中，可以运行如下指令完成数据集解压，或者从链接中自行下载。

~/train_data/icdar2015/text_localization   └─ icdar_c4_train_imgs/         icdar数据集的训练数据  └─ ch4_test_images/             icdar数据集的测试数据  └─ train_icdar2015_label.txt    icdar数据集的训练标注  └─ test_icdar2015_label.txt     icdar数据集的测试标注

提供的标注文件格式为：

" 图像文件名                    json.dumps编码的图像标注信息"ch4_test_images/img_61.jpg    [{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]], ...}]

json.dumps编码前的图像标注信息是包含多个字典的list，字典中的points表示文本框的四个点的坐标(x, y)，从左上角的点开始顺时针排列。 transcription中的字段表示当前文本框的文字，在文本检测任务中并不需要这个信息。如果您想在其他数据集上训练PaddleOCR，可以按照上述形式构建标注文件。

如果"transcription"字段的文字为"*"或者"###"，表示对应的标注可以被忽略掉，因此，如果没有文字标签，可以将transcription字段设置为空字符串。

3.2 数据预处理

训练时对输入图片的格式、大小有一定的要求，同时，还需要根据标注信息获取阈值图以及概率图的真实标签。所以，在数据输入模型前，需要对数据进行预处理操作，使得图片和标签满足网络训练和预测的需要。另外，为了扩大训练数据集、抑制过拟合，提升模型的泛化能力，还需要使用了几种基础的数据增广方法。

本实验的数据预处理共包括如下方法：

图像解码：将图像转为Numpy格式；标签解码：解析txt文件中的标签信息，并按统一格式进行保存；基础数据增广：包括：随机水平翻转、随机旋转，随机缩放，随机裁剪等；获取阈值图标签：使用扩张的方式获取算法训练需要的阈值图标签；获取概率图标签：使用收缩的方式获取算法训练需要的概率图标签；归一化：通过规范化手段，把神经网络每层中任意神经元的输入值分布改变成均值为0，方差为1的标准正太分布，使得最优解的寻优过程明显会变得平缓，训练过程更容易收敛；通道变换：图像的数据格式为[H, W, C]（即高度、宽度和通道数），而神经网络使用的训练数据的格式为[C, H, W]，因此需要对图像数据重新排列，例如[224, 224, 3]变为[3, 224, 224]；图像解码

从训练数据的标注中读取图像，演示DecodeImage类的使用方式。源码位置：\ppocr\data\imaug\operators.py

import osimport matplotlib.pyplot as pltfrom paddleocr.ppocr.data.imaug.operators import DecodeImage label_path = "../train_data/icdar2015/text_localization/train_icdar2015_label.txt"img_dir = "../train_data/icdar2015/text_localization/"# 1. 读取训练标签的第一条数据f = open(label_path, "r")lines = f.readlines()# 2. 取第一条数据line = lines[0]print("The first data in train_icdar2015_label.txt is as follows.\n", line)img_name, gt_label = line.strip().split("\t")# 3. 读取图像image = open(os.path.join(img_dir, img_name), "rb").read()data = {"image": image, "label": gt_label}# 4. 声明DecodeImage类，解码图像decode_image = DecodeImage(img_mode="RGB", channel_first=False)data = decode_image(data)# 5. 打印解码后图像的shape，并可视化图像print("The shape of decoded image is ", data["image"].shape)plt.figure(figsize=(10, 10))plt.imshow(data["image"])src_img = data["image"]plt.show()

标签解码

解析txt文件中的标签信息，并按统一格式进行保存；源码位置：ppocr/data/imaug/label_ops.py

import osfrom paddleocr.ppocr.data.imaug.label_ops  import DetLabelEncodelabel_path = "../train_data/icdar2015/text_localization/train_icdar2015_label.txt"img_dir = "../train_data/icdar2015/text_localization/"# 1. 读取训练标签的第一条数据f = open(label_path, "r")lines = f.readlines()# 2. 取第一条数据line = lines[0]print("The first data in train_icdar2015_label.txt is as follows.\n", line)img_name, gt_label = line.strip().split("\t")# 3. 读取图像image = open(os.path.join(img_dir, img_name), "rb").read()data = {"image": image, "label": gt_label}# 1. 声明标签解码的类decode_label = DetLabelEncode()# 2. 打印解码前的标签print("The label before decode are: ", data["label"])data = decode_label(data)print("\n")# 4. 打印解码后的标签print("The polygon after decode are: ", data["polys"])print("The text after decode are: ", data["texts"])

基础数据增广

数据增广是提高模型训练精度，增加模型泛化性的常用方法，文本检测常用的数据增广包括随机水平翻转、随机旋转、随机缩放以及随机裁剪等等。

随机水平翻转、随机旋转、随机缩放的代码实现参考代码。随机裁剪的数据增广代码实现参考代码。

获取阈值图标签

使用扩张的方式获取算法训练需要的阈值图标签；源码位置：ppocr/data/imaug/make_border_map.py

# 从PaddleOCR中import MakeBorderMapfrom ppocr.data.imaug.make_border_map import MakeBorderMap# 1. 声明MakeBorderMap函数generate_text_border = MakeBorderMap()# 2. 根据解码后的输入数据计算bordermap信息data = generate_text_border(data)# 3. 阈值图可视化plt.figure(figsize=(10, 10))plt.imshow(src_img)text_border_map = data["threshold_map"]plt.figure(figsize=(10, 10))plt.imshow(text_border_map)

OCR -- 文本检测 - 训练DB文字检测模型

SHEIN在美招聘多名高管 以推进其第三方平台 天天热门

皇马或崩盘，遇退队潮！老佛爷政策失误，关键1签浮现，曼联抬价

中学化学资料网官网_中学化学资料 世界今热点

dora英文名的寓意_女孩英文名及寓意

广东重奖举报违法违规使用医保基金行为 最高奖励提升至20万元

贵州银行“茶贷”及时雨，浇灌茶园勃勃生机|世界看点

【世界独家】星河滚烫你是人间理想_“星河滚烫,你是人间理想”是什么意思

世界热点！凸透镜成像焦距怎么算

安克创新：公司充电设备主要面向消费电子应用领域 暂未涉及汽车充电桩产品

过失损坏广播电视设施、公用电信设施罪立案标准 世界速读

干牛皮怎么做好吃?_世界短讯

四川15岁女孩办订婚仪式 被举报叫停 基本情况讲解|今日聚焦

足球加时赛进球算不算独赢（加时赛赢了算胜平吗） 全球讯息

穆迪预计英国将遭遇“温和衰退” 因利率上升影响家庭财务状况

全球实时：今年珠海12675人报名参加高考

世界热点！密道追踪 mdzz

怡和嘉业将于6月20日召开股东大会

科学教育的加法题，中西部学校怎么答？

工人遭枪击、车辆被焚烧…… 紫金矿业旗下海外金矿再遇袭！ 公司最新声明

全球简讯:今日黄金td开盘价格（2023年6月1日）

飞禽走兽_飞禽 全球速读

Eblue超级重命名 信息

世界最资讯丨渣打银行：对央行数码货币的未来持乐观态度

南财研选快讯｜申万宏源：5月官方PMI回落但财新PMI回升-环球即时看

天天看点：六一儿童节，一起来看古人笔下的童趣童真

Mysteel月报：六月铁矿石需求压力仍存 铁矿石价格或先涨后跌

天天动态:电力每日要闻（2023年6月1日）

【世界独家】先写后拍再播 电视剧如何克服从创作到播出的时间差

​为什么中国的牛奶牛肉产业干不过国外？三点原因或是关键！

我国首艘国产大型邮轮预计6月6日正式出坞 环球热文

塞尔达传说王国之泪初始空岛全呀哈哈与宝箱位置一览-焦点观察

iPhone 15无线充电功率翻番！

央行今日进行20亿元7天期逆回购操作

环球快资讯：欢乐过“六一”勿忘消费安全 这份儿童消费品指南请收好

【钢厂动态】投资22亿！这家“长乐系”钢企，120万吨项目开工！

天天快资讯丨华人健康（301408）：5月31日北向资金增持10.52万股

天天实时：这瓜，恐怕真的有人要出事了

爽肤水和化妆水的区别和用法_爽肤水和化妆水的区别_焦点报道

天苍苍野茫茫是什么诗带拼音_天苍苍野茫茫是什么诗 当前观察

史泰龙错过的动作大片？成龙联手赵喜娜，破获史上最大石油劫案！ 每日视点

湘阴县杨林寨乡开展“利剑护蕾”法治进校园宣传活动 全球速递

COMPUTEX2023NVIDIA重磅发布一览_当前观察

【天天时快讯】(组图)曹妃甸：特色水产养殖助增收

焦点！穿越之花月弄影小说_穿越之花月弄影

爱尔眼科: 分红派息、转增股本实施公告_当前快播

【报资讯】一挖一麻袋日语怎么打 一挖一麻袋日语什么意思

拓尔思：百度有意整合百度搜索引擎和海贝智能数据库的消息不属实 世界观速讯

中华五岳的位置地图_中华五岳

天天资讯：今夏流行这条“贵气裙”，搭衬衣开衫都高级，适合40岁中年女人

盐湖股份：目前公司氯化钾产品销售正常

浙江温州2023养老金上调多少?2022-2023年温州退休养老金上调方案细则-世界热头条

液体袜子是什么（液体袜是什么东西）

SK 海力士完成1β DRAM 制程技术研发

天天快资讯丨博济医药与汕头大学医学院第二附属医院签署战略合作协议

世界快看点丨航天智装：子公司轩宇空间有宇航级的存储芯片产品，公司产品未涉及人形机器人

央行今日开展130亿元逆回购操作

k第三季樱花动漫（k动漫第二季樱花动漫）

项目经营管理目标责任书（项目经营管理模式） 速看料

天天速讯：优势不再？嘉吉出售中国动物蛋白板块

初级经济师《金融》每日一练（2023.05.31）|环球消息

浙江2023高考英语试题及答案 真题完整解析

美团不再无视抖音，一季报透露了什么？

三亚市吉阳区召开巡察沟通交流会 为高质量开展巡察“充电赋能”

江苏省“安全生产月”6月启动|滚动

高温来袭用电高峰提前 今夏电力供需将紧平衡-全球实时

广东省特种设备检测研究院东莞检测院“四个抓”助推特检事业实现新跨越_当前快播

男生好听的微信昵称_男生微信昵称

世界时讯：基因治疗首次恢复老鼠听力

全球热资讯！城市居家适老化改造有了参考指南

消费万花筒：为儿童玩具加上“安全阀”

每日时讯!超越孔刘等5位前辈 小胖世乒赛成功卫冕 大满贯指日可待

帕杰罗加什么汽油_帕杰罗加什么汽油？ 当前头条

世界视讯！择校易公众号_择校易

焦点！小学转学需要什么手续最新政策2023（小学转学公转民好不好）

天天新动态：今日funk音乐和funky的区别_FUNK 音乐是什么样子的是那种风格的

中国星辰｜神舟十六号载人飞船成功发射 两个乘组航天员会师太空-焦点速看

目前我国西式小家电制造商达1000多家 西式小家电行业市场竞争

进程和程序的本质（进程和程序的本质区别）

环球速看：新凤鸣：业绩说明会定于6月21日举行

SHEIN在美招聘多名高管以推进其第三方平台天天热门

中学化学资料网官网_中学化学资料世界今热点

广东重奖举报违法违规使用医保基金行为最高奖励提升至20万元

安克创新：公司充电设备主要面向消费电子应用领域暂未涉及汽车充电桩产品

过失损坏广播电视设施、公用电信设施罪立案标准世界速读

四川15岁女孩办订婚仪式被举报叫停基本情况讲解|今日聚焦

足球加时赛进球算不算独赢（加时赛赢了算胜平吗）全球讯息

工人遭枪击、车辆被焚烧…… 紫金矿业旗下海外金矿再遇袭！公司最新声明

飞禽走兽_飞禽全球速读

Eblue超级重命名信息

Mysteel月报：六月铁矿石需求压力仍存铁矿石价格或先涨后跌

【世界独家】先写后拍再播电视剧如何克服从创作到播出的时间差

为什么中国的牛奶牛肉产业干不过国外？三点原因或是关键！

我国首艘国产大型邮轮预计6月6日正式出坞环球热文

环球快资讯：欢乐过“六一”勿忘消费安全这份儿童消费品指南请收好

天苍苍野茫茫是什么诗带拼音_天苍苍野茫茫是什么诗当前观察

史泰龙错过的动作大片？成龙联手赵喜娜，破获史上最大石油劫案！每日视点

湘阴县杨林寨乡开展“利剑护蕾”法治进校园宣传活动全球速递

【报资讯】一挖一麻袋日语怎么打一挖一麻袋日语什么意思

拓尔思：百度有意整合百度搜索引擎和海贝智能数据库的消息不属实世界观速讯

项目经营管理目标责任书（项目经营管理模式）速看料

浙江2023高考英语试题及答案真题完整解析

三亚市吉阳区召开巡察沟通交流会为高质量开展巡察“充电赋能”

高温来袭用电高峰提前今夏电力供需将紧平衡-全球实时

每日时讯!超越孔刘等5位前辈小胖世乒赛成功卫冕大满贯指日可待

帕杰罗加什么汽油_帕杰罗加什么汽油？当前头条

中国星辰｜神舟十六号载人飞船成功发射两个乘组航天员会师太空-焦点速看

目前我国西式小家电制造商达1000多家西式小家电行业市场竞争

《清水堂》把澡堂搬上舞台京味儿话剧用细节还原老北京澡堂文化

艾草收割忙　产业发展旺

黄铜价格多少钱一斤2018年（黄铜价格多少钱一斤）世界热闻

比亚迪“回怼”长城，应用的常压油箱符合法规标准，到底谁占理？世界视讯

德江县气象台发布雷电黄色预警信号【Ⅲ/较重】【2023-05-30】最资讯