福音：不懂代码也能用TensorFlow做验证码识别了-白红宇

项目地址：，欢迎各位大佬们指点

长话短说，开门见山，网络上现有的代码以教学研究为主，对于验证码识别有刚需的朋友们，无需阅读代码，几个参数任何人都能使用机器学习技术训练一个模型，如本文有不严谨之处还请告知与谅解，此文旨在献给不求甚解，拿来主义者。

笔者选用的时下最为流行的CNN卷积神经网络进行端到端的验证码识别

懒人们仅仅需要了解一点基本的理念即可，下面笔者将带领大家走马观花瞧一瞧如何为之：

1.故事从两个配置文件说起

config.yaml # 系统配置

# Device: The default device is CPU.# - If you use the GPU version, you need to install some additional applications.# TrainRegex and TestRegex: Default matching apple_20181010121212.jpg file.# TrainsPath and TestPath: The local path of your training and testing set.System:  Device: 'gpu:0'  TrainsPath: 'E:\Task\Trains\cn_exec'  TrainRegex: '.*?(?=_.*\.)'  TestPath: 'E:\Task\TestGroup\cn_exec'  TestRegex: '.*?(?=_.*\.)'# TestNum: The number of samples for each test batch.# - A test for every saved steps, Default value is 100.# EndAcc: Finish the training when the accuracy reaches [EndAcc*100]%.# EndStep: Finish the training when the step is greater than the [-1: Off, EndStep >0: On] step.# LearningRate: Find the fastest relationship between the loss decline and the learning rate.Trains:  TestNum: 300  SavedStep: 100  EndAcc: 0.97  EndStep: -1  LearningRate: 0.0003

笔者十分怀念大学时光，就用校园生活的大白话捋一捋何为机器学习吧。

简单来说，给机器刷题（训练集），机器边做题边对照标准答案（结合测试集进行训练），机器用学习收获的结晶（模型）通过套公式写出了标准答案（识别）。学习指的就是找到特征与标签的映射关系。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签。

综上所述，我们得出了第一个结论：我们需要 训练集 和 测试集 来训练模型

1.1 训练集

大致常见的有以下几种方案：

人工打码

认真分析验证码特征，自己生成几乎一样的验证码来代替训练集

对接打码平台：前提是要写一个爬虫，并且该爬虫需要具备以下功能：（1）下载验证码图片、（2）接入打码平台识别验证码、（3）将打码结果输入到验证码网站进行对错校验

1.2 测试集

极力推荐外部打码+人肉打码混合（特别是一些机器容易识别错的）

1.3 开始刷题

训练集和测试集到手之后就可以开搞了。

System:  Device: 'gpu:0' # 配置用来训练的设备，GPU比CPU快得多的多，但是要安装额外的环境依赖  TrainsPath: 'E:\Task\Trains\cn_exec' # 训练集的存放路径  TrainRegex: '.*?(?=_.*\.)' # 训练集的文件名匹配，一般有两个原则：不重名、包含标注  TestPath: 'E:\Task\TestGroup\cn_exec' # 同上  TestRegex: '.*?(?=_.*\.)' # 同上

默认的命名规则为 正确标注_时间戳.jpg

上面对应的命名规则通过正则 .*?(?=_.*\.) 提取到正确标注，所以如果不按照这个规则命名，就需要自己另写对应于正确标注的匹配正则

Trains:  TestNum: 300 # 每个批次测试样本数，换言之：每次小测验出300题  SavedStep: 100 # 训练过程中每100个步长保存模型，接地气的说法：每背100个单词消化一下  EndAcc: 0.97 # 结束训练的准确率指标，换句话说，100分考97分就能毕业了  EndStep: -1 # 结束训练的步长指标，换句话说，跑10公里就结束了，不看成绩了  LearningRate: 0.0003 # 学习率和loss值密切相关，按默认的来就好了，一般还有几种选项：0.1, 0.01

2.可以嘴角开始疯狂上扬了

先晒出模型方面的参数，不要被吓到，讲一讲其实很简单的

model.yaml # 模型配置

# Convolution: The number of layers is at least 3.# - The number below corresponds to the size of each layer of convolution.NeuralNet:  Convolution:    - 32    - 64    - 128  ConvCoreSize: 3  FullConnect: 1024# CharSet: [ALPHANUMERIC, ALPHANUMERIC_LOWER, ALPHANUMERIC_UPPER, NUMERIC].# ImageChannel: [1 - Gray Scale, 3 - RGB].Model:  ModelName: patchca  ImageChannel: 1  CharLength: 4  CharSet: ALPHANUMERIC# OriginalColor: [false - Gray Scale, true - RGB].# Binaryzation: [-1: Off, >0 and < 255: On].# Smoothing: [-1: Off, >0: On].# Blur: [-1: Off, >0: On].Pretreatment:  OriginalColor: false  Binaryzation: 240  Smoothing: 3  Blur: 5

2.1 神经网络

我们选用的神经网络是最基础的CNN模型了，一般来说就是

卷积层+池化层+卷积层+池化层...+全连接层

笔者曾经上课时存了一个很好理解的图示，

卷积运算显然是一个线性操作，而神经网络要拟合的是非线性的函数，因此和全连接网络类似，我们需要加上激活函数，笔者的代码选取的为ReLU函数。

池化层的作用：通过卷积操作，我们完成了对输入向图像的降维和特征抽取，但特征图像的维数还是很高。维数高不仅计算耗时，而且容易导致过拟合。为此引入了下采样技术，也称为pooling即池化操作。池化的做法是对图像的某一个区域用一个值代替，如最大值或平均值。在这里，笔者选择的是最大值，因为前者是非线性的，一般情况下将获得更好的效果。（笔者在此便不徒增各位的选择困难了，私下决定在代码里定死）