卷积神经网络可视化(收集3篇)
来源:
卷积神经网络可视化范文篇1
关键词:机器学习;深度学习;推荐算法;远程教育
深度学习(DeepLearning),也叫阶层学习,是机器学习领域研究的分支,它是学习样本数据的表示层次和内在规律,在学习的过程中获取某些信息,对于数据的解释有巨大帮助。比如对文字数据的学习,在网络上获取关键字,对图像数据的学习,进行人脸识别等等。
一、深度学习发展概述
深度学习是机器学习领域里一种对数据进行表征学习的方法。一句话总结三者之间的关系就是:“机器学习,实现人工智能的方法;深度学习,实现机器学习的技术。深度学习目前是机器学习和人工智能领域研究的主要方向,为计算机图形学、计算机视觉等领域带来了革命性的进步。机器学习最早在1980年被提出,1984年分类与回归树出现,直到1986年,Rumelhart等人反向传播(BackPropaga-tion,BP)算法的提出,解决了感知模型只能处理线性分类的问题,1989年出现的卷积神经网络(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的发展。在1990年至2012年,机器学习逐渐成熟并施以应用,GeoffreyHinton在2006年设计出了深度信念网络,解决了反向传播算法神经网络中梯度消失的问题,正式提出了深度学习的概念,逐渐走向深度学习飞速发展的时期。随后,各种具有独特神经处理单元和复杂层次结构的神经网络不断涌现,深度学习技术不断提高人工智能领域应用方面的极限。
二、深度学习主要模型
1、卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)是指有着深度结构又包含着卷积计算的前馈神经网络。卷积物理上理解为系统某一时刻的输出是有多个输入共同叠加的结果,就是相当于对一个原图像的二次转化,提取特点的过程。卷积神经网络实际上就是一个不断提取特征,进行特征选择,然后进行分类的过程,卷积在CNN里,首先对原始图像进行特征提取。所以卷积神经网络能够得到数据的特征,在模式识别、图像处理等方面应用广泛。一个卷积神经网络主要由三层组成,即卷积层(convolutionlayer)、池化层(poolinglayer)、全连接层(fullyconnectedlayer)。卷积层是卷积神经网络的核心部分,通过一系列对图像像素值进行的卷积运算,得到图像的特征信息,同时不断地加深节点矩阵的深度,从而获得图像的深层特征;池化层的本质是对特征图像进行采样,除去冗杂信息,增加运算效率,不改变特征矩阵的深度;全连接将层间所有神经元两两连接在一起,对之前两层的数据进行分类处理。CNN的训练过程是有监督的,各种参数在训练的过程中不断优化,直到得到最好的结果。目前,卷积神经网络的改进模型也被广泛研究,如全卷积神经网络(FullyConvolutionalNeuralNetworks,FCN)和深度卷积神经网络(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循环神经网络区别于卷积神经网络在图片处理领域的应用,循环神经网络(RecurrentNeuralNetwork,RNN)主要应用在自然语言处理领域。RNN最大的特点就是神经元的输出可以继续作为输入,再次利用到神经元中循环使用。RNN是以序列的方式对数据进行读取,这也是RNN最为独特的特征。RNN的串联式结构适用于时间序列的数据,可以完好保持数据中的依赖关系。循环神经网络主要有三层结构,输入层,隐藏层和输出层。隐藏层的作用是对输入层传递进来的数据进行一系列的运算,并将结果传递给输出层进行输出。RNN可用于许多不同的地方。下面是RNN应用最多的领域:1.语言建模和文本生成,给出一个词语序列,试着预测下一个词语的可能性。这在翻译任务中是很有用的,因为最有可能的句子将是可能性最高的单词组成的句子;2.语音识别;3.生成图像描述,RNN一个非常广泛的应用是理解图像中发生了什么,从而做出合理的描述。这是CNN和RNN相结合的作用。CNN做图像分割,RNN用分割后的数据重建描述。这种应用虽然基本,但可能性是无穷的;4.视频标记,可以通过一帧一帧地标记视频进行视频搜索。3、深度神经网络深度神经网络(deepneuralnetworks,DNN)可以理解为有很多隐藏层的神经网络。多层神经网络和深度神经网络DNN其实也是指的一个东西,DNN有时也叫做多层感知机(Mul-ti-Layerperceptron,MLP)。DNN内部的神经网络层也是分为三类,输入层,隐藏层和输出层,一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。深度神经网络(DNN)目前作为许多人工智能应用的基础,并且在语音识别和图像识别上有突破性应用。DNN的发展也非常迅猛,被应用到工业自动驾驶汽车、医疗癌症检测等领域。在这许多领域中,深度神经网络技术能够超越人类的准确率,但同时也存在着计算复杂度高的问题。因此,那些能够解决深度神经网络表现准确度或不会增加硬件成本高效处理的同时,又能提升效率和吞吐量的技术是现在人工智能领域能够广泛应用DNN技术的关键。
三、深度学习在教育领域的影响
1、学生学习方面通过网上学习的实时反馈数据对学生的学习模式进行研究,并修正现有教学模式存在的不足。分析网络大数据,相对于传统在线学习本质区别在于捕捉学生学习过程,有针对性,实现学生个性化学习。举个例子,在学习过程中,可以通过学习平台对学生学习课程所花费的时间,参与的程度,知识的偏好等等数据加以分析。也可以通过学生学习某门课程的次数,鼠标点击次数、停留的时间等,来推断学生学习情况。通过以上或类似数据汇总分析,可以正向引导学生学习,并给予积极的学习评价。这种利用计算机收集分析出来的客观数据,很好展示了学生学习行为的结果,总结学习规律,而不需要教师多年的教学经验来判断。对于教育研究者而言,利用深度学习技术可以更客观准确地了解学生,使教学工作良好发展更进一步。2、教学方面学习平台的数据能够对教学模式的适应度进行预测,通过学生的考试成绩和对教师的线上评价等加以分析,能够预测出某一阶段的教学方式发发是否可行,影响如何。通过学生与教师的在线互动,学生测验时完成的时间与完成的结果,都会产生大量的有效的数据,都可以为教师教学支持服务的更好开展提供帮助,从而避免低效率的教学模式造成教学资源的浪费。
四、成人远程教育中深度学习技术的可应用性
深度学习方面的应用在众多领域都取得了成功,比如电商商品推荐、图像识别、自然语言处理、棋类博弈等等。在远程教育方面,深度学习的技术还有很大的发挥空间,智能网络教育的实现是人们的众望所盼。若要将深度学习技术应用到远程教育平台,首先要清楚学生的需求和教学资源如何分配。1、针对学生的学习需求与学习特征进行分析美国斯坦福大学克里斯皮希研究团队的研究成果显示,通过对学生知识学习进行时间建模,可以精确预测出学生对知识点的掌握情况,以及学生在下一次学习中的表现。深度学习的应用可以帮助教师推测出学生的学习能力发展水平。通过学生与教学环境的交互行为,分析其学习风格,避免教师用经验进行推断而产生的误差。2、教学资源的利用与分配深度学习技术能够形成智能的分析结论。计算机实时采集数据集,对学生的学习情况加以分析,使教师对学生的学习状态、情绪状态等有更加清晰、准确的了解。有了上面良好的教学模式,教师对学生的学习状态有了更准确的掌握,对学生的学习结果就有了更科学的教学评价。基于深度学习的人工智能技术,还可以辅助教师实现智能阅卷,通过智能阅卷自动总结出学习中出现的问题,帮助教师减少重复性劳动,减轻教师负担。作为成人高校,远程教育是我们的主要教学手段,也是核心教学方式,学校的教学必定是在学生方便学习的同时,以学生的学习效果为重。通过深度学习技术,可以科学地分析出学生的学习效果,对后续教与学给予科学、可靠的数据支撑。我们可以在平台上为每位同学建立学习模型,根据学生的学习习惯为其定制个性化方案,按他们的兴趣进行培养,发挥他们专业的潜能。同时,可以将学生正式在线参加学习和考试的学习行为和非学习时间浏览网站的行为结合到一起,更加科学地分析出学生在学习网站上感兴趣的地方。采用深度学习算法,根据学生学习行为产生的海量数据推算出学生当前状态与目标状态之间的差距,做到精准及时的学习需求反馈。有助于帮助学生明确学习目标,教师确立教学目标,真正做好因材施教。基于深度学习各种智能识别技术,可以为教师的线上教学活动增光添彩,在反馈学生学习状态的同时,采用多种形式的教学方法吸引学生的注意力,增强教学活动的互动性,达到良好的教学效果。
卷积神经网络可视化范文篇2
关键词:DeepLearning;多隐含层感知;DropConnect;算法
中图分类号:TP181
DeepLearning是机器学习研究的新领域,它掀起了机器学习领域的第二次浪潮,并受到学术界到工业界高度重视。DeepLearning概念根源于人工神经网络[3],它由GeoffreyHinton等在Science上提出。它致力于建立模拟人脑分析学习机制的多层次神经网络,并通过这种网络分析解释数据,如视频、文本和声音等。DeepLearning的多隐含层使得它具有优异的特征学习能力,而且学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类。它的“逐层初始化”(layer-wisepre-training[4])可以有效克服深度神经网络在训练上的难度。本文在对DeepLearning算法分析的基础上,着重阐述了对RegularizationofNeuralNetworksusingDropConnect模型的改进。
1DeepLearning算法分析
1.1DeepLearning多隐含层感知架构
DeepLearning算法最优秀特征是多隐含层感知器架构,这种架构通过组合低层特征来形成更加抽象的高层属性类别或特征,并实现对数据分布式表示。DeepLearning的多隐含层结构是由输入层、隐层(多层)、输出层组成的多层网络(如图1所示),只有相邻层神经元之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个浅层机器学习模型(如logisticregression,SupportVectorMachines)。
图1含多个隐含层的DeepLearning模型
DeepLearning的多隐含层感知结构模拟的是人脑的大脑皮层工作。人大脑皮层计算也是分多层进行[5],例如图像在人脑中是分多个阶段处理,首先是进入大脑皮层V1区提取边缘特征,然后进入大脑皮层V2区抽象成图像的形状或者部分,再到更高层,以此类推。高层的特征是由底层组合而成。使用含多隐含层感知器架构网络主要优势在于它能以更简洁的方式表达比浅层网络大得多的函数关系(如图2)。通过这种深层非线性网络结构,DeepLearning可以实现复杂函数的逼近,表征输入数据的分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。
图2多层次实现复杂函数图
1.2DeepLearning训练过程
(1)首先逐层构建单层神经元,使得每次都是训练一个单层网络。
(2)当所有层训练完后,使用Wake-Sleep算法[6]进行调优。
将除最顶层的其它层间的权重是双向的。向上的权重用于“认知”,向下的权重用于“生成”。然后使用Wake-Sleep算法调整所有的权重。让“认知”和“生成”达成一致,也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。
1.3DeepLearning数据处理一般过程
DeepLearning算法通过传感器等方式获得数据之后,首先对数据进行预处理。在数据预处理中,标准的第一步是数据归一化处理,第二步是数据白化处理(如PCA白化和ZCA白化)。其次特征提取和特征选择。然后将输出作为下层的输入,不断进行特征提取和特征选择,直到学习到合符要求的最佳特征。在特征提取和特征选择过程中,常用自动编码、稀疏编码、聚类算法、限制波尔兹曼机、卷积神经网络等算法进行特征提取和特征选择。然后用反向传播算法、随机梯度下降算法、批量梯度下降算法等进行调优处理,再用池化等算法避免特征过度拟合,从而得到最终提取特征。最后将学习到的最终提取特征输入到分类器(如softmax分类器,logistic回归分类器)进行识别、推理或预测。
2基于RegularizationofNeuralNetworksusingDropConnect模型改进
2.1RegularizationofNeuralNetworksusingDropConnect模型[2]
该模型的四个基本组成成分是:
(1)特征提取:v=g(x;Wg)。x是输入层的输入数据,Wg是特征提取函数的参数,v是输出的提取特征,特征提取函数g()。其中g()为多层卷积神经网络算法函数,而Wg卷积神经网络的偏值。
(2)DropConnect层:r=a(u)=a((M*W)v)如图3。v是输出的提取特征,W是完全连接的权重矩阵,M是二进制掩码矩阵,该矩阵的每个元素随机的以1-p概率设置为0或以p概率设置为1,a()是一个非线性激活函数,r是输出向量。M*W是矩阵对应元素相乘。
(3)Softmax分类器层:o=s(r;Ws)。将r映射到一个k维的输出矩阵(k是类的个数),Ws是softmax分类函数的参数。
(4)交叉熵损失:A(y,o)=-∑yi(oi),i∈1,2,3…k。y是标签,o是概率。
图3DropConnect示意图
2.2模型改进描述和分析
对DropConnect模型的改进主要集中在上面它的四个基本组成成分中的DropConnect层。由于该层以随机方式让掩码矩阵M的每个元素Mij按1-p的概率设置为0,然后让掩码矩阵与层间的权重矩阵对应相乘即M*W。相对DropOut模型r=a((M*(Wv))得到的特征,r=a((M*W)v)得到的特征是比较好的特征r,同时也提高算法的泛化性。因为Dropconnect模型在权重W和v运算之前,将权重以一定的概率稀疏了,从运行结果看整体算法的错误率降低了。但是,由于是随机的让Mij按1-p的概率为0,并且这种随机是不可以预测的,故可能会导致某些重要特征对应的权重被屏蔽掉,最终造成输出ri的准确性降低。故就此提出了新的设计思想。
改进思想是用单层稀疏编码层代替DropConnect层,通过稀疏编码训练出一组最佳稀疏的特征。具体描述:让经过多层卷积神经网络提取到的特征v作为稀疏编码的输入,经过稀疏编码重复训练迭代,最终得到最佳的稀疏的特征r。因为稀疏编码算法是一种无监督学习方法,用它可以寻找出一组“超完备”基向量来更高效地表示输入数据。
总之任何对DeepLearning算法的改进,都是为了提取出最佳特征,并使用优秀的分类算法来分类、预测或推理,最终降低算法的错误率。而对于怎样改进算法,以何种方式降低错误率,则没有具体的限制。并且各种提取特征和特征选择的算法之间并不是互斥的,它们之间可以有各种形式的嵌套,最终的目标都是提高算法的正确率和效率。
3结束语
DeepLearning使得语音、图像和文本等的智能识别和理解取得惊人进展,如GoogleBrain项目和微软推同声传译系统。它极大地推动了人工智能和人机交互快速发展。随着从学术界到工业界的广泛重视,DeepLearning算法的改进依然在继续,DeepLearning算法的正确率和效率仍在不断提高。DeepLearning的发展将加快“大数据+深度模型”时代来临。
参考文献:
[1]HintonGE,SalakhutdinovRR.Reducingthedimensionalityofdatawithneuralnetworks[J].Science,2006(5786):504-507
[2]汤姆・米切尔.机器学习[M].北京:机械工业出版社,2003:1-280.
[3]吴昌友.神经网络的研究及应用[D].哈尔滨:东北农业大学,2007.
[4]HINTONG,OSINDEROS,TEHY.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006(07):1527-1554.
[5]HubelDH,WieselTN.Receptivefields,binocularinteractionandfunctionalarchitectureinthecat'svisualcortex[J].TheJournalofphysiology,1962(01):106.
[6]ChuangGao,BinChen,WeiWei.Dynamicdetectionofwake-sleeptransitionwithreactiontime-magnitude[J].NeuralRegenerattionResearch,2009(07):552-560.
卷积神经网络可视化范文篇3
关键词:列车车号;车号识别;卷积神经网络;LeNet?5
中图分类号:TN911.73?34;TP391文献标识码:A文章编号:1004?373X(2016)13?0063?04
Abstract:Forthecharacterrecognitionoffreighttrainlicense,theimprovedrecognitionmethodbasedonconvolutionalneuralnetworkLeNet?5isproposed.Consideringthestructuralfeaturesofthehierarchicalconvolutionalneuralnetworkandlocalfield,theparametersofquantityandsizeofeachlayerfeaturepatterninthenetworkwereimprovedcorrespondinglytoformthenewnetworkmodelsuitableforthefreighttrainlicenserecognition.Theexperimentalresultsshowthattheproposedmethodhasstrongrobustnesstosolvethelicensebreakageandstain,andhighrecognitionrate,whichprovidesaguaranteefortheaccuracyoftheentirelicenserecognitionsystem.
Keywords:trainlicense;licenserecognition;convolutionalneuralnetwork;LeNet?5
0引言
目前货运列车车号识别系统[1?2]主要是基于RFID技术实现的,但是,由于该系统的准确性依赖于列车底部安装的RFID标签,而RFID标签容易损坏、丢失,因此,此类系统无法保证车号识别的准确性。为此,研究者开发了基于图像的货运列车车号识别系统,系统根据视频采集到的图像,利用模糊集合论[1?2]、人工神经网络[3]、支持向量机[4]以及隐马尔可夫模型[4]等技术进行车号字符的识别。但是,由于货运列车车号存在因喷涂方式而导致的单个字符断裂,或者列车长期的野外运行导致的车厢污损,车号字符的残缺等现象,这使得目前的基于图像的货运列车车号识别系统的鲁棒性与识别率还有待进一步提高。
LeNet?5[5?7]是由YannLecun等人提出的一种专门用于二维图像识别的卷积神经网络,该网络避免了人工提取特征依赖于主观意识的缺点,只需要将归一化大小的原始图像输入网络,该网络就可以直接从图像中识别视觉模式。LeNet?5把特征提取和识别结合起来,通过综合评价和学习,并在不断的反向传播过程中选择和优化这些特征,将特征提取变为一个自学习的过程,通过这种方法找到分类性能最优的特征。LeNet?5已经成功应用于银行对支票手写数字的识别中。
为此,本文将卷积神经网络LeNet?5应用于列车车号字符的识别中,为了使之适用于列车车号字符的识别需求,去除掉了LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,并在此基础上,改变网络中各层特征图的数量以形成新的网络模型。
1LeNet?5的改进
卷积神经网络可以从很多方面着手改进。诸如多层前馈网络,可以考虑在误差函数中增加惩罚项使得训练后得到趋向于稀疏化的权值,或者增加一些竞争机制使得在某个特定时刻网络中只有部分节点处在激活状态等。本文主要从卷积神经网络的层次化以及局部邻域等结构上的特点入手,考虑卷积神经网络中各层特征图数量及大小对网络训练过程及识别结果的影响。
以LeNet?5结构为基础,去除掉LeNet?5中的一些针对手写字符识别而特别设计的连接方式及参数,得到改进后的神经网络。在此基础上,改变网络中各层特征图的数量以形成新的网络模型。定义一种新的网络模型,将其命名为LeNet?5.1,该网络结构与LeNet?5基本相同,主要做出以下改变:
(1)将原先LeNet?5所采用的激活函数由双曲正切函数修改为Sigmoid函数,此时,网络中所有层的输出值均在[0,1]区间内,输出层的最终结果也将保持在[0,1]区间内。
(2)省略掉F6层,将输出层与C5层直接相连,连接方式为全连接,而不是原LeNet?5中所采用的径向基函数(RBF)网络结构。
(3)简化原LeNet?5中的学习速率。原LeNet?5网络中采用的学习速率为一个特殊的序列,而在本网络中将学习速率固定为0.002。
(4)输入数据原始尺寸为28×28,采取边框扩充背景像素的方法将图像扩充至32×32。
之所以做以上相关改动,是因为原始的LeNet?5就是专门为手写字符识别任务而特殊设计的,这就造成了LeNet?5网络中相关的预处理及参数的选择过程或多或少均带有一些针对特定问题的先验知识。例如激活函数中参数的选择,学习速率定的速率序列以及数据预处理殊的填充方式等,这些特定的设计使得LeNet?5在其他任务的识别过程中并不一定适用,或者需要进行长期的观察实验以选得一组针对特定任务的较好的值,造成了LeNet?5不能快速的应用于除手写字符外其他的识别任务中。
2改进后的网络对列车车号字符的识别
车号经过分割之后为一个个的单字符图像,采用边框扩充背景像素的方法将其归一化为32×32,如图1所示。
由图1中可以看出,待识别的字符图像质量不高,有的数字字符出现残缺、断裂或者严重变形。这都给识别任务提出了一定的挑战。
本文采集到的车号图像来自于不同型号的货运列车。从中选取400幅图像作为训练集,另外选取400幅图像作为测试集。用上一节提出的LeNet?5.1网络进行训练,误分类率曲线如图2所示。可以看出,在LeNet?5.1训练过程中,训练MCR(MisclassificationRate)和测试MCR的变化过程相对稳定,验证了改进后网络结构的合理性。在经过16次的迭代之后,测试MCR降至最低(5.75%),之后基本保持稳定,即16次迭代之后,网络达到了当前的最佳训练效果,达到了收敛状态。这时,训练MCR为0.5%,测试MCR是5.75%。
训练过程中的误分类率曲线
而针对相同的数据,采用原始的LeNet?5进行训练和测试后,误分类率如图3所示。从图3中可以看出,LeNet?5经过了18次的迭代后,测试MCR才达到相对稳定的状态,降至6%,最终的训练MCR为1%。相比之下,经过简化和改进的LeNet?5.1,由于改进了原始的LeNet?5中专门为手写字符识别任务而特殊设计的一些预处理及函数选择等固定模式,并且精简了网络结构,使得LeNet?5.1在列车车号的识别方面具有了更快的训练速度和收敛速度,另外,最终达到的准确度也有所提升。
在证明了改进后的LeNet?5.1网络的合理性之后,增加训练图像的规模,采用10000幅车号数字字符图像用来训练,5000幅用来测试。为了与其他方法进行比较,采用相同的训练数据对车号识别中常用的三层BP网络进行训练和测试,这里采用的BP网络隐含层节点数量为450,学习速率采用0.01。实验结果比较如表1所示。从表1可以看出,改进后的LeNet?5.1网络的识别率比BP网络的识别率高出4.62个百分点,在识别速度方面,LeNet?5.1也明显优于传统的BP神经网络。
3针对车型号字母识别而改进的神经网络及其结果
货运列车车号的组成是由车型号与车号共同组成的,因此还需要对车型号进行识别,车型号中除了有阿拉伯数字字符之外,还有很多表示车种及车厢材质等属性的英文字母,这些英文字母同样采用卷积神经网络来识别。由于车型号很多,初期针对若干常用型号的列车进行识别,以测试网络的性能,后期对全车型进行识别。
3.1常用列车车型的识别
在试运行阶段主要识别的车型局限于7种主要的车型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于车种都为敞篷车(第一个大写字母C),主要对后面代表该车型载重量的两位数字以及最后代表车厢材质等属性的字母进行识别。考虑到车型号字符串的固定模式,如图4所示,可以分别建立两个不同的卷积神经网络分别用来识别数字和字母,由于之前已经解决了数字的识别问题,接下来主要进行字母的识别。要识别的代表车厢材质的字母共有6个:K,H,A,E,A和B,为了尽可能的避免因字母分割问题而导致的识别错误,把AK和BK分别作为一个整体来识别,那么需要识别的字符组合变为:K,H,A,E,AK和BK。由于识别种类的减少,可以对网络模型LeNet?5.1进行相应的简化,命名该模型为LeNet?5.2。
LeNet?5.2是在LeNet?5.1的基础上进行改动而得到的:
(1)卷积层C1的特征图由6个减少为4个,相应地,S2层的特征图也由6个减少为4个。
(2)卷积层C3的特征图由16个减少为11个,相应地,S4层的特征图也由16个减少为11个。
(3)卷积层C5的特征图个数由120个减少为80个。
(4)输出分类的数目由10个减少为6个。
另外,卷积层C3层与次抽样层S2层的连接情况如表2所示。
表2的连接方式采用与表1相同的思想,每一列都说明了C3层中的一个特征图是由S2中的那几个特征图结合而成。卷积层C3中第0个至第5个特征图分别与次抽样层S2中的两个特征图相连接,一共6种组合。C3中的这6个特征图负责抽取上一层中某两个特征图所潜在的特征。C3层中第6个至第9个特征图中每个特征图分别对应上一层中的3个特征图的组合,而C3层中最后一个特征图则与上一层中所有的特征图相连接。这样卷积层C3中的特征图就包含了次抽样层S2中多个特征图的所有组合,这样使得卷积层C3抽取到的特征比S2层更抽象、更高级,同时,相对于输入数据,C3层相比S2层具有更好的对位移、扭曲等特征的不变性。
相比LeNet?5.1,LeNet?5.2将网络层中的特征图数量做了相应的削减,减少了网络中可训练参数的数量。
实验数据来自以上提到的7类常用车型。经过前面过程的定位和分割之后,将分割之后代表车厢材质等属性的字母图像收集起来。本实验中,共收集到6种代表不同车厢材质属性的字母共800幅,其中400幅用作训练数据,另外400幅用作测试数据。
图5为LeNet?5.2使用以上数据训练过程中得到的MCR曲线图。由图5中可以看出,在经过13次迭代之后,测试MCR达到最低的3.25%,并且在随后的迭代过程中基本保持稳定,而对应的训练MCR为0.75%。
3.2全车型识别
经过对铁道行业标准《铁路货车车种车型车号编码》(TB2435?93)里面包含的所有车型号进行统计,除了10个阿拉伯数字外,包括了除O,R,V,Z四个字母外所有的大写英文字母,总共有32类字符。
训练过程中的误分类率曲线
针对车型号的识别需求,本文在LeNet?5.1的基础上提出了一种新的网络模型,称之为LeNet?5.3。与LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基础上对网络中各层的特征图数量进行扩充:
(1)卷积层C1的特征图由6个增加至8个,相应地,S2层的特征图也由6个增加至8个。
(2)卷积层C3的特征图由16个增加至24个,相应地,S4层的特征图也由16个增加至24个。
(3)卷积层C5的特征图个数由120个增加至240个。
(4)输出层神经元的个数由10个增加至32个。
其中卷积层C3层与次抽样层S2层的连接情况参考LeNet?5.2所采用的原则,使卷积层C3中的特征图包含次抽样层S2中多个特征图的主要组合。
与LeNet?5.1相比,LeNet?5.3需要有更多的输出类别,各层的特征图数量也做了相应的增加,以增加整个网络的识别性能。为了验证改进后的LeNet?5.3的性能,收集了大量真实列车车厢图片,经过车号定位和分割之后,将单个的数字字符或者大写字母字符图像尺寸依次归一化为32×32,分别建立训练图像库和测试图像库。
由于LeNet?5.1各层的特征图数量多,因此该网络涉及到的可训练参数也大大增加,这也意味着需要更多的数据样本用于网络训练。若训练集和测试集规模依然采用跟前面实验中一样的各400幅,训练过程中的误分类率曲线如图6所示,图6中的曲线变化非常不稳定,波动较大。测试MCR达到最低点后又突然升高,不能获得稳定的分类结果,训练过程无法收敛。
网络训练过程中无法收敛的主要原因在于相比网络中过多的需要训练确定的权值,数据集规模过小,已然不能满足学习的要求。从特征图角度来看,网络无法通过不充足的训练样本学习到稳定而有效的特征图组合,从而导致了网络不收敛。要解决这个问题需要加大测试样本的数量。
为了训练和测试LeNet?5.3,对数据集进行了扩充:训练图像库包含字符图像4000幅,测试图像库包含字符图像2000幅。训练过程中的误分类率曲线如图7所示。从图7中可以看出,经过32次迭代之后网络趋于收敛,并且达到了较好的识别率。
4结语
本文针对货运列车车号识别的难题,提出了基于卷积神经网络LeNet?5改进后的识别方法,主要对卷积神经网络中各层特征图数量及大小进行了改进。且与传统的BP网络进行了比较,从实验结果可以看出,改进后的卷积神经网络无论在鲁棒性还是识别率以及识别速度上都优于BP网络,可以很好地胜任列车车号识别任务。
参考文献
[1]宋敏.铁路车辆车号自动识别系统的研究和开发[D].天津:河北工业大学,2011:1?5.
[2]LUS,CHENBM,KOCC.Perspectiverectificationofdocumentimagesusingfuzzysetandmorphologicaloperations[J].Imageandvisioncomputing,2005,23(5):541?553.
[3]SHAHP,KARAMCHANDANIS,NADKART,etal.OCR?basedchassis?numberrecognitionusingartificialneuralnetworks[C]//Proceedingsof2009IEEEInternationalConferenceonVehicularElectronicsandSafety(ICVES).[S.l.]:IEEE,2009:31?34.
[4]CHEND,BOURLARDH,THIRANJP.TextidentificationincomplexbackgroundusingSVM[C]//Proceedingsof2001IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.[S.l.]:IEEE,2001:621?626.
[5]LECUNY,BOTTOUL,BENGIOY,etal.Gradient?basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278?2324.
[6]LECUNYA,BOTTOUL,ORRGB,etal.Efficientbackprop[M]//Anon.Neuralnetworks:tricksofthetrade.Berlin:SpringerBerlinHeidelberg,1998:9?50.

仙女湖作文500字(精选13篇)
- 阅1仙女湖作文篇1从前有一个小姑娘,她非常的爱惜环境。有一次,她到小河边洗衣服,一不小心衣服顺着河水飘走了,她跟着衣服越走越远。不知不觉,走到了一个美丽的湖,衣服飘到岸边不走了.....

独自在家的作文200字(精选6篇)
- 阅0独自在家的作文篇1晴空万里,阳光明媚,今天是暑假的第一天,我的心情大好。爸爸妈妈今儿都要去上班,哈哈,今天我“当家”喽!“诗雨,我们走了,一个人在家别乱疯!”妈妈说。“哦,哦,哦!”别.....

三年级周记范文精选(整理10篇)
- 阅0三年级周记范文篇1今天,我又让姥姥教我做一道菜,学的是“炒土豆丝”。我说:“姥姥我还想学炒一道菜”,姥姥说:“那我就教你炒土豆丝吧。”于是我们就开始动手了,先把土豆皮削掉,用.....

初中暑假周记精选(整理9篇)
- 阅0初中暑假周记7月24日是我的生日,现在我已经十岁了。妈妈给了我一次特殊的机会,让我参加了东方绿舟的“健康快乐夏令营”。7月25日一早,我带上自己整理的行李箱,和爸爸、妈妈来.....