。 他们的设计由
Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner 等人在1998 年改善[10]
, 由 Sven
Behnke 在2003年推广[11]
,Patrice Simard, David Steinkraus, and John C. Platt 同年提出了简化
方法[12]
。LeNet-5 网络可以成功地对数字进行分类,且已被应用于数字识别。为了解决更复
杂的问题,卷积神经网络的深度和广度必将增加,这将收到计算资源的限制。更大网络的训
练由于高效的 GPU 计算的兴起已突破资源的限制成为可行。2006 年,多篇文章推出了一种
用多层训练的的方法以更高效地训练卷积神经网络[13][14][15]
。2011年,Dan Ciresan 等人细化
了此方法并用 GPU实现,有着非常好的结果[16]
。
LeCun 等人设计并采用 BP 算法对卷积神经网络进行训练[17][18]
。卷积神经网络的布局更
接近于实际的生物神经网络,具有局部感知区域、结构层次化、特征抽取、分类过程结合的
全局训练等特点。卷积神经网络使用了局部感知区域,局部权值共享,时间或空间上的降采
样,主要用来识别位移、缩放及其他形式扭曲不变性的二文图形,而其局部权值共享的结构
降低了网络的复杂性,减少了权值的数量,使得卷积神经网络在图像处理与语音识别领域有
着独特的优越性,并在图像处理领域广泛应用,特别是在手写识别领域,被一直作为机器识别系统性能的评价标准[19]
。
因为卷积神经网络在很多图像处理任务中表现出色,所以将其拓展到视频处理中有很大
的潜力且仍是开放议题。而且目前为止,一些在此问题上的尝试或是没有利用到运动信息,
或在手工输入上进行操作。此外,由于这些模型输入的连续帧数很小(通常小于 15),它们被
训练来向短的子序列而不是整个序列分配特征向量(和标签)。所以即使特征已被独立地学习
且包含时间信息,其随时间演变被完全忽略了。
在此,我们利用一种基于神经的两步式的人体行为检测深度模型,此模型的第一部分基
于拓展到 3D 的卷积神经网络,可以自动学习时空特征。第二部分包括利用已学特征训练循
环神经网络来将整个序列分类。
该论文后序章节中,我们将在第二章简要介绍几种深度模型,之后将具体介绍卷积神经
网络的结构,卷积,稀疏连接,权值共享,池化等概念,并列举3D卷积神经网络模型实例。 。
第三章将介绍BP 网络结构,着重于BP 网络的算法推导,以用于后续训练。第四章内容包括
KTH 数据集简要介绍,本毕业设计将用到的 3D 卷积神经网络模型的具体结构与 KTH 数据
集上的实验结果与分析。
2 时空特征的深度学习
深度学习是机器学习的新分支,近些年已成为机器学习领域的研究热点。深度学习是基
于学习的数据表示形式的机器学习方法更广泛系列的一部分。深度学习有很多学习架构,如
深度神经网络、卷积深度神经网络、深度置信网络、深度波尔兹曼机和循环神经网络等。2.1
节中将简要介绍深度置信网络、条件深度置信网络和时限玻尔兹曼机。2.2 和 2.3 中将着重
介绍卷积神经网络。
2.1 用于时序模式识别的深度结构
2.1.1 深度置信网络隐马尔可夫模型混合网络
深度置信网络是一种底层为可见层,底层到输出层之间均为隐含层的生成概率模型。 ,是
深度模型中最有名且最基本的。隐含层中每个节点通过与下层节点的连接学习统计表示。混
合模型有或深或浅的不同结构,但所有不同的方法中有共同之处,即神经网络和隐马尔可夫 基于深度学习的时序模式识别(2):http://www.751com.cn/jisuanji/lunwen_20079.html