成员:惠州学院大二在校生-庄思杰惠州学院大三在校生-邹旭智导师:罗除
随着深度学习逐渐成为该领域的领导者,机器学习领域正在见证它的黄金时代。深度学习使用多层来表示数据的抽象,以建立计算模型。一些关键的使能深度学习算法,如生成对抗网络,卷积神经网络和模型传输已经完全改变了我们对信息处理的感知。
在本节中,讨论了几种流行的深度学习网络,如递归神经网络,RNN,CNN和深度生成模型。
RvNN可以进行分层结构的预测,并使用合成向量对输出进行分类。特点:引入BackpropagationThroughStructure对网络进行训练,在输出层再现输入层的模式RvNN合并产生一个更大的多单元区域一个表示该区域的合成向量类标签
RNN是在NLP和语音处理中广泛应用和流行的算法。RNN的一个主要问题是它对消失和爆炸梯度的灵敏度,换句话说,在训练过程中,由于大量大小导数的相乘,梯度可能会呈指数衰减或爆炸。随着时间的推移,这种敏感度会降低,这意味着网络会随着新输入的进入而忘记初始输入。解决方法:LSTM通过在其循环连接中提供内存块来处理这个问题,每个内存块包括存储网络时间状态的内存单元,在极深网络中的剩余连接也可以显著缓解消失梯度问题。
中展示了一个用于像分类的CNN架构示例,在典型的CNN中,会有许多的卷积层加上池化层,最后通常使用全连接层。CNN被广泛应用于不同的应用领域,如NLP、语音处理、计算机视觉等。CNN有三个主要的优点,即参数共享、稀疏交互和等价表示;使网络更快,更容易训练。cnn中的每一层的输入x按三维排列,m×m×r,其中m表示输入的高度和宽度,r表示深度或通道数。在每个卷积层中,有几个大小为n×n×q的滤波器k,n应该比输入像小,但q可以比r小或相同大小。正如前面提到的,滤波器是与输入卷积的本地连接的基础,共享相同的参数,以生成k个特征映射,每个大小为m−n−激活函数:
DBN是一种混合概率生成模型,最上面由两层无向连接的RBM,下面一层使用有向连接接受上层的输入,最底层是可见层能量构型h为隐层单元的二进制构型,a和b分别为可见和隐藏单元的偏差,矩阵W表示各层之间的连接权值,v为可见层的状态向量,根据连接权值和单位偏差计算概率分布:
与DBN结构类似,唯一的不同既是将DBN中的有向SBN改为无向RBM优点:性能相比DBN更为优越,能够学习更加复杂的数据,完成更高难度的语音和目标识别任务缺点:需要设备有较高的计算能力
GAN由生成模型G和判别模型D组成D的值来自于判别模型的数据,其值大小在0~1之间,Pdata是真实世界数据的分布,当模型数据与真实世界数据相等时,达到纳什平衡,Discriminator无法再识别两个数据。
VAE利用了数据的对数似然,并利用了从具有连续潜在变量的有向形模型导出下界估计的策略在Auto-EncodingVariationalBayes算法优化神经网络中encoder是生成模型中的近似,z为简单分布下的潜变量,即N,I为单位矩阵,它的目标是在整个生成过程中使训练集中每个x的概率最大化
近年来,生成模型如GANs和VAEs已经成为无监督深度学习的主导技术。在GANs中,该网络基于cnn,在视觉数据分析中表现出了无监督学习的优势,在其它工作,autoencoder可以被训练成一个高级特征提取器,应用于如人脸识别等方面。在大规模数据集上预训练深度网络,这种技术被称为迁移学习,由于很少有人拥有强大的GPU等硬件,所以迁移学习是一个好的选择,能够提高训练效率。迁移学习可以通过使用预训练网络作为固定的特征提取器或微调预训练模型的权值来实现。在后者中,模型应该继续学习以微调深度网络的全部或部分高级部分的权重。这种方法可以被认为是一种半监督学习,其中标记数据不足以训练整个深度网络。
OnlineLearning并不是一种模型,而是一种模型的训练方法,OnlineLearning能够根据线上反馈数据,实时快速地进行模型调整,使得模型及时反映线上的变化,提高线上预测的准确率。OnlineLearning的流程包括:将模型的预测结果展现给用户,然后收集用户的反馈数据,再用来训练模型,形成闭环的系统。面临的挑战:时间复杂度;具有时变分布的高速数据.
优化过程训练DNN是一个优化过程,即寻找网络中使损失函数最小的参数。存在的问题SGD振荡:因为较低的学习率经过较长时间最终达到最优状态,而较高的学习率会更快地衰减损失,可能在训练过程引起波动;可以尝试类似于运动学,添加一个适当的动量,获得了更快的收敛速度,可以改善SGD的优化结果解决方案可以尝试类似于运动学,添加一个适当的动量,获得了更快的收敛速度,可以改善SGD的优化结果引入权重衰减和学习率衰减来调整学习率,加快收敛速度根据前几个阶段梯度调整学习率,有助于避免波动
在分布式系统中训练模型主要有两种方法,即数据并行和模型并行。对于数据并行性,模型被复制到所有的计算节点,每个模型使用指定的数据子集进行训练。经过一段时间后,需要在节点之间同步权值的更新。相比之下,对于模型并行性,所有数据都用一个模型处理,每个节点负责模型中参数的部分估计。数据并行优点:异步更新不需要等待在主节点上更新参数,而是允许每个节点花更多的时间进行计算去中心化可以显著降低网络通信成本模型并行优点:使大规模深度神经网络的训练和预测成为可能缺点:每个节点只能计算结果的一个子集,需要同步才能得出完整结果模型并行策略比数据并行策略的同步损失和通信开销更大一般来说,数据集越大,数据并行性就越有利。深度学习模型越大,越适合模型并行性
Caffe:单机框架,不支持多节点执行,支持多gpu计算DL4j:可配合hadoop和spark进行分布式计算Torch:允许用户在运行时改变模型结构Neon,Theano:支持并行及多GPU,无法多节点计算MXNet:支持接口众多,支持架构中设计中的计算声明和命令式计算声明,支持数据并行和模型并行,遵循参数服务器方案,支持分布式计算,功能全面,性能优化不如其它框架TensorFlow:面向基于静态计算的深度神经网络,提供了不同级别的并行和分布式操作,以及设计良好的致命容错能力CNTK:有专门用于神经网络实现的高级脚本语言BrainScript,支持GPU/CPU模式,消息传递接口支持分布式计算,将神经网络建模为有向,中的每个节点代表一个操作或一个过滤器,每个边代表数据流
目前,深度学习的应用领域包括但不限于自然语言处理、视觉数据处理、语音和音频处理、社会网络分析、医疗保健等。:::hljs-center
一些主要的深度学习应用程序
:::
SentimentAnalysis
MachineTranslation
深度学习在传统自动翻译方法的改进中发挥了重要作用。Cho等人引入了一种新的基于RNN的编码和解码架构来训练神经机器翻译中的单词。 RNNEncoder-Decoder框架使用两个RNN:一个将输入序列映射为固定长度的向量,而另一个RNN将向量解码为目标符号。RNN编码器-解码器的缺点:性能下降,因为输入的符号序列变得更大。通过引入动态长度向量和共同学习对齐和翻译过程解决了这个问题。即执行二分搜索,寻找对翻译最有预测性的词性。尽管如此,最近提出的翻译系统在处理含有罕见词的句子时,计算成本高,效率低。谷歌提出了神经机器翻译系统,在字符级模型提供的灵活性和字级模型的效率之间引入了一种平衡。GNMT是一个深度LSTM网络,它使用了8个编码器和8个解码器层,使用基于注意力的机制连接。首次引入了基于注意的方法对NMT进行一般性的改进。该模型在WMT的14个英语-法语和英语-德语基准测试中取得了最先进的分数。
ParaphraseIdentification
释义识别是对两个句子进行分析,并根据其潜在的隐含语义预测其相似程度的过程。它是一个关键的特性,对一些NLP工作非常有益。 ABCNN是最近提出的一种深度学习架构,目的是确定两个句子之间的相互依赖关系。除了释义检测外,它还被用于回答选择和文本蕴涵。
Summarization
自动摘要可以从大型文本文档中提取最重要、最相关的信息。一个良好表示的摘要可以有效地减少文本的大小,而不会丢失最重要的信息。这可以大大减少分析基于文本的大型数据集所需的时间和计算量。
QuestionAnswering
一个自动问答系统应该能够解释一个自然语言问题,并使用推理返回一个适当的答复。现代的知识库,如著名的FREEBASE数据集,在这个领域蓬勃发展,并跳出了手工为特定领域制作特性和规则集的时代。本文提出的问答框架基于CNN,采用基于语料库的方法回答保险领域的问题。
深度学习技术已经成为各种先进多媒体系统和计算机视觉的主要组成部分。更具体地说,CNN在不同的现实任务中显示出了显著的结果,包括像处理、目标检测和视频处理。本节将详细讨论过去几年提出的用于可视化数据处理的最新深度学习框架和算法。
ImageClassification
LeNet-5是一个传统的CNN,它包括两个卷积层和一个子采样层,最后在最后一层以全连接结束。AlexNet被认为是第一个在非常大的数据集上大幅改善像分类结果的CNN模型。该网络采用了CNN的GPU实现,提高了训练效率和速度。数据增强和删除技术也被用来大大减少过拟合问题。 微软深度残差网络通过在CNNs中引入残差连接并设计超深度学习模型。ResNeXT作为ResNet和VGGNet的扩展。这个简单的模型在一个残差块中包括几个分支,每个分支执行一个转换,最后通过求和操作聚合。这个通用模型可以通过其他技术进一步重构。ResNeXT使用了一半的层,比它的原始版本更好,并且改进了Inception-v3和ImageNet数据集上的Inception-ResNet网络。下展示了像分类的深度和性能随时间的变化。监督像分类问题被认为“解决”了。:::hljs-center
随着时间的推移,在ImageNet分类中网络的前5个错误和层。
:::
ObjectDetectionandSemanticSegmentation
近年来,深度学习技术在目标检测的发展中发挥了重要作用。在此之前,最好的目标检测性能来自具有一些低级特征和高级上下文的复杂系统。然而,随着新的深度学习技术的出现,目标检测也达到了一个新的进步阶段。这些进步是由诸如regionproposal和region-basedCNN等成功的方法驱动的。 R-CNN利用深度网络引入了基于区域的目标定位方法,弥合了目标检测和像分类之间的差距。此外,由于小目标检测数据集包含了不足以训练大型CNN网络的标记数据,因此利用了大数据集上的迁移学习和相关技术。但是在R-CNN中,训练的计算时间和内存非常昂贵,尤其是在新的超深网络上。此外,目标检测步骤非常缓慢。后来,为了克服上述问题,对该技术进行了扩展,引入了FastR-CNN和FasterR-CNN两种成功的技术。前者利用共享计算来加速原来的R-CNN,并训练出一个非常深入的VGGNet,而后者提出了一个区域提议网络,可以实现几乎实时的目标检测。 一种实时对象检测被称为YOLO,它包含一个CNN。卷积网络同时对每个框进行边界框检测和类概率计算。YOLO的好处包括快速的训练和测试以及与以前的实时系统相比合理的性能。 与Fast/FasterR-CNN不同,最近的一种名为Region-basedfullConvolutionalNetworks的方法利用了一种完全卷积网络,可以共享像上几乎所有的计算。该方法使用ResNet分类器作为对象检测器,实现了比fasterR-CNN方法更快的测试时间速度。提出了单次多盒探测器i,它比YOLO更快,其性能与基于区域的技术一样准确。它的模型是基于一个单独的CNN,生成一组固定大小的包围盒,以及盒子中对应的物体得分。 语义分割是在像素级上理解像的过程,这对于自动驾驶、机器人视觉和医疗系统等现实应用是必要的。现在的问题是如何将像分类转化为语义分割。近年来,许多研究都采用深度学习技术对像像素级进行分类。例如,反卷积网络包括反卷积和unpooling模块来检测和分类分割区域。在另一项工作中,提出了一种完全卷积网络,并利用了AlexNet、VGGNet和GoogleNet等网络。最近,FacebookAIResearch提出了MaskR-CNN,用于对象实例分割。它扩展了FasterR-CNN,增加了一个新的分支,在生成包围盒和类标签的生成每个感兴趣区域的分割掩码预测。 该模型简单灵活,在COCO实例分割和目标检测方面均有良好的性能。
VideoProcessing
在早期的工作中,利用含有487节运动课程的大规模YouTube视频来训练CNN模型。该模型包括利用视频中的局部运动信息的多分辨率架构,并包括上下文流和中央凹流模块来对视频进行分类。近年来,提出了一种新的视频处理技术——递归卷积网络。它将cnn应用到视频帧上进行视觉理解,然后将帧输入到rnn中分析视频中的时间信息。提出了一种新的RCN模型,该模型将RNN应用于cnn的中间层。此外,利用门控循环单元来利用RNN模块的稀疏性和局部性。该模型在UCF-101和YouTube2Text数据集上进行了验证。 三维CNN在视频分析任务中表现出了比传统2DCNN更好的性能。它从视频输入中自动学习时空特征,同时对外观和运动建模。双流网络是另一组视频分析技术,分别对空间和时间信息进行建模,并在网络的最后几层平均预测。这个网络在最近的一项名为膨胀3DConvNet的工作中得到了扩展,它利用了C3D的思想。还对Kinetics数据集进行了预训练。该方法能够显著提高UCF-101和HMDB-51数据集的动作识别性能。
VisualDatasets
像和视频处理的显著进步不仅依赖于新的学习算法的开发和强大硬件的利用,而且至关重要地依赖于非常大规模的公共数据集。下表列出了几个用于训练深度学习算法的大规模可视化数据集。ImageNet可以认为是深度学习中最重要、最具影响力的数据集。它被用于训练所有流行的网络,如AlexNet,GoogleNet,VGGNet和ResNet,因为它的大规模标记像集合。:::hljs-center
深度学习的常用可视化数据集
:::在许多研究中使用的小尺度像数据集是CIFAR10/100。该数据集还用于评估像分类任务中的许多dnn。如前所述,PASCALVOC和MicrosoftCOCO被用于各种对象检测和语义分割任务。YouTube-8M是一个由谷歌生成的相对较新的数据集,它在视频处理中扮演着与ImageNet相同的角色。它可以用作各种视频分析的基准数据集,包括事件检测、理解和分类。
语音和音频处理是直接操作电子或模拟音频信号的过程。它是语音识别、语音增强、电话分类和音乐分类所必需的。ASR系统由语音信号预处理、特征提取、声学建模、语音单元识别和语言建模等多个部分组成。传统的ASR系统集成了隐马尔可夫模型和高斯混合模型。hmm用于处理与时间空间相关的语音变化,而GMMs则代表声音单位的声学特性。建模过程非常耗时,并且需要非常大的训练数据集才能达到很高的精度。DBN是该领域常用的深度学习模型之它显著提高了声学模型的性能。它以rbm作为构建模块来模拟语音中的频谱变化。它是第一个应用于带有预训练DNN模型的大型词汇数据集的应用程序。许多研究都遵循这一方向进行进一步的改进和效率评价。 使用连接主义者时间分类损失函数对具有多个卷积层的大型RNN进行端到端训练。提出的深度RNN架构被称为深度语音它利用了深度学习系统提供的容量,并在嘈杂环境中保持了整个网络的鲁棒性。此外,该方法还能快速应用于具有高性能识别器的新语言。 该模型部署在GPU服务器上的可伸缩性也得到了评估,该模型在低延迟的转录下获得了更高的效率。 除了语音识别任务,许多研究集中在语音情感识别,语音增强和Seaker分离,下表总结了最新的方法。:::hljs-center
音频处理中的流行深度学习方法
:::
SpeechEmotionRecognition
情绪既影响语音特征,又影响言语的语言内容。SER在很大程度上依赖于用于分类的语音特征的有效性,可以分为两类:高水平统计函数的全局模型和基于框架的动态低水平描述符的动态建模方法,如Mel频率倒谱系数、语音概率、谐波噪声比等。 一种新开发的具有一个隐藏层的神经网络,称为极限学习机,利用dnn进行语音级分类。该方法的评估使用了交互式情感二元动作捕捉数据库的音轨,该数据库包含了来自10个演员的视听数据。实验结果表明,与基于HMM和svm的方法相比,ELM方法的性能得到了提高。 CNN除了展示了专注CNN模型在特征学习上的优势外,还被用于语音情感识别。这项工作在临时的IEMOCAP数据上取得了最先进的性能结果。
SpeechEnhancement
SocialNetworkAnalysis
Facebook和Twitter等社交网络的流行使得用户能够分享大量的信息,包括他们的片、想法和观点。由于深度学习在视觉数据和自然语言处理方面表现出了良好的性能,人们采用了不同的深度学习方法进行社会网络分析,包括语义评价、链接预测和危机响应。 语义评价是社交网络分析中的一个重要领域,它旨在帮助机器理解社交网络中帖子的语义。虽然已经提出了各种各样的技术来分析NLP中的文本,但这些方法可能无法解决社会网络分析中的几个主要挑战,如拼写错误、缩写、特殊字符和非正式语言。 Twitter可以认为是社交网络分析中最常用的情感分类来源。一般来说,情感分析的目的是确定审稿人的态度。 为此,SemEval提供了一个基于Twitter的基准数据集,并从2013年开始运行情感分类任务。另一个类似的例子是亚马逊,它最初是一家在线书店,现在是世界上最大的在线零售商。由于大量的购买交易,客户产生了大量的评论,使得Amazon数据集成为大规模情感分类的一个很好的来源。 在社交网络领域,链接预测也被广泛应用于推荐、网络完成、社交关系预测等场景。基于深度学习的方法被用于提高预测的性能,并解决可扩展性和非线性等问题。由于社交网络中的数据具有高度的动态性,我们对传统的深度学习算法进行了改进以适应这一特点。一种基于预训练rbm的有监督DBN方法用于链路预测,该过程被分为三个步骤,并为每个部分构造一个预先训练的基于rmb的DBN,其中每个DBN中包含两层rmb。第一步是无监督链接预测,其中使用编码的链接作为输入特征,以无监督的方式生成预测的链接。接下来,在特征表示步骤中,根据无监督链路预测的输出生成原始链路的表示,然后进行最后一步,由链路表示监督生成预测的链路。 不同于语义分类和链接预测的任务,社会网络中的危机响应需要对自然或人为灾害的即时检测。危机应对的主要目标是识别有信息的帖子,并将它们分类成相应的主题类别,如洪水、地震、野火等。
InformationRetrieval
深度学习对信息检索有很大的影响。深度结构化语义建模被提出用于文档检索和网络搜索,其中潜在语义分析由DNN进行,查询和点击数据一起用于确定检索结果。编码后的查询和点击数据通过词哈希映射到30k维,通过多层非线性投影生成128维的特征空间。通过训练提出的DNN,在点击数据的帮助下,将给定的查询与其语义联系起来。
TransportationPrediction
交通预测是深度学习的另一个应用。用于预测由于某一地点的拥塞而导致的交通网络拥塞演化。 然而,达到合理的准确性和效率的代价是失去灵敏度和特异性的模型。与现实世界的流量不同,互联网流量由于其时变特性而更加复杂,可以通过深度学习方法进行分析。与大多数最先进的方法相比,深度学习方法在预测方面至少提高了7%,在估计方面至少提高了24%。
AutonomousDriving
谷歌、特斯拉、Aurora、Uber等一大批大公司和独角兽初创公司都在研究自动驾驶汽车技术。早在2008年,Hadsell等人就使用了一个相对简单的DBN,用两个卷积层和一个最大子采样层来提取深度特征。他们通过训练分类器来区分特征向量,在越野地形中对远程视觉使用了一种自我监督学习技术。 最近,自动驾驶系统被分为机器人技术和行为克隆技术。传统的机器人方法包括与驾驶相关的物体识别,并结合传感器融合、物体检测、像分类、路径规划和控制理论。Geiger等人构建了一个经过修正的自动驾驶数据集,该数据集捕捉了广泛的有趣场景,包括汽车、行人、交通车道、路标、红绿灯等。 从像中学习深度学习特征以进行可视性估计,然后做出高级驾驶决策。虽然自动驾驶技术现在更加成熟,但要处理不可预测和复杂的情况,仍有很长的路要走。
Biomedicine
DisasterManagementSystems
灾害影响社区、人类生活和经济结构。一个良好的灾害信息系统可以帮助公众和紧急行动中心的人员了解当前的灾害情况,并协助救灾决策过程。目前,将深度学习方法应用于灾害信息系统的主要挑战是系统需要处理时间敏感的数据,并以近乎实时的方式提供最准确的援助。当意外事故或自然灾害突然发生时,需要收集和分析大量的数据。虽然已有研究将深度学习应用于灾害信息管理,但仍处于起步阶段,在深度学习方面具有很大的潜力。
虽然深度学习可以记忆大量的数据和信息,但其对数据的薄弱推理和理解能力使其成为许多应用程序的黑盒解决方案。深度学习的可解释性有待于进一步研究。深度学习在同时建模多个复杂数据模态方面仍然存在困难。多模态深度学习是近年来深度学习研究的另一个热门方向。与人类大脑不同,深度学习需要大量的数据集来训练机器和预测看不见的数据。当可用的数据集很小或需要实时处理数据时,这个问题变得更加令人生畏。近年来,为了缓解这一问题,人们研究了One-shotlearning和zero-shotlearning。现有的大多数深度学习实现都是监督算法,而机器学习正在逐渐转向无监督和半监督学习,以处理现实世界的数据,无需人工人工标记。尽管近年来深度学习取得了长足的进步,但许多应用仍未被深度学习所触及,或处于利用深度学习技术的早期阶段。
总之,深度学习作为一种新兴的快速发展的方法,在各种应用中提供了无数的挑战,也提供了机遇和解决方案。更重要的是,它将机器学习转移到一个新的阶段,即“更智能的AI”。
文章为作者独立观点,不代表 股票程序化软件自动交易接口观点
吉2023-01-19
幸灾乐祸,在这里唱空股票的,都是些空仓,又想捡便宜筹码的人。无利不起早,本性就是满仓唱多,空仓唱空。如果靠唱能决定,那是要请戏班来唱了,等醒来,发现丑国股指竟然是红的,这太不正常了。