《深度学习的数学》这本书由涌井良幸和涌井贞美合著,杨瑞龙翻译,主要面向深度学习初学者,旨在通过通俗易懂的语言和丰富的图示,介绍深度学习相关的数学知识。
涌井良幸:1950年生于东京,毕业于东京教育大学(现筑波大学)数学系,现为自由职业者。著有《用Excel学深度学习》(合著)、《统计学有什么用?》等。
涌井贞美:1952年生于东京,完成东京大学理学系研究科硕士课程,现为自由职业者。著有《用Excel学深度学习》(合著)、《图解贝叶斯统计入门》等。
全书共分为五章,每章围绕不同的主题展开,逐步引导读者理解深度学习的基本原理和数学基础。
第1章:神经网络的思想
本章介绍了神经网络的基本概念和结构,包括神经元的工作原理、激活函数的作用以及神经网络的层次结构。作者通过类比和示例,解释了神经网络如何模拟生物神经系统的功能,以及如何通过自学习进行模式识别。
作者强调了神经网络在人工智能中的重要性,指出其能够通过自学习来处理复杂的模式识别问题。同时,作者也指出,尽管神经网络的数学理论相对简单,但其在实际应用中表现出强大的能力。
第2章:神经网络的数学基础
本章详细介绍了神经网络所需的数学基础知识,包括函数、数列、向量、矩阵等概念,以及导数和偏导数的基础知识。作者通过具体的例子和公式,帮助读者理解这些数学工具在神经网络中的应用。
可以认为内积表示两个向量在多大程度上指向相同方向。如果将方向相似判定为“相似”,则两个向量相似时内积变大。
神经网络会自己进行学习,这在数学上的含义是指,对权重和偏置进行最优化,使得输出符合学习数据。而对于最优化而言,求导是不可缺少的一种方法。
由于导函数 f'(x) 表示切线斜率,我们可以得到以下原理,该原理在后述的最优化中会用到。当函数f(x)在x = a处取得最小值时,f'(a) = 0。
梯度下降法的思路:已知函数 z = f(x, y),怎样求使函数取得最小值的 x、y 呢?最有名的方法就是利用“使函数 z = f (x, y) 取得最小值的 x、y 满足以下关系”这个事实。这是因为,在函数取最小值的点处,就像葡萄酒杯的底部那样,与函数相切的平面变得水平。
然而,在实际问题中,联立方程式通常不容易求解,那么该如何解决呢?梯度下降法是一种具有代表性的替代方法。该方法不直接求解式 的方程,而是通过慢慢地移动图像上的点进行摸索,从而找出函数的最小值。我们先来看看梯度下降法的思路。这里我们将图像看作斜坡,在斜坡上的点 P 处放一个乒乓球,然后轻轻地松开手,球会沿着最陡的坡面开始滚动,待球稍微前进一点后,把球止住,然后从止住的位置再次松手,乒乓球会从这个点再次沿着最陡的坡面开始滚动。
这个操作反复进行若干次后,乒乓球沿着最短的路径到达了图像的底部,也就是函数的最小值点。梯度下降法就模拟了这个球的移动过程。在数值分析领域,梯度下降法也称为最速下降法。这个名称表示沿着图像上的最短路径下降。
η 可以看作人移动时的“步长”,根据 η 的值,可以确定下一步移动到哪个点。如果步长较大,那么可能会到达最小值点,也可能会直接跨过了最小值点(左图)。
而如果步长较小,则可能会滞留在极小值点(右图)。在神经网络的世界中,η 称为学习率遗憾的是,它的确定方法没有明确的标准,只能通过反复试验来寻找恰当的值。
在为了分析数据而建立数学模型时,通常模型是由参数确定的。在数学世界中,最优化问题就是如何确定这些参数。从数学上来说,确定神经网络的参数是一个最优化问题,具体就是
对神经网络的参数(即权重和偏置)进行拟合,使得神经网络的输出与实际数据相吻合。
模型的参数个数大于数据规模时又如何呢?当然,这时参数就不确定了。因此,要确定模型,就必须准备好规模大于参数个数的数据。
作者认为,掌握这些数学基础知识是理解神经网络工作原理的关键。通过数学工具,可以更深入地理解神经网络的优化过程和误差反向传播法等重要概念。
第3章:神经网络的最优化
本章探讨了如何通过最优化方法来确定神经网络的权重和偏置。作者介绍了代价函数的概念,并详细讲解了最小二乘法和梯度下降法等常用的最优化方法。
作者强调,最优化是神经网络学习的核心,通过最优化可以使得神经网络的输出与实际数据尽可能地吻合。作者还指出,选择合适的最优化方法和参数设置对于神经网络的性能至关重要。
第4章:神经网络和误差反向传播法
本章详细介绍了误差反向传播法(BP法),这是神经网络训练中最为重要的算法之一。作者通过图示和公式,解释了误差反向传播法的工作原理和计算过程。
作者认为,误差反向传播法是实现神经网络自学习的关键技术。通过该方法,可以有效地计算出神经网络的梯度,并更新权重和偏置,从而实现对网络的训练和优化。
第5章:深度学习和卷积神经网络
本章介绍了深度学习的概念和卷积神经网络(CNN)的结构与原理。作者通过具体的例子,展示了卷积神经网络在图像识别等领域的应用,并详细讲解了卷积层、池化层等关键组件的工作原理。
作者指出,深度学习通过多层结构和卷积神经网络等技术,极大地提高了神经网络的性能和应用范围。卷积神经网络在处理图像数据时表现出色,能够有效地提取特征并进行分类。
通过理解神经网络的数学基础和优化方法,我们可以更好地掌握深度学习的原理和应用。作者强调了数学在深度学习中的重要性,并通过详细的讲解和实例,帮助读者逐步建立起对深度学习的全面认识。作者通过逐步引导的方式,从神经网络的基本概念入手,逐步引入数学基础知识和优化方法,最终深入到卷积神经网络。在每一章中,作者都通过丰富的图示和具体的例子,帮助读者理解抽象的数学概念和复杂的算法原理。此外,作者还通过Excel示例,让读者能够直观地体验深度学习的过程,进一步加深对书中内容的理解和掌握。