AI技能入门进修（一）：什么是神经收集？它是若何运作的？_神经收集_梯度

文章目录 [+]

一、神经网络因何而生？

神经网络，是打算机技能基于生物学技能提出的理念。

AI技能入门进修（一）：什么是神经收集？它是若何运作的？_神经收集_梯度科学

很多文章会重点强调这种打算模型是受到人类大脑构造和功能的启示，但不止于此，实在这种打算模型与人类视觉系统关系也非常大。

人类视觉系统非常繁芜，包含数亿个神经元和连接，举个例子来说，在我们的认知领域，识别手写数字很随意马虎，但这项工为难刁难打算机程序来说却非常困难。

如图例，人会先通过视觉去看到数字，然后迅速传导到大脑进行辨析，输出结论——这是数字5。

纵然这些5的长相互异，但人类出于某些缘故原由仍能够精准判断，比如认识第一个5，自然而然对后续的符号产生遐想，理解后续的符号都是数字，然后归类于5。

或者比如第三个5，独立去看，奇形怪状的，但若某人曾瞥见过某个5是这样书写的，也会自然而然将其认识为5。

识别手写数字并不随意马虎，但人类非常善于理解视觉所见，这种辨析每每在几分之一秒就不知不觉地完成。
因此，我们常日不会意识到我们的视觉系统办理的问题有多繁芜。

但对付打算机来说，这是一个全新的领域，打算机没有所谓的“视觉神经”，摄像头起到的浸染仅仅是“看”而不是“迅速地想”，那么，该如何识别这个手写数字为5呢？

这便是神经网络所办理的问题，神经网络是存在于打算机中的、仿照了人类判断辨析事物的方法的运算凑集，它可以依据这种运算能力去处理和仿照繁芜的问题，如图像识别、语音识别、自然措辞处理等。

这也是为什么AI会可以替代人，由于它的技能根本——神经网络，便是在模拟人。

二、神经网络是什么？个中有什么？

科学家们将人的判断步骤分为三块：输入-剖析-输出，以是，神经网络也由输入层、隐蔽层（我乐意称之为剖析层）和输出层组成。

依据这种阶段的观点，制造出了存在于打算机中的人工神经元，将这些人工神经元，支配在输入层、隐蔽层和输出层之中，人工神经元之间交叉着利用函数构建起来的关联线，终极形成了有构造的神经网络。

我会先容两种主要的人工神经元模型：感知器和S型神经元。

1. 感知器

在输入层，最主要的便是该如何去获取有效信息，并输入到打算机之中。
这点我们可以理解为，我们在看到某个事物时，并不是纯粹机器地在“看”，而是有主次意识地在“看”。

依然以这组数字为例，我们在“看”的时候，会重点看玄色的字体“5”，其次关注到周围的“·”以及其与“5”的排列关系，背景的灰色在思维惯性下会被忽略。

但对付打算机来说，如果不进行“感知”而是纯挚去看，这张图对付它便是这样的（乃至更夸年夜一些，但我不知道该如何形容这种虚无）：

而感知器的存在，就像是为打算机供应了一种优先级识别的能力。

感知器中会有一套二进制的运算办法，以图片中的各个“元素优先级（权重）”搭配“是/否判断”，来达成“识别感知”的目的。

比如，以上面的数字图为根本，感知器会这样帮助打算器识别图片中有笔墨。

中间的圆圈便是感知器，而在这个过程中，“玄色”和“线条”都要经由感知器的“是/否判断”，并且还会对应权重，比如“线条”的权重就该当略高于“玄色”，由于图中还有非线条的“·”存在，如果纯挚以玄色为判断根本，“·”也会被定义为“数字”。

这便是感知器的事情事理。

当然，实际层面的判断不会如我先容的这么大略，各种判断条件及权重的交叉是很繁芜的，如下图，感知器会接力运行打算，终极输出结果。

这也是为什么会有人说，AI模型很磨练“算力”，由于感知器须要在瞬间完成大量判断运算。

这里须要把稳的是，感知器只有“单个条件”输出的能力，也便是说，一个感知器终极只会输出一个结果，如图中的这种输出多个结果的形式，是由于下一列的多个感知器都会利用这个感知器输出的同一个结果来进行判断。

2. S型神经元

上文提到的感知器，很随意马虎爆发出一个致命问题：个中眇小的一些权重变革，就会对后续结果造成很大影响。
那么我们该如何担保终极输出的结果能知足我们的哀求呢？

改动偏差。

我们可以利用结果来反向修正权重，就像是事情中常常会做的“复盘”，这会使神经网络表现得如我们所愿。

S 形神经元（Sigmoid神经元）便是这种可以自行复盘的人工神经元，是对早期感知器模型的改进，表面看与感知器很类似，但经由机器自行的复盘改动，其权重和偏差的眇小变革仅会导致其输出的眇小变革，这也是一贯所谈论的机器学习的关键根本——通过不断改动偏差来不断逼近有效结果。

这种改动能力的根本来源于Sigmoid函数，该函数的特点是连续且可微、非线性，详细阐明比较繁芜，属于数学观点，大略理解一下即可。

连续且可微：“连续且可微”是描述函数性子的两个主要观点，在机器学习中，连续且可微的激活函数（如Sigmoid或Tanh）许可利用基于梯度的优化算法来演习神经网络。

非线性：这个函数使得神经网络能够学习和仿照非线性数据关系，显著扩展了网络的功能和运用范围。
它不遵照线性原则，即其输出与输入之间的关系不是大略的、成比例的关系。
更详细地说，如果一个函数 𝑓(𝑥)f(x) 对付其变量 𝑥x 的变革不是成倍增加或减少的，那么这个函数就被认为是非线性的。

随着深度学习技能的发展，现在已经有了更多高等的激活函数，如ReLU（Rectified Linear Unit），它们在许多当代深度学习架构中更为常用，但S型神经元依然在神经网络的历史发展中霸占主要地位，它引发了其他函数的出身。

3. 补充信息：前馈神经网络和循环神经网络

前文我们所先容的，一贯都是单向循环的网络构造，从输入-剖析-输出的链路完成打算，这被定义为“前馈神经网络”（Feedforward Neural Networks，FFNNs）。

但人脑的构造真的是这样吗？

实际上，目前更靠近于人脑的神经网络是循环神经网络（RNN），与传统的前馈神经网络不同，循环神经网络会通过内部状态（或称为细胞状态）来存储先前输入的干系信息，并且许可托息在网络中循环，这意味着网络确当前输出不仅依赖于当前的输入，还可能依赖于之前的输入。
而且，神经元不仅吸收来自前一层的输入，还可以吸收来自同一层的神经元的输入，形成了繁芜的循环连接。

循环神经网络目前的影响力不如前馈网络，前馈网络在商业和工业运用中的影响力更大，特殊是在图像和视频处理领域。

但循环神经网络在须要处理序列数据和韶光依赖性任务的研究和运用中具有主要影响力。
随着深度学习技能的不断发展，这两种网络模型都在不断地被改进和优化，以适应更多的运用处景。

三、实战：利用神经网络剖析该数字是5

还是以前文提到的数字5为例。

首先，我们可以对数字进行识别，即玄色+线条的观点，将所有数字提取出来。

紧接着，先把数字与数字分别隔，再去分割数字本身。

终极我们得到的数字碎片，会有可判断的属性，也会有对应的权重区分。

我们已经圈定例模为这些线条组成了一个数字，接下来我们须要判断的，便是这个数字到底是几，已知单个数字共有9个，也便是说会输出9种结果，我们以结果反推，每个数字都有对应特色，这些特色便是判断的条件和权重根本，而每一个碎片都会被经历数轮的判断，终极将这些碎片得出的结果再打算，得到结果，如图，我利用了四层神经网络来判断数字碎片的特色，终极导向识别结果，如果加上前面的识别分割，神经网络的构造会更密集：

输出层包含9个神经元。
如果第一个神经元引发，即有输出≈1，就表明该神经网络认为该数字是0。

当然，虽然我是这么设计的，但这统统都只是一种启示。
没有解释识别数字的神经网络必须按照我描述的办法运行，也不一定是四层构造，这只是一种基于实例所做的思维办法的延伸。

四、演习神经网络：梯度低落算法

基于前文，我们已经基本理解了神经网络的观点和架构逻辑。
那么，神经网络如何才能更精准地达成我们想要达成的目标？我们如何避免神经网络的终极打算结果不涌现偏差？

答案便是不断演习它。

在演习中测试，以最小化本钱在测试中尽快找到权重和偏差并进行改动，使结果无线趋近于精确，纵然初始结果不佳，通过调度参数，依然可以逐步提高神经网络的性能。

业内会用“本钱函数”（也称为丢失函数或目标函数）的观点来衡量网络输出与实际值之间的差异，梯度低落算法是一种强大的优化工具，它在机器学习和深度学习中用于最小化本钱函数，从而找到模型参数的最佳值。

梯度低落不仅用于神经网络，还用于线性回归、支持向量机等多种机器学习算法，是许多高等优化技能的根本，也是机器学习中的一个核心观点，理解并节制它对付构建和优化预测模型至关主要。

这个观点比较繁芜，以是我用一个比喻来阐明：想象你站在一座山的山顶，并想要到达山谷的最低点。
由于你只能看到周围的一小段间隔，你通过不雅观察周围地形的斜率（即梯度）来决定每一步的移动方向。
你总是朝着斜率最陡峭的低落方向走，这样就能逐渐走到山谷的最低点。

在这个比喻中，山的高度代表本钱函数的值，而你的位置代表神经网络的参数（权重和偏差）。

本钱函数越低，山越低，你到达山谷最低点的本钱就越低，而梯度低落算法则是在这个过程中的浸染，便是帮你加速度到达山谷最低点，进一步降落本钱。

如何操作梯度低落：

初始化参数：为模型的权重和偏差选择初始值，常日这些值是随机的。
定义丢失函数：选择一个能够量化模型预测与实际结果差异的丢失函数，如均方偏差（MSE，它打算了预测值与实际值之间差的平方的均匀）。
打算梯度：打算丢失函数相对付每个参数的梯度，即偏导数，这指示了丢失函数在参数空间中增加最快的方向。
更新参数：根据梯度和预设的学习率，更新每个参数。
更新的方向是梯度的相反方向，由于我们要减少丢失。
迭代过程：重复步骤3和4，直到丢失函数的值收敛到一个较小的值，或者达到预设的迭代次数。
学习率调度：学习率决定了每次更新参数的步长。
可能须要根据模型的学习情形调度学习率。
随机梯度低落：在实际运用中，为了提高效率，常日利用随机梯度低落，即每次更新只利用一个小批量的演习数据来打算梯度。
监控和调试：在演习过程中监控丢失函数的值，确保它不才降而不是增加。
如果丢失函数没有低落，可能须要调度学习率或检讨模型是否有其他问题。

在很多情形下，大略的学习算法+良好的演习数据>=繁芜算法，以是机器演习是非常主要的。

五、总结

通过将繁芜问题分解为多个大略的子问题，我们就可以构建一个神经网络。
个中每一层网络的回答都大略详细，我们是通过多个层次的网络叠加来办理繁芜问题的。

而深度学习技能则是神经网络实现真正飞跃的重点，许可神经网络自动从演习数据中学习该如何调度权重和偏差，并进行基于梯度低落算法进行快速调度，是AI技能得以铺开在各个领域的主要根本。

专栏作家

瑞瑞女士，大家都是产品经理专栏作家。
关注人文、生理、传播学领域，乐于思考技能发展过程中衍生的当代社会文化问题，善于内容运营及产品设计。

题图来自 Unsplash，基于 CC0 协议

该文不雅观点仅代表作者本人，大家都是产品经理平台仅供应信息存储空间做事。

标签：神经网络函数