Sigmoid函数是什么-犀牛文库

Sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线。在信息科学中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的激活函数，将变量映射到0,1之间。

Sigmoid 函数是一个在生物学中常见的 S 型函数，也称为 S 型生长曲线。在信息科学中，由于其单增以及反函数单增等性质，Sigmoid 函数常被用作神经网络的激活函数，将变量映射到 0,1 之间。

Sigmoid函数是什么

简介

sigmoid 函数也叫 Logistic 函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间，可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。Sigmoid 作为激活函数有以下优缺点：

优点：平滑、易于求导。

缺点：激活函数计算量大，反向传播求误差梯度时，求导涉及除法；反向传播时，很容易就会出现梯度消失的情况，从而无法完成深层网络的训练。

Sigmoid 函数由下列公式定义

其对 x 的导数可以用自身表示：

Sigmoid 函数的图形如 S 曲线

Sigmoid 曲线

Sigmoid 函数的级数表示：

激活函数

在计算机网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到开（1）或关（0）输出的数字电路激活函数。这与神经网络中的线性感知机的行为类似。然而，只有非线性激活函数才允许这种网络仅使用少量节点来计算非平凡问题。在人工神经网络中，这个功能也被称为传递函数。

sigmoid 函数和 tanh 函数是研究早期被广泛使用的 2 种激活函数。两者都为 S 型饱和函数。当 sigmoid 函数输入的值趋于正无穷或负无穷时，梯度会趋近零，从而发生梯度弥散现象。sigmoid 函数的输出恒为正值，不是以零为中心的，这会导致权值更新时只能朝一个方向更新，从而影响收敛速度。tanh 激活函数是 sigmoid 函数的改进版，是以零为中心的对称函数，收敛速度快，不容易出现 loss 值晃动，但是无法解决梯度弥散的问题。2 个函数的计算量都是指数级的，计算相对复杂。softsign 函数是 tanh 函数的改进版，为 S 型饱和函数，以零为中心，值域为（−1，1）。

逻辑回归

logistic 回归是一种广义线性回归（generalized linear model），因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同，都具有 w‘x+b，其中 w 和 b 是待求参数，其区别在于他们的因变量不同，多重线性回归直接将 w‘x+b 作为因变量，即 y =w‘x+b，而 logistic 回归则通过函数 L 将 w‘x+b 对应一个隐状态 p，p =L(w‘x+b),然后根据 p 与 1-p 的大小决定因变量的值。如果 L 是 logistic 函数，就是 logistic 回归，如果 L 是多项式函数就是多项式回归。 logistic 回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释，多类可以使用 softmax 方法进行处理。实际中最为常用的就是二分类的 logistic 回归。Logistic 回归模型的适用条件：

1 因变量为二分类的分类变量或某事件的发生率，并且是数值型变量。但是需要注意，重复计数现象指标不适用于 Logistic 回归。

2 残差和因变量都要服从二项分布。二项分布对应的是分类变量，所以不是正态分布，进而不是用最小二乘法，而是最大似然法来解决方程估计和检验问题。

3 自变量和 Logistic 概率是线性关系

4 各观测对象间相互独立。

原理：如果直接将线性回归的模型扣到 Logistic 回归中，会造成方程二边取值区间不同和普遍的非直线关系。因为 Logistic 中因变量为二分类变量，某个概率作为方程的因变量估计值取值范围为 0-1，但是，方程右边取值范围是无穷大或者无穷小。所以，才引入 Logistic 回归。

Logistic 回归实质：发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。究其原因，是发生和未发生的概率成为了比值，这个比值就是一个缓冲，将取值范围扩大，再进行对数变换，整个因变量改变。不仅如此，这种变换往往使得因变量和自变量之间呈线性关系，这是根据大量实践而总结。所以，Logistic 回归从根本上解决因变量要不是连续变量怎么办的问题。还有，Logistic 应用广泛的原因是许多现实问题跟它的模型吻合。例如一件事情是否发生跟其他数值型自变量的关系。

注意：如果自变量为字符型，就需要进行重新编码。一般如果自变量有三个水平就非常难对付，所以，如果自变量有更多水平就太复杂。这里只讨论自变量只有三个水平。非常麻烦，需要再设二个新变量。共有三个变量，第一个变量编码 1 为高水平，其他水平为 0。第二个变量编码 1 为中间水平，0 为其他水平。第三个变量，所有水平都为 0。实在是麻烦，而且不容易理解。最好不要这样做，也就是，最好自变量都为连续变量。