sigmoid？sigmoid如何进行二分类

编程之家2024-06-07245次浏览

早期的神经网络在训练的时候更多的会用sigmoid函数，后来慢慢发现在训练到一定阶段以后各个参数的倒数都趋近于零，使得训练一个更优的模型较为困难，因此用ReLu函数来代替sigmoid函数，这样可以削弱导数趋近于零的情形，从而使得模型更优。

谢邀，我可以举个非常具体的例子来解释这个问题，如果有好的建议或想法欢迎在评论区探讨交流，互相学习学习。

其实可以简单理解为，Sigmoid函数对逻辑回归来说就是一个很好的激活函数，因为它可以把输出结果压缩在(0,1)之间，可以用来表示概率。

逻辑回归有个重要意义就是我们将输出值作为概率使用，来预测我们的输入数据所对应的结果是否会发生，发生概率有多大。而且它的导数很容易计算，这对最速下降法和神经网络很有用。

由于Sigmoid函数给出的值介于0和1之间，因此这些值可以解释为0和1输出的不确定性。例如，如果函数值为0.25，那么可以为其输出分配一个不确定性。会给它一个25％的不确定性，所以我的程序很可能会选择0的输出（即不会发生）。

另一方面，如果函数在0.001，那么非常肯定它的输出是0。如果它的值是0.999，那么非常肯定它的输出是1。如果值接近0.5，那么我会让一个随机数选择0或1的输出，这在分类时就可以允许“模糊”。

Sigmoid函数的优点在于输出范围有限，数据在传递过程中不容易发散，而且求导很容易计算，有着优秀的数学性质。使用Sigmoid函数做分类问题时，不仅可以预测类别，还能够得到近似概率值，这点对需要用概率辅助决策的任务非常有用，逻辑回归就是最好的例子。

如果你对学习人工智能和科技新闻感兴趣，欢迎订阅我的头条号。我会在这里发布所有与科技、科学以及机器学习有关的有趣文章。偶尔也回答有趣的问题，有问题可随时在评论区回复和讨论，看到即回。

（码字不易，若文章对你帮助可点赞支持~）

这个问题比较适合用图片回答。

这是sigmoid

这是tanh

这两个图像（图中的黑线）是不是长得很像？

当然了，毕竟sigmoid线性变换一下就得到了tanh：

如果要说不同的话，tanh比sigmoid更陡峭（上图中的红线为两者的导数）。所以，理论上，用作激活函数时，如果你希望梯度更“激烈”一点，那就选tanh，反之，如果希望梯度更“平缓”一点，那就选sigmoid。不过，实践中，其实这两个都不怎么用，现在是ReLU的时代了。

另外，sigmoid的值域是0到1，而tanh的值域是-1到1，所以，在这个ReLU系占主流的年代，sigmoid仍然“坚守”着分类层。

（函数及其导数图像来源：towardsdatascience.com/hyper-parameters-in-action-a524bf5bf1c）