平方损失函数更适合输出为连续，且最后一层没有sigmoid或者softMax激活函数的网络

交叉熵损失函数更适合分类场景

假设网络最后一层输出为，激活函数为，预测的label为，真实标签为。

平方损失函数相对于输出层的导数为

最后一项为激活函数的导数，当激活函数为的时候，如果足够大，函数的梯度会趋于饱和，也就是的绝对值非常小，造成学习变慢

当使用交叉熵损失函数的时候，对于输出层的导数为

当激活函数为sigmoid的时候，

导数是线性的，不会存在学习过慢的问题

欢迎关注微信公众号（算法工程师面试那些事儿)，本公众号聚焦于算法工程师面试，期待和大家一起刷leecode，刷机器学习、深度学习面试题等，共勉～