Preguntas etiquetadas con deep-learning

Una nueva área de investigación de Machine Learning relacionada con las tecnologías utilizadas para aprender representaciones jerárquicas de datos, principalmente realizadas con redes neuronales profundas (es decir, redes con dos o más capas ocultas), pero también con algún tipo de modelos gráficos probabilísticos.


6
¿Cuándo usar GRU sobre LSTM?
La diferencia clave entre un GRU y un LSTM es que un GRU tiene dos compuertas ( restablecer y actualizar compuertas) mientras que un LSTM tiene tres compuertas (es decir , compuertas de entrada , salida y olvido ). ¿Por qué hacemos uso de GRU cuando claramente tenemos más control …





2
¿Cuándo usar (Él o Glorot) la inicialización normal sobre init uniforme? ¿Y cuáles son sus efectos con Batch Normalization?
Sabía que Residual Network (ResNet) hizo popular la inicialización normal. En ResNet, se usa la inicialización normal de He , mientras que la primera capa usa la inicialización uniforme de He. He revisado el papel de ResNet y el documento "Profundizando en los rectificadores" (papel de inicialización de He), pero …


3
Número de parámetros en un modelo LSTM
¿Cuántos parámetros tiene un único LSTM apilado? El número de parámetros impone un límite inferior en el número de ejemplos de entrenamiento requeridos y también influye en el tiempo de entrenamiento. Por lo tanto, conocer el número de parámetros es útil para entrenar modelos que usan LSTM.






6
Explicación de la pérdida de entropía cruzada
Supongamos que construyo un NN para la clasificación. La última capa es una capa densa con activación softmax. Tengo cinco clases diferentes para clasificar. Supongamos que para un solo ejemplo de entrenamiento, el true labeles [1 0 0 0 0]mientras las predicciones sean [0.1 0.5 0.1 0.1 0.2]. ¿Cómo calcularía …