Redes neuronales (RN)
Las redes neuronales son la estructura fundamental (modelo) para las metodologías de aprendizaje profundo.
Imitan el intrincado funcionamiento del cerebro humano, para la resolución de problemas complejos, como:
- La identificación de patrones intrincados,
- y La toma de decisiones.
Permitiendo el procesamiento del lenguaje natural, la visión por computadora y muchos otros campos.
Capas y neuronas
Una red neuronal se compone de capas, cada una de las cuales contiene un conjunto de neuronas o nodos.
Estas capas se clasifican en tres tipos principales:
- Capa de entrada: la capa inicial que recibe los datos sin procesar.
- Cada neurona de esta capa corresponde a una característica del conjunto de datos.
- Capas ocultas: son las capas entre las capas de entrada y salida.
- La cantidad de capas ocultas y neuronas dentro de ellas puede variar, lo que afecta la capacidad de la red para modelar relaciones complejas.
- Capa de salida: La capa final produce la predicción o clasificación.
- El número de neuronas aquí suele corresponder al número de clases en un problema de clasificación o a una sola neurona para tareas de regresión.
Funciones de activación
Las funciones de activación introducen la no linealidad al sistema. Es decir, la capacidad de capturar relaciones:
Lo que permite a la RN aprender: haciéndolas capaces de corregir errores y ajustar su rendimiento.
Las funciones de activación más utilizadas son:
- ReLU (Unidad lineal rectificada): ReLU se usa ampliamente en capas ocultas debido a su eficiencia computacional. Genera cero para entradas negativas y retiene entradas positivas, lo que lo hace ideal para muchas tareas.
- Sigmoide: la función sigmoidea aplasta valores entre 0 y 1, lo que la hace útil para problemas de clasificación binaria. Sin embargo, sufre el problema del gradiente evanescente, que puede ralentizar el proceso de entrenamiento.
- Tanh (tangente hiperbólica): similar a Sigmoide pero con un rango de -1 a 1, Tanh es más equilibrado pero aún susceptible al problema del gradiente evanescente.
- Softmax: a menudo utilizado en la capa de salida para la clasificación de clases múltiples, Softmax convierte puntuaciones brutas en probabilidades.
- Leaky ReLU y Parametric ReLU: variantes de ReLU que permiten salidas pequeñas, distintas de cero, para entradas negativas, lo que mitiga el problema del "ReLU moribundo".
Las funciones de activación influyen directamente en la rapidez con la que una RN puede aprender porque determinan cómo se propagan las señales y los gradientes durante el entrenamiento.
Cada neurona recibe datos (en forma de tensores) y, a través de los pesos y funciones de activación, genera una salida que se pasa a las neuronas de la siguiente capa.
aplica una suma ponderada junto con un término de sesgo y luego utiliza una función de activación para producir una salida.
Las funciones de activación son fundamentales para determinar la salida de una red neuronal e influyen en la rapidez con la que una red puede aprender y en la complejidad de las funciones que puede aproximar.