En cierto punto del aprendizaje del machine learning, la mayoría de los principiantes se encuentra con el mismo problema. Y entonces, surge una pregunta unánime. ¿Por qué, con el conjunto de datos de entrenamiento, el modelo que estoy desarrollando ofrece una fiabilidad extrema en la previsión, mientras que, con un data set nuevo, falla más que una escopeta de feria? En BETWEEN sabemos quién es el culpable. Y se llama sobreentrenamiento, sobreajuste u overfitting.
El overfitting en machine learning es un fenómeno que hace que un algoritmo predictivo presente un bajo porcentaje de acierto en sus resultados, ofreciendo previsiones con una alta varianza. Esto sucede si la muestra utilizada en el entrenamiento del modelo:
Por oposición al overfitting se define el underfitting, un problema que también genera una escasa fiabilidad en las predicciones del modelo, en este caso porque presentan un elevado sesgo. En el underfitting o subajuste, la causa está en que los datos de entrada son insuficientes para establecer generalizaciones, o en que ofrecen escasa información acerca de la cuestión que se pretende deducir. Un error habitual, ejemplo de esto último, es empeñarse en construir una regresión lineal -con el fin de intentar saber qué ocurrirá en el futuro- con una muestra extraída de un periodo de tiempo demasiado corto.
Hay una señal inequívoca de que un modelo de machine learning sufre overfitting: con el data set de entrenamiento, su porcentaje de acierto ronda el 100%; pero cuando procesa registros nuevos, este último se desploma hasta la mitad o menos. El sobreentrenamiento le ha llevado a atribuir con precisión milimétrica las características de lo que ya conoce; pero le ha lastrado a la hora de generalizar los resultados en ámbitos diferentes.
El underfitting, por el contrario, se diagnostica cuando el modelo de aprendizaje automático proporciona resultados deficientes tanto con la muestra del training como con registros de entrada desconocidos.
Para evitar o solucionar el overfitting en machine learning, podemos recurrir a diversas técnicas que mejoran el entrenamiento del modelo y corrigen las desviaciones inapropiadas en los resultados. Algunas de ellas son:
Adentrarse en el mundo del machine learning tiene mucho de ensayo-error, así que no desesperes si tus modelos no funcionan a la primera. Los y las profesionales de la informática saben bien que su día a día pasa por experimentar, corregir y aprender de los errores antes de alcanzar el éxito. Si esta situación te suena, ¿por qué no te vienes a BETWEEN para continuar creciendo en tu carrera profesional gracias a nuestro abanico de ofertas de trabajo en informática en constante actualización? Sitúate en el mejor lugar posible para vivir las novedades del sector en los próximos años, como la expansión del big data o la generalización del protocolo HTTP/3 para un Internet más rápido. ¡Con BETWEEN no tendrás límites!