Què és l’overfitting en el machine learning?

En cert punt de l’aprenentatge del machine learning, la majoria dels principiants es troben amb el mateix problema. I llavors, sorgeix una pregunta unànime. Per què, amb el conjunt de dades d’entrenament, el model que estic desenvolupant ofereix una fiabilitat extrema en la previsió, mentre que, amb un data set nou, falla més que una escopeta de fira? A BETWEEN sabem qui és el culpable. I s’anomena sobreentrenament, sobre ajust o overfitting.

Què és l’overfitting?

L’overfitting en machine learning és un fenomen que fa que un algoritme predictiu presenti un baix percentatge d’encert en els seus resultats, oferint previsions amb una alta variància. Això passa si la mostra utilitzada a l’entrenament del model:

És poc representativa de la realitat amb la qual s’haurà d’enfrontar després l’algoritme.
Inclou masses variables, i inclús variables irrellevants, que confonen al model i li impedeixen identificar la tendència subjacent.
S’ha sobrepassat el llindar òptim d’èpoques (nombre de vegades que el model processa les mateixes dades d’entrada al training).

Per contraposició a l’overfitting es defineix l’underfitting, un problema que també genera una escassa fiabilitat a les prediccions del model, en aquest cas perquè presenten un biaix elevat. En l’underfitting o subajust, la causa està en el fet que les dades d’entrada són insuficients per establir generalitzacions, o en què ofereixen escassa informació sobre la qüestió que es pretén deduir. Un error habitual, exemple d’això últim, és encaparrar-se a construir una regressió lineal -amb la finalitat d’intentar saber què passarà en un futur- amb una mostra extreta d’un període de temps curt.

Com saber si estàs sobreentrenant al teu model de machine learning?

Hi ha un senyal inequívoca que un model de machine learning pateix overfitting: amb el data set d’entrenament, el seu percentatge d’encert ronda el 100%; però quan processa registres nous, aquest últim es desploma fins a la meitat o menys. El sobreentrenament l’ha portat a atribuir amb precisió mil·limètrica les característiques del que ja coneix; però l’ha llastrat a l’hora de generalitzar els resultats en àmbits diferents.

L’underfitting, per la seva banda, es diagnostica quan el model d’aprenentatge automàtic proporciona resultats deficients tant amb la mostra del training com amb registres d’entrada desconeguts.

machine-learning-ingeniera-informatica

Com prevenir l’overfitting en el machine learning?

Per evitar o solucionar l’overfitting en el machine learning, podem recórrer a diverses tècniques que milloren l’entrenament del model i corregeixen les desviacions inapropiades en els resultats. Algunes d’elles són:

Continuar amb l’entrenament aportant un nou conjunt de dades. Aquesta reacció sol funcionar quan li falta d’encert és atribuïble a una baixa representativitat del data set.
Dividir la mostra en dues parts. Una la utilitzarem per entrenar l’algoritme d’aprenentatge automàtic, i l’altre per portar a terme un test que verifiqui si funciona correctament.
Subdividir la mostra en diversos conjunts de dades més petits i anar entrenant el model amb elles. Cada un servirà com un set de validació dels resultats de l’anterior.
Simplificar els registres, eliminant variables que no aporten informació significativa i que, en canvi, si que generen soroll que dificulta la detecció dels patrons claus per part de l’algoritme.
Ajustant bé el nombre d’èpoques de l’entrenament, interrompent-lo en el punt en el qual comença a aguaitar el risc d’overfitting.
Si sospitem que la causa de l’error es troba en la poca representativitat de la mostra, portar a terme una neteja de les dades, retirant les redundants, perquè reflecteixin millor les característiques distintives de les realitats que processarà l’algoritme.

Endinsar-se en el món del machine learning té molts assajos-errors, així que no et desesperis si els teus models no funcionen a la primera. Els i les professionals de la informàtica saben bé que el seu dia a dia implica experimentar, corregir i aprendre dels errors abans d’aconseguir l’èxit. Si aquesta situació et dóna, per què no vens a BETWEEN per continuar creixent a la teva carrera professional gràcies al nostre ventall d’ofertes de feina en informàtica en constant actualització? Situa`t en el millor lloc possible per viure les novetats del sector durant els pròxims anys, com l’expansió del big data o la generalització del protocol HTTP/3 per un Internet més ràpid. Amb BETWEEN no tindràs límits!

Què és l’overfitting en el machine learning i com evitar-lo?