En cert punt de l’aprenentatge del machine learning, la majoria dels principiants es troben amb el mateix problema. I llavors, sorgeix una pregunta unànime. Per què, amb el conjunt de dades d’entrenament, el model que estic desenvolupant ofereix una fiabilitat extrema en la previsió, mentre que, amb un data set nou, falla més que una escopeta de fira? A BETWEEN sabem qui és el culpable. I s’anomena sobreentrenament, sobre ajust o overfitting.
L’overfitting en machine learning és un fenomen que fa que un algoritme predictiu presenti un baix percentatge d’encert en els seus resultats, oferint previsions amb una alta variància. Això passa si la mostra utilitzada a l’entrenament del model:
Per contraposició a l’overfitting es defineix l’underfitting, un problema que també genera una escassa fiabilitat a les prediccions del model, en aquest cas perquè presenten un biaix elevat. En l’underfitting o subajust, la causa està en el fet que les dades d’entrada són insuficients per establir generalitzacions, o en què ofereixen escassa informació sobre la qüestió que es pretén deduir. Un error habitual, exemple d’això últim, és encaparrar-se a construir una regressió lineal -amb la finalitat d’intentar saber què passarà en un futur- amb una mostra extreta d’un període de temps curt.
Hi ha un senyal inequívoca que un model de machine learning pateix overfitting: amb el data set d’entrenament, el seu percentatge d’encert ronda el 100%; però quan processa registres nous, aquest últim es desploma fins a la meitat o menys. El sobreentrenament l’ha portat a atribuir amb precisió mil·limètrica les característiques del que ja coneix; però l’ha llastrat a l’hora de generalitzar els resultats en àmbits diferents.
L’underfitting, per la seva banda, es diagnostica quan el model d’aprenentatge automàtic proporciona resultats deficients tant amb la mostra del training com amb registres d’entrada desconeguts.
Per evitar o solucionar l’overfitting en el machine learning, podem recórrer a diverses tècniques que milloren l’entrenament del model i corregeixen les desviacions inapropiades en els resultats. Algunes d’elles són:
Endinsar-se en el món del machine learning té molts assajos-errors, així que no et desesperis si els teus models no funcionen a la primera. Els i les professionals de la informàtica saben bé que el seu dia a dia implica experimentar, corregir i aprendre dels errors abans d’aconseguir l’èxit. Si aquesta situació et dóna, per què no vens a BETWEEN per continuar creixent a la teva carrera professional gràcies al nostre ventall d’ofertes de feina en informàtica en constant actualització? Situa`t en el millor lloc possible per viure les novetats del sector durant els pròxims anys, com l’expansió del big data o la generalització del protocol HTTP/3 per un Internet més ràpid. Amb BETWEEN no tindràs límits!