Wat is het verschil tussen een training set en een testset bij machine learning?

In machine learning is het belangrijk om je dataset op te splitsen in verschillende delen om de prestaties van een model te kunnen beoordelen. De twee meest voorkomende splitsingen zijn de training set en de test set. Hier zijn de verschillen:

Training Set

  • Definitie: De training set is het deel van de dataset dat wordt gebruikt om het machine learning model te trainen. Het model leert patronen, relaties en structuren uit deze gegevens.
  • Doel: Het doel van de training set is om het model te voorzien van voldoende data om de onderliggende relaties in de data te kunnen leren.
  • Gebruik: Tijdens het trainen past het model zijn parameters aan op basis van deze data om de voorspellingen te optimaliseren.

Test Set

  • Definitie: De test set is het deel van de dataset dat wordt gebruikt om de prestaties van het getrainde model te evalueren. Het model heeft deze gegevens tijdens de training nog niet gezien.
  • Doel: Het doel van de test set is om een objectieve beoordeling te geven van hoe goed het model presteert op nieuwe, onzichtbare data.
  • Gebruik: Na de training wordt het model toegepast op de test set om te zien hoe goed het voorspellingen maakt op data die niet tijdens de training is gebruikt. Dit helpt bij het inschatten van de generalisatiecapaciteit van het model.

Waarom Deze Splitsing?

  1. Voorkomen van Overfitting: Door het model te testen op data die het nog niet eerder heeft gezien, kun je inschatten hoe goed het model generaliseert naar nieuwe gegevens. Als je alleen de training set zou gebruiken voor zowel training als testen, zou je geen goed beeld krijgen van de prestaties van het model op nieuwe data, omdat het model mogelijk te specifiek (overfit) is getraind op de training set.
  2. Objectieve Evaluatie: De test set fungeert als een onafhankelijke maatstaf voor de prestaties van het model. Dit zorgt ervoor dat de evaluatie eerlijk en niet vertekend is door de training data.

Voorbeeld

Stel je hebt een dataset met 1000 voorbeelden. Een veelvoorkomende splitsing is 80% voor training en 20% voor testen:

  • Training Set: 800 voorbeelden
  • Test Set: 200 voorbeelden