Datasets
Dataset yang telah diproses kemudian siap kita proses dengan machine learning. Satu-satunya cara untuk mengetahui apakah model machine learning kita bagus atau tidak adalah dengan mengujinya pada kasus yang belum pernah ia hadapi.
Kita bisa membuat sebuah model dan langsung mengujinya pada tahap produksi dan memonitor kualitasnya. Hal ini masuk akal, tapi jika ternyata model yang kita kembangkan bekerja dengan buruk, pelanggan dan klien kita akan komplain.
Training set dan Test set
Pilihan yang lebih baik adalah dengan membagi dataset menjadi 2 bagian yaitu data training dan data testing. Dengan demikian, kita bisa melakukan pelatihan model pada train set, dan mengujinya pada test set.
Dengan menguji model terhadap data testing, kita dapat melihat kesalahan yang dibuat dan memperbaikinya sebelum mulai membawa model kita ke tahap produksi. Data testing diambil dengan proporsi tertentu -umumnya 20% dari keseluruhan data- jika jumlah datanya kecil. Jika ukuran datanya sangat besar seperti 1 juta record, kita dapat mengambil sekitar 10 ribu data saja untuk testing alias sebesar 1% saja