Pemelajaran swabimbing atau pemelajaran terawasi mandiri (bahasa Inggris: self-supervised learning (SSL)) adalah suatu paradigma dalam bidang pemelajaran mesin yang sebuah model dilatih pada sebuah tugas dengan menggunakan data itu tersendiri untuk menghasilkan sinyal-sinyal pengawasan, tanpa harus bergantung pada label-label eksternal yang diberikan oleh manusia. Dalam konteks ini, model belajar secara otomatis dari struktur internal data, menciptakan representasi yang bermakna tanpa memerlukan anotasi label tambahan. Pendekatan ini memungkinkan model untuk mengekstrak pola dan fitur yang berguna secara mandiri dari data yang ada, meningkatkan kemampuan adaptasi dan generalisasi model pada berbagai tugas tanpa memerlukan bimbingan eksternal yang intensif.
Dalam konteks jaringan saraf, pemelajaran terawasi mandiri bertujuan untuk memanfaatkan struktur atau hubungan bawaan dalam data masukan untuk menciptakan sinyal pelatihan yang bermakna. Tugas pemelajaran terawasi mandiri (SSL) didesain agar pemecahannya memerlukan penangkapan fitur atau hubungan esensial dalam data. Data masukan umumnya diperluas atau diubah dengan cara tertentu yang menciptakan pasangan sampel yang saling terkait. Satu sampel berfungsi sebagai masukan, dan yang lainnya digunakan untuk merumuskan sinyal pengawasan. Augmentasi ini dapat melibatkan penambahan derau, pemotongan, rotasi, atau transformasi lainnya. Pemelajaran terawasi mandiri lebih mirip dengan cara manusia belajar mengklasifikasikan objek. [1]
Label-Semu
Label semu adalah label yang dihasilkan secara otomatis yang ditetapkan oleh model untuk data tak berlabel berdasarkan prediksinya sendiri. Label ini banyak digunakan dalam pembelajaran terawasi mandiri dan semi-terawasi, di mana anotasi kebenaran dasar terbatas atau tidak tersedia. Dengan memperlakukan label yang diprediksi sebagai pengganti kebenaran dasar, algoritma pembelajaran dapat memanfaatkan data tak berlabel dalam jumlah besar dalam proses pelatihan.[2]
Pelabelan semu juga memainkan peran penting dalam sistem yang harus beradaptasi dengan pergeseran konsep, di mana sifat statistik data berubah seiring waktu. Dalam skenario ini, model dapat mendeteksi bahwa suatu instans yang masuk menyimpang dari perilaku yang dipelajari sebelumnya. Sistem kemudian menghasilkan hasil klasifikasi untuk instans tersebut, dan kelas yang diprediksi ini digunakan sebagai label semu untuk memperbarui atau melatih ulang komponen model yang sudah usang. Pendekatan ini memungkinkan adaptasi berkelanjutan dalam lingkungan dinamis tanpa memerlukan anotasi manual.[3][4]
Dalam banyak alur pembelajaran adaptif, pseudo-label dipilih ketika pengklasifikasi menghasilkan prediksi yang cukup meyakinkan, sehingga mengurangi risiko kesalahan propagasi. Instansi pseudo-label ini kemudian dimasukkan ke dalam pelatihan untuk menyegarkan atau mengembangkan pemahaman model tentang pola data yang muncul, terutama ketika komponen yang ada menunjukkan tanda-tanda "penuaan" akibat pergeseran atau pergeseran distribusi. Strategi ini mengurangi ketergantungan pada pelabelan manual sekaligus membantu mempertahankan kinerja model jangka panjang.
Contoh
Pembelajaran mandiri (self-supervised learning) sangat cocok untuk pengenalan suara. Misalnya, Facebook mengembangkan wav2vec, sebuah algoritma mandiri, untuk melakukan pengenalan suara menggunakan dua jaringan saraf konvolusional dalam yang saling membangun.[5]
Model Bidirectional Encoder Representations from Transformers (BERT) milik Google digunakan untuk lebih memahami konteks kueri penelusuran.[6]
GPT-3 milik OpenAI adalah model bahasa autoregresif yang dapat digunakan dalam pemrosesan bahasa. Model ini dapat digunakan untuk menerjemahkan teks atau menjawab pertanyaan, antara lain.[7]
Bootstrap Your Own Latent (BYOL) adalah NCSSL yang menghasilkan hasil yang sangat baik pada ImageNet dan pada uji transfer serta semi-supervised.[8]
Algoritma Yarowsky adalah contoh pembelajaran mandiri dalam pemrosesan bahasa alami (NLP). Dari sejumlah kecil contoh berlabel, algoritma ini belajar memprediksi makna kata dari kata polisemi yang sedang digunakan pada titik tertentu dalam teks.
DirectPred adalah NCSSL yang secara langsung menetapkan bobot prediktor, alih-alih mempelajarinya melalui penurunan gradien biasa.[12]
Self-GenomeNet adalah contoh pembelajaran mandiri dalam genomika.[9]
Pembelajaran mandiri terus menjadi semakin populer sebagai pendekatan baru di berbagai bidang. Kemampuannya untuk memanfaatkan data tak berlabel secara efektif membuka kemungkinan baru untuk kemajuan dalam pembelajaran mesin, terutama dalam domain aplikasi berbasis data.