ENSIKLOPEDIA

Kembali ke Ensiklopedia Arsip Wikipedia Indonesia

Augmentasi data

Pembelajaran mesin dan penggalian data
Bagian dari seri

Paradigma Pembelajaran terbimbing Pembelajaran tak terbimbing Pembelajaran mesin daring Pembelajaran mesin luring Meta-learning Pembelajaran semiterbimbing Pembelajaran swabimbing Pembelajaran pengukuhan Pembelajaran berbasis aturan Pembelajaran mesin kuantum
Masalah Klasifikasi Model generatif Regresi Kluster Reduksi dimensi Estimasi densitas Deteksi anomali Pembersihan data AutoML Aturan asosiasi Analisis semantik Rekayasa fitur Pembelajaran fitur
Pembelajaran terbimbing (Klasifikasi • Regresi) Pohon keputusan Pembelajaran ensambel Bagging boosting Random forest k-NN Regresi linear Naive Bayes Jaringan saraf tiruan Regresi logistik Perseptron Support vector machine (SVM)
Kekelompokkan BIRCH CURE Hierarki k-means Fuzi
Reduksi dimensi AKU
Jaringan saraf tiruan Pembelajaran dalam Jaringan saraf konvolusional
Diagnostik model Kurva belajar
l b s

}

Augmentasi data (bahasa Inggris: data augmentation) adalah teknik statistik yang memungkinkan estimasi maximum likelihood (peluang maksimum) dari data yang tidak lengkap.^[1]^[2] Teknik ini memiliki peran penting dalam analisis Bayes^[3] dan banyak digunakan dalam pemelajaran mesin untuk mengurangi overfitting saat melatih model^[4] yang dicapai dengan melatih model menggunakan beberapa salinan data yang telah dimodifikasi secara halus dari data asli.

Teknik oversampling sintetis untuk pemelajaran mesin tradisional

Synthetic Minority Over-sampling (SMOTE) adalah metode yang digunakan untuk mengatasi ketidakseimbangan data dalam pemelajaran mesin. Pada dataset yang seperti itu, jumlah sampel di setiap kelas berbeda jauh sehingga kinerja model cenderung bias. Misalnya, dalam dataset diagnosis medis yang memiliki 90 sampel orang sehat dan hanya 10 sampel pasien dengan penyakit tertentu, model algoritma tradisional akan mungkin kesulitan mengklasifikasikan kelas minoritas dengan akurat.

SMOTE mengatasi masalah tersebut dengan menghasilkan sampel sintetis untuk kelas minoritas. Sebagai contoh, jika ada 100 sampel di kelas mayoritas dan 10 sampel di kelas minoritas, SMOTE akan membuat sampel baru dengan memilih secara acak satu sampel kelas minoritas beserta tetangganya yang terdekat. Setelah itu, SMOTE akan membuat sampel baru di sepanjang garis yang menghubungkan sampel-sampel tersebut. Proses ini membantu meningkatkan representasi kelas minoritas sehingga membantu meningkatkan kinerja model.^[5]

Augmentasi data untuk klasifikasi citra

Saat jaringan saraf konvolusional mulai berkembang pesat pada pertengahan tahun 1990-an, ketersediaan data masih sangat terbatas, apalagi mengingat sebagian data harus disisihkan untuk pengujian. Untuk mengatasi hal ini, parap peneliti mengusulkan metode modifikasi data yang ada dengan transformasi afin untuk menghasilkan contoh baru dengan label yang sama.^[6] Pendekatan ini kemudian diperkuat dengan penggunaan distorsi elastis pada tahun 2003.^[7] Teknik ini menjadi sangat popler dan banyak digunakan sejak 2010-an.^[8] Selain mampu meningkatkan kinerja CNN, augmentasi data juga berfungsi sebagai langkah perlindungan terhadap serangan profiling yang menargetkan CNN.^[9]

Augmentasi data kini menjadi elemen penting dalam klasifikasi citra, yaitu dengan memperkaya variasi dataset pelatihan untuk meningkatkan kemampuan generalisasi dan kinerja model. Seiring perkembangannya, praktik ini telah menghadirkan berbagai teknik yang luas, termasuk transformasi geometris, penyesuaian ruang warna, dan penambahan derah (noice injection).^[10]

Transformasi Geometris

Transformasi geometris mengubah properti spasial gambar untuk menyimulasikan berbagai perspektif, orientasi, dan skala. Beberapa teknik yang umum digunakan meliputi:

Rotasi: Memutar gambar dengan derajat tertentu untuk membantu model mengenali objek pada berbagai sudut.
Pembalikan: Mencerminkan gambar secara horizontal atau vertikal untuk menambahkan variasi orientasi.
Pemotongan (Cropping): Menghapus bagian-bagian gambar untuk memfokuskan pada fitur tertentu atau menyimulasikan tampilan yang lebih dekat.
Translasi: Menggeser gambar ke berbagai arah yang berbeda agar model mampu memahami objek tanpa terpengaruh oleh posisi.

Transformasi Ruang Warna

Transformasi ruang warna mengubah properti warna pada citra untuk mengatasi variasi pencahayaan, saturasi warna, dan kontras. Teknik-teknik yang umum digunakan meliputi:

Penyesuaian Kecerahan: Mengubah tingkat kecerahan citra untuk menyimulasikan berbagai kondisi pencahayaan.
Penyesuaian Kontras: Mengatur kontras agar model dapat mengenali objek dengan tingkat kejelasan yang berbeda-beda.
Penyesuaian Saturasi: Mengubah saturasi warna untuk mengajarkan model menghadapi citra dengan intensitas warna yang beragam.
Color Jittering: Menyesuaikan kecerahan, kontras, saturasi, dan rona secara acak untuk menambahkan variasi warna pada citra.

Penambahan derau (noice injection)

Penambahan derau pada citra menyimulasikan ketidaksempurnaan di dunia nyata sehingga model dapat belajar untuk mengabaikan variasi yang tidak relevan. Teknik-teknik yang umum digunakan meliputi:

Derau Gaussian: Menambahkan derau Gaussian untuk meniru derau dari sensor atau efek butiran pada citra.
Salt and Paper noice: Menyisipkan piksel hitam atau putih secara acak untuk menyimulasikan debu pada sensor atau piksel mati .

Augmentasi data untuk pemrosesan sinyal

Pendayasahajaan residual atau blok dapat digunakan untuk augmentasi deret waktu.

Sinyal biologis

Augmentasi data sintetis sangat penting untuk klasifikasi pemelajaran mesin, khususnya untuk data biologis yang cenderung berdimensi tinggi dan sulit diperoleh. Analisis dalam aplikasi kontrol robotik dan augmentasi pada subjek disabilitas dan non-disabilitas masih banyak bergantung pada pendekatan spesifik per individu. Kelangkaan data sangat terasa dalam permasalahan pemrosesan sinyal, seperti pada sinyal elektromiografi pada penderita penyakit Parkinson, yang sumbernya memang sulit untuk didapatkan. Zanini, dkk. mencatat bahwa penggunaan jaringan adversarial generatif (khususnya, DCGAN), memungkinkan proses style transfer untuk menghasilkan sinyal elektromiografi sintetis yang merepresentasikan karakteristik sinyal dari para penderita Penyakit Parkinson.^[11]

Pendekatan-pendekatan ini juga penting dalam elektroensefalografi (rekaman gelombang otak). Wang, dkk. mengeksplorasi ide penggunaan jaringan saraf konvolusional dalam (deep CNN) untuk pengenalan emosi berbasis EEG. Hasil penelitian mereka meunjukkan bahwa penggunaan augmentasi data berhasil meningkatkan akurasi dalam mengenali emosi.^[12]

Salah satu pendekatan umum adalah menghasilkan sinyal sintetis adalah dengan mengatur ulang komponen dari data asli. Lotte ^[13] mengusulkan sebuah metode “Artificial Trial Generation Based on Analogy” yang memiliki tiga contoh data $x_{1},x_{2},x_{3}$ yang lalu digunakan untuk menghasilkan data buatan $x_{synthetic}$ yang $x_{3}$ adalah $x_{2}$ bagi $x_{1}$ . Sebuah transformasi kemudian dilakukan pada $x_{1}$ untuk menjadikannya lebih mirip pada $x_{2}$ . Lalu, transformasi yang sama kemudian diterapkan pada $x_{3}$ yang menghasilkan $x_{synthetic}$ . Pendekatan ini terbukti meningkatkan kinerja pengklasifikasi Analisis Diskriminan Linear (Linear Discriminant Analysis atau LDA) pada tiga dataset yang berbeda.

Penelitian terkini menunjukkan bahwa teknik sederhana sekalipun dapat memberikan dampak signifikan. Misalnya, Freer ^[14] mengamati bahwa penambahan derau pada data yang telah berhasil dikumpulkan untuk menghasilkan titik-titik data tambahan dapat meningkatkan kemampuan pemelajaran beberapa model yang sebelumnya berkinerja buruk. Tsinganos, dkk.^[15] meneliti pendekatan magnitudo warping, dekomposisi wavelet, dan model EMG permukaan sintetis (pendekatan generatif) untuk pengenalan gerakan tangan. Hasilnya menunjukkan peningkatan kinerja klasifikasi hingga +16% ketika data tambahan diperkenalkan selama pelatihan.

Baru-baru ini, penelitian augmentasi data mulai berfokus pada bidang pemelajaran mendalam, khususnya pada kemampuan model generatif untuk menciptakan data buatan yang kemudian dimasukkan ke dalam pelatihan model klasifikasi. Pada tahun 2018, Luo, dkk.^[16] menemukan bahwa data sinyal EEG yang berguna dapat dihasilkan oleh Conditional Wasserstein Generative Adversarial Networks (GANs). Ketika data sintetis ini ditambahkan ke dalam set pelatihan dalam kerangka train-test klasik, performa klasifikasi mengalami peningkatan yang signifikan.

Sinyal mekanis

Prediksi sinyal mekanis berbasis augmentasi data membuka jalan bagi teknologi generasi baru, seperti pengelolaan energi baru, bidang komunikasi 5G, dan rekayasa kontrol robotika.^[17] Pada tahun 2022, Yang, dkk.,^[17] mengintegrasikan constraints (kendala), optimisasi, dan kontrol ke dalam kerangka jaringan deep learning yang didukung oleh augmentasi data dan pemangkasan data (data pruning) dengan mempertimbangkan korelasi data ruang-waktu (spatio-temporal data correlation). Pendekatan ini berhasil meningkatkan interpretabilitas, keamanan, dan kemampuan pengendalian deep learning dalam proyek industri nyata melalui penggunaan persamaan pemrograman matematis eksplisit dan solusi analitis.

Lihat juga

Referensi

↑ Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data Via the EM Algorithm". Journal of the Royal Statistical Society. Series B (Methodological). 39 (1): 1–22. doi:10.1111/j.2517-6161.1977.tb01600.x. Diarsipkan dari versi aslinya tanggal 2022-10-10. Diakses tanggal 2024-08-28.
↑ Rubin, Donald (1987). "Comment: The Calculation of Posterior Distributions by Data Augmentation". Journal of the American Statistical Association. 82 (398). doi:10.2307/2289460. JSTOR 2289460. Diarsipkan dari versi aslinya tanggal 2024-08-07. Diakses tanggal 2024-08-28.
↑ Jackman, Simon (2009). Bayesian Analysis for the Social Sciences. John Wiley & Sons. hlm. 236. ISBN 978-0-470-01154-6.
↑ Shorten, Connor; Khoshgoftaar, Taghi M. (2019). "A survey on Image Data Augmentation for Deep Learning". Mathematics and Computers in Simulation. 6. springer: 60. doi:10.1186/s40537-019-0197-0. Pemeliharaan CS1: DOI bebas tanpa ditandai (link)
↑ Wang, Shujuan; Dai, Yuntao; Shen, Jihong; Xuan, Jingxue (2021-12-15). "Research on expansion and classification of imbalanced data based on SMOTE algorithm". Scientific Reports (dalam bahasa Inggris). 11 (1): 24039. Bibcode:2021NatSR..1124039W. doi:10.1038/s41598-021-03430-5. ISSN 2045-2322. PMC 8674253. PMID 34912009.
↑ Yann Lecun; et al. (1995). Learning algorithms for classification: A comparison on handwritten digit recognition (Conference paper). World Scientific. hlm. 261–276. Diakses tanggal 14 May 2023.
↑ Simard, P.Y.; Steinkraus, D.; Platt, J.C. (2003). "Best practices for convolutional neural networks applied to visual document analysis". Seventh International Conference on Document Analysis and Recognition, 2003. Proceedings. Vol. 1. hlm. 958–963. doi:10.1109/ICDAR.2003.1227801. ISBN 0-7695-1960-1.
↑ A bot will complete this citation soon. Click here to jump the queue"Improving neural networks by preventing co-adaptation of feature detectors". 2012. MISSING LINK. .
↑ Cagli, Eleonora; Dumas, Cécile; Prouff, Emmanuel (2017). "Convolutional Neural Networks with Data Augmentation Against Jitter-Based Countermeasures: Profiling Attacks Without Pre-processing". Dalam Fischer, Wieland; Homma, Naofumi (ed.). Cryptographic Hardware and Embedded Systems – CHES 2017. Lecture Notes in Computer Science (dalam bahasa Inggris). Vol. 10529. Cham: Springer International Publishing. hlm. 45–68. doi:10.1007/978-3-319-66787-4_3. ISBN 978-3-319-66787-4.
↑ Shorten, Connor; Khoshgoftaar, Taghi M. (2019-07-06). "A survey on Image Data Augmentation for Deep Learning". Journal of Big Data. 6 (1): 60. doi:10.1186/s40537-019-0197-0. ISSN 2196-1115. Pemeliharaan CS1: DOI bebas tanpa ditandai (link)
↑ Anicet Zanini, Rafael; Luna Colombini, Esther (2020). "Parkinson's Disease EMG Data Augmentation and Simulation with DCGANs and Style Transfer". Sensors. 20 (9): 2605. Bibcode:2020Senso..20.2605A. doi:10.3390/s20092605. ISSN 1424-8220. PMC 7248755. PMID 32375217. Pemeliharaan CS1: DOI bebas tanpa ditandai (link)
↑ Wang, Fang; Zhong, Sheng-hua; Peng, Jianfeng; Jiang, Jianmin; Liu, Yan (2018). "Data Augmentation for EEG-Based Emotion Recognition with Deep Convolutional Neural Networks". MultiMedia Modeling. Lecture Notes in Computer Science. Vol. 10705. hlm. 82–93. doi:10.1007/978-3-319-73600-6_8. ISBN 978-3-319-73599-3. ISSN 0302-9743.
↑ Lotte, Fabien (2015). "Signal Processing Approaches to Minimize or Suppress Calibration Time in Oscillatory Activity-Based Brain–Computer Interfaces" (PDF). Proceedings of the IEEE. 103 (6): 871–890. doi:10.1109/JPROC.2015.2404941. ISSN 0018-9219. Diarsipkan (PDF) dari versi aslinya tanggal 2023-04-03. Diakses tanggal 2022-11-05.
↑ Freer, Daniel; Yang, Guang-Zhong (2020). "Data augmentation for self-paced motor imagery classification with C-LSTM". Journal of Neural Engineering. 17 (1): 016041. Bibcode:2020JNEng..17a6041F. doi:10.1088/1741-2552/ab57c0. ISSN 1741-2552. PMID 31726440.
↑ Tsinganos, Panagiotis; Cornelis, Bruno; Cornelis, Jan; Jansen, Bart; Skodras, Athanassios (2020). "Data Augmentation of Surface Electromyography for Hand Gesture Recognition". Sensors. 20 (17): 4892. Bibcode:2020Senso..20.4892T. doi:10.3390/s20174892. ISSN 1424-8220. PMC 7506981. PMID 32872508. Pemeliharaan CS1: DOI bebas tanpa ditandai (link)
↑ Luo, Yun; Lu, Bao-Liang (2018). "EEG Data Augmentation for Emotion Recognition Using a Conditional Wasserstein GAN". 2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). Vol. 2018. hlm. 2535–2538. doi:10.1109/EMBC.2018.8512865. ISBN 978-1-5386-3646-6. PMID 30440924.
1 2 Yang, Yang (2022). "Wind speed forecasting with correlation network pruning and augmentation: A two-phase deep learning method". Renewable Energy. 198 (1): 267–282. arXiv:2306.01986. Bibcode:2022REne..198..267Y. doi:10.1016/j.renene.2022.07.125. ISSN 0960-1481.

Data

Akuisisi
Augmentasi
Analisis
Arkeologi
Mahadata
Pembersihan
Pengumpulan
Kompresi
Kerusakan
Kurasi
Degradasi
Ekosistem
Penyuntingan
ETL
- Ekstraksi
- Transformasi
- Pemuatan
Etika
Pertanian
Manajemen format
Fusi
Tata kelola
- Koperasi
Infrastruktur
Integrasi
Integritas
Pustaka
Garis keturunan
Kehilangan
Manajemen
Migrasi
Penambangan
Filantropi
Filantropi
Pelestarian
Pemrosesan
Perlindungan (privasi)
Penerbitan
- Open data
Pemulihan
Reduksi
Penyimpanan
Kualitas
Ilmu
Scraping
Scrubbing
Keamanan
Berbagi
Stewardship
Penyimpanan
Sinkronisasi
Analisis data topologi
Jenis
Validasi
Gudang
Wrangling/munging

Templat:Artificial intelligence navbox