ENSIKLOPEDIA

Kembali ke Ensiklopedia Arsip Wikipedia Indonesia

Transformator (pembelajaran mendalam)

Pembelajaran mesin dan penggalian data
Bagian dari seri

Paradigma Pembelajaran terbimbing Pembelajaran tak terbimbing Pembelajaran mesin daring Pembelajaran mesin luring Meta-learning Pembelajaran semiterbimbing Pembelajaran swabimbing Pembelajaran pengukuhan Pembelajaran berbasis aturan Pembelajaran mesin kuantum
Masalah Klasifikasi Model generatif Regresi Kluster Reduksi dimensi Estimasi densitas Deteksi anomali Pembersihan data AutoML Aturan asosiasi Analisis semantik Rekayasa fitur Pembelajaran fitur
Pembelajaran terbimbing (Klasifikasi • Regresi) Pohon keputusan Pembelajaran ensambel Bagging boosting Random forest k-NN Regresi linear Naive Bayes Jaringan saraf tiruan Regresi logistik Perseptron Support vector machine (SVM)
Kekelompokkan BIRCH CURE Hierarki k-means Fuzi
Reduksi dimensi AKU
Jaringan saraf tiruan Pembelajaran dalam Jaringan saraf konvolusional
Diagnostik model Kurva belajar
l b s

Dalam pembelajaran mendalam, transformator adalah keluarga arsitektur jaringan saraf tiruan yang didasarkan pada mekanisme perhatian multi-kepala, di mana teks diubah menjadi representasi numerik yang disebut token, dan setiap token diubah menjadi vektor melalui pencarian dari tabel penyematan kata.^[1] Pada setiap lapisan, setiap token kemudian dikontekstualisasikan dalam lingkup jendela konteks dengan token lain (yang tidak ditutupi) melalui mekanisme perhatian multi-kepala paralel, memungkinkan sinyal untuk token kunci diperkuat dan token yang kurang penting dikurangi. Karena perhatian diri sendiri saja bersifat invarian terhadap permutasi, transformer menyuntikkan informasi posisi, biasanya melalui pengkodean posisi atau penyematan posisi yang dipelajari, sehingga urutan token dapat memengaruhi output.^[2]

Transformer memiliki keunggulan karena tidak memiliki unit berulang, sehingga membutuhkan waktu pelatihan yang lebih singkat daripada arsitektur saraf berulang (RNN) sebelumnya seperti memori jangka pendek panjang (LSTM).^[3] Variasi selanjutnya telah banyak diadopsi untuk melatih model bahasa besar (LLM) pada dataset (bahasa) besar.^[4] Desain transformer modern umumnya dikelompokkan menjadi varian hanya-enkoder, hanya-dekoder, dan encoder-decoder, tergantung pada apakah desain tersebut dioptimalkan untuk pembelajaran representasi, pembangkitan autoregresif, atau tugas sequence-to-sequence bersyarat.^[5]

Versi asli arsitektur transformer diusulkan dalam makalah tahun 2017 berjudul "Attention Is All You Need" oleh para peneliti di Google.^[1] Pendahulu transformer dikembangkan sebagai peningkatan dari arsitektur sebelumnya untuk penerjemahan mesin,^[6]^[7] tetapi telah menemukan banyak aplikasi sejak saat itu. Transformer digunakan dalam pemrosesan bahasa alami skala besar, visi komputer (transformer visi), pembelajaran penguatan,^[8]^[9] audio,^[10] pembelajaran multimodal, robotika,^[11] dan bermain catur.^[12] Hal ini juga telah mengarah pada pengembangan sistem pra-terlatih, seperti transformer pra-terlatih generatif (GPT)^[13] dan BERT^[14] (representasi encoder dua arah dari transformer).

Pelatihan

Metode untuk menstabilkan pelatihan

Arsitektur transformer biasa mengalami kesulitan dalam konvergensi. Dalam makalah aslinya,^[1] para penulis merekomendasikan penggunaan pemanasan laju pembelajaran. Artinya, laju pembelajaran harus meningkat secara linier dari 0 hingga nilai maksimal untuk bagian pertama pelatihan (biasanya direkomendasikan sebesar 2% dari total jumlah langkah pelatihan), sebelum menurun lagi.

Sebuah makalah tahun 2020 menemukan bahwa penggunaan normalisasi lapisan sebelum (bukan setelah) lapisan perhatian multihead dan feedforward menstabilkan pelatihan, tanpa memerlukan pemanasan laju pembelajaran.^[15] Ini adalah "Pre-LN Transformer" dan lebih umum digunakan, dibandingkan dengan "Post-LN Transformer" asli.

Pelatihan Awal-Penyempurnaan

Transformer biasanya pertama kali dilatih awal dengan pembelajaran mandiri pada dataset generik besar, diikuti oleh penyempurnaan terawasi pada dataset kecil khusus tugas. Dataset pelatihan awal biasanya berupa korpus besar yang tidak berlabel, seperti The Pile. Tugas untuk pelatihan awal dan penyempurnaan umumnya meliputi:

Laporan transformer T5 mendokumentasikan sejumlah besar tugas pelatihan awal bahasa alami. Beberapa contohnya adalah:

Memulihkan atau memperbaiki teks yang tidak lengkap atau rusak. Misalnya, input, "Terima kasih ~~ aku ke pestamu ~~ pekan", mungkin menghasilkan output, "Terima kasih telah mengundang saya ke pesta anda minggu lalu".
terjemahan antar bahasa alami (terjemahan mesin)
Menilai keberterimaan pragmatis bahasa alami. Misalnya, kalimat berikut mungkin dinilai "tidak dapat diterima".,^[16] Karena meskipun secara sintaksis terbentuk dengan baik, kalimat tersebut tidak lazim digunakan dalam percakapan sehari-hari: "Lintasan balapnya berjalan dengan baik."

Tugas

Secara umum, terdapat 3 kelas tugas pemodelan bahasa: "masked",^[17] "autoregressive",^[18] dan "prefixLM".^[19] Kelas-kelas ini independen dari arsitektur pemodelan spesifik seperti transformer, tetapi sering dibahas dalam konteks transformer.

Dalam tugas masked,^[17] satu atau lebih token disembunyikan, dan model akan menghasilkan distribusi probabilitas yang memprediksi token yang disembunyikan berdasarkan konteksnya. Fungsi kerugian untuk tugas ini biasanya merupakan jumlah log-perplexity untuk token yang disembunyikan: ${\text{Loss}}=-\sum _{t\in {\text{masked tokens}}}\ln({\text{kemungkinan }}t{\text{ bergantung pada konteksnya}})$ dan model tersebut dilatih untuk meminimalkan fungsi kerugian ini. Seri model BERT dilatih untuk prediksi token bertopeng dan tugas lainnya.

Dalam tugas autoregresif,^[18] seluruh urutan awalnya ditutupi (masked), dan model menghasilkan distribusi probabilitas untuk token pertama. Kemudian token pertama diungkapkan dan model memprediksi token kedua, dan seterusnya. Fungsi kerugian (loss function) untuk tugas ini biasanya tetap sama. Seri model GPT dilatih dengan tugas autoregresif.

Dalam tugas prefixLM,^[19] urutan dibagi menjadi dua bagian. Bagian pertama disajikan sebagai konteks, dan model memprediksi token pertama dari bagian kedua. Kemudian token tersebut akan diungkapkan, dan model memprediksi token kedua, dan seterusnya. Fungsi kerugian untuk tugas ini biasanya tetap sama. Seri model T5 dilatih dengan tugas prefixLM.

Perhatikan bahwa "masked" seperti dalam "masked language modelling" bukanlah "masked" seperti dalam "masked attention", dan "prefixLM" seperti dalam "prefix language modeling" bukanlah "prefixLM" seperti dalam "prefix language model".

Arsitektur

Semua transformer memiliki komponen utama yang sama:

Tokenizer, yang mengubah teks menjadi token.
Lapisan penyematan, yang mengubah token dan posisi token menjadi representasi vektor.
Lapisan transformer, yang melakukan transformasi berulang pada representasi vektor, mengekstrak informasi linguistik yang semakin banyak. Ini terdiri dari lapisan perhatian dan umpan maju yang bergantian. Ada dua jenis utama lapisan transformer: lapisan encoder dan lapisan decoder, dengan varian lebih lanjut.
Lapisan pelepasan penyematan, yang mengubah representasi vektor akhir kembali menjadi distribusi probabilitas atas token.

Deskripsi berikut mengikuti persis transformer seperti yang dijelaskan dalam makalah asli. Ada varian, yang dijelaskan di bagian bagian berikut.

Sesuai konvensi, kita menulis semua vektor sebagai vektor baris. Misalnya, memasukkan vektor melalui lapisan linier berarti mengalikannya dengan matriks bobot di sebelah kanan, seperti $xW$ .

Tokenisasi

Karena arsitektur transformer secara bawaan terdiri dari operasi pada angka (perkalian matriks, perkalian titik, fungsi aktivasi) dan bukan pada teks, maka pertama-tama harus ada pemetaan dari teks masukan apa pun ke representasi numerik. Ini terjadi dalam tiga langkah.

Pertama, teks masukan diproses oleh "preprocessor", yang melakukan transformasi tekstual dan membagi teks menjadi segmen-segmen kasar yang disebut "pretoken". Yang terakhir disebut sebagai "pretokenisasi". Kedua, setiap pretoken disegmentasikan lebih lanjut menjadi "token" oleh "tokenizer" yang hanya mengharapkan untuk melihat pretoken yang dihasilkan oleh preprocessor-nya. Setiap token yang dihasilkannya adalah string yang terdiri dari satu atau lebih karakter yang termasuk dalam himpunan string terbatas yang disebut "kosakata" $V$ . Ketiga, karena kosakata terbatas dan diketahui sebelumnya, setiap token dapat diberi pengidentifikasi bilangan bulat, dan pemetaan ini diterapkan pada urutan token untuk merepresentasikan teks masukan apa pun sebagai urutan numerik. Karena pemetaan ini bersifat bijektif, sisi keluaran dapat menghasilkan urutan pengidentifikasi bilangan bulat yang kemudian dapat diubah kembali menjadi token. Setelah membatalkan beberapa pra-pemrosesan, hasilnya kembali berupa teks yang dapat dibaca.

Melatih tokenizer (kadang-kadang disebut sebagai vokabulisasi) berarti menemukan kosakata yang sesuai $V$ , tetapi juga mempelajari cara menggunakannya, karena setiap string $s$ dengan panjang $|s|$ memiliki $2^{|s|-1}$ segmentasi hipotetis, beberapa di antaranya berisi segmen yang tidak ada dalam kosakata. Parameter terpenting selama vokabulisasi adalah ukuran kosakata $|V|$ : ketika ukurannya kecil, kosakata yang dipelajari umumnya terdiri dari karakter dan string yang lebih kecil, dan kata-kata akan disegmentasikan menjadi banyak token. Pada ukuran yang lebih besar, menjadi lebih terjangkau untuk mendedikasikan token untuk kata-kata lengkap, meskipun tergantung pada preprocessor dan tokenizer, tidak selalu benar bahwa kosakata besar akan selalu menggunakan token terbesar yang tersedia untuk mensegmentasi sebuah kata.

Karena token tidak selalu berupa kata lengkap, token juga dapat disebut sebagai "subkata" dan algoritma tokenisasi dapat disebut sebagai "tokenizer subkata". Hal ini juga untuk membedakan sistem ini dari terminologi tradisional yang digunakan dalam sistem pencarian informasi dan pemrosesan bahasa alami yang lebih lama, di mana "tokenisasi" digunakan untuk menunjukkan apa yang saat ini disebut "pretokenisasi" (secara kasar: pemisahan menjadi kata-kata). Dalam tokenizer yang menghasilkan token yang "bukan" bagian dari kosakata, token khusus yang memang termasuk dalam kosakata digunakan sebagai pengganti generik, ditulis sebagai "[UNK]" untuk "tidak diketahui". Pada prinsipnya, string apa pun dapat disembunyikan oleh [UNK] tersebut. Memang, dalam pencarian informasi, pretokenizer itu sendiri digunakan sebagai tokenizer (dan juga disebut "tokenizer") dengan kosakata tingkat kata yang berisi [UNK].

Algoritma tokenisasi subkata yang umum digunakan adalah byte pair encoding (BPE) dan model bahasa unigram (ULM), yang masing-masing mencakup algoritma kosakata dan algoritma segmentasi khusus. Terdapat juga beberapa algoritma segmentasi yang tidak memerlukan pembelajaran dan dapat diterapkan berdasarkan kosakata (yang dihasilkan oleh BPE atau ULM, misalnya), seperti mengenali token secara serakah dalam pretoken dengan bergerak dari kiri ke kanan. Implementasi perangkat lunak tokenisasi subkata yang terkenal adalah paket Python tokenizers dari Hugging Face yang diimplementasikan dalam Rust, dan paket Python sentencepiece yang diimplementasikan dalam C++. Paket yang terakhir dinamai demikian karena salah satu opsi konfigurasinya memungkinkan untuk menonaktifkan pretokenizer bawaan, sehingga secara efektif menjadikan seluruh kalimat sebagai pretoken dan dengan demikian tokenizer melihat seluruh kalimat, bukan kata-kata individual.

Penyematan

Setiap pengidentifikasi token bilangan bulat dikonversi menjadi vektor penyematan melalui tabel pencarian. Dengan kata lain, ia mengalikan representasi one-hot dari pengidentifikasi token dengan matriks penyematan $M$ . Misalnya, jika pengidentifikasi token masukan adalah $3$ , maka representasi one-hot-nya adalah $[0,0,0,1,0,0,\dots ]$ , dan vektor penyematannya adalah $\mathrm {Embed} (3)=[0,0,0,1,0,0,\dots ]M$ . Vektor penyematan token ditambahkan ke vektor pengkodean posisi masing-masing (lihat di bawah), menghasilkan urutan vektor masukan.

Dimensi vektor penyematan disebut ukuran tersembunyi atau ukuran penyematan dan ditulis sebagai $d_{\text{emb}}$ .^[20] Ukuran ini ditulis sebagai $d_{\text{model}}$ dalam makalah transformer asli.^[1]

Un-embedding

Lapisan un-embedding hampir merupakan kebalikan dari lapisan embedding. Jika lapisan embedding mengubah pengidentifikasi token menjadi vektor, lapisan un-embedding mengubah vektor menjadi distribusi probabilitas atas token.

Lapisan un-embedding adalah lapisan linear-softmax: $\mathrm {UnEmbed} (x)=\mathrm {softmax} (xW+b)$ Matriks memiliki bentuk $(d_{\text{emb}},|V|)$ . Beberapa arsitektur menggunakan transpose dari matriks embedding $M$ sebagai matriks un-embedding $W$ untuk menghindari kebutuhan dua kali lipat jumlah parameter terkait embedding dan untuk menghindari divergensi selama pelatihan. Praktik ini disebut weight tying.^[21]

Pengkodean posisi

Pengkodean posisional adalah representasi vektor berukuran tetap dari posisi relatif token dalam suatu urutan: ini memberikan informasi kepada model transformer tentang "di mana" kata-kata tersebut berada dalam urutan masukan. Hal ini menimbulkan bias induktif terhadap urutan masukan, sehingga, misalnya, urutan masukan "man bites dog" diproses berbeda dari "dog bites man".

Pengkodean posisi didefinisikan sebagai fungsi tipe $f:\mathbb {R} \to \mathbb {R} ^{d}$ , di mana $d$ adalah bilangan bulat genap positif. Pengkodean posisi lengkap yang didefinisikan dalam makalah asli^[1] adalah: $(f(t)_{2k},f(t)_{2k+1})=(\sin(\theta ),\cos(\theta ))\quad \forall k\in \{0,1,\ldots ,d/2-1\}$ di mana $\theta ={\frac {t}{r^{k}}},r=N^{2/d}$ .

Di sini, $N$ adalah parameter bebas yang seharusnya jauh lebih besar daripada $k$ terbesar yang akan dimasukkan ke dalam fungsi pengkodean posisi. Makalah aslinya menggunakan $N=10000$ .

Fungsi ini dalam bentuk yang lebih sederhana ketika ditulis sebagai fungsi kompleks tipe $f:\mathbb {R} \to \mathbb {C} ^{d/2}$ $f(t)=\left(e^{it/r^{k}}\right)_{k=0,1,\ldots ,{\frac {d}{2}}-1}$ di mana $r=N^{2/d}$ .

Alasan utama penggunaan fungsi pengkodean posisi ini adalah karena dengan menggunakannya, pergeseran merupakan transformasi linier: $f(t+\Delta t)=\mathrm {diag} (f(\Delta t))f(t)$ di mana $\Delta t\in \mathbb {R}$ adalah jarak yang ingin digeser. Hal ini memungkinkan transformator untuk mengambil posisi yang dikodekan, dan menemukan pengkodean posisi n langkah ke depan atau n langkah ke belakang, dengan perkalian matriks.

Dengan mengambil penjumlahan linier, setiap konvolusi juga dapat diimplementasikan sebagai transformasi linier: $\sum _{j}c_{j}f(t+\Delta t_{j})=\left(\sum _{j}c_{j}\,\mathrm {diag} (f(\Delta t_{j}))\right)f(t)$ untuk konstanta apa pun $c_{j}$ . Ini memungkinkan transformer untuk mengambil posisi terenkode apa pun dan menemukan penjumlahan linier dari lokasi terenkode tetangganya. Penjumlahan posisi terenkode ini, ketika dimasukkan ke dalam mekanisme perhatian, akan menciptakan bobot perhatian pada tetangganya, seperti yang terjadi dalam jaringan saraf konvolusional model bahasa. Dalam kata-kata penulis, "kami berhipotesis bahwa ini akan memungkinkan model untuk dengan mudah belajar memperhatikan berdasarkan posisi relatif."

Dalam implementasi umum, semua operasi dilakukan pada bilangan riil, bukan bilangan kompleks, tetapi karena perkalian kompleks dapat diimplementasikan sebagai perkalian matriks riil 2x2, ini hanyalah perbedaan notasi.

Encoder–decoder (gambaran umum)

Seperti model seq2seq sebelumnya, model transformer asli menggunakan arsitektur encoder–decoder. Encoder terdiri dari lapisan encoding yang memproses semua token input secara bersamaan satu lapisan demi satu, sedangkan decoder terdiri dari lapisan decoding yang secara iteratif memproses output encoder dan token output decoder sejauh ini.

Tujuan dari setiap lapisan encoder adalah untuk membuat representasi kontekstual dari token, di mana setiap representasi sesuai dengan token yang "mencampur" informasi dari token input lainnya melalui mekanisme self-attention. Setiap lapisan decoder berisi dua sublapisan perhatian: (1) cross-attention untuk menggabungkan output encoder (representasi token input kontekstual), dan (2) self-attention untuk "mencampur" informasi di antara token input ke decoder (yaitu token yang dihasilkan sejauh ini selama waktu inferensi).^[22]^[23]

Baik lapisan encoder maupun decoder memiliki jaringan saraf feed-forward untuk pemrosesan tambahan outputnya dan berisi koneksi residual serta langkah normalisasi lapisan.^[23] Lapisan feed-forward ini berisi sebagian besar parameter dalam model transformer.

Jaringan feedforward

Modul jaringan feedforward (FFN) dalam transformer adalah jaringan saraf feedforward 2 lapis: $\mathrm {FFN} (x)=\phi (xW^{(1)}+b^{(1)})W^{(2)}+b^{(2)}$ di mana $W^{(1)}$ dan $W^{(2)}$ adalah matriks bobot dan $b^{(1)}$ dan $b^{(2)}$ adalah vektor bias, dan $\phi$ adalah fungsi aktivasinya. Transformator asli menggunakan aktivasi ReLU.

Jumlah neuron di lapisan tengah disebut ukuran menengah (GPT),^[24] ukuran filter (BERT),^[20] atau ukuran feedforward (BERT).^[20] Biasanya lebih besar dari ukuran embedding. Misalnya, baik dalam seri GPT-2 maupun seri BERT, ukuran menengah suatu model adalah 4 kali ukuran embedding-nya: $d_{\text{ffn}}=4d_{\text{emb}}$ .

Perhatian produk titik yang diskalakan

Perhatian

Mekanisme perhatian yang digunakan dalam arsitektur transformer adalah unit produk-titik perhatian yang diskalakan. Untuk setiap unit, model transformer mempelajari tiga matriks bobot: bobot kueri $W^{Q}$ , bobot kunci $W^{K}$ , dan bobot nilai $W^{V}$ .

Modul ini menerima tiga urutan, yaitu urutan kueri, urutan kunci, dan urutan nilai. Urutan kueri adalah urutan dengan panjang $\ell _{\text{seq, query}}$ , dan setiap entri adalah vektor dengan dimensi $d_{\text{emb, query}}$ . Demikian pula untuk urutan kunci dan nilai.

Untuk setiap vektor $x_{i,{\text{query}}}$ dalam urutan kueri, vektor tersebut dikalikan dengan matriks $W^{Q}$ untuk menghasilkan vektor kueri $q_{i}=x_{i,{\text{query}}}W^{Q}$ . Matriks dari semua vektor kueri adalah matriks kueri: $Q=X_{\text{query}}W^{Q}$ Demikian pula, kita membangun matriks kunci $K=X_{\text{key}}W^{K}$ dan matriks nilai $V=X_{\text{value}}W^{V}$ .

Biasanya, semua $W^{Q},W^{K},W^{V}$ adalah matriks persegi, artinya $d_{\text{emb, query}}=d_{\text{query}}$ , dan seterusnya.

Bobot perhatian dihitung menggunakan vektor kueri dan kunci: bobot perhatian $a_{ij}$ dari token $i$ ke token $j$ adalah hasil perkalian titik antara $q_{i}$ dan $k_{j}$ . Bobot perhatian dibagi dengan akar kuadrat dari dimensi vektor kunci, ${\sqrt {d_{k}}}$ , yang menstabilkan gradien selama pelatihan, dan dilewatkan melalui fungsi Softmax yang menormalkan bobot. Fakta bahwa $W^{Q}$ dan $W^{K}$ adalah matriks yang berbeda memungkinkan perhatian menjadi tidak simetris: jika token $i$ memperhatikan token $j$ (yaitu $q_{i}\cdot k_{j}$ besar), ini tidak selalu berarti bahwa token $j$ akan memperhatikan token $i$ (yaitu $q_{j}\cdot k_{i}$ bisa kecil). Keluaran dari unit perhatian untuk token $i$ adalah jumlah tertimbang dari vektor nilai semua token, yang diberi bobot oleh $a_{ij}$ , yaitu perhatian dari token $i$ ke setiap token.

Perhitungan perhatian untuk semua token dapat diekspresikan sebagai satu perhitungan matriks besar menggunakan fungsi softmax, yang berguna untuk pelatihan karena optimasi operasi matriks komputasi yang dengan cepat menghitung operasi matriks. Matriks-matriks tersebut $Q$ , $K$ dan $V$ didefinisikan sebagai matriks di mana baris $i$ adalah vektor $q_{i}$ , $k_{i}$ , dan $v_{i}$ secara berturut-turut. Kemudian kita dapat merepresentasikan perhatian sebagai ${\begin{aligned}{\text{Attention}}(Q,K,V)={\text{softmax}}\left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\end{aligned}}$

di mana softmax diterapkan pada setiap baris matriks.

Jumlah dimensi dalam vektor kueri adalah ukuran kueri $d_{\text{query}}$ dan demikian pula untuk ukuran kunci $d_{\text{key}}$ dan ukuran nilai $d_{\text{value}}$ . Dimensi keluaran dari attention head adalah dimensi kepala $d_{\text{head}}$ . Mekanisme perhatian membutuhkan tiga persamaan berikut untuk dipenuhi: $\ell _{\text{seq, key}}=\ell _{\text{seq, value}},\;d_{\text{query}}=d_{\text{key}},\;d_{\text{value}}=d_{\text{head}}$ tetapi selain itu tidak dibatasi.

Jika attention head digunakan dengan cara self-attention, maka $X_{\text{query}}=X_{\text{key}}=X_{\text{value}}$ . Jika attention head digunakan dengan cara cross-attention, maka biasanya $X_{\text{query}}\neq X_{\text{key}}=X_{\text{value}}$ . Secara teoritis, ketiganya bisa berbeda, tetapi hal itu jarang terjadi dalam praktiknya.

Perhatian multihead

Satu set matriks $\left(W^{Q},W^{K},W^{V}\right)$ disebut attention head, dan setiap lapisan dalam model transformer memiliki beberapa attention head. Meskipun setiap attention head memperhatikan token yang relevan dengan setiap token, beberapa attention head memungkinkan model untuk melakukan ini untuk definisi "relevansi" yang berbeda. Secara khusus, matriks proyeksi query dan key, $W^{Q}$ dan $W^{K}$ , yang terlibat dalam perhitungan skor perhatian, mendefinisikan "relevansi". Sementara itu, matriks proyeksi nilai $W^{V}$ , dikombinasikan dengan bagian dari matriks proyeksi output $W^{O}$ , menentukan bagaimana token yang diperhatikan memengaruhi informasi apa yang diteruskan ke lapisan berikutnya dan pada akhirnya logit output. Selain itu, cakupan perhatian, atau rentang hubungan token yang ditangkap oleh setiap attention head, dapat meluas saat token melewati lapisan-lapisan berikutnya. Hal ini memungkinkan model untuk menangkap ketergantungan yang lebih kompleks dan jangka panjang di lapisan yang lebih dalam. Banyak attention head transformer mengkodekan relasi relevansi yang bermakna bagi manusia. Misalnya, beberapa attention head dapat lebih fokus pada kata berikutnya, sementara yang lain terutama fokus dari kata kerja ke objek langsungnya.^[25] Perhitungan untuk setiap attention head dapat dilakukan secara paralel, yang memungkinkan pemrosesan yang cepat. Output untuk lapisan attention digabungkan untuk diteruskan ke lapisan feedforward neural network.

Secara konkret, misalkan beberapa attention head diindeks oleh $i$ , maka kita memiliki ${\text{MultiheadAttention}}(Q,K,V)={\text{Concat}}_{i\in [n_{\text{heads}}]}({\text{Attention}}(XW_{i}^{Q},XW_{i}^{K},XW_{i}^{V}))W^{O}$ di mana matriks $X$ adalah penggabungan embedding kata, dan matriks $W_{i}^{Q},W_{i}^{K},W_{i}^{V}$ adalah "matriks proyeksi" yang dimiliki oleh masing-masing attention head $i$ , dan $W^{O}$ adalah matriks proyeksi akhir yang dimiliki oleh seluruh attention head multihead.

Secara teoritis dimungkinkan bagi setiap attention head untuk memiliki dimensi head yang berbeda $d_{\text{head}}$ , tetapi hal itu jarang terjadi dalam praktiknya.

Sebagai contoh, pada model GPT-2 terkecil, hanya terdapat mekanisme self-attention. Model ini memiliki dimensi sebagai berikut: $d_{\text{emb}}=768,n_{\text{head}}=12,d_{\text{head}}=64$ Karena $12\times 64=768$ , matriks proyeksi outputnya $W^{O}\in \mathbb {R} ^{(12\times 64)\times 768}$ adalah matriks persegi.

Perhatian terselubung

Arsitektur transformer dibangun untuk menghitung token keluaran secara iteratif. Dengan asumsi $t=0$ mengacu pada perhitungan token keluaran pertama $i=0$ , untuk langkah $t>0$ , token keluaran $i=0$ akan tetap konstan. Ini memastikan properti model yang mirip dengan model autoregresif.^[1] Oleh karena itu, pada setiap langkah waktu $t$ , perhitungan untuk semua keluaran $i$ seharusnya tidak memiliki akses ke token pada posisi $j$ untuk $j>=i$ (seperti yang terjadi secara alami untuk langkah waktu $t=i$ , ketika token $j>t$ belum dihitung). Perilaku ini dapat dicapai sebelum tahap softmax dengan menambahkan matriks mask $M$ yang bernilai $-\infty$ pada entri di mana tautan perhatian harus dipotong, dan $0$ di tempat lain: ${\begin{aligned}{\text{MaskedAttention}}(Q,K,V)={\text{softmax}}\left(M+{\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)V\end{aligned}}$ Matriks berikut ini umumnya digunakan dalam modul self-attention decoder, yang disebut "causal masking": $M_{\text{causal}}={\begin{bmatrix}0&-\infty &-\infty &\dots &-\infty \\0&0&-\infty &\dots &-\infty \\0&0&0&\dots &-\infty \\\vdots &\vdots &\vdots &\ddots &\vdots \\0&0&0&\dots &0\end{bmatrix}}$

Dengan kata lain, ini berarti bahwa setiap token dapat memperhatikan dirinya sendiri, dan setiap token sebelumnya, tetapi tidak token setelahnya. Modul perhatian non-masked dapat dianggap sebagai modul perhatian masked di mana mask memiliki semua entri nol. Sebagai contoh penggunaan matriks mask yang tidak umum, XLNet menganggap semua mask berbentuk $PM_{\text{causal}}P^{-1}$ , di mana $P$ adalah matriks permutasi acak.^[26]

Enkoder

Sebuah enkoder terdiri dari lapisan penyematan, diikuti oleh beberapa lapisan enkoder.

Setiap lapisan encoder terdiri dari dua komponen utama: mekanisme self-attention dan lapisan feed-forward. Ia menerima input berupa urutan vektor input, menerapkan mekanisme self-attention untuk menghasilkan urutan vektor perantara, kemudian menerapkan lapisan feed-forward untuk setiap vektor secara individual. Secara skematis, kita memiliki: ${\begin{aligned}{\text{given input vectors }}&h_{0},h_{1},\dots \\{\text{combine them into a matrix }}H&={\begin{bmatrix}h_{0}\\h_{1}\\\vdots \end{bmatrix}}\\{\text{EncoderLayer}}(H)&={\begin{bmatrix}{\text{FFN}}({\text{MultiheadAttention}}(H,H,H)_{0})\\{\text{FFN}}({\text{MultiheadAttention}}(H,H,H)_{1})\\\vdots \end{bmatrix}}\\\end{aligned}}$

di mana ${\text{FFN}}$ merupakan singkatan dari "feed-forward network". Kita dapat menuliskannya lebih ringkas sebagai ${\text{EncoderLayer}}(H)={\text{FFN}}({\text{MultiheadAttention}}(H,H,H))$ dengan konvensi implisit bahwa ${\text{FFN}}$ diterapkan pada setiap baris matriks secara individual.

Lapisan encoder ditumpuk. Lapisan encoder pertama mengambil urutan vektor input dari lapisan embedding, menghasilkan urutan vektor. Urutan vektor ini diproses oleh encoder kedua, dan seterusnya. Output dari lapisan encoder terakhir kemudian digunakan oleh decoder.

Karena encoder memproses seluruh input sekaligus, setiap token dapat memperhatikan setiap token lainnya (perhatian seluruh-ke-seluruh), sehingga tidak perlu masking kausal.

Dekoder

Sebuah dekoder terdiri dari lapisan penyematan, diikuti oleh beberapa lapisan dekoder, diikuti oleh lapisan pelepasan penyematan.

Setiap dekoder terdiri dari tiga komponen utama: mekanisme perhatian diri yang ditutupi secara kausal, mekanisme perhatian silang, dan jaringan saraf umpan maju. Dekoder berfungsi dengan cara yang mirip dengan enkoder, tetapi mekanisme perhatian tambahan disisipkan yang mengambil informasi relevan dari pengkodean yang dihasilkan oleh enkoder. Mekanisme ini juga dapat disebut "perhatian enkoder-dekoder".^[1]^[23]

Seperti halnya encoder pertama, decoder pertama menerima informasi posisi dan embedding dari urutan output sebagai inputnya, bukan encoding. Transformer tidak boleh menggunakan output saat ini atau di masa mendatang untuk memprediksi output, sehingga urutan output harus ditutupi sebagian untuk mencegah aliran informasi terbalik ini.^[1] Hal ini memungkinkan pembangkitan teks autoregresif. Untuk decoding, perhatian all-to-all tidak tepat, karena sebuah token tidak dapat memperhatikan token yang belum dihasilkan. Dengan demikian, modul self-attention dalam decoder tertutupi secara kausal.

Sebaliknya, mekanisme perhatian silang (cross-attention) memperhatikan vektor keluaran dari encoder, yang dihitung sebelum decoder mulai melakukan decoding. Akibatnya, tidak diperlukan masking dalam mekanisme perhatian silang.

Secara skematis, kita memiliki: ${\begin{aligned}H'&={\text{MaskedMultiheadAttention}}(H,H,H)\\{\text{DecoderLayer}}(H)&={\text{FFN}}({\text{MultiheadAttention}}(H',H^{E},H^{E}))\end{aligned}}$ dimana $H^{E}$ adalah matriks dengan baris-baris yang merupakan vektor keluaran dari encoder.

Dekoder terakhir diikuti oleh lapisan un-embedding akhir untuk menghasilkan probabilitas keluaran atas kosakata. Kemudian, salah satu token diambil sampelnya sesuai dengan probabilitas tersebut, dan dekoder dapat dijalankan lagi untuk menghasilkan token berikutnya, dan seterusnya, secara autoregresif menghasilkan teks keluaran.

Referensi

1 2 3 4 5 6 7 8 9 10 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. 30. Curran Associates, Inc.
↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017). "Attention Is All You Need" (PDF). Advances in Neural Information Processing Systems. Diakses tanggal 2026-05-05.
↑ Hochreiter, Sepp; Schmidhuber, Jürgen (November 1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276.
1 2 "Better Language Models and Their Implications". OpenAI. 2019-02-14. Diarsipkan dari versi aslinya tanggal 2020-12-19. Diakses tanggal 2019-08-25.
↑ "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer". arXiv. 2019-10-23. Diakses tanggal 2026-05-05.
↑ Bahdanau; Cho, Kyunghyun; Bengio, Yoshua (September 1, 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arΧiv:1409.0473 [cs.CL].
↑ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (August 17, 2015). "Effective Approaches to Attention-based Neural Machine Translation". arΧiv:1508.04025 [cs.CL].
↑
↑ Parisotto, Emilio; Song, Francis; Rae, Jack; Pascanu, Razvan; Gulcehre, Caglar; Jayakumar, Siddhant; Jaderberg, Max; Kaufman, Raphaël Lopez; Clark, Aidan; Noury, Seb; Botvinick, Matthew; Heess, Nicolas; Hadsell, Raia (2020-11-21). "Stabilizing Transformers for Reinforcement Learning". Proceedings of the 37th International Conference on Machine Learning (dalam bahasa Inggris). PMLR: 7487–7498.
↑ Radford, Alec; Jong Wook Kim; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). "Robust Speech Recognition via Large-Scale Weak Supervision". arΧiv:2212.04356 [eess.AS].
↑ Monastirsky, Maxim; Azulay, Osher; Sintov, Avishai (February 2023). "Learning to Throw With a Handful of Samples Using Decision Transformers". IEEE Robotics and Automation Letters. 8 (2): 576–583. Bibcode:2023IRAL....8..576M. doi:10.1109/LRA.2022.3229266.
↑ Ruoss, Anian; Delétang, Grégoire; Medapati, Sourabh; Grau-Moya, Jordi; Wenliang, Li; Catt, Elliot; Reid, John; Genewein, Tim (2024-02-07). "Grandmaster-Level Chess Without Search". arΧiv:2402.04494v1 [cs.LG].
↑ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. hlm. 38–45. doi:10.18653/v1/2020.emnlp-demos.6.
1 2 3 "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog. 2 November 2018. Diarsipkan dari versi aslinya tanggal 2021-01-13. Diakses tanggal 2019-08-25.
↑ Xiong, Ruibin; Yang, Yunchang; He, Di; Zheng, Kai; Zheng, Shuxin; Xing, Chen; Zhang, Huishuai; Lan, Yanyan et al. (2020-06-29). "On Layer Normalization in the Transformer Architecture". arΧiv:2002.04745 [cs.LG].
↑ Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei et al. (2019). "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer". arΧiv:1910.10683 [cs.LG].
1 2 "Masked language modeling". huggingface.co. Diakses tanggal 2023-10-05.
1 2 "Causal language modeling". huggingface.co. Diakses tanggal 2023-10-05.
1 2
1 2 3
↑ Press, Ofir; Wolf, Lior (2017-02-21), Using the Output Embedding to Improve Language Models, arXiv:1608.05859
↑ Lintz, Nathan (2016-04-18). "Sequence Modeling with Neural Networks (Part 2): Attention Models". Indico. Diarsipkan dari versi aslinya tanggal 2020-10-21. Diakses tanggal 2019-10-15.
1 2 3 Alammar, Jay. "The Illustrated transformer". jalammar.github.io. Diarsipkan dari versi aslinya tanggal 2020-10-18. Diakses tanggal 2019-10-15.
↑ Team, Keras. "Dokumentasi Keras: Model GPT2Backbone". keras.io (dalam bahasa Inggris). Diakses tanggal 2024-08-08.
↑ Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (August 2019). "What Does BERT Look at? An Analysis of BERT's Attention". Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Florence, Italy: Association for Computational Linguistics: 276–286. arXiv:1906.04341. doi:10.18653/v1/W19-4828. Diarsipkan dari versi aslinya tanggal 2020-10-21. Diakses tanggal 2020-05-20.
↑ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Russ R; Le, Quoc V (2019). "XLNet: Generalized Autoregressive Pretraining for Language Understanding". Advances in Neural Information Processing Systems. 32. Curran Associates, Inc. arXiv:1906.08237.

Bacaan lebih lanjut

Alexander Rush, The Annotated transformer Diarsipkan 2021-09-22 di Wayback Machine., Harvard NLP group, 3 April 2018
Phuong, Mary; Hutter, Marcus (2022). "Formal Algorithms for Transformers". arΧiv:2207.09238 [cs.LG].
Ferrando, Javier; Sarti, Gabriele; Bisazza, Arianna; Costa-jussà, Marta R. (2024-05-01). "A Primer on the Inner Workings of Transformer-based Language Models". arΧiv:2405.00208 [cs.CL].
Leech, Gavin (2024-11-06). "Transformer++". argmin gravitas. Diarsipkan dari asli tanggal 2025-02-26. Diakses tanggal 2025-05-08.
US patent 10452978, Noam M. Shazeer; Aidan Nicholas Gomez; Lukasz Mieczyslaw Kaiser; Jakob D. Uszkoreit; Llion Owen Jones; Niki J. Parmar; Illia Polosukhin; Ashish Teku Vaswani, "Attention-based sequence transduction neural networks", dikeluarkan tanggal 2019-10-22, diberikan kepada Google LLC
Raschka, Sebastian (2026-03-11). "The Big LLM Architecture Comparison: From DeepSeek V3 to GLM-5: A Look At Modern LLM Architecture Design". Sebastian Raschka’s AI Magazine. Diakses tanggal 2026-03-25.