FASTA adalah paket perangkat lunak penyelarasan urutan DNA dan protein yang pertama kali dijelaskan oleh David J. Lipman dan William R. Pearson pada tahun 1985, sehingga peneliti dapat menentukan apakah penyelerasan tersebut terjadi secara kebetulan atau dapat digunakan untuk menyimpulkan homologi.[1] Warisannya adalah format FASTA yang sekarang ada di mana-mana dalam bioinformatika, di mana program pangkalan data similaritas ini menggunakan strategi "memotong" (hashing) untuk mencari rangkaian pendek yang disebut k-tuples atau ktups yang mirip dengan kata pada BLAST,[2] Istilah ktup sendiri merupakan rangkaian residu yang berasal dari sekuen kueri yang dipecah menjadi pola sekuens atau kata-kata agar bisa digunakan sekuens target untuk menentukan kesamaan di antara keduanya. Rangkaian ini biasanya terdiri dari dua residu untuk sekuens protein dan enam residu untuk sekuens DNA. sekuens target dicari berdasarkan k-tuple ini untuk menemukan kesamaan di antara keduanya.[3]
Linimasa pemetaan (sejak 2001). Pemetaan DNA ditandai dengan warna biru, pemetaan RNA dengan warna merah, pemetaan miRNA dengan warna hijau, dan pemetaan bisulfit dengan warna ungu. Garis putus-putus abu-abu menghubungkan pemetaan terkait (perpanjangan atau versi baru). Linimasa hanya mencakup pemetaan dengan publikasi yang telah melalui tinjauan sejawat, dan tanggalnya sesuai dengan tanggal publikasi paling awal (misalnya, tanggal publikasi awal, bukan tanggal publikasi).
Sejarah
Awalnya, program ini dirancang untuk pencarian kesamaan urutan protein. Karena informasi genetik yang berkembang secara eksponensial dan keterbatasan kecepatan serta memori komputer, pada tahun 1980-an, metode heuristik diperkenalkan untuk menyelaraskan urutan kueri dengan seluruh basis data. Program yang dibuat padsa tahun 1987 ini mampu melakukan pencarian DNA dengan DNA, menerjemahkan pencarian protein dengan DNA, dan juga menyediakan program pengacakan yang lebih canggih untuk mengevaluasi signifikansi statistik.[6] TSaat ini, peningkatan kinerja komputer memungkinkan pencarian untuk deteksi penyelarasan lokal dalam basis data menggunakan algoritma Smith–Waterman.
FASTA diucapkan "fast A", dan merupakan singkatan dari "FAST-All", karena dapat digunakan dengan alfabet apa pun, sebuah pengembangan dari alat penyelarasan "FAST-P" (protein) dan "FAST-N" (nukleotida) asli.
Saat ini, format berkas FASTA banyak digunakan oleh alat pencarian basis data sekuens lainnya (seperti BLAST) dan program penyelarasan sekuens (Clustal, T-Coffee, dll.).
Dalam tahap ini, ktups diidentifikasi dengan metode hashing, yaitu kontruksi tabel hash posisi residu ktups dari kueri dan urutan pangkalan data kandidat, di mana metode ini dilakukan terhadap seluruh posisi pada pasangan urutan hingga seluruh ktups dipetakan. Dari tabel hash tersebut, perbedaan posisi setiap residu antar pasangan urutan dapat dipetakan dengn menghitung selisih posisi antara urutan kueri dengan urutan pangkalan data, di mana ktups yang memiliki selisih yang sama digabung untuk memperlihatkan daerah dengan residu identik antar pasangan urutan. Umumnya, ada banyak variasi panjang ktups yang terpetakan sebagai garis diagonal dalam matriks perbandingan pasangan urutan.
Penyaringan atau seleksi ktups
Pada tahap ini, seluruh ktups akan dihitung skornya menggunakan matriks substitusi tertentu dan hanya ktups dengan nilai di atas ambang minimal saja yang dipertahankan dalam matriks.
Penggabungan ktups
Pada tahap ini, ktups yang terletak pada satu diagonal akan digabungkan dan dioptimasi dengan metode pemrograman dinamis untuk memberikan jajaran pasangan urutan beserta skor similaritasnya dengan urutan kueri.