Pangkalan data biologi

Daripada Wikipedia, ensiklopedia bebas.
Halaman utama pangkalan data biologi yang dipanggil STRING yang mencirikan pautan berfungsi antara protein.[1]

Pangkalan data biologi ialah pustaka sains biologi yang dikumpulkan daripada eksperimen saintifik, kesusasteraan yang diterbitkan, teknologi percubaan berkemampuan tinggi, dan analisis komputasi. Ia mengandungi maklumat daripada bidang penyelidikan termasuk genomik, proteomik, metabolomik, ekspresi gen mikroarai dan filogenetik.[2] Maklumat yang terkandung dalam pangkalan data biologi termasuk fungsi gen, struktur, penyetempatan (kedua-dua selular dan kromosom), kesan klinikal mutasi serta persamaan jujukan dan struktur biologi.

Pangkalan data biologi boleh diklasifikasikan mengikut jenis data yang mereka kumpulkan (lihat di bawah). Secara umumnya, terdapat pangkalan data molekul (jujukan, molekul, dll.), pangkalan data kefungsian (fisiologi, aktiviti enzim, fenotip, ekologi, dll.), pangkalan data taksonomi (spesies dan pangkat taksonomi lain), imej atau media lain, atau spesimen (untuk koleksi muzium dsb.)

Pangkalan data ialah alat penting dalam membantu saintis menganalisis dan menerangkan pelbagai fenomena biologi daripada struktur biomolekul dan interaksinya, kepada keseluruhan metabolisme organisma dan memahami evolusi spesies. Pengetahuan ini membantu memudahkan memerangi penyakit, membantu dalam pembangunan ubat-ubatan, meramalkan penyakit genetik tertentu dan dalam menemui hubungan asas antara spesies dalam sejarah kehidupan.

Asas teknikal dan konsep teori[sunting | sunting sumber]

Konsep pangkalan data hubungan sains komputer dan konsep perolehan semula maklumat perpustakaan digital adalah penting untuk memahami pangkalan data biologi. Reka bentuk pangkalan data biologi, pembangunan dan pengurusan jangka panjang ialah bidang teras disiplin bioinformasi.[3] Kandungan data termasuk urutan gen, penerangan teks, atribut dan klasifikasi ontologi, petikan dan data jadual. Ini sering digambarkan sebagai data separa berstruktur, dan boleh diwakili sebagai jadual, rekod sempadan utama dan struktur XML.

Akses[sunting | sunting sumber]

Kebanyakan pangkalan data biologi boleh didapati melalui laman web yang menyusun data supaya pengguna boleh menyemak imbas data dalam talian. Selain itu, data asas biasanya tersedia untuk dimuat turun dalam pelbagai format. Data biologi datang dalam pelbagai format. Format ini termasuk teks, data jujukan, struktur protein dan pautan. Setiap satu daripada ini boleh didapati daripada sumber tertentu, contohnya:

Masalah dan cabaran[sunting | sunting sumber]

Pengetahuan biologi diedarkan sesama pangkalan data yang tidak terkira banyaknya. Ini kadangkala menyukarkan untuk memastikan konsistensi maklumat, contohnya apabila nama yang berbeza digunakan bagi spesies yang sama atau format data yang berbeza. Akibatnya, kebolehoperasian menjadi cabaran berterusan untuk pertukaran maklumat. Sebagai contoh, jika pangkalan data jujukan DNA menyimpan jujukan DNA berdasarkan nama spesies, pertukaran nama spesies itu boleh memutuskan pautan ke pangkalan data lain yang mungkin menggunakan nama lain. Bioinformasi bersepadu ialah satu bidang yang cuba menangani masalah ini dengan menyediakan akses bersatu. Satu penyelesaian ialah bagaimana pangkalan data biologi merujuk silang kepada pangkalan data lain dengan nombor penyertaan untuk menghubungkan pengetahuan berkaitan mereka bersama-sama (cth., supaya nombor penyertaan kekal sama walaupun nama spesies berubah). Pelewahan ialah satu lagi masalah kerana banyak pangkalan data mesti menyimpan maklumat yang sama sepertipangkalan data struktur protein dengan jujukan protein yang berada di bawahnya dan maklumat bibliografinya.

Pangkalan data model-organisma[sunting | sunting sumber]

Pangkalan data khusus spesies tersedia untuk beberapa spesies, terutamanya yang sering digunakan dalam penyelidikan (organisma model). Contohnya, EcoCyc ialah pangkalan data E. coli. Pangkalan data organisma model popular lain termasuk Mouse Genome Informatics bagi tikus makmal (Mus musculus), Pangkalan Data Genom Tikus untuk Rattus, ZFIN untuk Danio Rerio (ikan zebra), PomBase[4] untuk yis pelakuran Schizosaccharomyces pombe, FlyBase untuk Drosophila (lalat), WormBase untuk nematod Caenorhabditis elegans dan Caenorhabditis briggsae, dan Xenbase untuk katak Xenopus tropicalis dan Xenopus laevis.

Pangkalan data biodiversiti dan spesies[sunting | sunting sumber]

Kumpulan haiwan dan bilangan spesiesnya daripada Catalogue of Life.[5]

Banyak pangkalan data cuba mendokumentasikan kepelbagaian hidupan di bumi. Contoh yang menonjol ialah Catalogue of Life, pertama kali dicipta pada tahun 2001 oleh Species 2000 dan Sistem Maklumat Taksonomi Bersepadu.[6] Katalog Kehidupan ialah projek kerjasama yang bertujuan untuk mendokumentasikan pengelasan taksonomi semua spesies yang diterima pakai di dunia pada masa ini.[7] Katalog Kehidupan menyediakan pangkalan data yang bersepadu dan konsisten untuk rujukan penyelidik dan pembuat dasar. Katalog Kehidupan menyusun set data terkini daripada sumber lain seperti Pangkalan Data Konifer, ICTV MSL (virus) dan LepIndex (untuk rama-rama dan kupu-kupu). Secara keseluruhan, Katalog Kehidupan diperoleh daripada 165 pangkalan data setakat Mei 2022.[8] Kos operasi Katalog Kehidupan dibayar oleh Kemudahan Maklumat Biodiversiti Global, Tinjauan Sejarah Alam Illinois, Pusat Biodiversiti Naturalis dan Institusi Smithson.[9]

Sesetengah pangkalan data biologi juga mendokumenkan pengedaran geografi spesies yang berbeza. Shuang Dai et al. mencipta pangkalan data berbilang sumber baharu untuk mendokumenkan pengedaran spatial/geografi bagi 1,371 spesies burung di China kerana pangkalan data sedia ada kekurangan data pengedaran ruangan bagi banyak spesies.[10] Sumber pangkalan data baharu ini termasuk buku, kesusasteraan, penjejakan GPS dan data halaman web dalam talian. Pangkalan data baharu memaparkan taksonomi, pengedaran, maklumat spesies dan sumber data untuk setiap spesies. Selepas melengkapkan pangkalan data pengedaran spatial burung, didapati bahawa 61% spesies yang diketahui di China didapati bertaburan di kawasan di luar tempat mereka diketahui sebelum ini.[11]

Pangkalan data perubatan[sunting | sunting sumber]

Luka kaki dari WoundsDB.[12]

Pangkalan data perubatan ialah kes khas sumber data bioperubatan dan boleh terdiri daripada bibliografi seperti PubMed, kepada pangkalan data imej pembangunan perisian diagnostik berasaskan AI. Sebagai contoh, satu pangkalan data imej sedemikian telah dibangunkan dengan matlamat untuk membantu dalam pembangunan algoritma pemantauan luka.[13] Lebih 188 set imej berbilang modal telah dipilih susun daripada 79 lawatan pesakit yang terdiri daripada gambar, imej haba dan peta kedalaman jaringan 3D. Garis besar luka dilukis secara manual dan ditambahkan pada set data foto.[14] Pangkalan data telah tersedia secara umum dalam bentuk program yang dipanggil WoundsDB, dan boleh dimuat turun dari tapak web Pangkalan Data Luka Kronik.

Koleksi pangkalan data[sunting | sunting sumber]

Sumber penting untuk mencari pangkalan data biologi ialah terbitan tahunan jurnal Nucleic Acids Research (NAR). Isu pangkalan data NAR tersedia secara percuma, dan mengelaskan banyak pangkalan data biologi awam. Pangkalan data rakan kepada isu ini, dipanggil Koleksi Pangkalan Data Biologi Molekul Dalam Talian, menyenaraikan 1,380 pangkalan data dalam talian.[15] Koleksi pangkalan data lain wujud seperti MetaBase dan Koleksi Pautan Bioinformatik.[16][17]

Rujukan[sunting | sunting sumber]

  1. ^ Szklarczyk D; Franceschini A; Kuhn M (January 2011). "The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored". Nucleic Acids Res. 39 (Database issue): D561–8. doi:10.1093/nar/gkq973. PMC 3013807. PMID 21045058. Unknown parameter |displayauthors= ignored (bantuan)
  2. ^ Altman RB (March 2004). "Building successful biological databases". Brief. Bioinformatics. 5 (1): 4–5. doi:10.1093/bib/5.1.4. PMID 15153301.
  3. ^ Bourne P (August 2005). "Will a biological database be different from a biological journal?". PLOS Comput. Biol. 1 (3): 179–81. Bibcode:2005PLSCB...1...34B. doi:10.1371/journal.pcbi.0010034. PMC 1193993. PMID 16158097.
  4. ^ Lock, A; Rutherford, K; Harris, MA; Hayles, J; Oliver, SG; Bähler, J; Wood, V (13 October 2018). "PomBase 2018: user-driven reimplementation of the fission yeast database provides rapid and intuitive access to diverse, interconnected information". Nucleic Acids Research. 47 (D1): D821–D827. doi:10.1093/nar/gky961. PMC 6324063. PMID 30321395.
  5. ^ Catalogue of Life (2001). "Homepage". Search. Species 2000. Dicapai pada 2022-05-05.
  6. ^ Jones, Andrew C. (2011). "Identifying and Relating Biological Concepts in the Catalogue of Life". Journal of Biomedical Semantics. 2 (1): 7. doi:10.1186/2041-1480-2-7. PMC 3245425. PMID 22004596.
  7. ^ Catalogue of Life (2001). "What is Catalogue of Life?". Our Mission. Species 2000. Dicapai pada 2022-05-05.
  8. ^ Catalogue of Life (2001). "Source Datasets". Species 2000. Dicapai pada 2022-05-05.
  9. ^ Catalogue of Life (2001). "Funding". Species 2000. Dicapai pada 2022-05-05.
  10. ^ Dai, Shuang (2019). "A Spatialized Digital Database for All Bird Species in China". Science China Life Sciences. 62 (5): 661–667. doi:10.1007/s11427-018-9419-2. PMID 30900164. Dicapai pada 2022-05-05.
  11. ^ Dai, Shuang (2019). "A Spatialized Digital Database for All Bird Species in China". Science China Life Sciences. 62 (5): 661–667. doi:10.1007/s11427-018-9419-2. PMID 30900164. Dicapai pada 2022-05-05.
  12. ^ "Chronic Wound Database". WoundsDB. Silesian University of Technology. 2020. Dicapai pada 2022-05-05.
  13. ^ Kręcichwost, Michał (2021). "Chronic Wounds Multimodal Image Database". Computerized Medical Imaging and Graphics. 88: 101844. doi:10.1016/j.compmedimag.2020.101844. PMID 33477091. Dicapai pada 2022-05-05.
  14. ^ "Chronic Wound Database". WoundsDB. Silesian University of Technology. 2020. Dicapai pada 2022-05-05.
  15. ^ Galperin MY; Fernández-Suárez XM (January 2012). "The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection". Nucleic Acids Res. 40 (Database issue): D1–8. doi:10.1093/nar/gkr1196. PMC 3245068. PMID 22144685.
  16. ^ Bolser DM; Chibon PY; Palopoli N (January 2012). "MetaBase--the wiki-database of biological databases". Nucleic Acids Res. 40 (Database issue): D1250–4. doi:10.1093/nar/gkr1099. PMC 3245051. PMID 22139927. Unknown parameter |displayauthors= ignored (bantuan)
  17. ^ Brazas MD; Yim DS; Yamada JT; Ouellette BF (July 2011). "The 2011 Bioinformatics Links Directory update: more resources, tools and databases and features to empower the bioinformatics community". Nucleic Acids Res. 39 (Web Server issue): W3–7. doi:10.1093/nar/gkr514. PMC 3125814. PMID 21715385.

Pautan luar[sunting | sunting sumber]