Tin sinh học
(bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học và hóa sinh (biochemistry) để giải quyết các vấn đề sinh học. Một thuật ngữ thường được dùng ...
(bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học và hóa sinh (biochemistry) để giải quyết các vấn đề sinh học. Một thuật ngữ thường được dùng thay thế cho tin sinh học là sinh học tính toán (computational biology). Tuy nhiên, tin sinh học thiên về việc phát triển các giải thuật, lý thuyết và các kĩ thuật thống kê và tính toán để giải quyết các bài toán bắt nguồn từ nhu cầu quản lí và phân tích dữ liệu sinh học. Trong khi đó, sinh học tính toán thiên về kiểm định các giả thuyết (hypothesis) được đặt ra của một vấn đề trong sinh học nhờ máy tính thực nghiệm trên dữ liệu mô phỏng, với mục đích chính là phát hiện và nâng cao tri thức về sinh học (ví dụ: dự đoán mối quan hệ tương tác giữa các protein, dự đoán cấu trúc bậc 2 phân tử của protein, v.v.).
Do đó, các nghiên cứu trong ngành sinh học tính toán (computational biology) thường trùng lặp với sinh học hệ thống (systems biology). Những lĩnh vực nghiên cứu chính của nó bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structure prediction), dự đoán biểu hiện gene (gene expression) và tương tác protein - protein (protein-protein interactions), và mô hình hóa quá trình tiến hoá. Thuật ngữ tin sinh học và sinh học tính toán thường được dùng hoán đổi cho nhau, mặc dù cái trước, nói một cách nghiêm túc, là tập con của cái sau. Những mối quan tâm chính trong các dự án tin sinh học và sinh học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu hỗn độn được thu nhận từ các kĩ thuật sinh học với lưu lượng mức độ lớn. (Lĩnh vực khai phá dữ liệu (data mining) trùng lắp với sinh học tính toán về phương diện này.) Những bài toán đặc trưng trong sinh học tính toán bao gồm việc lắp ráp (assembly) những trình tự DNA chất lượng cao từ các đoạn ngắn DNA được thu nhận từ kỹ thuật xác định trình tự DNA (shotgun sequencing), và việc dự đoán qui luật điều hòa gene (gene regulation) với dữ liệu từ các mRNA, microarray hay khối phổ (mass spectrometry).
Lý giải những thông tin thu được từ các nguồn cơ sở dữ liệu khổng lồ về DNA chỉ là một trong nhiều bài toán mà các nhà tin sinh học phải giải quyết
Genomics - Hệ gene học
Phân tích trình tự
Kể từ khi bộ gene của Phage Φ-X174 được xác định trình tự (1977) cho đến nay, trình tự DNA của rất nhiều loài sinh vật đã được lưu trữ trong các ngân hàng cơ sở dữ liệu gene. Những dữ liệu này sẽ được phân tích để tìm ra những gene cấu trúc (gene mã hoá cho một protein nào đó), cũng như tìm ra qui luật của những trình tự tương đồng giữa các protein). Việc so sánh các gene trong cùng một loài hay giữa các loài khác nhau có thể cho thấy sự tương đồng về chức năng của protein, hay mối quan hệ phát sinh chủng loài giữa những loài này (thể hiện trên cây phát sinh chủng loài (phylogenetic tree)). Với sự tăng trưởng khổng lồ của dữ liệu loại này, việc phân tích trình tự DNA một cách thủ công trở nên không thể thực hiện nổi.
Ngày nay, các chương trình máy tính được sử dụng để giúp tìm các trình tự tương đồng trong bản đồ gen (genome) của hàng loạt sinh vật, với số lượng nucleotide trong trình tự lên đến hàng tỉ. Những chương trình này có thể tìm kiếm những trình tự DNA không giống nhau hoàn toàn do các đột biến nucleotide (thay thế, mất hay thêm các gốc base). Những giải thuật bắt cặp trình tự (sequence alignment) cũng được áp dụng ngay cả trong quá trình xác định trình tự DNA, là kỹ thuật xác định trình tự đoạn nhỏ (shotgun sequencing). (Kỹ thuật này đã được công ty Celera Genomics sử dụng để xác định trình tự genome của vi khuẩn Haemophilus influenza.) Kỹ thuật xác định trình tự hiện nay không thể tiến hành với cả đoạn trình tự DNA lớn (cỡ vài chục nghìn nucleotide trở lên) nên người ta sử dụng xác định trình tự nhỏ để giải mã hàng nghìn đoạn trình tự với kích thước khoảng 600 - 800 nucleotide. Sau đó, những đoạn trình tự nhỏ này sẽ được sắp xếp thứ tự và nối lại với nhau (thông qua việc bắt cặp trình tự ở những đầu gối lên nhau (overlap)) tạo thành một trình tự genome hoàn chỉnh.
Kỹ thuật xác định trình tự đoạn nhỏ tạo ra chuỗi dữ liệu một cách nhanh chóng, nhưng nhiệm vụ sắp xếp lại các mảnh DNA có thể là khá phức tạp cho các genome lớn. Trong trường hợp dự án bản đồ gen người (Human Genome Project), các nhà tin sinh học phải mất cả hàng tháng đồng thời sử dụng hàng loạt siêu máy tính (các máy DEC Alpha ra đời năm 2000) để sắp xếp đúng trình tự ngắn lại. Xác định trình tự đoạn nhỏ là kỹ thuật ưu tiên sử dụng trong hầu hết các dự án giải mã genome hiện nay và giải thuật lắp ráp genome (genome assembly algorithms) là một trong những lĩnh vực nóng của tin sinh học.
Một khía cạnh khác của tin sinh học trong việc phân tích trình tự là việc tìm kiếm tự động các gen và những trình tự điều khiển bên trong một genome. Không phải là tất cả nucleotides bên trong một genome đều là gene. Phần lớn các DNA bên trong genome của các sinh vật bậc cao là các đoạn DNA không phục vụ cho một nhiệm vụ cụ thể nào (hoặc do khoa học hiện nay chưa nhận ra) được gọi là những đoạn DNA rác (junk DNA). còn giúp kết nối dữ liệu giữa các dự án genomics và proteomics, ví dụ việc sử dụng trình tự DNA để nhận dạng protein.
Chỉ định Genome
Về phía lĩnh vực gen chuyên về nghiên cứu bản đồ gen (genomics), annotation là quá trình đánh dấu các gen và các đặc tính sinh học (biological features) khác trong một chuỗi DNA. Hệ thống phần mềm làm nhiệm vụ "genome annotation" đầu tiên đã được thiết kế vào năm 1995 bởi Owen White, anh thuộc nhóm đảm nhiệm việc sắp xếp trình tự và phân tích bản đồ gen đầu tiên của các sinh vật tự do ('free-living organism) để giải mã, khuẩn Haemophilus influenzae. Dr. White đã xây dựng hệ thống phần mềm này để tìm kiếm các gen (nằm trong chuỗi DNA nhằm nhiệm vụ mã hóa các proteine), RNA chuyển vận (transfer RNA), và các chức năng khác, và để tạo các chức năng đầu tiên cho các gen đó. Hầu hết các hệ thống genome annotation hiện nay đều hoạt động tương tự, nhưng các chương trình nhằm để phân tích lãnh vực nghiên cứu bản đồ gen DNA (genomic DNA) thì thường xuyên thay đổi và được cải tiến. Hệ thống Ensembl là hệ thống genome annotation pipeline cho bản đồ gen người được phát triển bởi Ewan Birney tại viện Sanger (The Sanger Institute) gần Cambridge, England[1].
Dò tìm đột biến và SNP
Rất nhiều các nghiên cứu xác định trình tự (sequencing) hiện nay là nhằm tìm ra các đột biến điểm (point mutation) xảy ra trên các gene khác nhau trong ung thư. Tập sơ khởi (sheer volume) các dữ liệu được tạo ra đòi hỏi các hệ thống tự động đọc những dữ liệu kiểu chuỗi này (sequence data), rồi so sánh trình tự kết quả với các trình tự đã biết trên genome người, bao gồm cả những điểm đa hình trên tế bào dòng tinh (germline) đã biết.
Những hệ thống oligonucleotide microarray, bao gồm những hệ thống dùng để phát hiện điểm đa hình đơn nucleotide (single nucleotide polymorphism) hoặc khảo sát tính dị biệt so sánh genome (comparative genomic hybridization), với khả năng cho phép nghiên cứu đồng thời hàng trăm ngàn vị trí trên toàn bản đồ gen đang được sử dụng để xác định những đột biến thêm và mất đoạn nhiễm sắc thể trong quá trình hình thành ung thư. Mô hình chuỗi Markov ẩn (Hidden Markov Model) và phương pháp phân tích điểm thay đổi (change-point analysis) đang được phát triển để có thể suy ra số lượng thực của những thay đổi từ các dữ liệu hỗn độn (noisy data). Các phương pháp tiếp cận thông tin vẫn đang được phát triển để có thể phát hiện những thương tổn DNA đã trùng hợp xảy ra trên nhiều dạng ung thư.