24/05/2018, 21:39

Sinh học tiến hóa

Sinh học tiến hoá (Evolutionary biology) là ngành học nghiên cứu tổ tiên, hậu duệ cũng như quá trình phát triển của các chủng loài theo thời gian. Những phát triển gần đây trong lĩnh vực xác định trình tự gen và sự phổ biến các máy tính tốc ...

Sinh học tiến hoá (Evolutionary biology) là ngành học nghiên cứu tổ tiên, hậu duệ cũng như quá trình phát triển của các chủng loài theo thời gian. Những phát triển gần đây trong lĩnh vực xác định trình tự gen và sự phổ biến các máy tính tốc độ cao cho phép các nhà nghiên cứu theo dõi sự tiến hoá của các loài dựa trên những thay đổi trong trình tự DNA. Tiến hóa học máy tính (Computational Evolutionary Biology, CEB) đã ra đời trước kỷ nguyên hệ gene học (genomics) nghiên cứu xây dựng các mô hình tính toán quần thể và sự biến thiên của chúng theo thời gian.

Tiếp cận vấn đề theo chiều hướng ngược lại với CEB --- thay vì sử dụng các chương trình máy tính để điều tra quá trình tiến hoá, lĩnh vực giải thuật di truyền (genetic algorithm) tìm cách tối ưu hóa những chương trình máy tính thông qua các nguyên lí tiến hoá (evolutionary principles).

Tin sinh học thường áp dụng trong lĩnh vực bảo tồn đa dạng sinh học (biodiversity). Thông tin quan trọng nhất được thu thập chính là tên, miêu tả, sự phân bố, trạng thái và kích thước dân số của các chủng loài (species), nhu cầu thói quen (habitat) và cách mà mỗi tổ chức tương tác với các chủng loài khác. Thông tin này được lưu trữ vào trong cơ sở dữ liệu các máy tính, được truy xuất bởi các chương trình phần mềm để tìm kiếm, hiển thị, phân tích các thông tin đó một cách tự động, và quan trọng nhất, là để giao tiếp được với con người, đặc biệt qua internet. Các chuỗi DNA của các loài sắp tuyệt chủng có thể được bảo quản, và tên cùng miêu tả của mỗi loài đang bị giam giữ được lưu lại để có thể cho phép truy xuất tối đa đến các thông tin cần cho việc bảo tồn đa dạng sinh học.

Một ví dụ của ứng dụng này là dự án Species 2000. Nó là một dự án nghiên cứu toàn cầu dựa vào internet để giúp cung cấp thông tin về mỗi chủng loài được biết đến của cây, động vật, nấm (fungus), và vi khuẩn (microbe) còn tồn tại để làm nền tảng cho việc nghiên cứu đa dạng sinh học toàn cầu. Bất cứ ai trên thế giới cũng có thể tìm thấy lượng lớn thông tin về bất kì chủng loài nào từ các cơ sở dữ liệu cung cấp.

Mức độ biểu hiện gene

Nhà sinh học phân tử có thể đánh giá mức độ biểu hiện của một gene bằng cách xác định lượng mRNA được tạo ra từ gene đó thông qua các kỹ thuật như microarray, EST (expressed sequence tag), SAGE (Serial Analysis of Gene Expression), MPSS (massively parallel signature sequencing), hay khối phổ (định lượng protein). Tất cả những kĩ thuật trên đều tạo ra những dữ liệu chứa thông tin nhiễu (noise-prone) làm việc tính toán, phân tích trở nên phức tạp. Yêu cầu thực tế đó đã cho ra đời một lĩnh vực mới trong sinh học tính toán là phát triển các công cụ thống kê để lọc tín hiệu xác đáng khỏi thông tin nhiễu trong những nghiên cứu biểu hiện gene đa lượng (high-throughput gene expression). Các nghiên cứu này thường dùng để xác định các gene liên quan đến một bệnh lý nhất định, người ta có thể so sánh dữ liệu microarray từ những tế bào bị ung thư với tế bào bình thường để xác định những protein nào được tăng cường hay giảm thiểu do ung thư.

Dữ liệu biểu hiện gene cũng được dùng để nghiên cứu điều hòa gen, người ta có thể so sánh dữ liệu microarray của một sinh vật ở những trạng thái sinh lý khác nhau từ đó kết luận về vài trò của từng gen tham gia vào mỗi trạng thái. Đối với sinh vật đơn bào, ta có thể so sánh các giai đoạn khác nhau của chu kỳ tế bào (cell cycle), hay phản ứng của cơ thể ở những điều kiện stress (stress sốc nhiệt, stress đói dinh dưỡng, .v.v.). Người ta cũng có thể áp dụng giải thuật phân nhóm (clustering algorithms) đối với những dữ liệu biểu hiện để xác định những nhóm gene đồng biểu hiện, hay đơn vị điều hòa (regulon). Những phân tích tiếp theo có thể triển khai theo nhiều hướng, ví dụ phân tích trình tự promoter của những nhóm gene để xác định nhân tố điều hòa chung hoặc sử dụng các công cụ máy tính để dự đoán những promoter liên quan đến cơ chế điều hòa từng nhóm gene (tham khảo [3]).

Nhận diện protein

Protein microarray và hệ thống khối phổ cao năng (high throughput mass spectrometry) có thể cung cấp hình ảnh (snapshot) tổng thể của các protein hiện có trong một mẫu sinh học (biological sample). Các ứng dụng tin sinh học có liên quan rất nhiều đến việc lý giải các dữ liệu thu được từ những hệ thống này. Đối với protein microarray, những nhà tin sinh học cần chuyển kiểm tra dữ liệu mRNA gắn trên array. Trong khi đó, những vấn đề tin sinh học liên quan đến việc so trùng (matching) dữ liệu khối phổ với cơ sở dữ liệu về trình tự protein.

Dự đoán cấu trúc protein

Dự đoán cấu trúc là một ứng dụng quan trọng nữa của tin sinh học. Có thể dễ dàng xác định trình tự axit amin hay còn gọi là cấu trúc bậc một của protein từ trình tự gene mã hóa cho nó. Nhưng, protein chỉ có chức năng vốn có khi nó cuộn gấp thành hình dạng chính xác (nếu điều này xảy ra ta có cấu trúc bậc hai, cấu trúc bậc ba và cấu trúc bậc bốn). Tuy nhiên, sẽ là vô cùng khó khăn nếu chỉ dự đoán các cấu trúc gấp nếp này từ trình tự axit amin. Một số phương pháp dự đoán cấu trúc bằng máy tính hiện đang phát triển.

Một trong các ý tưởng quan trọng trong nghiên cứu tin sinh học là quan điểm tương đồng. Trong một nhánh genomic của tin sinh học, tính tương đồng được sử dụng để dự đoán cấu trúc của gene: nếu biết trình tự và chức năng của gene A và trình tự này tương đồng với trình tự của gene B chưa biết chức năng thì có thể kết luận là A và B có cùng chức năng. Trong nhánh cấu trúc của tin sinh học, tính tương đồng được dùng để xác định những hợp phần quan trọng trong cấu trúc của protein cũng như tương tác của nó với các protein khác. Với kỹ thuật mô phỏng tính tương đồng (homology modelling), thông tin này được dùng để dự đoán cấu trúc của một protein khi đã biết cấu trúc của một protein khác tương đồng với nó. Hiện tại đây là cách dự đoán cấu trúc protein đáng tin cậy nhất.

Một ví dụ là hemoglobin ở người và hemoglobin của các cây họ đậu (leghemoglobin) khá tương đồng với nhau. Cả hai đều có vai trò vận chuyển ôxy. Mặc dù trình tự axit amin hoàn toàn khác nhau, cấu trúc của chúng trên thực tế lại đồng nhất cho thấy rằng chúng hầu như có cùng một chức năng.

Các kỹ thuật dự đoán cấu trúc protein khác là protein threading và de novo (from scratch) physics-based modeling.

0