24/05/2018, 16:48

Trình tự ADN

Để tương ứng với 4 loại nucleotide, người ta dùng 4 kí tự để phân biệt A, X (dùng ở Việt Nam, chữ C được dùng ở các tài liệu tiếng Anh), G, và T- tương ứng với tên của 4 gốc Adenin, Xitosin (Cytosine), Guanin, Timin được liên kết hóa trị với mạch chính ...

Để tương ứng với 4 loại nucleotide, người ta dùng 4 kí tự để phân biệt A, X (dùng ở Việt Nam, chữ C được dùng ở các tài liệu tiếng Anh), G, và T- tương ứng với tên của 4 gốc Adenin, Xitosin (Cytosine), Guanin, Timin được liên kết hóa trị với mạch chính phốtpho. Trong trường hợp chung, các chuỗi được ghi lên kế nhau không có khoảng trống (gap) chèn vào, ví dụ chuỗi AAAGTXTGAX, đi từ đầu 5' đến 3' tính từ trái sang phải. Nếu có khoảng trống, người ta dùng kí hiệu gạch ngang (-) để làm đại diện, ví dụ ATX-G--X. Bất cứ chuỗi kí tự nào của các nucleotide mà dài hơn 4 đều có thể gọi là trình tự ADN. Mặt khác, tùy vào chức năng sinh học, và ngữ cảnh, mà một trình tự có thể mang mang mã hoặc không mang mã (noncoding DNA). Các trình tự DNA cũng có thể chứ "ADN rác" (junk DNA).

Electropherogram printout from automated sequencer showing part of a DNA sequence

Việc xác định trình tự ADN là tâm điểm của dự án bản đồ gene người [1]. Các trình tự/chuỗi này có thể được trích rút ra từ dữ liệu thô trong sinh học thông qua quá trình gọi là Phương pháp sắp xếp chuỗi ADN (DNA sequencing).

Trong một số trường hợp, trong chuỗi có thể xuất hiện các kí tự khác A, T, X, và G. Chúng biểu diễn cho sự đại diện không rõ ràng, có nghĩa là tại vị trí đó, có thể có hơn 1 loại nucleotide. Đây là qui ước của Hiệp hội Hóa học thuần túy và Hóa học ứng dụng Quốc tế (IUPAC - International Union of Pure and Applied Chemistry):

A = adenine

C = cytosine

G = guanine

T = thymine

R = G A (purine)

Y = T C (pyrimidine)

K = G T (keto)

M = A C (amino)

S = G C (strong bonds)

W = A T (weak bonds)

B = G T C (all but A)

D = G A T (all but C)

H = A C T (all but G)

V = G C A (all but T)

N = A G C T (any)

0