Mã nhị phân của các chữ số
Tin tức bao gồm các văn bản, số liệu, hình ảnh . . . . cần được mã hóa bằng tập hợp các số nhị phân trước khi được chuyển đổi thành các tín hiệu số để truyền đi Một yếu tố quan trọng trong hệ thống thông tin là độ chính xác, thiếu yếu tố này hệ thống ...
Tin tức bao gồm các văn bản, số liệu, hình ảnh . . . . cần được mã hóa bằng tập hợp các số nhị phân trước khi được chuyển đổi thành các tín hiệu số để truyền đi
Một yếu tố quan trọng trong hệ thống thông tin là độ chính xác, thiếu yếu tố này hệ thống xem như không có giá trị sử dụng, nên kèm theo bản tin thường phải thêm vào các từ mã có khả năng phát hiện lỗi và thậm chí sửa được lỗi.
Ngoài ra, nếu số lượng bit dùng để mã hóa cùng một đối tượng càng ít thì với cùng vận tốc truyền, lượng thông tin truyền của hệ thống càng lớn mà lại hạn chế được khả năng xảy ra lỗi. Do đó việc giảm số lượng bit dùng mã hóa cũng là một vấn đề cần được quan tâm.
Chương này bàn đến một số phương pháp mã hóa dữ liệu phổ biến để tạo các loại mã có khả năng phát hiện lỗi, phát hiện và sửa lỗi, các loại mã nén.
Để biểu diễn các chữ và số người ta dùng các mã nhị phân. Một số nhị phân n bit biểu thị được 2n ký tự (chữ, số, các dấu hiệu ....)
Các bộ mã phổ biến trong truyền dữ liệu là : mã Baudot, mã ASCII và mã EBCDIC
Mã Baudot
Là bộ mã nhị phân dùng 5 bit để biểu diển chữ số và một số dấu hiệu.
Bảng 3.1 Bộ mã Baudot
Mã | Chữ | Dấu/Số | Mã | Chữ | Dấu/Số |
11000100110111010010100001011001011001010110011010111100100100111001100001101101 | ABCDEFGHIJKLMNOP | -?:$3!'().,90 | 11101010101010000001111000111111001101111010110001111111101100100000100100000000 | QRSTUVWXYZLTRSFIGSSPCCRLFNULL | 14BELL57;2/6"LTRSFIGSSPCCRLFNULL |
Với n = 5 chỉ có 25 = 32 mã khác nhau, không đủ để biểu diển các ký tự chữ và số nên một số mã phải biểu thị cả hai và chúng được phân biệt bằng cách kèm theo ký tự FIGS hoặc LTRS ở trước.
Thí dụ: mã của đoạn văn NO. 27 có dạng như sau :
LTRS N O FIGS . SPC 2 7
11111 00110 00011 11011 00111 00100 11001 11100
Khi dùng mã Baudot để truyền bất đồng bộ, số bit stop luôn luôn là 1,5
Mã ASCII
Là bộ mã thông dụng nhất trong truyền dữ liệu. Mã ASCII dùng số nhị phân 7 bit nên có 27 = 128 mã, tương đối đủ để diễn tả các chữ, số và một số dấu hiệu thông dụng. Từ điều khiển dùng trong các giao thức truyền thông thường lấy trong bảng mã ASCII.
Khi truyền bất đồng bộ dùng mã ASCII số bit stop là 1 hoặc 2.
Bảng 3.2 trình bày mã ASCII cùng các từ điều khiển.
* Từ điều khiển trong văn bản:
BS (Back space): chỉ cơ chế in hay con trỏ được dời lui một vị trí. Nó có thể được dùng để in 2 ký tự ở một vị trí (thường dùng để gạch dưới) hay để in đậm một ký tự (in 1 ký tự 2 lần ở cùng vị trí). Trên màn hình (CRT) chữ sau sẽ thay cho chữ trước.
HT (Horizontal Tab): chỉ cơ chế in hay con trỏ được dời tới vị trí tab kế cận hay vị trí dừng.
LF (Line Feed): chỉ cơ chế in hay con trỏ được dời xuống đầu dòng kế.
VT (Vertical Tab): chỉ cơ chế in hay con trỏ được dời đến dòng kế của chuỗi dòng đã đánh dấu.
FF (Form Feed): chỉ cơ chế in hay con trỏ được dời đến điểm bắt đầu của trang (màn ảnh) sau
CR (Cariage Return): chỉ cơ chế in hay con trỏ được dời đến điểm bắt đầu trên cùng một dòng
Bảng Mã ASCII
Bit | 765→ | 000 | 001 | 010 | 011 | 100 | 101 | 110 | 111 |
Bit | 4321 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
0000000100100011010001010110011110001001101010111100110111101111 | 0123456789ABCDEF | NULLSOHSTXETXEOTENQACKBELBSHTLFVTFFCRSOSI | DLEDC1DC2DC3DC4NAKSYNETBCANEMSUBESCFSGSRSUS | SP!"#$%&`()*+,-./ | 0123456789:;<=>? | @ABCDEFGHIJKLMNO | PQRSTUVWXYZ[]^()_() | 'abcdefghijklmno | pqrstuvwxyz{|}~DEL |
Thí dụ: ký tự D là 1000100 = 44H Ý nghĩa các từ trong bảng mã ASCII
* Từ điều khiển trong truyền thông
SOH (Start of Heading): bắt đầu của phần đầu bản tin. Nó có thể chứa địa chỉ, chiều dài bản tin hay dữ liệu dùng cho kiểm tra lỗi.
STX (Start of Text): bắt đầu văn bản đồng thời kết thúc phần đầu. Thường đi đôi với ETX.
ETX (End of Text): kết thúc văn bản
EOT (End of Transmission): chấm dứt truyền
ENQ (Enquiry): yêu cầu một đài xa tự xác định (identify itself).
ACK (Acknowledge) : từ phát bởi máy thu để báo cho máy phát đã nhận bản tin đúng.
NAK (Negative Acknowledgment): từ phát bởi máy thu để báo nhận bản tin sai.
SYN (Synchronous/Idle): dùng bởi một hệ thống truyền đồng bộ để thực hiện đồng bộ. Khi không có dữ liệu để phát, máy phát của hệ thống đồng bộ phát liên tục các từ SYN
ETB (End of Transmission Block): chỉ sự chấm dứt một khối của bản tin.
* Information separator
FS (File Separator), GS (Group Separator), RS (Record Separator), US (United Separator): Dùng cho sự phân cách. Chữ đầu chỉ thành được phân cách (F: File, G: Group, R: Record (bảng ghi), U: Unit (đơn vị))
* Miscellaneous (Linh tinh)
NUL (Null): ký tự rổng, dùng lấp đầy khoảng trống khi không có dữ liệu
BEL (Bell): dùng khi cần báo sự lưu ý.
SO (Shift Out): chỉ các tổ hợp mã theo sau được thông dịch bởi ký tự ngoài tập hợp ký tự chuẩn cho tới khi gặp từ Shift In.
SI (Shift In): chỉ tập hợp mã theo sau được thông dịch bởi ký tự chuẩn.
DEL (Delete): dùng bỏ từ
SP (Space): khoảng cách từ
DLE (Data Link Escape): dùng để chỉ sự thay đổi nghĩa của các từ theo sau. Nó có thể cung cấp một sự điều khiển phụ, hay cho phép gửi ký tự dữ liệu có một tổ hợp bit bất kỳ.
DC1, DC2, DC3, DC4 (Device Control): từ dùng cho sự điều khiển thiết bị.
CAN (Cancel): chỉ dữ liệu đặt trước nó không có giá trị, do dò được lỗi.
EM (End of Medium): chỉ sự kết thúc về mặt vật lý của một card, băng hay môi trường khác.
SUB (Substitute): thay thế một từ bị lỗi hoặc không có giá trị
ESC (Escape) : từ tăng cường để cung cấp một mã mở rộng.
Mã EBCDIC (Extended BCD Information Code)
Là bộ mã 8 bit được dùng rộng rãi trong hệ thống thông tin dùng máy tính IBM.
Bảng 3.3 trình bày mã EBCDIC và các ký tự điều khiển. Vì mã ký tự chiếm 8 bit nên muốn dùng parity phải dùng bit thứ 9 (các thanh ghi trong các USART thường có 8 bit) do đó mã EBCDIC thường được dùng trong những chức năng đặc biệt như trong các ứng dụng đồ họa.
Bảng Mã EBCDIC
Các mã điều khiển không có trong ASCII là :
PF Punch Off CC Cursor Control
LC Lower Case IFS Interchange File Separator
UC Upper Case IGS Interchange Group Separator
RLF Reverse Line Feed IUS Interchange Unit Separator
SMM Start of Manual Message IRS Interchange Record Separator
RES Restore DS Digit Selector
NL New Line SOS Start of Significance
ID Idle BYP Bypass
SM Set Mode RS Reader Top
PN Punch On