Lý thuyết thông tin
được định nghĩa là khối lượng thông tin trong một thông báo như là số bít nhỏ nhất cần thiết để mã hoá tất cả những nghĩa có thể của thông báo đó. Trường ngay_thang trong một cơ sở dữ liệu chứa không quá 3 bít thông tin, bởi ...
được định nghĩa là khối lượng thông tin trong một thông báo như là số bít nhỏ nhất cần thiết để mã hoá tất cả những nghĩa có thể của thông báo đó.
Trường ngay_thang trong một cơ sở dữ liệu chứa không quá 3 bít thông tin, bởi vì thông tin tại đây có thể mã hoá với 3 bít.
000 = Sunday
001 = Monday
010 = Tuesday
011 = Wednesday
100 = Thursday
101 = Friday
110 = Saturday
111 is unused
Nếu thông tin này được biểu diễn bởi chuỗi ký tự ASCII tương ứng, nó sẽ chiếm nhiều không gian nhớ hơn, nhưng cũng không chứa nhiều thông tin hơn. Tương tự như trường gioi_tinh của một cơ sở dữ liệu chứa chỉ 1 bít thông tin, nó có thể lưu trữ như một trong hai xâu ký tự ASCII : Nam, Nữ.
Khối lượng thông tin trong một thông báo M là đo bởi Entropy của thông báo đó, ký hiệu bởi H(M). Entropy của thông báo gioi_tinh chỉ ra là 1 bít, ký hiệu H(gioi_tinh) = 1, Entropy của thông báo số ngày trong tuần là nhỏ hơn 3bits.
Trong trường hợp tổng quát, Entropycủa một thông báo là log2n, với n là số khả năng có thể.
Đối với một ngôn ngữ, tốc độ của ngôn ngữ là
r = H(M)/N
trong trường hợp này N là độ dài của thông báo. Tốc độ của tiếng Anh bình thường có một vài giá trị giữa 1.0 bits/chữ cái và 1.5 bits/chữ cái, áp dụng với giá trị N rất lớn.
Tốc độ tuyệt đối của ngôn ngữ là số bits lớn nhất, chúng có thể mã hoá trong mỗi ký tự. Nếu có L ký tự trong một ngôn ngữ, thì tốc độ tuyệt đối là :
R = log2L
Đây là số Entropy lớn nhất của mỗi ký tự đơn lẻ. Đối với tiếng Anh gồm 26 chữ cái, tốc độ tuyệt đối là log226 = 4.7bits/chữ cái. Sẽ không có điều gì là ngạc nhiên đối với tất cả mọi người rằng thực tế tốc độ của tiếng Anh nhỏ hơn nhiều so với tốc độ tuyệt đối.
Shannon định nghĩa rất rõ ràng, tỉ mỉ các mô hình toán học, điều đó có nghĩa là hệ thống mã hoá là an toàn. Mục đích của người phân tích là phát hiện ra khoá k, bản rõ p, hoặc cả haithứ đó. Hơn nữa họ có thể hài lòng với một vài thông tin có khả năng về bản rõ p nếu đó là âm thanh số, nếu nó là văn bản tiếng Đức, nếu nó là bảng tính dữ liệu, v. v . . .
Trong hầu hết các lần phân tích mã, người phân tích có một vài thông tin có khả năng vềbản rõp trước khi bắt đầu phân tích. Họ có thể biết ngôn ngữ đã được mã hoá. Ngôn ngữ này chắc chắn có sự dư thừa kết hợp với chính ngôn ngữ đó. Nếu nó là một thông báo gửi tới Bob, nó có thể bắt đầu với "Dear Bob". Chắc chắn là "Dear Bob " sẽ là một khả năng có thể hơn là chuỗi không mang ý nghĩa gì chẳng hạn "tm*h&rf". Mục đích của việc thám mã là sửa những tập hợp khả năng có thể có của bản mã với mỗi khả năng có thể của bản rõ.
Có một điều giống như hệ thống mã hoá, chúng đạt được sự bí mật tuyệt đối. Hệ thống mã hoá này trong đó bản mã không mang lại thông tin có thể để tìm lại bản rõ. Shannon phát triển lý thuyết cho rằng, hệ thống mã hoá chỉ an toàn tuyệt đối nếu nếu số khoá có thể ít nhất là nhiều bằng số thông báo có thể. Hiểu theo một nghĩa khác, khoá tối thiểu dài bằng thông báo của chính nó.
Ngoại trừ an toàn tuyệt đối, bản mã mang lại một vài thông tin đúng với bản rõ, điều này là không thể tránh được. Một thuật toán mật mã tốt giữ cho thông tin ở mức nhỏ nhất, một người thám mã tốt khai thác những thông tin này để phát hiện ra bản rõ.
Người phân tích mã sử dụng sự dư thừa tự nhiên của ngôn ngữ để làm giảm số khả năng có thể của bản rõ. Nhiều thông tin dư thừa của ngôn ngữ, sẽ dễ dàng hơn cho sự phân tích mật mã. Chính vì lý do này mà nhiều sự thực hiện mã hoá sử dụng chương trình nén bản rõ để giảm kích thước văn bản trước khi mã hoá chúng. Bởi vậy quá trình nén làm giảm sự dư thừa của thông báo.
Entropy của hệ thống mã hoá là đo kích thước của không gian khoá (keyspace).
H(K) = log2(number of keys )
Theo nhà khoa học Shannon, có hai kỹ thuật cơ bản để che dấu sự dư thừa thông tin trong thông báo gốc đó là : sự lộn xộn và sự rườm rà.
Kỹ thuật lộn xộn (Confusion) che dấu mối quan hệ giữa bản rõ và bản gốc. Kỹ thuật này làm thất bại sự cố gắng nghiên cứu bản mã tìm kiếm thông tin dư thừa và thống kê mẫu. Phương pháp dễ nhất để thực hiện điều này là thông qua kỹ thuật thay thế. Một hệ mã hoá thay thế đơn giản, chẳng hạn hệ mã dịch vòng Caesar, dựa trên nền tảng của sự thay thế các chữ cái, nghĩa là chữ cái này được thay thế bằng chữ cái khác. Sự tồn tại của một chữ cái trong bản mã, là do việc dịch chuyển đi k vị trí của chữ cái trong bản rõ.
Kỹ thuật rườm rà (Diffusion) làm mất đi sự dư thừa của bản rõ bằng bề rộng của nó vượt quá bản mã (nghĩa là bản mã kích thước nhỏ hơn bản rõ). Một người phân tích tìm kiếm sự dư thừa đó sẽ có một thời gian rất khó khăn để tìm ra chúng. Cách đơn giản nhất tạo ra sự rườm rà là thông qua việc đổi chỗ (hay còn gọi là hoán vị).