Mảng và dánh sách
Mảng một chiều, mảng nhiều chiều Khái niệm Mảng là một tập hợp có thứ tự gồm một số cố định các phần tử. Không có phép bổ sung phần tử hoặc loại bỏ phần tử được thực hiện. Các phép toán ...
Mảng một chiều, mảng nhiều chiều
Khái niệm
Mảng là một tập hợp có thứ tự gồm một số cố định các phần tử. Không có phép bổ sung phần tử hoặc loại bỏ phần tử được thực hiện.
Các phép toán thao tác trên mảng bao gồm : phép tạo lập (create) mảng, phép tìm kiếm (retrieve) một phần tử của mảng, phép lưu trữ (store) một phần tử của mảng.
Các phần tử của mảng được đặc trưng bởi chỉ số (index) thể hiện thứ tự của các phần tử đó trong mảng.
Mảng bao gồm các loại:
+ Mảng một chiều: Mảng mà mỗi phần tử ai của nó ứng với một chỉ số i.
Ví dụ : Véc tơ a[i] trong đó 0 = 1 . . n cho biết véc tơ là mảng một chiều gồm có n phần tử.
Khai báo : kiểu phần tử A[0...n]
A: Tên biến mảng; Kiểu phần tử: Chỉ kiểu của các phần tử mảng (integer, real, . . .)
+ Mảng hai chiều: Là mảng mà mỗi phần tử aij của nó ứng với hai chỉ số i và j
Ví dụ : Ma trận A[i],[j] là mảng 2 chiều có i là chỉ số hàng của ma trận và j là chỉ số cột của ma trận.
i = 0 . . n; j = 0 . . m
n: Số hàng của ma trận; m : số cột của ma trận.
Khai báo : kiểu phần tử A[n][m];
+ Mảng n chiều : Tương tự như mảng 2 chiều.
Cấu trúc lưu trữ của mảng.
Cấu trúc dữ liệu đơn giản nhất dùng địa chỉ tính được để thực hiện lưu trữ và tìm kiếm phần tử, là mảng một chiều hay véc tơ.
Thông thường thì một số từ máy sẽ được dành ra để lưu trữ các phần tử của mảng. Cách lưu trữ này được gọi là cách lưu trữ kế tiếp (sequential storage allocation).
Trường hợp một mảng một chiều hay véc tơ có n phần tử của nó có thể lưu trữ được trong một từ máy thì cần phải dành cho nó n từ máy kế tiếp nhau. Do kích thước của véc tơ đã được xác định nên không gian nhớ dành ra cũng được ấn định trước.
Véc tơ A có n phần tử, nếu mỗi phần tử ai (0 ≤ i ≤ n) chiếm c từ máy thì nó sẽ được lưu trữ trong cn từ máy kế tiếp như hình vẽ:
L0 – Địa chỉ của phần tử a0
Địa chỉ của ai được tính bởi công thức:
Loc(ai) = L0 + c * i
trong đó :
L0 được gọi là địa chỉ gốc - đó là địa chỉ từ máy đầu tiên trong miền nhớ kế tiếp dành để lưu trữ véc tơ (gọi là véc tơ lưu trữ).
f(i) = c * i gọi là hàm địa chỉ (address function)
Đối với mảng nhiều chiều việc lưu trữ cũng tương tự như vậy nghĩa là vẫn sử dụng một véc tơ lưu trữ kế tiếp như trên.
a01 | a11 | . . . | aij | . . . | anm |
Giả sử mỗi phần tử trong ma trận n hàng m cột (mảng nhiều chiều) chiếm một từ máy thì địa chỉ của aij sẽ được tính bởi công thức tổng quát như sau:
Loc(aij) = L0 + j * n + i { theo thứ tự ưu tiên cột (column major order }
Cũng với ma trận n hàng, m cột cách lưu trữ theo thứ tự ưu tiên hàng (row major order) thì công thức tính địa chỉ sẽ là:
Loc(aij) = L0 + i * m + j
+ Trường hợp cận dưới của chỉ số không phải là 1, nghĩa là ứng với aij thì b1 ≤ i ≤ u1, b2 ≤ j ≤ u2 thì ta sẽ có công thức tính địa chỉ như sau:
Loc(aij) = L0 + (i - b1) * (u2 - b2 + 1) + (j - b2)
vì mỗi hàng có (u2 - b2 + 1) phần tử.
Ví dụ : Xét mảng ba chiều B có các phần tử bijk với 1 ≤ i ≤ 2;
1 ≤ j ≤ 3; 1 ≤ k ≤ 4; được lưu trữ theo thứ tự ưu tiên hàng thì các phần tử của nó sẽ được sắp đặt kế tiếp như sau:
b111, b112, b113, b114, b121, b122, b123, b124, b131, b132, b133, b134, b211, b212, b213, b214, b221, b222, b223, b224, b231, b232, b233, b234.
Công thức tính địa chỉ sẽ là :
Loc(aijk) = L0 + (i - 1) *12 + (j - 1) * 4 + (k - 1)
VD Loc(b223) = L0 + 22.
Xét trường hợp tổng quát với mảng A n chiều mà các phần tử là :
A[s1, s2, . . ., sn] trong đó bi ≤ si ≤ ui ( i = 1, 2, . . ., n), ứng với thứ tự ưu tiên hàng ta có:
đặc biệt pn = 1.
Chú ý :
- Khi mảng được lưu trữ kế tiếp thì việc truy nhập vào phần tử của mảng được thực hiện trực tiếp dựa vào địa chỉ tính được nên tốc độ nhanh và đồng đều đối với mọi phần tử.
- Mặc dầu có rất nhiều ứng dụng ở đó mảng có thể được sử dụng để thể hiện mối quan hệ về cấu trúc giữa các phần tử dữ liệu, nhưng không phải không có những trường hợp mà mảng cũng lộ rõ những nhược điểm của nó.
Ví dụ : Xét bài toán tính đa thức của x,y chẳng hạn cộng hai đa thức sau:
(3x2 - xy + y2 + 2y - x)
+ (x2 + 4xy - y2 +2x)
= (4x2 + 3xy + 2y + x)
Ta biết khi thực hiện cộng 2 đa thức ta phải phân biệt được từng số hạng, phân biệt được các biến, hệ số và số mũ.
Để biểu diễn được một đa thức với 2 biến x,y ta có thể dùng ma trận: hệ số của số hạng xiyj sẽ được lưu trữ ở phần tử có hàng i cột j của ma trận. Nếu ta hạn chế kích thước của ma trận là n × n thì số mũ cao nhất của x,y chỉ xử lý được với đa thức bậc n-1 thôi.
Với cách biểu diễn kiểu này thì việc thực hiện phép cộng hai đa thức chỉ là cộng ma trận mà thôi. Nhưng nó có một số hạn chế : số mũ của đa thức bị hạn chế bởi kích thước của ma trận do đó lớp các đa thức được xử lý bị giới hạn trong một phạm vi hẹp. Mặt khác ma trận biểu diễn có nhiều phần tử bằng 0, dẫn đến sự lãng phí bộ nhớ.
Cấu trúc lưu trữ mảng trên một số ngôn ngữ lập trình
Lưu trữ mảng trong ngôn ngữ lập trình C
Hay như để lưu trữ các từ khóa của ngôn ngữ lập trình C, ta cũng dùng đến một mảng để lưu trữ chúng.
Ví dụ 1: Viết chương trình cho phép nhập 2 ma trận a, b có m dòng n cột, thực hiện phép toán cộng hai ma trận a,b và in ma trận kết quả lên màn hình.
Trong ví dụ này, ta sẽ sử dụng hàm để làm ngắn gọn hơn chương trình của ta. Ta sẽ viết các hàm: nhập 1 ma trận từ bàn phím, hiển thị ma trận lên màn hình, cộng 2 ma trận.
#include<conio.h>
#include<stdio.h>
void Nhap(int a[][10],int M,int N)
{
int i,j;
for(i=0;i<M;i++)
for(j=0; j<N; j++){
printf("Phan tu o dong %d cot %d: ",i,j);
scanf("%d",&a[i][j]);
}
}
void InMaTran(int a[][10], int M, int N)
{
int i,j;
for(i=0;i<M;i++){
for(j=0; j< N; j++)
printf("%d ",a[i][j]);
printf(" ");
}
}
/* Cong 2 ma tran A & B ket qua la ma tran C*/
void CongMaTran(int a[][10],int b[][10],int M,int N,int c[][10]){
int i,j;
for(i=0;i<M;i++)
for(j=0; j<N; j++)
c[i][j]=a[i][j]+b[i][j];
}
int main()
{
int a[10][10], b[10][10], M, N;
int c[10][10];/* Ma tran tong*/
printf("So dong M= "); scanf("%d",&M);
printf("So cot M= "); scanf("%d",&N);
printf("Nhap ma tran A ");
Nhap(a,M,N);
printf("Nhap ma tran B ");
Nhap(b,M,N);
printf("Ma tran A: ");
InMaTran(a,M,N);
printf("Ma tran B: ");
InMaTran(b,M,N);
CongMaTran(a,b,M,N,c);
printf("Ma tran tong C: ");
InMaTran(c,M,N);
getch();
return 0;
}
Lưu trữ mảng trong ngôn ngữ lập trình C#
Array là một cấu trúc dữ liệu cấu tạo bởi một số biến được gọi là những phần tử mảng. Tất cả các phần tử này đều thuộc một kiểu dữ liệu. Bạn có thể truy xuất phần tử thông qua chỉ số (index). Chỉ số bắt đầu bằng zero.
Có nhiều loại mảng (array): mảng một chiều, mảng nhiều chiều.
Cú pháp :
type[ ] array-name;
thí dụ: int[] myIntegers; // mảng kiểu số nguyên string[] myString ; // mảng kiểu chuổi chữ Bạn khai báo mảng có chiều dài xác định với từ khoá new như sau: // Create a new array of 32 ints int[] myIntegers = new int[32]; integers[0] = 35;// phần tử đầu tiên có giá trị 35 integers[31] = 432;// phần tử 32 có giá trị 432 Bạn cũng có thể khai báo như sau:
int[] integers; integers = new int[32]; string[] myArray = {"first element", "second element", "third element"};
Làm việc với mảng (Working with Arrays)
Ta có thể tìm được chiều dài của mảng sau nhờ vào thuộc tính Length thí dụ sau : int arrayLength = integers.Length
Nếu các thành phần của mảng là kiểu định nghĩa trước (predefined types), ta có thể sắp xếp tăng dần vào phương thức gọi là static Array.Sort() method: Array.Sort(myArray);
Cuối cùng chúng ta có thể đảo ngược mảng đã có nhờ vào the static Reverse() method: Array.Reverse(myArray); string[] artists = {"Leonardo", "Monet", "Van Gogh", "Klee"}; Array.Sort(artists); Array.Reverse(artists); foreach (string name in artists) { Console.WriteLine(name); }
Mảng nhiều chiều (Multidimensional Arrays in C#)
Cú pháp :
type[,] array-name;
}
Khái niệm danh sách tuyến tính
Danh sách là một tập hợp có thứ tự nhưng bao gồm một số biến động các phần tử (x1, x2, . . ., xn)
nếu n = 0 ta có một danh sách rỗng.
Một danh sách mà quan hệ lân cận được hiển thị gọi là danh sách tuyến tính (linear list).
VD: Véc tơ chính là một trường hợp đặc biệt của danh sách tuyến tính xét tại một thời điểm nào đấy.
Danh sách tuyến tính là một danh sách hoặc rỗng (không có phần tử nào) hoặc có dạng (a1, a2, . . ., an) với ai (1 ≤ i ≤ n) là các dữ liệu nguyên tử. Trong danh sách tuyến tính luôn tồn tại một phần tử đầu a1, phần tử cuối an. Đối với mỗi phần tử ai bất kỳ với 1 ≤ i ≤ n - 1 thì có một phần tử ai+1 gọi là phần tử sau ai, và với 2 ≤ i ≤ n thì có một phần tử ai - 1 gọi là phần tử trước ai. ai được gọi là phần tử thứ i của danh sách tuyến tính, n được gọi là độ dài hoặc kích thước của danh sách.
Mỗi phần tử trong danh sách thường là một bản ghi ( gồm một hoặc nhiều trường (fields)) đó là phần thông tin nhỏ nhất có thể tham khảo. VD: Danh sách sinh viên trong một lớp là một danh sách tuyến tính mà mỗi phần tử ứng với một sinh viên, nó bao gồm các trường:
Mã SV (STT), Họ và tên, Ngày sinh, Quê quán, . . .
Các phép toán thao tác trên danh sách :
+ Phép bổ sung một phần tử vào trong danh sách (Insert) .
+ Phép loại bỏ một phần tử trong danh sách (Delete).
+ Phép ghép nối 2 hoặc nhiều danh sách.
+ Phép tách một danh sách thành nhiều danh sách.
+ Phép sao chép một danh sách.
+ Phép cập nhật (update) danh sách.
+ Phép sắp xếp các phần tử trong danh sách theo thứ tự ấn định.
+ Phép tìm kiếm một phần tử trong danh sách theo giá trị ấn định của một trường nào đó.
Trong đó phép bổ sung và phép loại bỏ là hai phép toán thường xuyên được sử dụng trong danh sách.
Tệp cũng là một trường hợp của danh sách nó có kích thước lớn và thường được lưu trữ ở bộ nhớ ngoài. Còn danh sách nói chung thường được xử lý ở bộ nhớ trong.
Bộ nhớ trong được hình dung như một dãy các từ máy(words) có thứ tự, mỗi từ máy ứng với một địa chỉ. Mỗi từ máy chứa từ 8 64 bits, việc tham khảo đến nội dung của nó thông qua địa chỉ.
+ Cách xác định địa chỉ của một phần tử trong danh sách: Có 2 cách xác định địa chỉ:
Cách 1: Dựa vào đặc tả của dữ liệu cần tìm . Địa chỉ này gọi là địa chỉ tính được (hay địa chỉ trực tiếp).
VD: Xác định địa chỉ của các phần tử trong véc tơ, ma trận thông qua các chỉ số.
Cách 2: Lưu trữ các địa chỉ cần thiết ở trong bộ nhớ, khi cần xác định sẽ lấy ở đó ra. Địa chỉ này được gọi là con trỏ (pointer) hay mối nối (link).
Lưu trữ kế tiếp của danh sách tuyến tính
Lưu trữ kế tiếp là phương pháp lưu trữ sử dụng mảng một chiều làm cấu trúc lưu trữ của danh sách tuyến tính nghĩa là có thể dùng một véc tơ lưu trữ Vi với 1 ≤ i ≤ n để lưu trữ một danh sách tuyến tính (a1, a2, . . ., an) trong đó phần tử ai được chứa ở Vi.
Ưu điểm : Tốc độ truy nhập nhanh, dễ thao tác trong việc bổ sung, loại bỏ và tìm kiếm phần tử trong danh sách.
Nhược điểm: Do số phần tử trong danh sách tuyến tính thường biến động (kích thước n thay đổi) dẫn đến hiện tượng lãng phí bộ nhớ. Mặt khác nếu dự trữ đủ rồi thị việc bổ sung hay loại bỏ một phần tử trong danh sách mà không phải là phần tử cuối sẽ đòi hỏi phải dồn hoặc dãn danh sách (nghĩa là phải dịch chuyển một số phần tử để lấy chỗ bổ sung hay tiến lên để lấp chỗ phần tử bị loại bỏ) sẽ tốn nhiều thời gian
Nhu cầu xây dựng cấu trúc dữ liệu động
Với các cấu trúc dữ liệu được xây dựng từ các kiểu cơ sở như: kiểu thực, kiểu nguyên, kiểu ký tự ... hoặc từ các cấu trúc đơn giản như mẩu tin, tập hợp, mảng ... lập trình viên có thể giải quyết hầu hết các bài toán đặt ra. Các đối tượng dữ liệu được xác định thuộc những kiểu dữ liệu này có đặc điểm chung là không thay đổi được kích thước, cấu trúc trong quá trình sống, do vậy thường cứng ngắt, gò bó khiến đôi khi khó diễn tả được thực tế vốn sinh động, phong phú. Các kiểu dữ liệu kể trên được gọi là các kiểu dữ liệu tĩnh.
Ví dụ :
1. Trong thực tế, một số đối tượng có thể được định nghĩa đệ qui, ví dụ để mô tả đối tượng "con người" cần thể hiện các thông tin tối thiểu như :
- Họ tên
- Số CMND
- Thông tin về cha, mẹ
Ðể biễu diễn một đối tượng có nhiều thành phần thông tin như trên có thể sử dụng kiểu bản ghi. Tuy nhiên, cần lưu ý cha, mẹ của một người cũng là các đối tượng kiểu NGƯỜI, do vậy về nguyên tắc cần phải có định nghĩa như sau:
typedef struct NGUOI{
char Hoten[30];
int So_CMND ;
NGUOI Cha,Me;
};
Nhưng với khai báo trên, các ngôn ngữ lập trình gặp khó khăn trong việc cài đặt không vượt qua được như xác định kích thước của đối tượng kiểu NGUOI.
2. Một số đối tượng dữ liệu trong chu kỳ sống của nó có thể thay đổi về cấu trúc, độ lớn, như danh sách các học viên trong một lớp học có thể tăng thêm, giảm đi ... Khi đó nếu cố tình dùng những cấu trúc dữ liệu tĩnh đã biết như mảng để biểu diễn những đối tượng đó lập trình viên phải sử dụng những thao tác phức tạp, kém tự nhiên khiến chương trình trở nên khó đọc, do đó khó bảo trì và nhất là khó có thể sử dụng bộ nhớ một cách có hiệu quả.
3. Một lý do nữa làm cho các kiểu dữ liệu tĩnh không thể đáp ứng được nhu cầu của thực tế là tổng kích thước vùng nhớ dành cho tất cả các biến tĩnh có giới hạn. Khi có nhu cầu dùng nhiều bộ nhớ hơn ta phải sử dụng các cấu trúc dữ liệu động.
4. Cuối cùng, do bản chất của các dữ liệu tĩnh, chúng sẽ chiếm vùng nhớ đã dành cho chúng suốt quá trình hoạt động của chương trình. Tuy nhiên, trong thực tế, có thể xảy ra trường hợp một dữ liệu nào đó chỉ tồn tại nhất thời hay không thường xuyên trong quá trình hoạt động của chương trình. Vì vậy việc dùng các CTDL tĩnh sẽ không cho phép sử dụng hiệu quả bộ nhớ.
Do vậy, nhằm đáp ứng nhu cầu thể hiện sát thực bản chất của dữ liệu cũng như xây dựng các thao tác hiệu quả trên dữ liệu, cần phải tìm cách tổ chức kết hợp dữ liệu với những hình thức mới linh động hơn, có thể thay đổi kích thước, cấu trúc trong suốt thời gian sống. Các hình thức tổ chức dữ liệu như vậy được gọi là cấu trúc dữ liệu động. Bài sau sẽ giới thiệu về các cấu trúc dữ liệu động và tập trung khảo sát cấu trúc đơn giản nhất thuộc loại này là danh sách liên kết.