BỘ CÔNG THƯƠNG
TRƯỜNG ĐHCN TP.HỒ CHÍ MINH
KHOA SAU ĐẠI HỌC
ĐỒ ÁN
TÌM HIỂU MỘT SỐ
PHƯƠNG PHÁP DUYỆT
CÂY
GV híng dÉn : Đỗ Thị Hoµ
Sinh viªn thùc hiÖn : Ng« V¨n Anh
Líp : Đại học Tin Học 5 Liên Thông Thái Bình
Th¸i B×nh, th¸ng 11 n¨m 2010
MỤC LỤC
2
Lời mở đầu
Cùng với sự phát triển của khoa học kĩ thuật, công nghệ thông tin nói chung và bộ
môn cấu trúc dữ liệu và giải thuật nói riêng ngày càng được ứng dụng rộng trong nhiều
lĩnh vực. Với một cơ sở dữ liệu khổng lồ, việc đưa ra một phương pháp nhằm giải quyết
vấn đề tìm kiếm dữ liệu có hiệu quả và nhanh nhất luôn được sự quan tâm của các nhà phát
triển phần mềm. Thông thường dữ liệu được biểu diễn dưới dạng các danh sách liên kết.
Việc truy xuất dữ liệu chưa đạt hiệu quả cao. Sử dụng cấu trúc dữ liệu dạng cây là một giải
pháp nhằm tăng hiệu xuất trong các thao tác xử lý. Vấn đề đặt ra: Với việc sử dụng cấu
trúc dạng cây, chúng ta cần dùng giải thuật nào với từng dạng dữ liệu để đạt hiệu quả cao
nhất. Để giải quyết vấn đề trên ta cùng tìm hiểu một số phương pháp duyệt cây.
3
Phần I Tổng quan
I. Cấu trúc cây.
1. Định nghĩa:
Cây là một tập hợp T các phần tử (nút trên cây) trong đó có 1 nút đặc biệt T0 được
gọi là gốc, các nút còn khác được chia thành những tập rời nhau T1, T2 , ... , Tn theo quan
hệ phân cấp trong đó Ti cũng là một cây. Nút ở cấp i sẽ quản lý một số nút ở cấp i+1.
Quan hệ này người ta còn gọi là quan hệ cha-con.
Cây không có phần tử nào gọi là cây rỗng.
Ví dụ:
2. Một số khái niệm.
2.1. Bậc của một nút:
Bậc của một nút là số cây con của nút đó.
Ví dụ: nút T
2
trong cây trên có bậc bằng 2
2.2. Bậc của một cây:
Bậc của một cây là bậc lớn nhất của các nút trong cây. Cây có bậc n thì gọi là cây n-
phân
Ví dụ: Cây trên có bậc bằng 3(bằng bậc của nút gốc) và cây trên được gọi là cây 3-
phân
2.3. Nút gốc:
Nút gốc là nút không có nút cha
Ví dụ: nút gốc của cây trên là nút T
2
2.4. Nút lá:
Nút là là nút có bậc bằng 0. Nút lá không là cha của một nút khác.
Ví dụ: cây trên có các nút lá: T
5
, T
6
, T
11
, T
12
, T
13
,
T
14
,
T
15
,
T
16
, T
10
4
2.5. Nút trung gian:
Nút trung gian hay còn gọi là nút giữa là nút có bậc khác 0 và không phải là nút gốc.
Ví dụ: Cây trên có các nút trung gian : T
2
, T
3
, T
4
, T
7
, T
8
,
T
9
.
2.6. Nút cha, nút con
Nút B được gọ là nút cha của nút C nếu nút B là nút trước của nút C và mức của nút
C lớn hơn mức của nút B là 1. Khi đó nút C được gọi là nút con của nút B.
Ví dụ: Trong cây trên Nút T
3
là nút cha của các nút T
7
, T
8
, ngược lại các nút T
7
, T
8
là
nút con của nút T
3
.
2.7. Mức của một nút:
Mức Nút gốc (T
0
) =1
Gọi T
1
,
T
2
, T
3
, … , T
n
là các cây con của T
0
Mức (T
1
) = Mức (T
2
) = Mức (T
3
) = … = Mức (T
0
) +1
Ví dụ: Mức của các nút trong cây trên
Mức của các nút: T
5
, T
6
,
T
7
, T
8
, T
9
, T
10
bằng 3
Mức của các nút: T
11
, T
12
,
T
13
, T
14
, T
15
, T
16
bằng 4
2.8. Chiều cao của cây:
Chiều cao của một cây hay còn gọi là chiều sâu của cây là mức cao nhất của các nút
lá trong cây.
Ví dụ: Cây trên nút chiều cao là 4, bằng mức lớn nhất của các nút lá.
2.9. Nút trước và nút sau của một mức:
Nút T được gọi là nút trước của nút S nếu cây con có gốc là T chứa cây con có gốc
là S. Khi đó nút S được gọi là nút sau của nút T.
Ví dụ: nút T
3
là nút trước của các nút T
11
, T
12
, T
13
, T
14.
Ngược lại các nút T
11
, T
12
, T
13
,
T
14
là nút sau của nút T
3
.
2.10. Chiều dài đường đi.
Chiều dài đường đi của một nút là số nhánh cần đi qua tính từ nút gốc để đi đến nút
đó. Chiều dài đường đi của nút gốc luôn bằng 1, chiều dài đường đi tới một nút bằng chiều
dài đường đi tới nút cha cộng thêm 1.
Ví dụ: Chiều dài đường đi tới nút T
3
là 2.
Chiều dài đường đi của một cây là tổng tất cả các chiều dài đường đi của tất cả các
nút trên cây.
5
Ví dụ: Chiều dài các nút trong cây trên:
Nút gốc có chiều dài bằng 1.
Các nút: T
1
,
T
2
, T
3
bằng 2 -> tổng bằng 6.
Các nút: T
5
, T
6
,
T
7
, T
8
, T
9
, T
10
bằng 3 -> tổng bằng: 18
Các nút: T
11
, T
12
,
T
13
, T
14
, T
15
, T
16
bằng 4 -> tổng bằng 24
Tổng đường đi của cây trên là : 1 + 6 + 18 + 24 = 49.
2.11. Rừng:
Rừng là tập hợp các cây.
Một cây khác rỗng khi mất gốc sẽ trở thành một rừng.
3.Biểu diễn cây.
Có nhiều phương pháp biểu diễn cây. Cách thường dùng nhất là biểu diễn mỗi nút
như một dữ liệu kiểu bản ghi, mỗi nút chứa các con trỏ tới các con hoặc cha của nó, hoặc
cả hai. Cây cũng có thể biểu diễn bằng các mảng cùng với quan hệ giữa các vị trí trong
mảng.
3.1 Biểu diễn bằng các nút với các con trỏ
Mỗi nút là một dữ liệu kiểu bản ghi với ban trường: Một trường thường gọi là
INFOR chứa thông tin lưu trữ tại nút đó. Thông tin này có thể chỉ là một số, một ký tự,
cũng có thể là một tập hợp dữ liệu rất phức tạp. Hai trường Llink và Rlink chứa các liên
kết trái và phải. Nếu cây là cây nhị phân Llink trỏ tới con trái của nút, Rlink trỏ tới con
phải của nút. Nếu cây là cây tổng quá, Llink trỏ tới con cực trái và Rlink trỏ tới em kế cận
phải của nút đó. Do đó danh sách các nút biểu diễn một cây tổng quát, khi được xem là
biểu diễn của cây nhị phân sẽ cho một cây nhị phân. Cây nhị phân này được gọi là cây nhị
phân tương đương với cây tổng quát ban đầu.
3.2 Biểu diễn cây nhị phân bằng mảng
Cây nhị phân đầy đủ là cây nhị phân, trong đó mỗi nút trong chỉ có hai con. Cây nhị
phân hoàn chỉnh là cây nhị phân đầy đủ trong đó tất cả các lá đề ở mức cao nhất. Một cây
nhị phân hoàn chỉnh chiều cao h chỉ có 2h +1 – 1 nút.
Người ta có thể dùng một mảng gồm 2h +1 -1 phần tử để biểu diễn cây hoàn chỉnh,
bằng cách lần lượt lưu trữ thông tin của mỗi nút vào mảng theo thứ tự từ trên xuống dưới,
từ trái sang phải. Khi đó
Con trái của nút thứ i là phần tử thứ 2*i
6
Con phải là phần tử thứ 2*i +1
Cha của phần tử thứ i là phần tử thứ int(i/2).
Nếu cây là không hoàn chỉnh, ta gán giá trị Null cho các vị trí còn thiếu so với cây
nhị phân hoàn chỉnh.
Một cách khác, dùng mảng hai chiều trong dòng thứ nhất ghi các thông tin của nút,
dòng thứ hai ghi chỉ số của nút cha của nút đó với dấu (+)nếu nút hiện tại là con trai, với
dấu (–) nếu nút hiện tại là con phải cua nút cha.
II. Các dạng cây thường gặp
1. Cây nhị phân
1.1 Định nghĩa
Cây nhị phân là cây mà mỗi nút có tối đa 2 cây con Cây nhị phân có thể ứng dụng
trong nhiều bài toán thông dụng,
Ví dụ
1.2. Một số tính chất của cây nhị phân:
- Số nút ở mức I ≤ 2
I-1
.
- Số nút ở mức lá ≤ 2
h-1
, với h là chiều cao của cây.
- Chiều cao của cây h ≥ log
2
N
(N - số nút trên trong cây).
1.3. Biểu diễn cây nhị phân T
Cây nhị phân là một cấu trúc bao gồm các phần tử (nút) được kết nối với nhau theo quan
hệ “cha-con” với mỗi cha có tối đa 2 con. Để biểu diễn cây nhị phân ta chọn phương pháp
cấp phát liên kết. Ứng với một nút, ta dùng một biến động lưu trữ các thông tin:
7
+ Thông tin lưu trữ tại nút.
+ Địa chỉ nút gốc của cây con trái trong bộ nhớ.
+ Địa chỉ nút gốc của cây con phải trong bộ nhớ.
Khai báo như sau:
typedef struct tagTNODE
{
Data Key;//Data là kiểu dữ liệu ứng với thông tin lưu tại nút
struct tagNODE *pLeft, *pRight; 5
}TNODE;
typedef TNODE *TREE;
1.4. Các thao tác trên cây nhị phân
Thăm các nút trên cây theo thứ tự trước (Node-Left-Right)
Thăm các nút trên cây theo thứ tự giữa (Left- Node-Right)
Thăm các nút trên cây theo thứ tự sau (Left-Right-Node)
2. Cây nhị phân tìm kiếm
Cây nhị phân tìm kiếm là cây nhị phân trong đó tại mỗi nút, khóa của nút đang xét
lớn hơn khóa của tất cả các nút thuộc cây con trái và nhỏ hơn khóa của tất cả các nút thuộc
cây con phải.
Ví dụ:
Nhờ ràng buộc về khóa trên CNPTK, việc tìm kiếm trở nên có định hướng. Hơn
nữa, do cấu trúc cây việc tìm kiếm trở nên nhanh đáng kể. Chi phí tìm kiếm trung bình chỉ
khoảng log
2
N.
Trong thực tế, khi xét đến CNP chủ yếu người ta xét CNPTK
2.1 Các thao tác trên cây
2.1.1 Thăm các nút trên cây
2.1.2 Tìm một phần tử X trong cây
8
Dễ dàng thấy rằng số lần so sánh tối đa phải thực hiện để tìm phần tử X là bằng h,
với h là chiều cao của cây
Ví dụ: tìm phần tử 55
So sánh X=55 với gốc là 44 vì 55>44 nên sẽ tìm kiếm nhánh bên phải của cây
Tiếp theo lại so sánh X với gốc của cây con nhỏ 88 vì 55 <88 nên tìm ở nhánh trái của cây
có gốc 88
Tiếp tục so sánh với cây con gốc 59: 55<59 tìm nhánh bên trái -> kết quả
2.1.3 Thêm một phần tử X vào cây
Việc thêm một phần tử X vào cây phải bảo đảm điều kiện ràng buộc của CNPTK. Ta có thể
thêm vào nhiều vị trí khác nhanh trên cây, nhưng nếu thêm vào một nút là thì sẽ dễ nhất do
ta có thể thực hiện quá trình tương tực thao tác tìm kiếm. Khi chấm dứt quá trình tìm kiếm
ta sẽ tìm đượ vị trí cần thêm.
Hàm insert trả về giá trị –1, 0, 1 khi không đủ bộ nhớ, gặp nút cũ hay thành công:
int insertNode(TREE &T, Data X)
{
if(T)
{
if(T->Key == X) return 0; //đã có
if(T->Key > X)
return insertNode(T->pLeft, X);
else
return insertNode(T->pRight, X);
}
T = new TNode;
if(T == NULL) return -1; //thiếu bộ nhớ
T->Key = X;
T->pLeft =T->pRight = NULL;
return 1; //thêm vào thành công
}
2.1.4. Hủy một phần tử có khóa x
9
Việc hủy một phần tử X ra khỏi cây phải bảo đảm điều kiện ràng buộc của CNPTK.
Có 3 trường hợp khi hủy nút X có thể xảy ra:
X - nút lá. X - chỉ có 1 cây con (trái hoặc phải). X có đủ cả 2 cây con
Trường hợp thứ nhất: chỉ đơn giản hủy X vì nó không móc nối đến phần tử nào khác.
Trường hợp hai: Trước khi hủy X ta móc nối cha của X với con duy nhất của nó.
Trường hợp cuối cùng: ta không thể hủy trực tiếp do X có đủ 2 con => ta sẽ hủy gián tiếp.
Thay vì hủy X, ta sẽ tìm một phần tử thế mạng Y, Phần tử này có tối đa một con. Thông tin
lưu tại Y sẽ được chuyển lên lưu tại X. Sau đó, nút bị hủy thật sự sẽ là Y giống như 2
trường hợp đầu.
Vấn đề là phải chọn Y sao cho khi lưu Y vào vị trí của X, cây vẫn là CNPTK.
Sẽ có 2 phần tử thỏa mãn yêu cầu:
Phần tử nhỏ nhất (trái nhất ) trên cây con phải.
Phần tử lớn nhất(Phải nhất)trên cây con trái/
Việc chọn lựa phần tử nào là phần tử thế mạng hoàn toàn phụ thuộc vào ý thích của người
lập trình. Ở đây, chúng ta sẽ chọn phần tử(phải nhất) trên cây con trái làm phần tử thế
mạng.
10