Tải bản đầy đủ (.doc) (36 trang)

Cây 2-3-4 – Lý thuyết và mô phỏng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (332.38 KB, 36 trang )

Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
MỤC LỤC----------------------------------------------------------------------------------1
LỜI MỞ ĐẦU
I. LÝ DO CHỌN ĐỀ TÀI---------------------------------------------------2
II. MỤC ĐÍCH NGHIÊN CỨU ĐỀ TÀI-----------------------------------2
III. NHIỆM VỤ NGHIÊN CỨU ĐỀ TÀI-----------------------------------3
IV. ĐỐI TƯỢNG NGHIÊN CỨU--------------------------------------------3
V. PHƯƠNG PHÁP NGHIÊN CỨU----------------------------------------3
PHẦN NỘI DUNG-------------------------------------------------------------------------4
CHƯƠNG 1. LÝ THUYẾT CÂY 2-3-4---------------------------------------------4
I. Giới thiệu về cây 2-3-4.-----------------------------------------------------4
II. Tổ chức cây 2-3-4.----------------------------------------------------------6
III. Tìm kiếm.---------------------------------------------------------------------8
IV. Tách node.-------------------------------------------------------------------8
1. Tách node con.------------------------------------------------------------8
2. Tách node gốc.----------------------------------------------------------11
3. Tách theo hướng đi xuống.--------------------------------------------12
V. Chèn node.------------------------------------------------------------------14
VI. Tính hiệu quả của Cây 2-3-4---------------------------------------------15
VII. Chuyển từ cây 2-3-4 sang cây đỏ đen.----------------------------------16
CHƯƠNG 2. MÔ PHỎNG THUẬT TOÁN TRÊN CÂY 2-3-4--------------21
I. Tổng quan về mô phỏng thuật toán.-------------------------------------21
1. Khái niệm thuật toán và các đặc trưng của thuật toán.----------21
2. Khái niệm mô phỏng thuật toán.-------------------------------------21
II. Các yêu cầu mô phỏng thuật toán.--------------------------------------22
III. Quá trình thiết kế nhiệm vụ mô phỏng thuật toán.--------------------23
IV. Mô phỏng thuật toán trên Cây 2-3-4------------------------------------23
1. Giới thiệu ngôn ngữ mô phỏng.--------------------------------------23
2. Phân tích và thiết kế thuật toán mô phỏng.------------------------24
a. Phân tích.-----------------------------------------------------------24
b. Thiết kế.-------------------------------------------------------------24


TÀI LIỆU THAM KHẢO---------------------------------------------------------------36
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
1
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
LỜI MỞ ĐẦU
I. Lý do chọn đề tài
Trong hai thập kỉ qua, mô phỏng thuật toán đã được các nhà sư phạm của
ngành công nghệ thông tin sử dụng như một công cụ hỗ trợ cho việc giảng dạy các
thuật toán trên máy tính. Nguyên nhân của việc mô phỏng thuật toán được sử dụng
như một công cụ trợ giúp cho việc giảng dạy là do nó có thể cung cấp các mô phỏng
động bằng đồ họa của một thuật toán và các thay đổi trong cấu trúc dữ liệu của nó
trong suốt quá trình thực thi.
Như một phần của quá trình học thuật toán, việc mô phỏng các thuật toán
còn góp phần giúp các em học sinh, sinh viên khi mới bắt đầu làm quen với giải
thuật có thể vừa dễ dàng theo dõi các bước duyệt ở lý thuyết vừa nhìn thấy các bước
chạy ở thực tế như thế nào. Tư đó có thể giúp các em tư duy thuật toán nhanh hơn
và ngày càng yêu thích giải thuật.
Mô phỏng thuật toán ngày càng trở nên hữu ích và trở thành một giáo cụ trực
quan rất quan trọng trong hầu hết các lĩnh vực, nhất là trong môi trường giáo dục.
Với các nhà sư phạm của ngành công nghệ thông tin thì mô phỏng thuật toán có tác
dụng như một tài liệu hướng dẫn trong việc dạy các thuật toán bằng máy tính.
Cây 2-3-4 là một cây nhị phân tìm kiếm giải quyết tốt hơn các trường hợp
xấu nhất cho cây nhị phân tìm kiếm bình thường. Và đây còn là một nội dung khá
mới mẻ và phức tạp đối với nhiều học sinh, sinh viên. Vì vậy vấn đề “Cây 2-3-4 –
Lý thuyết và mô phỏng” được chọn làm đề tài nghiên cứu.
II. Mục đích nghiên cứu đề tài
Mục đích nghiên cứu của khóa luận này nhằm tìm hiểu và đánh giá các thuật
toán trên Cây 2-3-4, đồng thời xây dựng một phần mềm mô phỏng các thuật toán
này nhằm hỗ trợ cho việc học, nghiên cứu và tiến tới dạy các thuật toán trên Cây 2-
3-4.

Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
2
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
III .Nhiệm vu nghiên cứu đề tài.
Nghiên cứu tổng quan về mô phỏng thuật toán, các yêu cầu, phương pháp
tiếp cận, phương pháp thiết kế một mô đun mô phỏng thuật toán.
Thiết kế minh họa các mô đun minh họa các thuật toán trên Cây2-3-4.
IV. Đối tượng nghiên cứu.
Đề tài nghiên cứu đi sâu vào nghiên cứu và cài đặt một số thuật toán:
- Thuật toán tìm kiếm trên Cây 2-3-4
- Thuật toán chèn một node và chèn một giá trị vào Cây 2-3-4
- Thuật toán tách node trên Cây 2-3-4
- Thuật toán xóa node và xóa một giá trị trên Cây 2-3-4
V. Phưong pháp nghiên cứu.
Phương pháp nghiên cứu chủ yếu tham khảo các tài liệu tham khảo liên quan
đến Cây nhị phân tìm kiếm, Cây 2-3-4 thông qua các sách, tài liệu tham khảo và đặc
biệt là nguồn tài liệu phong phú trên mạng Internet.
PHẦN NỘI DUNG
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
3
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
Chương I. Lý thuyết về Cây 2-3-4
I. Giới thiệu về cây 2-3-4.
Như chúng ta đã biết, các thuật toán về cây nhị phân luôn rất tốt cho nhiều ứng
dụng, tuy nhiên chúng lại có những khuyết điểm trong trường hợp xấu nhất. Chẳng
hạn như trường hợp Quicksort, trường hợp xấu nhất của nó lại là trường hợp dễ
xuất hiện trong thực tế nếu người dùng không chú ý đến nó.
Các tập tin đã được xắp xếp thứ tự, các tập tin với thứ tự ngược, các tập các
khoá lớn, nhỏ xen lẫn nhau hay các tập tin với sự phân đoạn lớn có cấu trúc đơn
giản có thể làm thuật toán tìm trên cây hoạt động rất tồi.

Với thuật toán QuickSort, cái mà chúng ta cần để cái tiến tình huống là sắp xếp
lại để có trường hợp ngẫu nhiên: bằng cách chọn một phần tử phân hoạch ngẫu
nhiên, chúng ta có thể dựa vào quy luật xác xuất để tránh khỏi trường hợp xấu nhất.
Với tìm kiếm trên cây nhị phân thì may mắn hơn, bởi vì chúng ta có thể làm tốt hơn
nhiều; có một kỹ thuật tổng quát cho phép chúng ta bảo đảm trường hợp xấu nhất sẽ
không xuất hiện. Kỹ thuật này gọi là Cân bằng đã được dùng làm cơ sở cho nhiều
thuật toán khác nhau về “cây cân bằng”. Chúng ta sẽ xem xét kỹ một thuật toán
thuộc loại đó và cùng nhau thảo luận tóm tắt về sự liên quan của nó đối với các
phương pháp khác.
Để khử trường hợp xấu nhất của cây tìm kiếm nhị phân, chúng ta cần dùng
một vài linh động trong cấu trúc sẽ dùng. Để có sự linh động này, chúng ta giả sử
rằng các node trong cây của chúng ta có chứa nhiều hơn một khóa. Cụ thể hơn,
chúng ta sẽ thừa nhận các 3-node và 4-node mà có thể chứa tương ứng hai và ba
khóa. Một 3-node có ba liên kết ra khỏi nó, một liên kết cho tất cả các mẩu tin có
khóa nhỏ hơn cả hai khóa của nó, một cho tất cả các mẩu tin có khóa nằm giữa hai
khóa của nó, một cho tất cả các mẩu tin có khóa lớn hơn hai khóa của nó. Tương tự
với một 4-node có 4 liên kết đi ra khỏi nó.
Chúng ta sẽ xem xét các đặc tính của cây 2-3-4 và mối quan hệ khá gần gũi
giữa cây 2-3-4 và cây đỏ-đen.
Hình 4.1 Trình bày một cây 2-3-4 đơn giản. Mỗi node có thể lưu trữ 1, 2 hoặc
3 mục dữ liệu.
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
4
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
Hình 4.1 cây 2-3-4
Các số 2, 3 và 4 trong cụm từ cây 2-3-4 có ý nghĩa là khả năng có bao nhiêu
liên kết đến các node con có thể có được trong một node cho trước. Đối với các
node không phải là lá, có thể có 3 cách sắp xếp sau:
Một node với một mục dữ liệu thì luôn luôn có 2 con.
Một node với hai mục dữ liệu thì luôn luôn có 3 con.

Một node với ba mục dữ liệu thì luôn luôn có 4 con.
Như vậy, một node không phải là lá phải luôn luôn có số node con nhiều hơn 1
so với số mục dữ liệu của nó. Nói cách khác, đối với mọi node với số con là c và số
mục dữ liệu là d, thì : c = d + 1. Sau đây là các ví dụ cụ thể:
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
5
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
Hình 4.2. Các trường hợp của cây 2-3-4
Với mọi node lá thì không có node con nhưng có thể chứa 1, 2 hoặc 3 mục dữ
liệu, không có node rỗng.
Một cây 2-3-4 có thể có đến 4 cây con nên được gọi là cây nhiều nhánh bậc 4.
Trong cây 2-3-4 mỗi node có ít nhất là 2 liên kết ,trừ lnode lá (node không có
liên kết nào).
Hình 4.2 trình bày các trường hợp của cây 2-3-4. Một node với 2 liên kết gọi là
một 2-node, một node với 3 liên kết gọi là một 3-node, và một node với 4 liên kết
gọi là một 4-node, nhưng ở đây không có loại node nào là 1-node.
II. Tổ chức cây 2-3-4.
Các mục dữ liệu trong mỗi node được sắp xếp theo thứ tự tăng dần từ trái sang
phải (sắp xếp từ thấp đến cao).
Một đặc tính quan trọng của bất kỳ cấu trúc cây là mối liên hệ giữa các liên kết
với giá trị khóa của các mục dữ liệu. Trong cây tìm kiếm nhị phân, tất cả node của
cây con bên trái có khoá nhỏ hơn khóa của node đang xét và tất cả node của cây con
bên phải có khoá lớn hơn hoặc bằng khóa của node đang xét. Trong cây 2-3-4 thì
nguyên tắc cũng giống như trên, nhưng có thêm một số điểm sau:
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
6
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
Với node có một mục dữ liệu. Tất cả các node con của cây con có gốc tại
node con thứ 1 thì có các giá trị khoá nhỏ hơn giá trị khoá 1 của node cha. Tất cả
các node con của cây con có gốc tại node con thứ 2 thì có các giá trị khoá lớn hơn

giá trị khoá 1 của node cha.
Với node có hai mục dữ liệu. Tất cả các node con của cây con có gốc tại
node con thứ 1 thì có các giá trị khoá nhỏ hơn giá trị khoá 1 của node cha. Tất cả
các node con của cây con có gốc tại node con thứ 2 thì có các giá trị khoá lớn hơn
khoá 1 của node cha và nhỏ hơn giá trị khóa 2 của node cha. Tất cả các node con
của cây con có gốc tại node con thứ 3 thì có các giá trị khoá lớn hơn giá trị khoá 2
của node cha.
Với node có ba mục dữ liệu. Tất cả các node con của cây con có gốc tại node
con thứ 1 thì có các giá trị khoá nhỏ hơn giá trị khoá 1 của node cha. Tất cả các
node con của cây con có gốc tại node con thứ 2 thì có các giá trị khoá lớn hơn khoá
1 của node cha và nhỏ hơn giá trị khóa 2 của node cha. Tất cả các node con của cây
con có gốc tại node con thứ 3 thì có các giá trị khoá lớn hơn khoá 2 của node cha và
nhỏ hơn giá trị khóa 3 của node cha. Tất cả các node con của cây con có gốc tại
node con thứ 4 thì có các giá trị khoá lớn hơn giá trị khoá 3 của node cha.
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
7
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
Trong tất cả cây 2-3-4, các lá đều nằm trên cùng một mức. Các node ở mức
trên thường không đầy đủ, nghĩa là chúng có thể chứa chỉ 1 hoặc 2 mục dữ liệu thay
vì 3 mục.
Lưu ý rằng cây 2-3-4 là cây cân bằng. Nó vẫn giữ được sự cân bằng khi thêm
vào các phần tử có thứ tự (tăng dần hoặc giảm dần).
III. Tìm kiếm.
Thao tác tìm kiếm trong cây 2-3-4 tương tự như thủ tục tìm kiếm trong cây nhị
phân. việc tìm kiếm bắt đầu từ node gốc và chọn liên kết dẫn đến cây con với phạm
vi giá trị phù hợp.
Ví dụ, để tìm kiếm mục dữ liệu với khoá là 64 trên cây ở hình 4.1, bạn bắt đầu
từ gốc. Tại node gốc không tìm thấy mục khoá này. Bởi vì 64 lớn 50, chúng ta đi
đến node con 1, (60/70/80)(lưu ý node con 1 nằm bên phải, bởi vì việc đánh số của
các node con và các liên kết bắt đầu tại 0 từ bên trái). Tại vị trí này vẫn không tìm

thấy mục dữ liệu, vì thế phải đi đến node con tiếp theo. Tại đây bởi vì 64 lớn hơn 60
nhưng nhỏ hơn 70 nên đi tiếp đến node con 1. Tại thời điểm chúng ta tìm được mục
dữ liệu đã cho với liên kết là 62/64/66.
IV. Tách node
1. Tách node con
Việc thêm vào sẽ trở nên phức tạp hơn nếu gặp phải một node đầy (node có số
mục dữ liệu đầy đủ) trên nhánh dẫn đến điểm thêm vào. Khi điều này xảy ra, node
này cần thiết phải được tách ra. Quá trình tách nhằm giữ cho cây cân bằng. Loại cây
2-3-4 mà chúng ta đề cập ở đây thường được gọi là cây 2-3-4 top-down bởi vì các
node được tách ra theo hướng đi xuống điểm chèn.
Giả sử ta đặt tên các mục dữ liệu trên node bị phân chia là A, B và C. Sau đây
là tiến trình tách (chúng ta giả sử rằng node bị tách không phải là node gốc; chúng
ta sẽ kiểm tra việc tách node gốc sau này):
Một node mới và rỗng được tạo. Nó là anh em với node sẽ được tách và được
đưa vào bên phải của nó.
Mục dữ liệu C được chuyển vào node mới.
Mục dữ liệu B được chuyển vào node cha của node được tách.
Mục dữ liệu A không thay đổi.
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
8
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
Hai node con bên phải nhất bị hủy kết nối từ node được tách và kết nối đến
node mới.
⇒ Quá trình tách node con sẽ xảy ra các trường hợp sau đây:
 Node cha của node cần tách có một khóa.
1. Node cần tách là node con bên phải của node cha nó
Khi đó ta thêm một node mới có một mục dữ liệu, có giá trị khóa là
khóa thứ 3 của node đang tách. Chuyển giá trị khóa thứ 2 của node cần tách nên
node cha. Và gán lại quan hệ cha con của các node như hình dưới đây.


2. Node cần tách là node con bên trái của node cha nó.
Ta thêm một node mới có một mục dữ liệu, có giá trị khóa là khóa thứ
1 của node đang tách. Chuyển giá trị khóa thứ 2 của node cần tách nên node cha.
Và gán lại quan hệ cha con của các node như hình dưới đây.
 Node cha của node cần tách có hai khóa.
1.Node cần tách là node con bên phải (con thứ nhất) của node cha nó.
Khi đó ta thêm một node mới có một mục dữ liệu, có giá trị khóa là
khóa thứ 3 của node đang tách. Chuyển giá trị khóa thứ 2 của node đang tách
nên node cha. Và gán lại quan hệ cha con của các node như hình dưới đây.
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
9
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
2. Node cần tách là node con bên giữa (con thứ hai) của node cha nó.
Khi đó ta thêm một node mới có một mục dữ liệu, có giá trị khóa là khóa thứ
3 của node đang tách. Chuyển giá trị khóa thứ 2 của node đang tách nên node cha.
Và gán lại quan hệ cha con của các node như hình dưới đây.

3. Node cần tách là node con phải (con thứ ba) của node cha nó.
Khi đó ta thêm một node mới có một mục dữ liệu, có giá trị khóa là khóa thứ
3 của node đang tách. Chuyển giá trị khóa thứ 2 của node đang tách nên node cha.
Và gán lại quan hệ cha con của các node như hình dưới đây.
Một ví dụ về việc tách node trình bày trên hình 4.4. Một cách khác để mô tả sự
tách node là một 4-node được chuyển đổi sang hai 2-nút.
Chú ý rằng ảnh hưởng của sự tách node là dịch chuyển dữ liệu đi lên về bên
phải. Sự sắp xếp lại này nhằm mục đích giữ cho cây cân bằng.
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
10
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
Hình 4.4: Tách một nút
(i ) Trước khi chèn vào

(ii) Sau khi chèn vào
2. Tách node gốc
Khi gặp phải node gốc đầy tại thời điểm bắt đầu tìm kiếm điểm chèn, kết quả
của việc tách thực hiện như sau:
Node mới được tạo ra để trở thành gốc mới và là cha của node được tách.
Node mới thứ hai được tạo ra để trở thành anh em với node được tách.
Mục dữ liệu C được dịch chuyển sang node anh em mới.
Mục dữ liệu B được dịch chuyển sang node gốc mới.
Mục dữ liệu A vẫn không đổi.
Hai node con bên phải nhất của node được phân chia bị hủy kết nối khỏi nó
và kết nối đến node mới bên phải.

Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
11
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
Một ví dụ về việc tách node trình bày trên hình 4.5 cho ta thấy rõ hơn quá trình
tách node gốc.
Hình 4.5 Tách node gốc
i) Trước khi thêm vào
ii) Sau khi thêm vào
Hình 4.5 chỉ ra việc tách node gốc. Tiến trình này tạo ra một node gốc mới ở
mức cao hơn mức của node gốc cũ. Kết quả là chiều cao tổng thể của cây được tăng
lên 1.
Đi theo node được tách này, việc tìm kiếm điểm chèn tiếp tục đi xuống phía
dưới của cây. Trong hình 4.5 mục dữ liệu với khoá 41 được thêm vào lá phù hợp.
3. Tách theo hướng đi xuống
Chú ý rằng, bởi vì tất cả các node đầy được tách trên đường đi xuống nên việc
tách node không gây ảnh hưởng gì khi phải đi ngược lên trên của cây. Node cha của
bất cứ node nào bị tách phải đảm bảo rằng không phải là node đầy, để đảm bảo
node cha này có thể chấp nhận mục dữ liệu B mà không cần thiết nó phải tách ra.

Tất nhiên nếu node cha này đã có hai con thì khi node con bị tách, nó sẽ trở thành
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
12
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
node đầy. Tuy nhiên điều này chỉ có nghĩa là nó có thể sẽ bị tách ra khi lần tìm kiếm
kế tiếp gặp nó.
Hình 4.6 trình bày một loạt các thao tác chèn vào một cây rỗng. Có 4 node
được tách, 2 node gốc và 2 node lá.
Thêm vào 70, 30, 50
Thêm 40
Thêm vào 20, 80
Thêm vào 25, 90
Thêm vào 75
Thêm vào 10
Hình 4.6 Minh họa thêm một node vào cây 2-3-4
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
13
Cây 2-3-4 – Lý thuyết và mô phỏng Nghiên Cứu Khoa Học
V. Chèn node
Các mục dữ liệu mới luôn luôn được chèn vào tại các node lá . Nếu mục dữ
liệu được thêm vào node mà có node con, thì số lượng của các node con cần thiết
phải được chuyển đổi để duy trì cấu trúc cho cây, đây là lý do tại sao phải có số
node con nhiều hơn 1 so với các mục dữ liệu trong một nút.
Việc thêm vào cây 2-3-4 trong bất cứ trường hợp nào thì quá trình cũng bắt
đầu bằng cách tìm kiếm node lá phù hợp.
Nếu không có node đầy nào (node có đủ 3 mục dữ liệu) được bắt gặp trong
quá trình tìm kiếm, việc chèn vào khá là dễ dàng. Khi node lá phù hợp được tìm
thấy, mục dữ liệu mới đơn giản là thêm vào nó. Hình 4.3 trình bày một mục dữ liệu
với khoá 18 được thêm vào cây 2-3-4.
Việc chèn vào có thể dẫn đến phải di chuyển một hoặc hai mục dữ liệu trong

node vì thế các khoá sẽ nằm với trật tự đúng sau khi mục dữ liệu mới được thêm
vào. Trong ví dụ này số 23 phải được đẩy sang phải để nhường chỗ cho 18.
Hình 4.3 Chèn vào không làm tách cây
(i) trước khi chèn vào
(ii) sau khi chèn vào
Sinh viên: Đỗ Thị Thùy Dương – Lớp A_K54_CNTT
14

×