Tải bản đầy đủ (.pdf) (85 trang)

Truy vấn văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.29 MB, 85 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ





LÊ THỊ KIỀU OANH







TRUY VẤN VĂN BẢN TRÊN CƠ SỞ NỘI DUNG
TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN








LUẬN VĂN THẠC SĨ















Hà Nội - 2006
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ





LÊ THỊ KIỀU OANH





TRUY VẤN VĂN BẢN TRÊN CƠ SỞ NỘI DUNG
TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN



Ngành : Công nghệ thông tin

Mã số : 1.01.10



LUẬN VĂN THẠC SĨ





NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS ĐẶNG VĂN ĐỨC






HÀ NỘI - 2006

MỤC LỤC
Các thuật ngữ và các từ viết tắt…………………………………………… 1
Danh sách các hình trong luận văn…………………………………………2
MỞ ĐẦU 3
Chương 1: Khái quát về cơ sở dữ liệu đa phương tiện
1. Khái quát về cơ sở dữ liệu đa phương tiện 5
2. Nhiệm vụ thiết kế và kiến trúc CSDL đa phương tiện 8
2.1. Khái quát về MIRS 9
2.2. Các kiến trúc tổ chức nội dung 10
2.2.1 Kiến trúc tự trị (atonomy) 12

2.2.2. Kiến trúc đồng nhất (uniformity) 13
2.2.3. Kiến trúc lai (hybrid) 14
3. Mô hình dữ liệu đa phương tiện 15
Chương 2: Một số kỹ thuật truy vấn văn bản trên cơ sở nội dung trong CSDL
đa phương tiện
1. Nén dữ liệu văn bản 17
1.1.Văn bản 17
1.1.1. Văn bản thuần túy 17
1.1.2. Văn bản có cấu trúc 17
1.2 Nén văn bản 18
1.2.1. Mã hóa Huffman 20
1.2.3. Mã hóa loạt dài (Run-Length Coding - RLE) 21
1.2.4. Mã hóa LZW 22
2. Lập chỉ mục văn bản 25
2.1 Thu thập và trích chọn tài liệu 26
2.2. Đánh chỉ mục 28
2.3 Trích chọn thông tin 29
2.4 Cấu trúc tệp đảo 31
3. Truy vấn thông tin văn bản trong CSDL 35
3.1 Tổng quan 35
3.2 Sự khác biệt giữa các hệ thống IR và DBMS 36
3.3 Chỉ mục tự động tài liệu văn bản và mô hình truy tìm Bool 38
3.31Conjunctive queries (Truy vấn liên kết ) 38
3.3.2Nonconjunctive queries (Truy vấn phi liên kết) 41
3.4 Mô hình truy tìm không gian véctơ 42
3.4.1 Mô hình truy tìm không gian véctơ cơ sở 42
3.4.2 Véc tơ tài liệu 43
3.4.3 Thuật toán tính Consin(Q,D
d
) cho mỗi tài liệu d 47

3.4.4 Kỹ thuật phản hồi phù hợp (Relevance Feedback Technique) 47
3.5 Mô hình truy tìm theo xác suất 49
3.6 Mô hình truy tìm trên cơ sở bó (cluster-based) 49
3.7 Các phương pháp IR phi truyền thống 51
4. Mô tơ tìm kiếm WWW 55
4.1 Khám phá tài nguyên 58
4.2 Khác biệt chính giữa hệ thống IR và môtơ tìm kiếm WWW 60
4.3 Cấu trúc tổng quát của motơ tìm kiếm WWW 63
4.4 Thí dụ motơ tìm kiếm 64
5. Khảo sát một số công cụ tìm kiếm hiện có 67
5.1.Công cụ dtsearch 67
5.1.1 Giới thiệu 67
5.1.2 Cấu trúc tìm kiếm và các chức năng của dtsearch. 70
5.2 Công cụ Lucene. 71
5.2.1 Tổng quan về Jakata Lucene 71
5.2.2.Thư viện Jakata Luncene 71
5.2.3. Sử dụng Lucene 72
5.2.4. Cơ chế hoạt động 72
5.2.5 Một vài nhận xét về Lucene 74
Chương 3: Xây dựng ứng dụng thử nghiệm để truy tìm văn bản
1.Bài toán 75
2.Các công cụ sử dụng 75
3.Các chức năng của Máy tìm kiếm 75
KẾT LUẬN 80
TÀI LIỆU THAM KHẢO 81

1

CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT



Từ viết tắt
Tiếng Anh
Tiếng Việt
DBMS
Database Management System
Hệ quản trị cơ sở dữ liệu
CSDL

Cơ sở dữ liệu
IR
Information Retrieval
Hệ thống tự động truy tìm
thông tin
MMDBMS
Multimedia Database Management
System
Hệ thống quản trị cơ sở
dữ liệu đa phương tiện
MIRS
Multimedia Indexing & Retrieval
System
Hệ thống chỉ mục và truy
tìm thông tin đa phương
tiện
MRI
Magnetic Resonance Imaging

WWW
World Wide Web

































2

DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN

Hình 1.1: Hoạt động của hệ thống MIRS 10
Hình 1.2: Kiến trúc cơ sở tổng thể 12
Hình 1.3: Kiến trúc autonomy 13
Hình 1.4: Kiến trúc uniformity 14
Hình 1.5: Kiến trúc hybrid 14
Hình 1.6 : Mô hình dữ liệu đa phương tiện tổng quát 15
Hình 2.1: Biểu diễn các kí tự lặp 22
Hình 2.2 Tiến trình truy vấn tài liệu cơ sở 37
Hình 2.3: Minh hoạ thuật toán 40
Hình 2.4: Skipped InvfList 41
Hình 2.5: Tập hợp các tài liệu 42
Hình 2.6: Đồ thị hiệu năng 53
Hình 2.7: Thí dụ tài liệu Hypertext 56
Hình 2.8: Kiến trúc WWW 57
Hình 2.9: Kiến trúc mức cao của Google 65
Hình 2.10: Cấu trúc tìm kiếm của Dtsearch 70














3

MỞ ĐẦU

Trong những năm gần đây bài toán về khai thác, xử lý và quản lý dữ liệu
ngày càng có ý nghĩa quan trọng trong lĩnh vực công nghệ thông tin. Với sự phát
triển không ngừng của công nghệ thông tin, ngày càng có nhiều kiểu dữ liệu ra
đời như dữ liệu hình ảnh, dữ liệu âm thanh, dữ liệu video, dữ liệu tài liệu, dữ liệu
viết tay. Cùng với nó là nhu cầu về quản lý, khai thác và xử lý nó được đặt ra.
Các kiểu dữ liệu trên đây chỉ là một phần trong rất nhiều hình thức biểu hiện
của dữ liệu phát sinh tự nhiên trong các ứng dụng khác nhau. Từ những dữ liệu
mới phát sinh trên, ta thấy rằng cơ sở dữ liệu truyền thống không thể quản lý các
kiểu dữ liệu này được. Do đó cần phải có một hệ thống quản lý tất cả các loại
dữ liệu media và CSDL đa phương tiện được hình thành đó là hệ thống quản trị
CSDL đa phương tiện (MMDBMS -Multimedia Database Management System).
Mặt khác trong các CSDL truyền thống, mối quan tâm hiệu suất chính là
tính hiệu quả (có thể trả lời kết quả trong bao lâu). Trong MMDBMS, hiệu quả
và hơn nữa, hiệu quả truy tìm (khả năng tìm ra các mục liên quan và khả năng
loại bỏ các mục không liên quan) cũng rất quan trọng.
Trong thời gian qua lĩnh vực MMDBMS phát triển vô cùng nhanh chóng.
Vào giữa những năm 90 của thế kỷ XX, xuất hiện các hệ thống MMDBMS
thương mại, được xây dựng từ đầu. Thí dụ: MediaDB (nay gọi là MediaWay),
JASMIN và ITASCA. Chúng có khả năng quản lý các loại dữ liệu khác nhau và
có cơ chế truy tìm, chèn, cập nhật dữ liệu. Một số trong chúng bị biến mất trên
thị trường sau vài năm thương mại. Một số trong chúng được nâng cấp theo tiến
bộ của công nghệ phần cứng, phần mềm và thay đổi ứng dụng. Thí dụ

MediaWay có khả năng hỗ trợ rất nhiều kiểu dữ liệu khác nhau từ ảnh, video đến
các tài liệu PowerPoint.
Sau đó là sự xuất hiện các hệ thống thương mại với khả năng quản lý nội
dung đa phương tiện nhờ có khả năng hỗ trợ kiểu dữ liệu phức hợp cho các kiểu
media khác nhau. Tiệm cận hướng đối tượng cho khả năng định nghĩa các kiểu

4
dữ liệu và các thao tác mới phù hợp với các kiểu media mới như video, ảnh và
audio. Do vậy các MMDBMS thương mại được sử dụng rộng rãi là trên cơ sở
DBMS quan hệ-mở rộng (ORDBMS). Informix bán trên thị trường ORDBMS từ
1996-1998. Các công việc tiếp theo là mở rộng dịch vụ tìm kiếm (chủ yếu theo
tiêu chí tương tự) video, audio và các công cụ trình diễn, duyệt.
Tiếp theo là các dự án đang thực hiện (hoặc vừa mới kết thúc). Các dự án
này chủ yếu tập trung vào các ứng dụng giàu nội dung ngữ nghĩa. Phần lớn
chúng được xây dựng trên các chuẩn MPEG mới (MPEG-7 và MPEG-21).
Như vậy MMDBMS cần có khả năng hỗ trợ các kiểu dữ liệu đa phương tiện,
hơn nữa phải có khả năng thực hiện các chức năng thông thường của DBMS
truyền thống như tạo lập CSDL, mô hình hóa dữ liệu, truy tìm, xâm nhập, tổ
chức dữ liệu và độc lập dữ liệu.
Trong khuôn khổ của luận văn này, một số vấn đề cơ bản của hệ quản trị cơ
sở dữ liệu đa phương tiện, cụ thể là CSDL văn bản được trình bày theo cấu trúc
như sau:
Chƣơng 1: Khái quát về CSDL đa phƣơng tiện
Trong chương này trình bày khái quát về mô hình dữ liệu đa phương tiện,
kiến trúc tổng quát của CSDL đa phương tiện.
Chƣơng 2: Một số kỹ thuật truy vấn văn bản trên cơ sở nội dung trong
CSDL đa phƣơng tiện
Chương này trình bày một số phương pháp nén dữ liệu văn bản, lập chỉ mục
văn bản, truy vấn thông tin trong CSDL và khảo sát một số công cụ tìm kiếm
hiện có.

Chƣơng 3: Xây dựng ứng dụng thử nghiệm để truy tìm văn bản
Tập trung nghiên cứu và cài đặt thử nghiệm một số phương pháp tìm kiếm
theo nội dung trong cơ sở dữ liệu đa phương tiện, cụ thể là dữ liệu văn bản.





5
Chƣơng 1: KHÁI QUÁT VỀ CƠ SỞ DỮ LIỆU
ĐA PHƢƠNG TIỆN

1. Khái quát về cơ sở dữ liệu đa phƣơng tiện[1]
Chúng ta đang sống trong kỷ nguyên mà công nghệ thông tin phát triển như
vũ bão và máy tính là thiết bị xử lý biểu tượng (symbolic) - các thiết bị có đầu
vào là các biểu tượng theo luật alphabet và đầu ra là tập các biểu tượng của cùng
dạng trên.
Tuy nhiên, trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về khả
năng khai thác và xử lý dữ liệu với số lượng khổng lồ mà nó là điều không dễ
dàng diễn tả chỉ với việc sử dụng các ký tự. Các kiểu dữ liệu đó là ảnh, video, tài
liệu, âm thanh (dữ liệu Media). Multimedia là tập hợp các kiểu media được sử
dụng với nhau (dữ liệu đa phương tiện). Hệ quản trị CSDL đa phương tiện
(Multimedia DataBase Management System-MMDBMS) là một hệ thống giúp
người dùng thao tác trên các dữ liệu media một cách thích hợp và hiệu quả. Các
thao tác cơ bản của hệ quản trị CSDL thường là chèn, cập nhật, xoá và tìm kiếm
một đối tượng trong CSDL. Như vậy ta có thể nói rằng CSDL đa phương tiện là
tập hợp các đối tượng phương tiện với các kiểu khác nhau. Sau đây là một số
kiểu dữ liệu được đề cập đến:
- Dữ liệu hình ảnh (Image data): Ví dụ một học viên phẫu thuật muốn thực
hành một ca phẫu thuật trên một bệnh nhân ảo có những triệu chứng sinh lý nào

đó. Trong thực tế để tìm ra bệnh nhân với những triệu chứng mong muốn, học
viên phẫu thuật phải truy vấn cơ sở dữ liệu (CSDL) ảnh phân tán và kích thước
lớn chứa ảnh X quang hay MRI (Magnetic Resonance Imaging) của các bệnh
nhân với các triệu chứng tương tự. Không phải trường hợp nào các triệu chứng
cũng dễ dàng được mô tả bằng các văn bản, trong một số trường hợp nó sẽ là dễ
dàng hơn cho học viên phẫu thuật nếu có thể trình diễn hình ảnh của loại mẫu
(pattern) mà anh ta đang tìm kiếm trong các ảnh X quang của bệnh nhân. Trong
cả hai trường hợp một CSDL hình ảnh phải tồn tại. Ta có thể truy vấn trên cơ sở
nhiều tiêu chí khác nhau. Vài chục năm gần đây việc sử dụng CSDL ảnh đã

6
mang lại hiệu quả to lớn trong các lĩnh vực khác nhau của cuộc sống như việc
lưu trữ ảnh hộ chiếu, ảnh chụp X quang và ảnh cắt lớp trong các bệnh viện, cơ
quan NASA lưu trữ các ảnh của trái đất
- Dữ liệu Video (Video data): Giả sử một ai đó mong muốn có những bài
giảng bằng băng hình về một chủ đề kỹ thuật nào đó. Như vậy đòi hỏi phải truy
vấn thư viện băng hình mà nó bao gồm tập hợp vô số các băng hình với nội dung
kỹ thuật.
- Dữ liệu âm thanh (Audio data): Tình huống tương tự như trên, các sinh viên
học từ xa muốn có các đoạn audio bài giảng của giáo viên. Hoặc các sinh viên
ngoại ngữ muốn có các đoạn audio các cuộc đàm thoại. Trong trường hợp này
cần phải tập hợp các đoạn audio theo một chủ đề nào đó cho thuận tiện.
- Dữ liệu tài liệu (Document data): Các đoạn văn bản, các từ, câu, đoạn văn,
chương là một CSDL văn bản truyền thống. Một CSDL tài liệu khác văn bản ở
chỗ nó không chỉ chứa các thông tin dạng văn bản thô mà còn chứa đựng cả cấu
trúc và hình ảnh nhúng. Ví dụ, dữ liệu tài liệu được tạo ra, chèn và phục hồi nhờ
sử dụng các ngôn ngữ đánh dấu chuẩn như HTML hay SGML. Trong các trường
hợp như vậy cấu trúc của tài liệu có thể được khai thác dựa trên mục lục dữ liệu.
Hoặc khi ta xem sách, trong sách không chỉ chứa dữ liệu văn bản mà còn chứa
cả hình ảnh (có thể là hình vẽ hay các bức ảnh). Giả sử người đọc muốn tìm một

bức ảnh nào đó nhưng không thể tìm trong CSDL ảnh. Tuy nhiên nếu có một
thư viện điện tử số để truy cập thì việc tìm thấy bức ảnh mong muốn là rất dễ
dàng. Như vậy, dữ liệu tài liệu bao gồm các phương tiện quan trọng mà trong đó
các thông tin có thể được lưu trữ dưới dạng điện tử.
Những năm trước đây khi nhiều dữ liệu dạng văn bản (text) được lưu trữ
dưới khuôn dạng máy tính có thể đọc. Từ đó dẫn tới phát triển các hệ thống quản
trị CSDL mà ngày nay được sử dụng trong hầu hết các tổ chức, cơ quan. Tuy
nhiên, các hệ quản trị CSDL này không thể quản lý dữ liệu đa phương tiện một
cách có hiệu quả bởi vì các tính chất dữ liệu văn bản và dữ liệu đa phương tiện
là khác nhau, và CSDL đa phương tiện với các dữ liệu ảnh, video, âm thanh
thường là rất lớn. Do vậy, việc nghiên cứu phát triển hệ thống quản trị CSDL có

7
khả năng quản lý dữ liệu đa phương tiện với các kỹ thuật truy tìm và chỉ mục
mới là rất cần thiết. MMDBMS là một khung làm việc để quản lý các kiểu dữ
liệu khác nhau mà chúng được thể hiện trong rất nhiều khuôn dạng khác nhau.
Để làm việc thành công thì một MMDBMS phải có các khả năng sau:
+Có khả năng truy vấn đồng bộ dữ liệu (dữ liệu media và dữ liệu văn bản)
được thể hiện trong các định dạng khác nhau. Thí dụ: một MMDBMS sẽ có khả
năng truy vấn và tích hợp dữ liệu mà nó được lưu trong các CSDL khác nhau (ví
dụ: PARADOX, DBASE…) mà có thể sử dụng các lược đồ khác nhau, cũng
như việc truy vấn tệp phẳng và dữ liệu lưu trữ trong DBMS hướng đối tượng
hay DBMS không gian. Việc xử lý các truy vấn như vậy là khá phức tạp vì trên
thực tế việc nhận biết được nội dung (content) của các kiểu media là vấn đề
thách thức và nó phụ thuộc rất nhiều vào kiểu dữ liệu và cách thức lưu trữ chúng.
Cuối cùng, truy vấn có thể mở rộng đối với nhiều kiểu vật mang (media) dữ liệu
và MMDBMS phải có khả năng kết hợp các kết quả từ các nguồn dữ liệu khác
nhau và các kiểu media khác nhau.
+ Có khả năng truy vấn dữ liệu biểu diễn trong media khác nhau. Ví dụ: một
MMDBMS phải có khả năng truy vấn không chỉ trong CSDL hình ảnh mà còn

cả trong CSDL âm thanh và CSDL quan hệ, sau đó kết hợp các kết quả với nhau.
+ MMDBMS phải có khả năng khai thác các đối tượng mang tin (media) từ
một thiết bị lưu trữ cục bộ một cách trơn tru, không có jitter (phải liên tục). Bởi
các đối tượng mang tin (video, âm thanh…) thường chiếm một không gian vô
cùng lớn. Thí dụ nó có thể chiếm đến 10 Gigatebytes bộ nhớ do vậy những dữ
liệu dạng này cần được lưu trữ trong các bộ nhớ ngoài (Disk, CD-ROM,
Floppy…) hay tổ hợp các thiết bị đó.
+ MMDBMS phải có khả năng tạo ra các câu trả lời từ truy vấn (khái niệm
“answer to a query” được coi như cấu trúc toán học) và có khả năng trình diễn
các câu trả lời này bằng các phương tiện nghe nhìn. Mặc dù vậy, hình thức và
nội dung của trình diễn có thể khác nhau từ ứng dụng này đến ứng dụng khác,
do đó người sử dụng phải xác định được cấu trúc của hình thức và nội dung của
các trình diễn kết quả thu được từ hệ thống.

8
+ Mỗi một hệ thống có đầy đủ các đặc tính yêu cầu trên là chưa đủ mà còn
cần phải có khả năng phân phối các trình diễn theo một cách nào đó nhằm thoả
mãn các yêu cầu khác nhau về chất lượng thể hiện của các thiết bị.Ví dụ: nếu
MMDBMS quyết định rằng một luồng dữ liệu âm thanh và một luồng dữ liệu
Video phải được thể hiện cùng một lúc, để làm được việc đó MMDBMS phải
đảm bảo được rằng sự thể hiện này không bị ảnh hưởng do hiện tượng như jitter
hay trục trặc nào đó. Điều quan trọng hơn là MMDBMS phải quan tâm đến việc
dữ liệu đang được phân phối cho các thiết bị ra liên quan (loa, bàn phím, màn
hình…) mà chúng có thể tập trung tại các nút mạng phân tán. Do đó, các nhân tố
như khả năng sẵn sàng của vùng đệm và độ rộng băng thông cần được lưu ý khi
phân phát trình diễn tới người sử dụng. Hơn nữa, đòi hỏi về chất lượng dịch vụ
cho biết rằng các tính chất hiệu năng khác nhau cần được tối ưu theo các rằng
buộc nói trên.
2. Nhiệm vụ thiết kế và kiến trúc CSDL đa phƣơng tiện[1, 2]
Chúng ta đang đứng trước sự bùng nổ thông tin đa phương tiện. Với việc lưu

trữ một số lượng lớn ảnh hàng ngày trong y tế, ảnh vệ tinh, các ảnh trên tivi,
báo thì việc thúc đẩy công nghệ số lưu trữ và trình diễn là rất cần thiết. Không
thể sử dụng nhanh và hiệu quả các thông tin đa phương tiện này nếu chúng
không được tổ chức tốt để truy tìm nhanh. Sau đây là các tính chất của chúng:
- Khối lượng khổng lồ (đặc biệt audio và video)
- Audio và Video có thêm chiều thời gian.
- Dữ liệu ảnh, audio và video được thể hiện bởi dãy các giá trị mẫu, không có
cấu trúc nhất định để máy tính tự động nhận biết.
- Rất nhiều ứng dụng đa phương tiện đòi hỏi trình diễn đồng thời các loại
media khác nhau.
- Ý nghĩa của dữ liệu đa phương tiện đôi khi rất mờ.
- Dữ liệu đa phương tiện rất giàu thông tin. Đòi hỏi nhiều tham số để biểu diễn
thông tin của chúng.
Các hệ thống tự động truy tìm thông tin (IR-Information Retrieval) đã được
phát triển để quản lý khối lượng lớn tài liệu cách đây và chục năm. Chức năng

9
chính của hệ thống là lưu trữ và quản trị khối lượng văn bản lớn theo cách sao
cho dễ dàng truy vấn tài liệu liên quan với người sử dụng. Kỹ thuật IR rất quan
trọng trong hệ thống quản trị thông tin đa phương tiện vì hai lý do chính: Thứ
nhất, khối lượng văn bản rất lớn đang có sẵn trong các cơ quan. Văn bản là
nguồn thông tin quan trọng của mọi tổ chức. Để sử dụng hiệu quả thông tin
trong các tài liệu này cần có hệ thống IR hiệu quả. Thứ hai, văn bản còn được sử
dụng để mô tả các loại media khác như audio, ảnh và video. Các kỹ thuật IR
quen thuộc có thể được sử dụng để truy tìm thông tin đa phương tiện. Tuy nhiên
việc sử dụng IR để quản lý dữ liệu đa phương tiện có các hạn chế sau:
- Mô tả thường là tiến trình thủ công và tốn kém thời gian.
- Mô tả bằng văn bản không đầy đủ và chủ quan.
- Kỹ thuật IR không áp dụng được cho truy vấn các loại dữ liệu khác văn bản.
- Một vài đặc trưng như kết cấu ảnh (image texture) và hình dạng ảnh rất khó

mô tả bằng văn bản.
Ngoài ra, đòi hỏi hệ thống truy tìm và chỉ số hoá đủ tốt để sử dụng dữ liệu
hiệu quả. Dữ liệu đa phương tiện có tính chất và yêu cầu đặc biệt, khác xa với
loại dữ liệu chữ và số. CSDL truyền thống không phù hợp với việc quản lý dữ
liệu đa phương tiện. Các kỹ thuật truy tìm thông tin có thể giúp truy tìm đa
phương tiện nhưng chúng chưa có khả năng quản lý hiệu quả dữ liệu đa phương
tiện.
Do đó một kỹ thuật mới dựa trên việc kết hợp các kỹ thuật quản trị cơ sở dữ
liệu DBMS, IR và truy vấn trên cơ sở nội dung để tạo thành Hệ thống chỉ mục
và truy tìm thông tin đa phương tiện (MIRS- Multimedia Indexing & Retrieval
System), một MIRS đầy đủ được gọi là Hệ quản trị CSDL đa phương tiện
(MMDBMS - Multimedia Database Management System).
2.1. Khái quát về MIRS
Hoạt động của hệ thống MIRS được mô tả trên hình 1.1. Dữ liệu trong
CSDL được tiền xử lý để trích chọn đặc trưng và nội dung ngữ nghĩa. Sau đó
chúng được chỉ số hóa (đánh chỉ mục) trên cơ sở đặc trưng và ngữ nghĩa. Trong
khi truy tìm thông tin, câu truy vấn của người sử dụng được xử lý và các đặc

10
trưng của nó được trích chọn. Các đặc trưng này sau đó được so sánh với các
đặc trưng hay chỉ mục dữ liệu trong CSDL. Các mục thông tin nào có đặc trưng
gần giống nhất với các đặc trưng của câu truy vấn thì được tìm ra và trình diễn
cho người sử dụng. Từ mô hình trên đặt ra các nhiệm vụ cần phải giải quyết:
 Dữ liệu có thể là tổ hợp bất kỳ các loại media.
 Trích chọn đặc trưng từ các mục media này như thế nào?
 Các đặc trưng được lưu trữ và cấu trúc như thế nào để truy tìm hiệu quả?
 Đo tính “tương tự” giữa hai mục media như thế nào?
 Thiết kế giao diện như thế nào để nó có thể chấp nhận các câu truy vấn
phức tạp, mờ và mềm dẻo?
Như vậy để giải quyết tốt các nhiệm vụ trên cần phải tổ chức nội dung của

các kiểu dữ liệu đa phương tiện như thế nào sao cho có hiệu quả.
2.2. Các kiến trúc tổ chức nội dung
Kiến trúc tổng quát của hệ thống
Kiến trúc MIRS cần mềm dẻo và dễ mở rộng để hỗ trợ các ứng dụng, truy
vấn và nội dung (đặc trưng) khác nhau. Để đạt yêu cầu này MIRS bao gồm
nhiều môđun chức năng và quản lý khác nhau. Bộ quản lý mới được dễ dàng bổ
Queries
Query
features
Information
Items
Indexed
information items
Similarity
computation
Retrieval of similar
items
Hình 1.1Hoạt động của hệ thống MIRS
Processing and feature
extraction
Preprocessing and indexing

11
sung để mở rộng chức năng của MIRS. Bộ quản lý hiện hành có thể được hủy bỏ
hay thay thế cái mới để cập nhật chức năng.
Cơ chế khác của MIRS là khả năng phân tán tự nhiên, nó bao gồm nhiều
server và client. Cơ chế này hình thành từ kích thước dữ liệu đa phương tiện rất
lớn và nhu cầu ứng dụng đồng thời của nhiều người như hệ thống thư viện số và
hệ thống video theo yêu cầu. Hình 1.2 chỉ ra kiến trúc cơ sở tổng thể của MIRS.
Các blốc chức năng chính bao gồm giao diện người sử dụng (UI -User Interface),

bộ trích chọn đặc trưng, quản lý truyền thông, chỉ số hóa và môtơ tìm kiếm,
quản lý lưu trữ. Các chức năng chính sẽ được mô tả thông qua các kịch bản vận
hành của MIRS. Hai thao tác chính của MIRS là:
Chèn mục đa phƣơng tiện mới: Người sử dụng đặc tả một hay một
nhóm mục dữ liệu đa phương tiện thông qua UI. Các mục được lưu trong tệp
hay nhập trực tiếp từ thiết bị ngoài như microphone, CD player, VCR hay video
camera. Người sử dụng cũng có thể tự vẽ hình làm dữ liệu đầu vào. Nội dung
của chúng được trích trọn tự động hay bán tự động bằng các công cụ của bộ
trích chọn đặc trưng. Các đặc trưng này và các mục gốc được gửi về máy chủ
thông qua bộ quản lý truyền tin. Tại máy chủ, các đặc trưng được tổ chức (chèn)
theo lược đồ chỉ số hóa nào đó để truy vấn hiệu quả thông qua mô tơ truy vấn và
chỉ số hóa. Các thông tin chỉ số và các mục gốc được lưu trữ phù hợp thông qua
bộ quản lý lưu trữ.
Truy vấn thông tin: Người sử dụng đưa ra hay đặc tả truy vấn thống qua
UI. Truy vấn có thể là tệp lưu trữ trên đĩa hay nhập từ thiết bị vào (bàn phím,
chuột). Có thể duyệt các mục trong CSDL để sử dụng nó làm mục truy vấn. Nếu
mục truy vấn không phải là cái đã có sẵn trong CSDL, các đặc trưng chính của
truy vấn được trích chọn theo cách như khi thực hiện chèn mục dữ liệu. Các đặc
trưng này được gửi đến máy chủ thông qua bộ quản lý truyền tin. Môtơ chỉ số
hóa và tìm kiếm tìm trong CSDL để có các mục dữ liệu phù hợp với các đặc
trưng truy vấn. Các mục này được truy vấn nhờ bộ quản lý lưu trữ và gửi đến UI
thông qua bộ quản lý truyền tin. UI hiển thị danh sách các mục dữ liệu tới người
sử dụng.

12

Hình 1.2 Kiến trúc cơ sở tổng thể
Có thể bổ sung các blốc chức năng hay bộ quản lý để đáp ứng yêu cầu từng
ứng dụng cụ thể. Chúng có thể là:
Bộ quản lý từ điển đồng nghĩa: Đảm bảo đồng bộ và các quan hệ khác giữa

các mục thông tin
Cơ sở luật toàn vẹn: Kiểm tra tính toàn vẹn của ứng dụng
Quản lý ngữ cảnh: Đảm bảo ngữ cảnh ứng dụng
Như chúng ta đã thấy dữ liệu đa phương tiện có rất nhiều loại từ văn bản,
hình ảnh, âm thanh đến những đoạn video có kích thước rất lớn. Do đó chúng ta
cần tổ chức thích hợp để khai thác một cách có hiệu quả. Hệ thống CSDL đa
phương tiện thường được tổ chức theo một trong ba kiến trúc sau:
2.2.1 Kiến trúc tự trị (atonomy)
Trong kiến trúc này mỗi loại dữ liệu được nhóm thành một nhóm và được
lưu trữ theo cách riêng của từng nhóm (hình 1.3). Với loại kiến trúc này sự
tương tác giữa các loại dữ liệu là công việc phức tạp và đòi hỏi nhiều công sức
lập trình. Tuy nhiên việc tạo ra cấu trúc riêng biệt cho mỗi loại dữ liệu đa
phương tiện sẽ có hiệu quả nhất về mặt thời gian cho việc xử lý các truy vấn.
Hơn nữa trong trường hợp cần sự kế thừa dữ liệu thì autonomy là kiến trúc thích
Giao diện người sử dụng
Quản lý truyền thông
Chỉ số hoá và môtơ tìm kiếm
Bộ trích chọn

Quản lý lưu trữ


13
hợp nhất. Autonomy cũng thích hợp cho các công nghệ hướng đối tượng với
việc xem xét mỗi nguồn dữ liệu đa phương tiện như một đối tượng với các
phương thức của nó có thể truy cập đến CSDL đa phương tiện tổng thể.


2.2.2. Kiến trúc đồng nhất (uniformity)
Với kiến trúc dạng này thay vì việc phân chia các loại dữ liệu thành các

nhóm riêng biệt chúng ta cố gắng tìm một cấu trúc trừu tượng để có thế sử dụng
làm chỉ mục chung cho toàn bộ các kiểu dữ liệu gọi là unified index (hình 1.4).
Chúng ta có thể thể hiện nội dung của tất cả các đối tượng dữ liệu khác nhau
(văn bản, hình ảnh, âm thanh, video…) trong cùng một cấu trúc dữ liệu và sau
đó xây dựng các giải thuật truy vấn trên cấu trúc dữ liệu đó. Kiến trúc này đòi
hỏi việc kiểm tra nội dung của mỗi kiểu dữ liệu và trừu tượng hóa các phần
chung sau đó xây dựng chỉ mục dựa trên các thành phần đã được nhận dạng. Với
kiến trúc này việc tương tác giữa các loại dữ liệu là rất thuận tiện vì chúng có
cùng cấu trúc dữ liệu. Tuy nhiên kiến trúc này đòi hỏi giai đoạn trừu tượng hóa
dữ liệu mất rất nhiều thời gian và có thể phải làm thủ công hoặc bán tự động bởi
nếu làm tự động có thể gây mất hoặc thiếu thông tin.
Multimedia Query Engine
Document Index
Image Index
Audio Index
Video Index
Hình 1.3. Kiến trúc autonomy
Query
User
Answer

14

2.2.3. Kiến trúc lai (hybrid)
Kiến trúc này là sự kết hợp của 2 kiến trúc trên (hình 1.5). Một số kiểu dữ
liệu sử dụng chỉ mục của riêng nó, một số khác sử dụng theo kiến trúc
uniformity tùy thuộc vào đặc điểm cũng như yêu cầu ứng dụng. Kiến trúc này
tận dụng được ưu điểm của cả hai loại kiến trúc trên và hạn chế những nhược
điểm của chúng.



Multimedia Query Engine
Unified Index
Hình 1.4. Kiến trúc uniformity
Query
User
Answer
Document
Image
Audio
Video
Multimedia Query Engine
Unified Index
Hình 1.5. Kiến trúc hybrid
Query
User
Answer
Document
Image
Audio
Video
Media Index

15
3. Mô hình dữ liệu đa phƣơng tiện[1, 2, 6]
Mô hình dữ liệu trong cơ sở dữ liệu đa phương tiện là cung cấp khung làm
việc (hay ngôn ngữ) để biểu diễn thuộc tính các mục dữ liệu mà nó sẽ được lưu
trữ và truy vấn nhờ hệ thống. Khung làm việc phải cho phép người sử dụng và
người thiết kế định nghĩa, chèn, huỷ, sửa đổi và tìm kiếm mục dữ liệu và thuộc
tính. Mô hình dữ liệu đa phương tiện thu thập thuộc tính tĩnh và thuộc tính động

của các mục dữ liệu, cung cấp cơ sở hình thức để phát triển các công cụ phù hợp,
cần thiết khi sử dụng dữ liệu đa phương tiện. Đặc tính tĩnh bao gồm các đối
tượng hình thành nên dữ liệu đa phương tiện, quan hệ giữa các đối tượng và các
thuộc tính đối tượng. Các thuộc tính động bao gồm các đặc tính liên quan đến
tương tác giữa các đối tượng, các thao tác giữa các đối tượng, các thao tác trên
các đối tượng, tương tác với người sử dụng… Các kiểu dữ liệu đa phương tiện
cơ bản được hỗ trợ để cung cấp nền tảng hình thành các đặc trưng bổ sung.
Không gian các đặc trưng đa chiều là đặc tính của chỉ số hoá đa phương tiện. Mô
hình dữ liệu cần hỗ trợ trình diễn không gian đa chiều này, đặc biệt thước đo
khoảng cách trong nó.Mô hình dữ liệu MIRS hình thành trên nền tảng nguyên
tắc hướng đối tượng và phân cấp đa tầng.













Hình1.6 : Mô hình dữ liệu đa phương tiện tổng quát
Tầng
kiểu
Media
Tầng
khuôn

mẫu
Media
Tầng
đối
tượng
Không gian
Tổng hợp
Thời gian
Văn bản
Ảnh
Âm thanh
Video
Thô
ZIP
Nén
TXT
ZAR
DOC


16
Tầng đối tƣợng
Đối tượng bao gồm một hay nhiều mục media với các quan hệ không gian và
thời gian xác định. Thí dụ một đối tượng đa phương tiện là một trang slide bao
gồm vài ảnh và audio kèm theo.
Nhiệm vụ mấu chốt là bằng cách nào để chỉ ra các quan hệ không gian và
thời gian. Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển
thị của mỗi mục. Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở trục
thời gian trong đó thời gian bắt đầu và độ dài mỗi mục được xác định trên cơ sở
đồng hồ chung. Phương pháp khác là mô hình điều khiển theo sự kiện.

Tầng loại media
Tầng này bao gồm các loại media chung như văn bản, đồ họa, ảnh, audio và
video. Các loại này được suy diễn từ lớp media trừu tượng chung. Tại mức này,
các đặc trưng và thuộc tính được đặc tả. Thí dụ loại media ảnh: kích thước, biểu
đồ màu, các đối tượng chính nó chứa được đặc tả. Các đặc trưng này được sử
dụng trực tiếp vào tìm kiếm và tính toán khoảng cách.
Tầng khuôn mẫu media
Tầng khuôn mẫu có nhiệm vụ đặc tả khuôn mẫu mà ở đó dữ liệu được lưu trữ.
Loại media thông thường có nhiều khuôn mẫu có thể, thí dụ ảnh có thể là ảnh
nén hay ảnh thô. Hơn nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau. Thông
tin chứa trong tầng này được sử dụng để giải mã, phân tích và trình diễn.
Với các ứng dụng khác nhau có thể cần các mô hình dữ liệu khác nhau. Tuy
nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu được thiết kế tốt
thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng yêu cầu ứng dụng
cụ thể.
Cơ sở dữ liệu đa phương tiện liên quan đến nhiều lĩnh vực khác nhau và khá
phức tạp. Phần tiếp theo của luận văn là tập trung nghiên cứu để xây dựng
CSDL văn bản trong CSDL đa phương tiện.



17
Chương 2: MỘT SỐ KỸ THUẬT TRUY VẤN VĂN BẢN TRÊN CƠ
SỞ NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN

Một vài thập kỷ gần đây có sự bùng nổ về lượng dữ liệu số truyền qua mạng
Internet gồm dữ liêụ văn bản, hình ảnh, âm thanh, các chương trình máy
tính,…Cùng với việc nâng cấp đường truyền và mở rộng không gian lưu trữ thì
nghiên cứu một thuật toán nén dữ liệu để sử dụng một cách có hiệu quả nhất
đường truyền hiện tại cũng là một yêu cầu cấp thiết. Và cùng với nó thì việc truy

tìm tài liệu sẽ nhanh chóng hơn nếu chúng được đánh chỉ mục.
1. Nén dữ liệu văn bản[2, 6]
1.1.Văn bản
1.1.1. Văn bản thuần túy
Đây là khuôn mẫu cơ sở nhất, văn bản thuần túy chỉ bao gồm các ký tự chữ
và số, hầu hết biểu diễn bằng mã ASCII (American Standard Code for
Information Interchange). Sử dụng ASCII 7 bit và ASCII 8 bit nếu sử dụng thêm
1 bít parity và cho văn bản không phải tiếng Anh.
Ký tự được biểu diễn duy nhất, các mục (item) trong văn bản có thể là ký tự
hay từ, dễ nhận biết. Không gian lưu trữ trung bình.
Khó khăn khi truy tìm tài liệu text là các tài liệu text không có thuộc tính cố
định như bản ghi trong CSDL truyền thống. Các từ (word) hay các thuật ngữ
(term) có nhiều nghĩa.
1.1.2. Văn bản có cấu trúc
Phần lớn tài liệu văn bản là có cấu trúc, bao gồm tiêu đề, chương, mục,
đoạn… Mỗi phần khác nhau của văn bản có cấu trúc được in hay hiển thị khác
nhau. Tồn tại nhiều chuẩn và khuôn mẫu mã hóa thông tin cấu trúc này. Thí dụ,
khuôn mẫu hay được sử dụng trong các chương trình xử lý văn bản là SGML
(Standard General Markup Language), ODA (Office Document Architecture),
LaText và PDF (Portable Document Format).
Thông thường, file header được sử dụng để chỉ ra khuôn mẫu tài liệu. Khi
đã biết khuôn mẫu tệp, có thể trích trọn thông tin cấu trúc để truy tìm văn bản.

18
Thí dụ, các từ hay thuật ngữ xuất hiện trong tiêu đề hay tên chương mục sẽ quan
trọng hơn từ trong text. Do vậy, nó có trọng lượng lớn hơn trong tiến trình chỉ
mục và truy tìm. Các tài liệu liên quan còn có thể xác định trên cơ sở quan hệ
của nó (thông qua liên kết) với các tài liệu khác nếu tài liệu này là một phần của
tập hợp hypertext.
1.2 Nén văn bản

Nén dữ liệu là công việc lấy các “ký tự” từ một “văn bản” đầu vào, xử lý
chúng, và ghi lại “bản mã” vào file nén. Một điều quan trọng là sau khi giải nén
ta vẫn được một bản sao giống hệt với văn bản nguồn, và file nén phải có kích
cỡ nhỏ hơn so với văn bản nguồn.
Vấn đề về diễn tả thông tin một cách hiệu quả không phải là mới. Con nguời
vẫn luôn quan tâm tới việc lưu trữ, truyền tải thông tin, và các phương pháp nén
văn bản để tăng hiệu suất xử lý thông tin. Ví dụ: mã Braille cho người mù gồm
các cấu trúc diễn tả những từ thông thường bởi 2 hoặc 3 ký tự.
Các phương pháp nén văn bản được thiết kế chủ yếu để giảm bớt lượng không
gian sử dụng mà không tốn quá nhiều thời gian chạy hay nói cách khác nó tốn ít
bộ nhớ để lưu trữ và tốn ít thời gian để truyền, tuy nhiên file văn bản gốc (file
nguồn) có thể khôi phục lại chính xác từ văn bản nén. Thông thường hầu hết các
tập tin máy tính có rất nhiều thông tin dư thừa. Các phương pháp nén sẽ làm tiết
kiệm chỗ bằng cách khai thác một sự kiện là hầu hết các tập tin có một “nội
dung thông tin” tương đối thấp. Các kỹ thuật nén tập tin thường được dùng cho
các tập tin văn bản. Kỹ thuật nén văn bản phân biệt với phương pháp nén dữ liệu
thông thường bởi vì tệp nguồn luôn được phục hồi hoàn toàn trạng thái ban đầu.
Đối với một số kiểu dữ liệu khác với văn bản, như âm thanh, ảnh sự thay đổi
nhỏ, hoặc nhiễu có thể bị bỏ qua do quá trình biến đổi giữa tín hiệu tượng tự
sang tín hiệu số và ngược lại.
Một số phương pháp nén văn bản đã được phát minh và điều chỉnh từ nhiều
năm trước đây. Sự sắp xếp từ một số lớn các kỹ thuật đòi hỏi tìm ra phương
pháp cơ bản mà có thể đưa ra cách nén tốt. Một trong những phương pháp được
biết đến sớm nhất và tốt nhất của nén văn bản cho việc lưu trữ trên máy tính và

19
truyền thông là mã hoá Huffman. Các ký hiệu phổ biến được mã hoá với một
vài bit, trong khi các ký hiệu hiếm khi xuất hiện thì tương ứng với mã có số
lượng bit dài hơn. Xuất hiện đầu những năm 1950, mã hoá Huffman được coi là
một trong những phương pháp nén hiệu quả nhất trong vài thập kỷ, cho tới

những năm 1970 khi phương pháp nén Ziv-Lempel và mã hoá Airthmetic ra đời
với tốc độ nén và giải nén nhanh hơn. Cả hai phương pháp này đều đạt được sức
mạnh dựa vào việc ứng dụng một kiểu mã hoá động (dynamic coding).
Hầu hết các phương pháp nén sử dụng ngày nay được phân thành hai trường
phái: các lược đồ cơ sở từ điển và các phương pháp tĩnh. Trong thế giới các hệ
thống nhỏ thì kỹ thuật nén theo cơ sở từ điển dường như phổ biến hơn. Tuy
nhiên, nếu kết hợp mã hoá Airthmetic với các giải pháp tĩnh cho việc nén dữ liệu
thì ta có thể đạt được một tốc độ thực thi cực kỳ nhanh.
Giải pháp từ điển:
Hệ thống nén dựa trên cơ sở từ điển được thực thi bằng cách thay thế các
nhóm ký tự trong văn bản nguồn với các bản mã có kích cỡ cố định. Một ví dụ
điển hình của kỹ thuật nén từ điển là LZW. LZW thực thi bằmg cách thay thế
các xâu với độ dài không hạn chế bởi các bản mã kích cỡ từ 9 tới 16 bit.
Giải pháp tĩnh:
Các giải pháp tĩnh của nén dữ liệu có hướng tiếp cận khác. Chúng thực thi
bằng cách mã hoá các ký tự một lần tại mỗi thời điểm. Các ký tự được mã hoá
thành các bản mã với độ dài thay đổi. Độ dài của bản mã hoá tuỳ thuộc vào tần
số xuất hiện của ký tự. Các ký tự với tần số xuất hiện nhỏ được mã hoá với độ
dài lớn hơn, các ký tự với khả năng xuất hiện cao được mã hoá với số lượng bit
ít hơn.
Thông thường sự phân cách giữa hai phương pháp tĩnh và từ điển là không
rõ ràng. Một số lược đồ không thể được phân vào bên này hoặc bên kia và luôn
có sự lai ghép của cả hai kỹ thuật.
Sau đây là mô tả vắn tắt nguyên tắc nén Huffman, RLE và LZW.



20
1.2.1. Mã hóa Huffman
Mã hóa Huffman hay được sử dụng nhất để nén không mất mát thông tin.

Phương pháp mã hóa Huffman gán ít bít hơn cho các ký tự xuất hiện thường
xuyên hơn trong văn bản. Kỹ thuật này hiệu quả khi xác suất xuất hiện của các
ký tự là rất khác nhau.
Thí dụ: Tệp văn bản chứa 1000 ký tự bao gồm e, t, x và z. Xác suất xuất hiện của
e, t, x và z lần lượt là 0.8, 0.16, 0.02, 0.02.
Nếu sử dụng mã ASCII ta cần tới 8000 bít để biểu diễn 1000 ký tự này. Ta có
thể sử dụng 2 bít để mã hóa mỗi ký tự trong 4 ký tự này. Như vậy, cần đến 2000
bít để biểu diễn tệp này.
Trong trường hợp sử dụng kỹ thuật nén Huffman, ta có thể sử dụng bit 1 để
biểu diễn e, 01 cho t, 001 cho x và 000 cho z. Trong trường hợp này thì tổng số
bít cần biểu diễn tệp văn bản sẽ là: 1000(1*0.8+2*0.16+3*0.02+3*0.02) = 1240
bít.
Quy tắc gán các bít (hay mã) cho các biểu tượng (ký tự) gọi là codebook.
Codebook của thí dụ trên được biểu diễn như bảng sau:
Ký tự
Xác suất

E
0.8
1
T
0.16
01
X
0.02
001
Z
0.02
000


Nhiệm vụ then chốt của mã hóa Huffman là làm sao tìm ra được codebook.
Thuật toán tìm codebook dựa trên cơ sở lập cây Huffman có thể được mô tả như
sau đây:
Liệt kê các ký tự theo thứ tự tần số/xác suất xuất hiện.
Lập cây mà cành của nó là hai ký tự có trọng lượng (xác suất) nhỏ nhất, gán
nhãn 1 và 0 cho chúng.
Loại bỏ hai ký tự vừa được sử dụng khỏi danh sách và bổ xung ký tự mới có
xác suất bằng tổng xác suất các cành của chúng.

21
Lập cây mà cành của nó (có nhãn 0 hay 1) là hai ký tự có xác suất nhỏ nhất
trong danh sách mới. Cây này có thể chứa hai ký tự khác hay chứa ký tự và
cây vừa tạo ra.
Lặp thủ tục cho đến khi hình thành cây lớn.
Từ mã được hình thành từ việc đọc các giá trị 0 hoặc 1 đi từ đỉnh cây đến lá của
nó.
Thí dụ:
Cho trước một dãy ký tự, trong đó các ký tự có tần suất xuất hiện như trong
bảng sau:
Ký tự A B C D E
Số đếm15 7 6 6 5
Dựng cây Huffman:


Bước 1. Trộn {B, C} để hình thành p
BC
= 0.161.
Bước 2. Trộn BC và D để hình thành p
BCD
= 0.298.

Bước 3. Trộn A và BCD để hình thành p
ABCD
= 0.562.
Bước 4. Trộn ABCD và E để hình thành cây.
Từ mã kết quả sẽ là: A > 00, B >0100, C > 0101, D > 011, E > 1.
1.2.2. Mã hóa loạt dài (Run-Length Coding - RLE)
Phương pháp nén RLE là làm giảm thiểu độ lớn tệp khi trong dãy có ký tự
lặp. Sự xuất hiện lặp của các ký tự được gọi là “run”, tổng số lặp gọi là “length”
A
B
C
D
E
0
0
1
0
0
1
1
1
Bước 1 >
Gốc
Bước 3 >
Bước 4 >
Bước 2 >

×