phần dẫn nhập luận án nghiên cứu và phát triển một số thuật giải toán, mô hình ứng dụng khai thác dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.21 MB, 13 trang )

PHAN DAN NHAP
0.1. MG DAU
0.1.1. Khai thac dif liệu
Sự phát triển nhanh chóng các ứng dụng cơng nghệ thơng tin (CNTT) và

Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật ...
đã tạo ra nhiều cơ sở dữ liệu (CSDL)
biểu như

CSDL

siêu thị Walmart

khổng lồ. Có thể lấy một vài ví dụ tiêu

( Mỹ)

chứa hơn

20 triệu giao tác bán hàng

[55], CSDL nhân khẩu Tp. Hồ Chí Minh với hơn 5 triệu nhân khẩu [$2]. Để khai
thác hiệu quả nguồn thông tin từ các CSDL lớn hỗ trợ tiến trình ra quyết định,
bên cạnh các phương pháp khai thác thông tin truyền thống,

các nhà nghiên cứu

đã phát triển các phương pháp, kỹ thuật và phân mềm mới hỗ trợ tiến trình khám
phá, phân tích tổng hợp thông tin.
Theo đánh giá của IBM, các phương pháp khai thác thông tin truyền

thống chỉ thu được khoảng 80% thơng tin từ CSDL, phần cịn lại bao gồm các
thơng tin mang tính khái qt, thơng tin có tính qui luật vẫn đang cịn tiềm ẩn
trong dữ liệu. Lượng thơng tin này tuy nhỏ nhưng là những thông tin cốt lõi và
cần thiết cho tiến trình ra quyết định [55],[76].
Khai thác dữ liệu (data mining) được U. Fayyad

định nghĩa là tiến trình

tìm kiếm các mẫu mới, có ý nghĩa tiểm ẩn trong các khối dữ liệu lớn [67],[76].
Có thể chia khai thác dữ liệu thành hai dạng chính |67],[76]:

khai thác

dữ liệu theo hướng kiểm tra và khai thác dữ liệu theo hướng khám phá. Trong
khai thác dữ liệu theo hướng kiểm tra, người dùng đề xuất giả thuyết, hệ thống
kiểm tra tính đúng đắn của giả thuyết. Khai thác dữ liệu theo hướng kiểm tra bao

gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê... Ngược lại, khai
thác dữ liệu theo hướng khám phá sẽ tìm kiếm các tri thức tiểm ẩn trong CSDL

bằng cách tiến hành xem xét tất cả các giả thuyết khả dĩ. Do khơng gian tìm
kiếm lớn, nên rất nhiều heuristic đã được để xuất nhằm nâng cao hiệu suất của
các thuật giải tìm kiếm. Luận án tập trung nghiên cứu
liệu thứ hai

vào dạng khai thác dữ

và trong luận án hướng này sẽ được gọi tắt là khai thác dữ liệu.

Khai thác dữ liệu có các bài tốn chính sau đây [6 I],(67],[76].

a) Khai thác tập phổ biến và luật kết hợp: là tiến trình khám phá các
tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ
biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả
năng

xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng [7],

{29],(34],[60],[65]. Luật kết hợp X ->Y phản ánh sự xuất hiện của tập X dẫn

đến sự xuất hiện đồng thời tập Y.
Các luật kết hợp, giúp các nhà hoạch định chiến lược

nhận thức các mối

quan hệ giữa các yếu tố hỗ trợ tiến trình hoạch định đường lối, kế hoạch phát
triển.

b) Khai thác mẫu tuần tự: là tiến trình khám phá các mẫu tuần tự phổ
biến phản ánh mối quan hệ giữa các biến cố trong các CSDL hướng thời gian
(55]. Một luật mơ tả mẫu tuần tự có dạng tiêu biểu X —> Y phẩn ánh sự xuất
hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y.

Nhờ mầu

tuần tự, có thể khám phá các xu thế phát triển hành vi của đối tượng.
c) Phân lớp dữ liệu: là tiến trình khám phá các luật phân loại hay đặc
trưng cho các tập dữ liệu đã được xếp lớp [22],(55].37]. Tập dữ liệu học bao

gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mơ hình phân lớp
dựa trên đặc trưng của đối tượng trong tập dữ liệu học. Phân lớp dữ liệu có vai

trị quan trọng trong tiến trình nhận diện đặc trưng của đối tượng, dự báo các
khuynh hướng, qui luật phát triển.

d) Khai thác cụm và truy vấn tương tự: là tiến trình nhận diện các cụm
tiểm ẩn trong tập các đối tượng chưa được xếp lớp. Tiến trình khai thác cụm dựa
trên mức độ tương tự giữa các đối tượng. Các đối tượng được gom cụm sao cho
mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất

tương

tự giữa các đối tượng nằm

trong các cụm

khác

nhau

và mức độ

là nhỏ

nhất

{53],{55].70]1,71]. Các cụm được đặc trưng bằng các tính chất chung của tất cả
các đối tượng trong cụm. Do vậy, khảo sát các cụm sẽ giúp khái quát, tổng kết

nhanh chóng bản chất của khối dữ liệu lớn.
Truy vấn tương tự có khả năng cung cấp tập các đối tượng có mức độ
tương tự lớn hơn một nguỡng

xác định so với đối tượng chí định. Câu truy vấn

tương tự bao gồm đối tượng chỉ định, mức độ tương tự hay bán kính của vùng dữ
liệu cần truy vấn [14],[47].
0.1.2. Khai thác dữ liệu trong các trình tự sinh học

Sinh học phân tử nghiên cứu các thành phần và các tương tác của các vật

thể sống bao gồm nhiều loại phân tử khác nhau như ADN , Protein, Lipid ... cấu
tạo nên sự sống. Những nghiên cứu này đã và đang được thực hiện trong các

phịng thí nghiệm dùng các kỹ thuật hóa lý. Tuy vậy, các tiến bộ vựơt bậc gân
đây trong cơng nghệ giải trình tự (sequencing) đã cho phép tích lũy nhanh chóng
các dữ liệu trình tự sinh học ADN

và protein. Kết quả là có một khoảng cách

ngày càng được mở rộng giữa thu nhận nhanh dữ liệu trình tự sinh học và xử lý

khơng nhanh bằng các phương pháp truyền thống [44],[52].
Tháng 6 năm 2000, Craig Venter cơng bố đã hồn tất cơng việc giải trình
tự

bộ gen người và hiện nay số lượng trình tự sinh học được giải trình tự đang

gia tăng từng ngày từng giờ. Anthony Kerlavage, 2001 {52] của công ty Celera,

Mỹ cho biết có thể dễ dàng giải trình tự sinh học trong thời gian vài giờ một số
lượng lên đến hàng gigabyte nucleotide. Tuy vậy, tiến trình giải trình tự sinh học

va tao lập xong bản đổ bộ gen người chỉ mới là bước đầu trong phân tích và
nghiên cứu tổ chức ở mức độ tế bào của con người. Bài toán thực sự nằm ở chỗ
phát triển các phương pháp, công cụ mới để khám phá, giải mã các thông tin
tiềm ẩn trong khối dữ liệu trình tự sinh học [21],[44],[52].
Những năm gần đây tiếp cận “khai thác dữ liệu” đã được sử dụng để
phan

tich dit liéu sinh hoc

[18],[21],[44],[69].

Cac nghiên cứu-phát

triển các

phần mềm tin học nhằm tìm kiếm các đặc trưng cho các nhóm gen, các qui luật
hỗ trợ phân lớp gen, tạo cây phân lồi, truy vấn trình tự tương đồng, mơ phỏng tế
bao sinh học ... đã đóng góp rất nhiều cho các nhà sinh học [44],[52] và thúc

đẩy ngành Sinh-Tin học phát triển mạnh mẽ.

0.2. MỤC TIÊU NGHIÊN CỨU CỦA LUẬN ÁN
Các đối tượng thường có chung một số đặc trưng. Trong phạm vi nghiên
cứu của luận án, đặc trưng này có thể là cặp <thuộc tính, giá trị> của các đối

tượng trong CSDL, các đoạn lặp phố biến trong khối trình tự sinh học, các dãy từ
phổ biến trong khối ngữ liệu văn bản. Các đặc trưng của đối tượng có các tính
chất sau:
a)Tính phổ biến của tập đặc trưng: phan ánh số lượng đối tượng trong tập đối
tượng có chứa đặc trưng. Trong CSDL nhân khẩu Tp. Hồ Chí Minh, tập thuộc

tính-giá trị {NĐG_DAOTAO=Hóa, TTLDONG=ThấtNghiệp}, trong khối trình tự
sinh học ADN của E-Coli

Promoter tập đoạn

trong khối ngữ liệu truyện ngắn

lặp phổ biến

của nhà văn Nguyễn

{AAA,

Công Hoan

ACGT)},

tập hợp từ

(cũng, cứ} là các ví dụ về các tập đặc trưng xuất hiện phổ biến trong tập đối
tượng khảo sát.
b) Tính liên kết các đặc trưng trong tập đặc trưng: phản ảnh mức độ xuất
hiện tập đặc trưng này sẽ kéo theo việc xuất hiện của tập đặc trưng

kia.

Trong CSDL nhân khẩu Tp. Hồ Chí Minh có liên kết (NG_DAOTAO=Hóa}
{TTLDONG=ThatNghiép}.

Trong

tập trình tự sinh học

ADN

—

của E-Coli

Promoter, có liên kết các đoạn lặp phổ biến {AAA}—> (ACGT). Trong khối ngữ
liệu truyện ngắn của nhà văn Nguyễn

Cơng Hoan

có liên kết dãy từ phổ biến

{cũng} > {ctf}.

ce) Tổ hợp thứ tự các đặc trưng: phản ánh thứ tự xuất hiện của đặc trưng.
Trong tập trình tự sinh học ADN
trưng {TAT—>AAT—GCGC)

của

E-Coli Promoter có tổ hợp thứ tự các đặc

phần ánh thứ tự xuất hiện của các đoạn lặp phổ

biến TAT trước AAT và AAT trước GCGC trong tập trình tự sinh học.
Luận án tập trung nghiên cứu phát triển các thuật giải hiệu quả để phát

hiện các tập đặc trưng xuất hiện phổ biến trong các đối tượng của CSDL, trình tự
sinh học, khối ngữ liệu các văn bản. Trong tiến trình phát triển thuật giải, luận
án tập trung vào việc phát triển các heuristic nhằm giảm độ phức tạp tính tốn

và thời gian truy cập CSDL, các thuật giải tăng cường là loại thuật giải hiệu quả
trong khai thác dữ liệu vì khi bổ sung thêm dữ liệu, thuật giải tăng cường khơng
phải xét lại tồn bộ tập dữ liệu gốc mà chỉ xét trên tập dữ liệu vừa mới được bổ
sung và kết quả trước đó để điều chỉnh kết quả đang có.
Bên cạnh việc phát triển thuật giải, luận án triển khai một số ứng dụng
thuật giải đã phát triển trong nhiều lĩnh vực khác nhau như tìm tập phổ biến và
các luật kết hợp, luật phân lớp trong CSDL,

tìm các đặc trưng của trình tự sinh

học, phân lớp đối tượng, gom cụm đối tượng nhằm khẳng định khả năng áp dụng
đa dạng của các thuật giải.

0.3. CÁC CHƯƠNG MỤC CỦA LUẬN ÁN
Chương 1: Tập phổ biến, luật kết hợp
Chương này nghiên cứu và phát triển các thuật giải để tìm các tập phổ
biến và luật kết hợp trong CSDL. Bài tốn tìm tập phổ biến và luật kết hợp là

một trong các bài tốn chính của khai thác dữ liệu. Một số cơng trình tiêu biểu

trong các năm qua:
Trong [60] , R. Agrawal, R. Srikant, 1994 đã phát biểu bài toán tập phổ
biến và luật kết hợp từ bài toán bán hàng trong siêu thị. Nguyên

lý Apriori đã

được để xuất và sử dụng trong thuật giải Apriori-TID. Tuy vậy, tiếp cận này đòi
hỏi truy cập đĩa nhiều lần khi tính độ phổ biến của các tập mặt hàng.
Trong [34]. H Toivonen, 1995 đã phân tích độ phức tạp tính toán của thuật
giải Apriori-TID. Trong [ 29], Dao - I- Lin, Zvi M.Kedau. 1997

đã phối hợp

hai thuật giải tìm theo chiều rộng và theo chiều sâu trên đồ thị để duyệt dàn các
tập ứng viên cho các tập phổ biến tối đại.
Trong [57], Pauray S.M., Chih-Chong Lee, 1999 đã dé xuất một thuật giải

tăng cường để tìm tập phổ biến trong các CSDL bị biến động do thao tác cập
nhật đữ liệu. Ngoài các ngưỡng về độ phổ biến, các tác giả còn dé xuất thêm hệ
số cho các tập phổ biến tiểm năng sẽ phát sinh khi bổ sung thêm dữ liệu.

Chương này nghiên cứu tổng hợp các kết quả đã có và để xuất mơ hình
thuật giải theo tiếp cận thuật giải tăng cường và thuật giải không tăng cường để

tìm tập phổ biến và luật kết hợp. Trong tiếp cận thuật giấi không tăng cường,
luận án phát triển mơ hình vector biểu diễn, kết nối Galois và tính chất của bao

đóng nhằm nâng cao hiệu suất tính toán độ phổ biến bằng cách giảm số lượng
tập phổ biến ứng viên nên sẽ giảm số lần truy cập đĩa [7],[10].
Trong tiếp cận thuật giải tăng cường, luận án đã sử dụng dàn các khái

niệm hình thức được Wiile, 1982 để xuất. Khái niệm hình thức và dàn các khái
niệm hình thức đã được ứng dụng rộng rãi để biểu
trong CSDL.

diễn và tìm kiếm tri thức

Dựa trên các cơng trình [33],|63], luận án đã phát triển thuật giải

tăng cường dựa trên dàn khái niệm để tìm các tập phổ biến thơng qua các tập bị
đóng [10]. Một số các tính năng của thuật giải trên dàn khái niệm như : chỉ cần

truy cập CSDL một lần duy nhất là có thể tạo dàn khái niệm,

khả năng tăng

cường khi bổ sung thêm dữ liệu, khả năng tìm các tập khơng phổ biến.

Theo tiếp cận truyền thống được R. Agrawal, 1994 dé xuất trong [60], bài
toán luật kết hợp chỉ xét

trường hợp khách hàng có mua hay khơng mua mặt

hàng (dữ liệu nhị phân), luận án mở rộng kết quả. trên theo hướng các luật kết
hợp phú định và sử dụng tập mờ vào bài tốn tìm kiếm các tập phổ biến theo số
lượng mặt hàng ( dữ liệu số thực)[7].

Lý thuyết tập thô do Z. Pawlak để xướng vào năm 1982 [79] và có nhiều
ứng dụng trong khai thác dữ liệu,

đặc biệt trong rút gọn dữ liệu, xây dựng luật

phân lớp dữ liệu. Lý thuyết tập thô dựa trên hệ thống thông tin, quan hệ bất khả
phân

(indescernibility relation), xấp xỉ trên và xấp xỉ dưới

approximation),

phụ

thuộc

thuộc

tính ... [9],[17],(33],[79]. Tuy

(upper/lower
vậy

hệ số phụ

thuộc thuộc tính trong lý thuyết tập thô cần được mở rộng khi tiến hành các phân

lớp gần đúng [9],[33]. Chương này để xuất khả năng mở rộng xấp xỉ dưới của lý
thuyết tập thô để xây dựng hệ số phụ thuộc thuộc tính mở rộng theo độ phổ biến

và độ tin cậy của luật kết hợp. Một thuật giải mới được để xuất trong đó có sử
dụng hệ số phụ thuộc thuộc tính mở rộng [9].
Một phần chương này đã được cơng bố trong [7],[9],[ 10] va đã được ứng

dụng trong để tài nghiên cứu khoa học [82].

Chương 2: Đoạn lặp phổ biến
Chương này phát triển các thuật giải để tìm đoạn lặp phổ biến trong

tập

trình

tự sinh học. Bài tốn tìm đoạn lặp phổ biến trong tập trình tự sinh học là

một

trong

các

bài

tốn

quan

trọng

của

phân

tích

trình

tự

sinh

học

[51,[6],I21],(68]. Từ các đoạn lặp phổ biến, có thể rút ra đặc trưng cho các nhóm

gen cùng tính trạng, các vùng bảo tổn gen qua các thế hệ tiến hóa, các quan hệ

giữa biểu hiện gen và tính trạng. Một số cơng trình tiêu biểu về khai thác đoạn
lặp phổ biến trong các năm qua:
Trong [68], Smith R.F., Smith T.F, 1990

đã so sánh tất cả các cặp trình tự

bằng phép chỉnh thằng cột (alignment) va tim các đoạn lặp có mặt trong các cặp
trình tự. Sau nhiều lần lặp thuật giải sẽ tìm ra tập các

đoạn lặp có mặt trong tất

cả các trình tự. Kết quả của thuật giải là một biểu đổ dendogram dưới dạng cây

nhị phân.
Trong [69] Smith H.O., T.M. Chandrasegams,I990

đã sử dụng cách tìm

kiếm vét cạn để tìm các đoạn lặp có mặt trong tất cả các trình tự nhập. Tiếp cận
tìm kiếm vét cạn khơng thích hợp với các khối dữ liệu trình tự sinh học lớn.
Trong [39] Jonussen, I. Collins, JF. Higins, 1995

đã sử dụng phép duyệt

theo chiểu sâu để phát hiện các đoạn lặp. Thuật giải yêu cầu các tham sẽ về
chiều dài lớn nhất của đoạn lặp và số ký tự bao quát tối đa trong đoạn lặp.
Trong [51] N. Manning, C. Shethi, K.S.Wu, 1997 đã sử dụng phép chỉnh
thẳng cột sau đó duyệt qua từng cột và phát hiện các đoạn lặp có chung trong

tập trình tự sinh học. Tiếp cận theo hướng chỉnh thẳng cột bằng qui hoạch đơng

khơng thích hợp với tập các trình tự có chiều dài lớn (thực tế trong các Web Site
sinh học trên Internet có các trình tự có chiều dài hơn 10.000 nucleotide).

Trong [19] Aristidis Floratos, 1999 đã phát triển thuật giải TEIRESIAS để
tìm các đoạn lặp có dạng <L,W> với L < W . Các chuỗi con của đoạn lặp có
chiều dài W đều chứa ít nhất là L ký tự khác ký tự bao quát. Thuật giải có hai
giai đoạn: giai đoạn 1 sẽ tìm các đoạn lặp cơ sở có chiều dài L, sau đó là giai
đoạn kết hợp các chuỗi con cơ sở để tìm

các đoạn lặp có dạng <L,W>. Theo

thử nghiệm của Brovia Brejova trong [23], thuật giải TEIRESIAS ẩn chứa nguy

cơ bùng nổ tổ hợp các đoạn lặp tiềm năng trong giai đoạn kết hợp các mẫu cơ

sở. Tuy vậy, thuật giải TEIRESIAS được thiết kế theo tiếp cận khai thác đữ liệu
nên có thể làm việc với các tập dữ liệu lớn các trình tự sinh học.

Chương này nghiên cứu tổng hợp các kết quả đã có và phát triển mơ hình
bài tốn khai phá các đoạn lặp trong tập trình tự sinh học nhằm

suất. Một thuật giải

nâng cao hiệu

khơng tăng cường có tên là AprioriBioSequence [5|,[6]

được xây dung dựa trên nguyên lý Apriori đã được giới thiệu trong chương

l1.

Các đoạn lặp phổ biến được phát hiện từng bước, từ đoạn lặp có chiều dài 1, 2...

k. theo nguyên lý từng bước tăng dần.

Thuật giải tự động tìm tất cả đoạn lặp

phổ biến mà khơng cần chỉ định trước tham số chiểu dài tối đa. Do thuật giải
AprioriBioSequence được xây dựng dựa trên nguyên lý Apriori để tìm các tập

phổ biến trong các CSDL lớn, nên thuật giải có khả năng làm việc với tập dữ
liệu lớn.

Đối với các CSDL trình tự sinh học có nhiều biến động,

thuật giải tăng

cường trên cây hậu tố được đề xuất và phân tích khả nang ting dung [11].
Bên cạnh đó, chương này phát triển thuật giải nhằm
trình tự sinh học. Trong [38],

Janson, 1997

phân lớp dữ liệu

đã tổng kết các kỹ thuật phân lớp

trình tự sinh hoc theo ba nhóm sau đây:

°

Tạo mẫu liên ứng: tiếp cận này dựa trên các trình tự thuộc về một

lớp C nào đó và tạo chuỗi liên ứng cho các trình tự trong lớp C. Sau đó
dùng trình tự liên ứng để đặc trưng cho các trình tự trong lớp C và tạo bộ

phân lớp cho lớp C.
°

Dùng mạng nơron hoặc các thuật giải học: tiếp cận này dùng tập

các trình tự trong cùng một lớp và mạng nơron hoặc các thuật giải học để

rút ra các luật phân lớp.

°

Đối sánh trình tự: tiếp cận này yêu cầu chỉnh thẳng cột các trình tự

sau đó rút trích các vùng chung.

10

Luận án phát triển thuật giải tìm tập các đoạn lặp phổ biến dựa trên thuật
giải tìm luật kết hợp và tìm tổ hợp các đoạn lặp phổ biến xuất hiện theo một trật
tự nhất định (tổ hợp thứ tự) từ đồ thị đồng hiện các đoạn lặp phổ biến làm tiêu
chuẩn phân lớp họ trình tự sinh học.

Một

phần

kết

quả

của

chương

này

đã

được

cơng

bố

trong

{[Š],[6],[11],[12] và đã được ứng dung trong để tài khoa học [81].
Chương

3: Gom cụm đữ liệu

Gom cụm dữ liệu (data clustering) là một bài toán kinh điển trong thống
kê. Với sự xuất hiện của các CSDL lớn và nhu cầu xử lý lượng thông tin khổng

lồ trên Internet đã dẫn đến việc phát triển nhiều thuật giải hiệu quả phục vụ
gom cụm phẳng và tạo kiến trúc phân cấp cụm đặc biệt là các thuật giải

tăng

cường để gom cụm cho các đối tượng trong các CSDL có nhiều biến động.
Mạng

Kohonen

do

T.

Kohonen

phát

triển

vào

những

[41],[42],[66]. Mang Kohonen hay còn gọi là SOM là một mạng nơron

năm

1980

được học

theo lối tự tổ chức nhằm tạo ra một ánh xạ từ tập các mẫu học có số chiều lớn

thành các cụm có số chiéu thấp hơn. Tuy nhiên thuật giải huấn luyện mạng
Kohonen không hiệu quả khi làm việc với khối dữ liệu lớn về số lượng và số
chiều. Chương này nghiên cứu và cải tiến thuật giải huấn luyện mạng Kohonen
nhằm ứng dụng mạng Kohonen vào bài toán gom cụm các tóm tắt báo cáo khoa

học. Một số heuristic được đề xuất nhằm nâng cao hiệu suất của thuật giải huấn
luyện mạng Kohonen dựa vào đặc tính của vùng lân cận nơron

chiến thắng và

số lượng bit một trong các thành phần của vector nhập duới dạng nhị phân. Kế
đó là các nghiên cứu nhằm rút trích đặc trưng cho cụm, truy vấn tương tự đối
tượng qua các cụm trên lớp ra Kohonen.

Bên cạnh đó chương này phát triển các thuật giải tạo kiến trúc phân cấp
cụm nhằm khảo sát tiến trình tiến hố của sinh vật [4],[62|. Các thuật giải để

„ 11

xuất làm việc theo lối tăng cường và cho phép cập nhật kiến trúc phân cấp cụm

khi bổ sung thêm dữ liệu. Cấu trúc cây M-Tree do Macro Pattela để xuất vào
năm 1998 [47] và ứng dụng vào việc gom cụm dữ liệu đa phương tiện. Chương

này nghiên cứu cải tiến cấu trúc cây M-Tree cho dữ liệu trình tự sinh học ADN
{14]. Ưu điểm của cấu trúc cây M-Tree là có thé làm việc với các khối dữ liệu
lớn dựa trên nguyên tắc tạo cây chỉ mục

trong các CSDL lớn.

Dựa trên cấu trúc cây M-Tree, luận án đã phát triển các thao tác tìm
kiếm, truy vấn tương tự, tìm vùng bảo tổn gen qua các thế hệ tiến hóa

từ dữ liệu

là các trình tự sinh học. Đây là các thao tác thường được các nhà sinh học sử

dụng để phân tích dữ liệu sinh học
Một phần kết quả

của chương

này đã được công

bố trong [1].{2],

(4],[14],[15] va đã được ứng dụng trong dé tài nghiên cứu khoa hoc [81],[83].

Chương 4: Một số ứng dụng
Chương này trình bày một số ứng dụng khai thác dữ liệu như:

e

Tim luật kết hợp và luật phân lớp trong CSDL

nhân khẩu TP. Hồ Chí

Minh [82]

e

Tìm đoạn lặp phổ biến trong tập dữ liệu các trinh tự sinh học ADN của
trực khuẩn E-Coli [81]

e

Tạo kiến trúc phân cấp dữ liệu trình tự ADN và khảo sát trình tự tương

đồng của khuẩn xoắn Onchocerca [14]

« _ Tìm dãy từ phổ biến nhằm đặc trưng cho khối ngữ liệu văn ban [8]
e _ Gom cụm tóm tắt báo cáo khoa học [83]
Trong phần tìm các luật kết hợp và các luật phân lớp trong CSDL nhân
khẩu Tp. Hồ Chí Minh, luận án trình bày các kết quả tìm kiếm các luật kết hựp
giá trị thuộc tính, các luật phân lớp trong CSDL nhân khẩu. Nhờ các luật này,

các nhà phân tích số liệu điều tra dân số có thể tìm kiếm cdc thong tin hữu ích

hỗ trợ cơng tác lập kế hoạch,

dự báo tình hình phát triển dân số TP. Hồ Chí

Minh [82].

Trong phần tìm các đoạn lặp phổ biến, luật phân lớp và tạo kiến trúc
phân cấp cụm để khảo sát quá trình tiến hoá sinh vật, luận án tập trung nghiên
cứu hai tập dữ liệu trình tự sinh học ADN của trực khuẩn E-Coli Promoter

và

vi khuẩn Onchocerca gây ra bệnh lòa mắt bao gồm việc tìm kiếm các đoạn lặp
phổ biến trong tập trinh tự sinh học,

các luật phân lớp trình tự ADN

Promoter , tập các tổ hợp đoạn lặp phổ biến

E-Coli

trong tập các trình tự sinh học, tổ

hợp thứ tự các đoạn lặp phổ biến hỗ trợ phân lớp trình tự, kiến trúc phân cấp
dữ liệu trình tự sinh học của khuẩn xoắn Onchocerca, phát hiện vùng báo tồn

gen qua các thế hệ tiến hố của khuẩn xoắn Onchocerca, truy vấn trình tự
tương đồng [14], [81].
Trong phần tìm dãy từ phổ biến và gom cụm dữ liệu văn bản,

luận ấn

trình bày các tiến trình rút trích đặc trưng văn bản dựa trên dãy từ phổ biến và
đồng hiện trong văn bản, gom cụm văn bản có sử dụng đồ thị đồng hiện các dãy
từ phổ biến được khai thác từ khối ngữ liệu thuộc về một lĩnh vực xác định, truy
vấn tương tự văn bản qua lớp ra Kohonen.

Một

phần

kết

quả

của

chương

này

đã

được

công

bố

trong

(3],(8],[12],{14],[15] va tng dung trong cdc để tài khoa hoc (81 ],[82],[83].

0.4. CAC DONG GOP CUA LUAN AN
e _ Nghiên cứu đề xuất sử dụng tập phổ biến và luật kết hợp nhằm xây dựng
các luật nhân quả, luật phân lớp các đối tượng CSDL, luật đặc trưng và

luật phân lớp các trình tự sinh học thông qua các đoạn lặp phổ biến,
vector đặc trưng văn bản thông qua dãy từ phổ biến và tổ hợp đồng hiện

các dãy từ phổ biến.

12

e

Nghiên cứu sự tương đồng giữa các đối tượng dữ liệu thông qua khoảng
cách, khảo sát sự tương tự ngữ nghĩa của từ thông qua Wordnet và tổ hợp

đông hiện các dãy từ phổ biến nhằm điều chỉnh các vector đặc trưng trong
bài toán gom cụm dữ liệu và truy vấn đối tượng tương đồng.
e

Nghiên cứu để xuất ý tưởng bit hóa CSDL trong bộ nhớ máy tính

thơng

qua ma trận ngữ cảnh khai thác dữ liệu và vector biểu diễn tập mặt hàng,

vận dụng tính chất của bao đóng và dàn khái niệm để xây dựng các thuật

giải hiệu qủa về độ phức tạp tính tốn và thời gian truy cập CSDL trên
đĩa, vận dụng tính chất của vector đặc trưng văn bản để nâng cao hiệu

suất huấn luyện mạng Kohonen. Mở rộng ngữ nghĩa của tập phổ biến và
luật kết hợp theo tiếp cận lý thuyết tập mờ, hệ số phụ thuộc thuộc tính
của lý thuyết tập thơ dựa trên tập phổ biến và luật kết hợp.
e _ Phát triển thuật giải hiệu quả để tìm tập đặc trưng phố biến trong CSDL,
tập các trình tự sinh học, khối ngữ liệu văn bản. Nâng cao hiệu suất của
thuật giải huấn luyện mạng Kohonen. Cải tiến cấu trúc M-Tree để tạo
kiến trúc phân cấp cụm dữ liệu trình tự sinh học.
e_

Triển khai một số ứng dụng dựa trên các mô hình thuật giải đã phát triển

nhằm khẳng định tính đa dạng và phong phú của thuật giải như tìm các
luật kết hợp và luật phân lớp trong CSDL nhân khẩu Tp. Hồ Chí Minh,

tìm đoạn lặp phổ biến và tổ hợp các đoạn lặp phổ biến nhằm đặc trưng và
phân lớp trình tự sinh học, tạo kiến trúc phân cấp dữ liệu trình tự sinh học,

tìm vùng bảo tổn gen qua các thế hệ tiến hóa của khuẩn Onchocerca, tìm
dãy từ phổ biến trong khối ngữ liệu văn bản và gom cụm dữ liệu các :óm
tắt báo cáo khoa học, truy vấn tương tự văn bản.

phần dẫn nhập luận án nghiên cứu và phát triển một số thuật giải toán, mô hình ứng dụng khai thác dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về