PHAN DAN NHAP
0.1. MG DAU
0.1.1. Khai thac dif liệu
Sự phát triển nhanh chóng các ứng dụng cơng nghệ thơng tin (CNTT) và
Internet vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật ...
đã tạo ra nhiều cơ sở dữ liệu (CSDL)
biểu như
CSDL
siêu thị Walmart
khổng lồ. Có thể lấy một vài ví dụ tiêu
( Mỹ)
chứa hơn
20 triệu giao tác bán hàng
[55], CSDL nhân khẩu Tp. Hồ Chí Minh với hơn 5 triệu nhân khẩu [$2]. Để khai
thác hiệu quả nguồn thông tin từ các CSDL lớn hỗ trợ tiến trình ra quyết định,
bên cạnh các phương pháp khai thác thông tin truyền thống,
các nhà nghiên cứu
đã phát triển các phương pháp, kỹ thuật và phân mềm mới hỗ trợ tiến trình khám
phá, phân tích tổng hợp thông tin.
Theo đánh giá của IBM, các phương pháp khai thác thông tin truyền
thống chỉ thu được khoảng 80% thơng tin từ CSDL, phần cịn lại bao gồm các
thơng tin mang tính khái qt, thơng tin có tính qui luật vẫn đang cịn tiềm ẩn
trong dữ liệu. Lượng thơng tin này tuy nhỏ nhưng là những thông tin cốt lõi và
cần thiết cho tiến trình ra quyết định [55],[76].
Khai thác dữ liệu (data mining) được U. Fayyad
định nghĩa là tiến trình
tìm kiếm các mẫu mới, có ý nghĩa tiểm ẩn trong các khối dữ liệu lớn [67],[76].
Có thể chia khai thác dữ liệu thành hai dạng chính |67],[76]:
khai thác
dữ liệu theo hướng kiểm tra và khai thác dữ liệu theo hướng khám phá. Trong
khai thác dữ liệu theo hướng kiểm tra, người dùng đề xuất giả thuyết, hệ thống
kiểm tra tính đúng đắn của giả thuyết. Khai thác dữ liệu theo hướng kiểm tra bao
gồm: truy vấn, báo cáo, phân tích đa chiều, phân tích thống kê... Ngược lại, khai
thác dữ liệu theo hướng khám phá sẽ tìm kiếm các tri thức tiểm ẩn trong CSDL
bằng cách tiến hành xem xét tất cả các giả thuyết khả dĩ. Do khơng gian tìm
kiếm lớn, nên rất nhiều heuristic đã được để xuất nhằm nâng cao hiệu suất của
các thuật giải tìm kiếm. Luận án tập trung nghiên cứu
liệu thứ hai
vào dạng khai thác dữ
và trong luận án hướng này sẽ được gọi tắt là khai thác dữ liệu.
Khai thác dữ liệu có các bài tốn chính sau đây [6 I],(67],[76].
a) Khai thác tập phổ biến và luật kết hợp: là tiến trình khám phá các
tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ
biến có thể tạo ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả
năng
xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng [7],
{29],(34],[60],[65]. Luật kết hợp X ->Y phản ánh sự xuất hiện của tập X dẫn
đến sự xuất hiện đồng thời tập Y.
Các luật kết hợp, giúp các nhà hoạch định chiến lược
nhận thức các mối
quan hệ giữa các yếu tố hỗ trợ tiến trình hoạch định đường lối, kế hoạch phát
triển.
b) Khai thác mẫu tuần tự: là tiến trình khám phá các mẫu tuần tự phổ
biến phản ánh mối quan hệ giữa các biến cố trong các CSDL hướng thời gian
(55]. Một luật mơ tả mẫu tuần tự có dạng tiêu biểu X —> Y phẩn ánh sự xuất
hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y.
Nhờ mầu
tuần tự, có thể khám phá các xu thế phát triển hành vi của đối tượng.
c) Phân lớp dữ liệu: là tiến trình khám phá các luật phân loại hay đặc
trưng cho các tập dữ liệu đã được xếp lớp [22],(55].37]. Tập dữ liệu học bao
gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mơ hình phân lớp
dựa trên đặc trưng của đối tượng trong tập dữ liệu học. Phân lớp dữ liệu có vai
trị quan trọng trong tiến trình nhận diện đặc trưng của đối tượng, dự báo các
khuynh hướng, qui luật phát triển.
d) Khai thác cụm và truy vấn tương tự: là tiến trình nhận diện các cụm
tiểm ẩn trong tập các đối tượng chưa được xếp lớp. Tiến trình khai thác cụm dựa
trên mức độ tương tự giữa các đối tượng. Các đối tượng được gom cụm sao cho
mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất
tương
tự giữa các đối tượng nằm
trong các cụm
khác
nhau
và mức độ
là nhỏ
nhất
{53],{55].70]1,71]. Các cụm được đặc trưng bằng các tính chất chung của tất cả
các đối tượng trong cụm. Do vậy, khảo sát các cụm sẽ giúp khái quát, tổng kết
nhanh chóng bản chất của khối dữ liệu lớn.
Truy vấn tương tự có khả năng cung cấp tập các đối tượng có mức độ
tương tự lớn hơn một nguỡng
xác định so với đối tượng chí định. Câu truy vấn
tương tự bao gồm đối tượng chỉ định, mức độ tương tự hay bán kính của vùng dữ
liệu cần truy vấn [14],[47].
0.1.2. Khai thác dữ liệu trong các trình tự sinh học
Sinh học phân tử nghiên cứu các thành phần và các tương tác của các vật
thể sống bao gồm nhiều loại phân tử khác nhau như ADN , Protein, Lipid ... cấu
tạo nên sự sống. Những nghiên cứu này đã và đang được thực hiện trong các
phịng thí nghiệm dùng các kỹ thuật hóa lý. Tuy vậy, các tiến bộ vựơt bậc gân
đây trong cơng nghệ giải trình tự (sequencing) đã cho phép tích lũy nhanh chóng
các dữ liệu trình tự sinh học ADN
và protein. Kết quả là có một khoảng cách
ngày càng được mở rộng giữa thu nhận nhanh dữ liệu trình tự sinh học và xử lý
khơng nhanh bằng các phương pháp truyền thống [44],[52].
Tháng 6 năm 2000, Craig Venter cơng bố đã hồn tất cơng việc giải trình
tự
bộ gen người và hiện nay số lượng trình tự sinh học được giải trình tự đang
gia tăng từng ngày từng giờ. Anthony Kerlavage, 2001 {52] của công ty Celera,
Mỹ cho biết có thể dễ dàng giải trình tự sinh học trong thời gian vài giờ một số
lượng lên đến hàng gigabyte nucleotide. Tuy vậy, tiến trình giải trình tự sinh học
va tao lập xong bản đổ bộ gen người chỉ mới là bước đầu trong phân tích và
nghiên cứu tổ chức ở mức độ tế bào của con người. Bài toán thực sự nằm ở chỗ
phát triển các phương pháp, công cụ mới để khám phá, giải mã các thông tin
tiềm ẩn trong khối dữ liệu trình tự sinh học [21],[44],[52].
Những năm gần đây tiếp cận “khai thác dữ liệu” đã được sử dụng để
phan
tich dit liéu sinh hoc
[18],[21],[44],[69].
Cac nghiên cứu-phát
triển các
phần mềm tin học nhằm tìm kiếm các đặc trưng cho các nhóm gen, các qui luật
hỗ trợ phân lớp gen, tạo cây phân lồi, truy vấn trình tự tương đồng, mơ phỏng tế
bao sinh học ... đã đóng góp rất nhiều cho các nhà sinh học [44],[52] và thúc
đẩy ngành Sinh-Tin học phát triển mạnh mẽ.
0.2. MỤC TIÊU NGHIÊN CỨU CỦA LUẬN ÁN
Các đối tượng thường có chung một số đặc trưng. Trong phạm vi nghiên
cứu của luận án, đặc trưng này có thể là cặp <thuộc tính, giá trị> của các đối
tượng trong CSDL, các đoạn lặp phố biến trong khối trình tự sinh học, các dãy từ
phổ biến trong khối ngữ liệu văn bản. Các đặc trưng của đối tượng có các tính
chất sau:
a)Tính phổ biến của tập đặc trưng: phan ánh số lượng đối tượng trong tập đối
tượng có chứa đặc trưng. Trong CSDL nhân khẩu Tp. Hồ Chí Minh, tập thuộc
tính-giá trị {NĐG_DAOTAO=Hóa, TTLDONG=ThấtNghiệp}, trong khối trình tự
sinh học ADN của E-Coli
Promoter tập đoạn
trong khối ngữ liệu truyện ngắn
lặp phổ biến
của nhà văn Nguyễn
{AAA,
Công Hoan
ACGT)},
tập hợp từ
(cũng, cứ} là các ví dụ về các tập đặc trưng xuất hiện phổ biến trong tập đối
tượng khảo sát.
b) Tính liên kết các đặc trưng trong tập đặc trưng: phản ảnh mức độ xuất
hiện tập đặc trưng này sẽ kéo theo việc xuất hiện của tập đặc trưng
kia.
Trong CSDL nhân khẩu Tp. Hồ Chí Minh có liên kết (NG_DAOTAO=Hóa}
{TTLDONG=ThatNghiép}.
Trong
tập trình tự sinh học
ADN
—
của E-Coli
Promoter, có liên kết các đoạn lặp phổ biến {AAA}—> (ACGT). Trong khối ngữ
liệu truyện ngắn của nhà văn Nguyễn
Cơng Hoan
có liên kết dãy từ phổ biến
{cũng} > {ctf}.
ce) Tổ hợp thứ tự các đặc trưng: phản ánh thứ tự xuất hiện của đặc trưng.
Trong tập trình tự sinh học ADN
trưng {TAT—>AAT—GCGC)
của
E-Coli Promoter có tổ hợp thứ tự các đặc
phần ánh thứ tự xuất hiện của các đoạn lặp phổ
biến TAT trước AAT và AAT trước GCGC trong tập trình tự sinh học.
Luận án tập trung nghiên cứu phát triển các thuật giải hiệu quả để phát
hiện các tập đặc trưng xuất hiện phổ biến trong các đối tượng của CSDL, trình tự
sinh học, khối ngữ liệu các văn bản. Trong tiến trình phát triển thuật giải, luận
án tập trung vào việc phát triển các heuristic nhằm giảm độ phức tạp tính tốn
và thời gian truy cập CSDL, các thuật giải tăng cường là loại thuật giải hiệu quả
trong khai thác dữ liệu vì khi bổ sung thêm dữ liệu, thuật giải tăng cường khơng
phải xét lại tồn bộ tập dữ liệu gốc mà chỉ xét trên tập dữ liệu vừa mới được bổ
sung và kết quả trước đó để điều chỉnh kết quả đang có.
Bên cạnh việc phát triển thuật giải, luận án triển khai một số ứng dụng
thuật giải đã phát triển trong nhiều lĩnh vực khác nhau như tìm tập phổ biến và
các luật kết hợp, luật phân lớp trong CSDL,
tìm các đặc trưng của trình tự sinh
học, phân lớp đối tượng, gom cụm đối tượng nhằm khẳng định khả năng áp dụng
đa dạng của các thuật giải.
0.3. CÁC CHƯƠNG MỤC CỦA LUẬN ÁN
Chương 1: Tập phổ biến, luật kết hợp
Chương này nghiên cứu và phát triển các thuật giải để tìm các tập phổ
biến và luật kết hợp trong CSDL. Bài tốn tìm tập phổ biến và luật kết hợp là
một trong các bài tốn chính của khai thác dữ liệu. Một số cơng trình tiêu biểu
trong các năm qua:
Trong [60] , R. Agrawal, R. Srikant, 1994 đã phát biểu bài toán tập phổ
biến và luật kết hợp từ bài toán bán hàng trong siêu thị. Nguyên
lý Apriori đã
được để xuất và sử dụng trong thuật giải Apriori-TID. Tuy vậy, tiếp cận này đòi
hỏi truy cập đĩa nhiều lần khi tính độ phổ biến của các tập mặt hàng.
Trong [34]. H Toivonen, 1995 đã phân tích độ phức tạp tính toán của thuật
giải Apriori-TID. Trong [ 29], Dao - I- Lin, Zvi M.Kedau. 1997
đã phối hợp
hai thuật giải tìm theo chiều rộng và theo chiều sâu trên đồ thị để duyệt dàn các
tập ứng viên cho các tập phổ biến tối đại.
Trong [57], Pauray S.M., Chih-Chong Lee, 1999 đã dé xuất một thuật giải
tăng cường để tìm tập phổ biến trong các CSDL bị biến động do thao tác cập
nhật đữ liệu. Ngoài các ngưỡng về độ phổ biến, các tác giả còn dé xuất thêm hệ
số cho các tập phổ biến tiểm năng sẽ phát sinh khi bổ sung thêm dữ liệu.
Chương này nghiên cứu tổng hợp các kết quả đã có và để xuất mơ hình
thuật giải theo tiếp cận thuật giải tăng cường và thuật giải không tăng cường để
tìm tập phổ biến và luật kết hợp. Trong tiếp cận thuật giấi không tăng cường,
luận án phát triển mơ hình vector biểu diễn, kết nối Galois và tính chất của bao
đóng nhằm nâng cao hiệu suất tính toán độ phổ biến bằng cách giảm số lượng
tập phổ biến ứng viên nên sẽ giảm số lần truy cập đĩa [7],[10].
Trong tiếp cận thuật giải tăng cường, luận án đã sử dụng dàn các khái
niệm hình thức được Wiile, 1982 để xuất. Khái niệm hình thức và dàn các khái
niệm hình thức đã được ứng dụng rộng rãi để biểu
trong CSDL.
diễn và tìm kiếm tri thức
Dựa trên các cơng trình [33],|63], luận án đã phát triển thuật giải
tăng cường dựa trên dàn khái niệm để tìm các tập phổ biến thơng qua các tập bị
đóng [10]. Một số các tính năng của thuật giải trên dàn khái niệm như : chỉ cần
truy cập CSDL một lần duy nhất là có thể tạo dàn khái niệm,
khả năng tăng
cường khi bổ sung thêm dữ liệu, khả năng tìm các tập khơng phổ biến.
Theo tiếp cận truyền thống được R. Agrawal, 1994 dé xuất trong [60], bài
toán luật kết hợp chỉ xét
trường hợp khách hàng có mua hay khơng mua mặt
hàng (dữ liệu nhị phân), luận án mở rộng kết quả. trên theo hướng các luật kết
hợp phú định và sử dụng tập mờ vào bài tốn tìm kiếm các tập phổ biến theo số
lượng mặt hàng ( dữ liệu số thực)[7].
Lý thuyết tập thô do Z. Pawlak để xướng vào năm 1982 [79] và có nhiều
ứng dụng trong khai thác dữ liệu,
đặc biệt trong rút gọn dữ liệu, xây dựng luật
phân lớp dữ liệu. Lý thuyết tập thô dựa trên hệ thống thông tin, quan hệ bất khả
phân
(indescernibility relation), xấp xỉ trên và xấp xỉ dưới
approximation),
phụ
thuộc
thuộc
tính ... [9],[17],(33],[79]. Tuy
(upper/lower
vậy
hệ số phụ
thuộc thuộc tính trong lý thuyết tập thô cần được mở rộng khi tiến hành các phân
lớp gần đúng [9],[33]. Chương này để xuất khả năng mở rộng xấp xỉ dưới của lý
thuyết tập thô để xây dựng hệ số phụ thuộc thuộc tính mở rộng theo độ phổ biến
và độ tin cậy của luật kết hợp. Một thuật giải mới được để xuất trong đó có sử
dụng hệ số phụ thuộc thuộc tính mở rộng [9].
Một phần chương này đã được cơng bố trong [7],[9],[ 10] va đã được ứng
dụng trong để tài nghiên cứu khoa học [82].
Chương 2: Đoạn lặp phổ biến
Chương này phát triển các thuật giải để tìm đoạn lặp phổ biến trong
tập
trình
tự sinh học. Bài tốn tìm đoạn lặp phổ biến trong tập trình tự sinh học là
một
trong
các
bài
tốn
quan
trọng
của
phân
tích
trình
tự
sinh
học
[51,[6],I21],(68]. Từ các đoạn lặp phổ biến, có thể rút ra đặc trưng cho các nhóm
gen cùng tính trạng, các vùng bảo tổn gen qua các thế hệ tiến hóa, các quan hệ
giữa biểu hiện gen và tính trạng. Một số cơng trình tiêu biểu về khai thác đoạn
lặp phổ biến trong các năm qua:
Trong [68], Smith R.F., Smith T.F, 1990
đã so sánh tất cả các cặp trình tự
bằng phép chỉnh thằng cột (alignment) va tim các đoạn lặp có mặt trong các cặp
trình tự. Sau nhiều lần lặp thuật giải sẽ tìm ra tập các
đoạn lặp có mặt trong tất
cả các trình tự. Kết quả của thuật giải là một biểu đổ dendogram dưới dạng cây
nhị phân.
Trong [69] Smith H.O., T.M. Chandrasegams,I990
đã sử dụng cách tìm
kiếm vét cạn để tìm các đoạn lặp có mặt trong tất cả các trình tự nhập. Tiếp cận
tìm kiếm vét cạn khơng thích hợp với các khối dữ liệu trình tự sinh học lớn.
Trong [39] Jonussen, I. Collins, JF. Higins, 1995
đã sử dụng phép duyệt
theo chiểu sâu để phát hiện các đoạn lặp. Thuật giải yêu cầu các tham sẽ về
chiều dài lớn nhất của đoạn lặp và số ký tự bao quát tối đa trong đoạn lặp.
Trong [51] N. Manning, C. Shethi, K.S.Wu, 1997 đã sử dụng phép chỉnh
thẳng cột sau đó duyệt qua từng cột và phát hiện các đoạn lặp có chung trong
tập trình tự sinh học. Tiếp cận theo hướng chỉnh thẳng cột bằng qui hoạch đơng
khơng thích hợp với tập các trình tự có chiều dài lớn (thực tế trong các Web Site
sinh học trên Internet có các trình tự có chiều dài hơn 10.000 nucleotide).
Trong [19] Aristidis Floratos, 1999 đã phát triển thuật giải TEIRESIAS để
tìm các đoạn lặp có dạng <L,W> với L < W . Các chuỗi con của đoạn lặp có
chiều dài W đều chứa ít nhất là L ký tự khác ký tự bao quát. Thuật giải có hai
giai đoạn: giai đoạn 1 sẽ tìm các đoạn lặp cơ sở có chiều dài L, sau đó là giai
đoạn kết hợp các chuỗi con cơ sở để tìm
các đoạn lặp có dạng <L,W>. Theo
thử nghiệm của Brovia Brejova trong [23], thuật giải TEIRESIAS ẩn chứa nguy
cơ bùng nổ tổ hợp các đoạn lặp tiềm năng trong giai đoạn kết hợp các mẫu cơ
sở. Tuy vậy, thuật giải TEIRESIAS được thiết kế theo tiếp cận khai thác đữ liệu
nên có thể làm việc với các tập dữ liệu lớn các trình tự sinh học.
Chương này nghiên cứu tổng hợp các kết quả đã có và phát triển mơ hình
bài tốn khai phá các đoạn lặp trong tập trình tự sinh học nhằm
suất. Một thuật giải
nâng cao hiệu
khơng tăng cường có tên là AprioriBioSequence [5|,[6]
được xây dung dựa trên nguyên lý Apriori đã được giới thiệu trong chương
l1.
Các đoạn lặp phổ biến được phát hiện từng bước, từ đoạn lặp có chiều dài 1, 2...
k. theo nguyên lý từng bước tăng dần.
Thuật giải tự động tìm tất cả đoạn lặp
phổ biến mà khơng cần chỉ định trước tham số chiểu dài tối đa. Do thuật giải
AprioriBioSequence được xây dựng dựa trên nguyên lý Apriori để tìm các tập
phổ biến trong các CSDL lớn, nên thuật giải có khả năng làm việc với tập dữ
liệu lớn.
Đối với các CSDL trình tự sinh học có nhiều biến động,
thuật giải tăng
cường trên cây hậu tố được đề xuất và phân tích khả nang ting dung [11].
Bên cạnh đó, chương này phát triển thuật giải nhằm
trình tự sinh học. Trong [38],
Janson, 1997
phân lớp dữ liệu
đã tổng kết các kỹ thuật phân lớp
trình tự sinh hoc theo ba nhóm sau đây:
°
Tạo mẫu liên ứng: tiếp cận này dựa trên các trình tự thuộc về một
lớp C nào đó và tạo chuỗi liên ứng cho các trình tự trong lớp C. Sau đó
dùng trình tự liên ứng để đặc trưng cho các trình tự trong lớp C và tạo bộ
phân lớp cho lớp C.
°
Dùng mạng nơron hoặc các thuật giải học: tiếp cận này dùng tập
các trình tự trong cùng một lớp và mạng nơron hoặc các thuật giải học để
rút ra các luật phân lớp.
°
Đối sánh trình tự: tiếp cận này yêu cầu chỉnh thẳng cột các trình tự
sau đó rút trích các vùng chung.
10
Luận án phát triển thuật giải tìm tập các đoạn lặp phổ biến dựa trên thuật
giải tìm luật kết hợp và tìm tổ hợp các đoạn lặp phổ biến xuất hiện theo một trật
tự nhất định (tổ hợp thứ tự) từ đồ thị đồng hiện các đoạn lặp phổ biến làm tiêu
chuẩn phân lớp họ trình tự sinh học.
Một
phần
kết
quả
của
chương
này
đã
được
cơng
bố
trong
{[Š],[6],[11],[12] và đã được ứng dung trong để tài khoa học [81].
Chương
3: Gom cụm đữ liệu
Gom cụm dữ liệu (data clustering) là một bài toán kinh điển trong thống
kê. Với sự xuất hiện của các CSDL lớn và nhu cầu xử lý lượng thông tin khổng
lồ trên Internet đã dẫn đến việc phát triển nhiều thuật giải hiệu quả phục vụ
gom cụm phẳng và tạo kiến trúc phân cấp cụm đặc biệt là các thuật giải
tăng
cường để gom cụm cho các đối tượng trong các CSDL có nhiều biến động.
Mạng
Kohonen
do
T.
Kohonen
phát
triển
vào
những
[41],[42],[66]. Mang Kohonen hay còn gọi là SOM là một mạng nơron
năm
1980
được học
theo lối tự tổ chức nhằm tạo ra một ánh xạ từ tập các mẫu học có số chiều lớn
thành các cụm có số chiéu thấp hơn. Tuy nhiên thuật giải huấn luyện mạng
Kohonen không hiệu quả khi làm việc với khối dữ liệu lớn về số lượng và số
chiều. Chương này nghiên cứu và cải tiến thuật giải huấn luyện mạng Kohonen
nhằm ứng dụng mạng Kohonen vào bài toán gom cụm các tóm tắt báo cáo khoa
học. Một số heuristic được đề xuất nhằm nâng cao hiệu suất của thuật giải huấn
luyện mạng Kohonen dựa vào đặc tính của vùng lân cận nơron
chiến thắng và
số lượng bit một trong các thành phần của vector nhập duới dạng nhị phân. Kế
đó là các nghiên cứu nhằm rút trích đặc trưng cho cụm, truy vấn tương tự đối
tượng qua các cụm trên lớp ra Kohonen.
Bên cạnh đó chương này phát triển các thuật giải tạo kiến trúc phân cấp
cụm nhằm khảo sát tiến trình tiến hố của sinh vật [4],[62|. Các thuật giải để
„ 11
xuất làm việc theo lối tăng cường và cho phép cập nhật kiến trúc phân cấp cụm
khi bổ sung thêm dữ liệu. Cấu trúc cây M-Tree do Macro Pattela để xuất vào
năm 1998 [47] và ứng dụng vào việc gom cụm dữ liệu đa phương tiện. Chương
này nghiên cứu cải tiến cấu trúc cây M-Tree cho dữ liệu trình tự sinh học ADN
{14]. Ưu điểm của cấu trúc cây M-Tree là có thé làm việc với các khối dữ liệu
lớn dựa trên nguyên tắc tạo cây chỉ mục
trong các CSDL lớn.
Dựa trên cấu trúc cây M-Tree, luận án đã phát triển các thao tác tìm
kiếm, truy vấn tương tự, tìm vùng bảo tổn gen qua các thế hệ tiến hóa
từ dữ liệu
là các trình tự sinh học. Đây là các thao tác thường được các nhà sinh học sử
dụng để phân tích dữ liệu sinh học
Một phần kết quả
của chương
này đã được công
bố trong [1].{2],
(4],[14],[15] va đã được ứng dụng trong dé tài nghiên cứu khoa hoc [81],[83].
Chương 4: Một số ứng dụng
Chương này trình bày một số ứng dụng khai thác dữ liệu như:
e
Tim luật kết hợp và luật phân lớp trong CSDL
nhân khẩu TP. Hồ Chí
Minh [82]
e
Tìm đoạn lặp phổ biến trong tập dữ liệu các trinh tự sinh học ADN của
trực khuẩn E-Coli [81]
e
Tạo kiến trúc phân cấp dữ liệu trình tự ADN và khảo sát trình tự tương
đồng của khuẩn xoắn Onchocerca [14]
« _ Tìm dãy từ phổ biến nhằm đặc trưng cho khối ngữ liệu văn ban [8]
e _ Gom cụm tóm tắt báo cáo khoa học [83]
Trong phần tìm các luật kết hợp và các luật phân lớp trong CSDL nhân
khẩu Tp. Hồ Chí Minh, luận án trình bày các kết quả tìm kiếm các luật kết hựp
giá trị thuộc tính, các luật phân lớp trong CSDL nhân khẩu. Nhờ các luật này,
các nhà phân tích số liệu điều tra dân số có thể tìm kiếm cdc thong tin hữu ích
hỗ trợ cơng tác lập kế hoạch,
dự báo tình hình phát triển dân số TP. Hồ Chí
Minh [82].
Trong phần tìm các đoạn lặp phổ biến, luật phân lớp và tạo kiến trúc
phân cấp cụm để khảo sát quá trình tiến hoá sinh vật, luận án tập trung nghiên
cứu hai tập dữ liệu trình tự sinh học ADN của trực khuẩn E-Coli Promoter
và
vi khuẩn Onchocerca gây ra bệnh lòa mắt bao gồm việc tìm kiếm các đoạn lặp
phổ biến trong tập trinh tự sinh học,
các luật phân lớp trình tự ADN
Promoter , tập các tổ hợp đoạn lặp phổ biến
E-Coli
trong tập các trình tự sinh học, tổ
hợp thứ tự các đoạn lặp phổ biến hỗ trợ phân lớp trình tự, kiến trúc phân cấp
dữ liệu trình tự sinh học của khuẩn xoắn Onchocerca, phát hiện vùng báo tồn
gen qua các thế hệ tiến hố của khuẩn xoắn Onchocerca, truy vấn trình tự
tương đồng [14], [81].
Trong phần tìm dãy từ phổ biến và gom cụm dữ liệu văn bản,
luận ấn
trình bày các tiến trình rút trích đặc trưng văn bản dựa trên dãy từ phổ biến và
đồng hiện trong văn bản, gom cụm văn bản có sử dụng đồ thị đồng hiện các dãy
từ phổ biến được khai thác từ khối ngữ liệu thuộc về một lĩnh vực xác định, truy
vấn tương tự văn bản qua lớp ra Kohonen.
Một
phần
kết
quả
của
chương
này
đã
được
công
bố
trong
(3],(8],[12],{14],[15] va tng dung trong cdc để tài khoa hoc (81 ],[82],[83].
0.4. CAC DONG GOP CUA LUAN AN
e _ Nghiên cứu đề xuất sử dụng tập phổ biến và luật kết hợp nhằm xây dựng
các luật nhân quả, luật phân lớp các đối tượng CSDL, luật đặc trưng và
luật phân lớp các trình tự sinh học thông qua các đoạn lặp phổ biến,
vector đặc trưng văn bản thông qua dãy từ phổ biến và tổ hợp đồng hiện
các dãy từ phổ biến.
12
e
Nghiên cứu sự tương đồng giữa các đối tượng dữ liệu thông qua khoảng
cách, khảo sát sự tương tự ngữ nghĩa của từ thông qua Wordnet và tổ hợp
đông hiện các dãy từ phổ biến nhằm điều chỉnh các vector đặc trưng trong
bài toán gom cụm dữ liệu và truy vấn đối tượng tương đồng.
e
Nghiên cứu để xuất ý tưởng bit hóa CSDL trong bộ nhớ máy tính
thơng
qua ma trận ngữ cảnh khai thác dữ liệu và vector biểu diễn tập mặt hàng,
vận dụng tính chất của bao đóng và dàn khái niệm để xây dựng các thuật
giải hiệu qủa về độ phức tạp tính tốn và thời gian truy cập CSDL trên
đĩa, vận dụng tính chất của vector đặc trưng văn bản để nâng cao hiệu
suất huấn luyện mạng Kohonen. Mở rộng ngữ nghĩa của tập phổ biến và
luật kết hợp theo tiếp cận lý thuyết tập mờ, hệ số phụ thuộc thuộc tính
của lý thuyết tập thơ dựa trên tập phổ biến và luật kết hợp.
e _ Phát triển thuật giải hiệu quả để tìm tập đặc trưng phố biến trong CSDL,
tập các trình tự sinh học, khối ngữ liệu văn bản. Nâng cao hiệu suất của
thuật giải huấn luyện mạng Kohonen. Cải tiến cấu trúc M-Tree để tạo
kiến trúc phân cấp cụm dữ liệu trình tự sinh học.
e_
Triển khai một số ứng dụng dựa trên các mô hình thuật giải đã phát triển
nhằm khẳng định tính đa dạng và phong phú của thuật giải như tìm các
luật kết hợp và luật phân lớp trong CSDL nhân khẩu Tp. Hồ Chí Minh,
tìm đoạn lặp phổ biến và tổ hợp các đoạn lặp phổ biến nhằm đặc trưng và
phân lớp trình tự sinh học, tạo kiến trúc phân cấp dữ liệu trình tự sinh học,
tìm vùng bảo tổn gen qua các thế hệ tiến hóa của khuẩn Onchocerca, tìm
dãy từ phổ biến trong khối ngữ liệu văn bản và gom cụm dữ liệu các :óm
tắt báo cáo khoa học, truy vấn tương tự văn bản.