Tải bản đầy đủ (.pdf) (262 trang)

Nghiên cứu, triển khai ứng dụng khai phá dữ liệu trong cơ sở dữ liệu và thuật toán song song

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.25 MB, 262 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CỐNG NGHỆ

NGHIÊN CỬU. TRĨÈN K V A 1 ỨNG DỤNG KHAI PHÁ DỮ LIỆL
TRONG C ơ BỜ DỮ U Ệ U VÀ TKƯẠT t o á n s o n g s o n g
(Researching and Applied Realization o f Data Mining Methods in
Databases and Paralỉel Algorithms)

Đề tài nghiên cứu khoa học đặc biệí cẩp Đại học Quốc gia Hà Nội
Mã số: QG 02-02

Chủ trì đề tài: TS. Hà Quang Thụy

HÀ NỘI - 2004


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI
HỌC
CÔNG NGHỆm



NGHIÊN CỨU, TRIỂN KHAI ỨNG DỤNG KHAI PHẢ DỮ LIỆl
TRONG C ơ SỞ DỮ LIỆU VÀ THUẬT TOÁN SONG SONG
(Researching and Applied Realization o f Data Mining Methods in
Databases and Parallel Algorithms)

Đề tài nghiên cứu khoa học đặc biệt cấp Đại học Quốc gia Hà Nội
Mã số: QG 02-02


Chủ trì đề tài: TS. Hà Quang Thụy

ĐẠI HỌC Q U Ố C GIA HÀ NỌ_i
t r u n g Tâ m t h õ n g tin thư v iê n

DTf 334.

HÀ NỘI - 2004

~


ĐẠI HỌC QUÓC GIA HÀ NỘI
TRƯỜNG ĐẠĨ HỌC CÔNG NGHỆ

NGHIÊN CỨU, TRIẺN KHAI ỨNG DỤNG KHAI PHÁ DỮ LIỆU
TRONG C ơ SỞ D ữ LIỆU VÀ THUẠT TOÁN SONG SONG
Đề tài nghiên cứu khoa học đặc biệt cấp Đại học Quốc gia Hà Nội
Mã số: QG 02-02
Chủ trì đề tải: TS. Hà Quang Thụy
Các cán bộ tham gia

1.
2.
3.
4.
5.
6.
7.
8.

9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.

Họ tên
TS. Đỗ Văn Thành
TS. Nguyễn Hải Châu
NCS. Phan Xuân Hiếu
Học viên Bùi Quang Minh
NCS. Đoàn Sơn
ThS. Nguyễn Trí Thành
NCS. Nguyễn Lê Minh
NCS. Phạm Thọ Hoàn
ThS. Phạm Thị Thanh Nam
ThS. Tiêu Thị Dự
ThS. Đặng Tiểu Hùng
ThS. Đo Cẩm Vân
Học viên Vũ Bội Hằng
Học viên ĐỒ Thị Diệu Ngọc
Cử nhân Nguyễn Thành Trung
Cử nhân Nguyễn Danh Hoàn

Cử nhân Bùi Đình Thi
Cử nhân Nguyễn Hương Giang
Cử nhân Đặng Thanh Hải
Cử nhân Nguyễn Hoài Nam

Cơ quan
Vãn phòng Chính phủ
Trường ĐH Công nghệ
Trường ĐH Công nghệ - JAIST
Trường ĐH Công nghệ, ĐHTH Freikfu
Trường ĐH Công nghệ - JAIST
Trường ĐH Công nghệ
Trường ĐH Công nghệ - JAIST
Đại học Sư phạm HN1 - JAIST
Viện CNTT - ĐHQGHN
Trung tâm CSE
Trung tâm CSE
Ngân hàng VPBank
Trường ĐH Công nghệ
Trường ĐH Công nghệ - ĐH Hàn Quốc
K44C, Trường ĐH Công nghệ K44C, Trường ĐH Công nghệ - FPT
K44, Khoa Toán - Cơ - Tin học
K45C Trường ĐH Công nghệ
K45C Trường ĐH Công nghệ
K45 A2 Khoa Toán-Cơ-Tin học

HÀ NỘI - 2004


BÁO CÁỌ TÓM TẤT NỘI DUNG VÀ KẾT QUẢ THỰC HIỆN ĐẺ TÀI

NGHIÊN CỨU KHOA HỌC ĐẶC BIỆT CẮP ĐẠI HỌC QUÓC GIA HÀ Nộ]
a) Tên đề tài

• Mã sè:

N ghiên cứu, triển khai ứng dụng khai phả dữ liệu trong Cơ
sở d ữ liệu và thuật toán song song
QG-02-02

b) Chủ nhiệm đề tài:
Hà Quang Thụy
Học vị: TSĐơn vị cồng tác: Bộ môn Các hệ thống thông tin
■ Thời gian nghiên cứu : 24 tháng
Từ tháng 9/2002 tới tháng 8/2004

c) Các cán bộ tham gia
Sít
Họ tên
1.
TS. ĐỖ Văn Thành
2.
TS. Nguyễn Hải Châu
3.
NCS. Phan Xuân Hiếu
Học viên Bùi Quang Minh
4.
NCS. Đoàn Sơn
5.
6.
ThS. Nguyễn Trí Thành

NCS. Nguyễn Lê Minh
7.
NCS. Phạm Thọ Hoàn
8.
ThS. Phạm Thị Thanh Nam
9.
10. ThS. Tiêu Thị Dự
11. ThS. Đặng Tiểu Hùng
12. ThS. Đỗ Cẩm Vân
13. Học viên Vũ Bội Hằng
14. Học viên Đỗ Thị Diệu Ngọc
15. Cử nhân Nguyễn Thành Trung
16. Cử nhân Nguyễn Danh Hoàn
17. Cử nhân Bùi Đinh Thi
18. Cử nhân Nguyễn Hương Giang
19. Cừ nhân Đặng Thanh Hải
20. Cử nhân Nguyễn Hoài Nam
d) Mục tiêu và nội dung nghiên cứu
o Mục tiêu cửa đề iài
-

Cơ quan
Vãn phòng Chính phủ
Trường ĐH Công nghệ
Trường ĐH Công nghệ - JAIST
Trường ĐH Công nghệ-ĐHTH Freikfu
Trường ĐH Công nghệ - JAIST
Trường ĐH Công nghệ
Trường ĐH Công nghệ - JAIST
Đại học Sư phạm HNI - JAIST

Viện CNTT - ĐHQGHN
Trung tâm CSE
Trung tâm CSE
Ngân hàng VPBank
Trường ĐH Công nghệ
Trường ĐH Công nghệ - ĐH Hàn Quốí
K44C, Trường ĐH Công nghệ
K44C, Trường ĐH Công nghệ - FPT
K44, Khoa Toán - Cơ - Tin học
K45C Trường ĐH Công nghệ
K45C Trường ĐH Công nghệ
K45A2 Khoa Toán-Cơ-Tin học

Tiếp tục hỉnh thành và phát triển đội ngũ cán bộ khoa học (trong và ngoài
ĐHQGHN) nghiên cứu và triển khai ứng dụng vê lĩnh vực Khai phá dữ


liệu trong Cơ sở dữ liệu (trước mát định hướng vào Cơ sờ dữ liệu - CSDL
Full-text và khai phá luật kết hợp), dù năng lực cài đặt ứng dụng và đề
xuất các bài đăng tạp chí, báo cáo khoa học, báo cáo hội thảo trong và
ngoài nước, thực hiện tốt việc đào tạo Thạc sỹ, Tiến sỹ chất lượng cao về
lĩnh vực nói trên.
-

Khảo sát bước dầu một hệ CSDL Ful]-text và cài đặt thử nghiệm một số
ủng dụng Khai phá dữ liệu (bài toán phân lớp, bài toán tìm kiếm) dối với
CSDL đã được khảo sát. Cài đặt được các tool ứng dụng thừ nghiệm trên
môi trường tính toán song song trong CSDL nói trên và một lĩnh vực áp
dụng cụ thể của một CSDL khác (trong lĩnh vực y tế, văn hóa,...).
Phấn đấu đến giữa năm 2003 hình thành một Website các nội dung nghiên

cứu của đề tài.

o

Nội dung nghiên cứu
- Nghiên cứu khía cạnh khoa học - cồng nghệ hiện đại đang được áp dụng
trong lý thuyết CSDL: tính phụ thuộc dữ liệu, tính chuẩn hoá, phương
pháp định hướng đối tượng v.v.
Nghiên cứu lý thuyết và cài đặt thử nghiệm ứng dụng lý thuyết độ do gần
đóng nói chung và độ đo lựa chọn thuộc tính nói riêng trong các CSDL
quan hệ phục vụ cho bài toán tìm kiếm và phân lớp,
- Nghiên cứu, khảo sát hệ thống PC-cluster và áp dụng thuậi toán song song
trong data mining dựa trên nền cùa hệ thổng PC-cluster đã dược cài dật,
Nghiên cứu và cài đặt một số thuật toán khai phá dữ liệu trong CSDL da
phương tiện (tnrớc mắt định hướng vào CSDL full-text).

e) Kết quả đạt được
1. Kết quả nghiên cứu, ỷ nghĩa khoa học
- Bốn (4) bài báo đã được đăng, nhận đăng và gửi đăng trên các tạp chí
khoa học: (1) Phan Xuan Hieu, Ha Quang Thuy. Parallel Mining for
Fuzzy Association Rules. Tin học và Điều khiển học 20(2), 2004, 121136; (2) Phạm Thị Thanh Nam, Bùi Quang Minh, Hà Quang Thụy. Giài
pháp tìm kiểm trang Web tương tự trong máy tìm kiểm Vielsaek. Tạp chi
Tin học và Điều khiển học (nhận đăng tháng 1-2004); (3) Ha Quang
Thuy and Nguyen Tri Thanh. A Web site representation method using
concept vectors and Web site classifications. Gửi đăng Tạp chí Tin học và
Điều khiển học thảng 7-2004; (4) v ề Bội Hằng, Nguyễn cẩm Tú, Đinh
Trung Hiếu. Phương pháp biểu diên trang Web và để xuẩí giải pháp hỏiđáp trong máy tìm kiêm Vinahoo. Gừi đăng Tạp chí khoa học, Đại học
Quốc gia Hà Nội, tháng 10-2004
Bốn (4) báo cáo khoa học tại Hội nghị quốc tế / quốc gia: (1) s. Doan and
S. Horiguchi, "A New Text Representation using Fuzzy Concepts in Text

Categorization", Proc. of the r 1 Int'l. Conf. on Fuzzy Systems and


Knowledge Discovery (FSKD), Vol.2, p.514-518, Nov, 2002, Singapore
(2) Phan Xuan Hieu, Ha Quang Thuy. Parallel Mining for Fuzzy
Association Rules. Hội thảo toàn quổc "Các lĩnh vực hiện đại của Công
nghệ Thông tin", Thái Nguyên (28-30/8/2003); (3) Đỗ Thị Diệu Ngọc,
Nguyễn Yen Ngọc, Nguyễn Thu Trang, Nguyễn Hoài Nam. Một sổ thuật
toán tính hạng trang Web và đề xuất giải pháp tính hạng trang trong máy
tìm kiếm Vinahoo. Báo cáo Hội nghị Hội thảo toàn quác "Các lĩnh vực
hiện đại của Công nghệ Thông tin'1 lần thứ VII, Đà Nằng, ] 8-20/8/2004;
(4) Đỗ Văn Thành, Phạm Thọ Hoàn, Phan Xuân Hiếu, Nguyễn Thành
Trung. Khám phá luật kểt hợp với độ ho trợ không giong nhan. Hội nghị
khoa học các nhà khoa học trẻ ĐHQGHN lần thứ 2, 21-12-2002;
Ba (3) báo cáo nghiên cứu khoa học sinh viên Khoa Công nghệ,
ĐHQGHN tháng 4-2004 trong dó có một báo cáo đạt giải nhất, 2 báo cáo
đạt giải nhl.
Nét chung nhất về ý nghĩa khoa học của các kết quả trên đây cho thấy các
nghiên cứu của đề tài dã được định hướng theo các nội dung nghiên cứu thời
sự nhất trên thế giói về khai phá song song luật kết hợp, Web mining và máy
tìm kiếm. Những kết quà nghiên cứu trong việc thử nghiệm tích hợp giải pháp
Web mining vào máy tìm kiếm tiếng Việt Vinahoo (đề tài phát triển máy tim
kiếm tiếng Việt trên cơ sở máy tìm kiếm mã nguồn mở ASPseek) cho thấy
đây là hướng di đủng, khả thi trong việc xây dựng máy tim kiếm tiếng Việt
đầu tiên có tích họp giải pháp khai phá Web.
2. Những kết quả đã được ứng dụng, triển khai
+ Sản phẩm công nghệ/khả năng ứng dụng thực tiễn
Xây dựng 5 sản phẩm thử nghiệm:
- Máy tìm kiếm tiếng Việt Vinahoo (trước đây gọi là VietSeek) với những
thử nghiệm về tìm kiếm theo nội dung các trang Web dã chạy thử nghiệm

tại mạng TTVNOnline với 7 triệu trang Web tiếng Việt (Bùi Quang Minh,
năm 2002. Xem Http://www.minhbq.addr.com/),
- Hai tools khai phá - song song luật kết hợp mờ FuzzyARM và
ParallelFARM (Phan Xuân Hiếu) chạy trên nền PC-cluster,
- Bổ sung và cài đặt giải pháp phân lớp Đayes, song song hóa thành phần
Crawling cho máy tìm kiếm Vinahoo (Nguyễn Hương Giang, Đặng Thanh
Hải. Http://www.fotech.vnu.edu.vn/vinahoo),
- Phần mềm thừ nghiệm dùng Data Mining tách âm tiết và nhận mẫu từ file
tiểng nói tại Trung tâm công nghệ thông tấn, Thông tấn xã Việt Nam với
kết quả bước đầu cho thấy khả năng có thê ứng dụng được (Bùi Đình Thi),
- Phần mềm MARAT khai phá luật kết hợp với độ hỗ trợ điều chỉnh được
(Nguyễn Thành Trung),
- Đâ tải được khoảng 17 GB các trang Web tiếng Việt cho Cơ sở dữ liệu
các trang Web tiếng Việt để thừ nghiệm,


-

Thiết lập và đưa vào hoạt động trang Web của nhóm nghiên cứu với địa
chỉ : Http:// www.fotech.vnu.edu.vn/vinahoo.
+ Sản phẩm đào tạo
- Bảy (7) luận văn thạc sỹ về khai phá dữ liệu và thuật toán song song:
(1) Đoàn Sơn. "Phương pháp biểu diễn văn bản sử dụng tập mờ và ứng
dụng trong khai phả dữ liệu văn bản" bảo vệ tháng 9-2002 (từ tháng 102002 là nghiên cứu sinh tại JAIST - Nhật Bản); (2) Tiêu Thị Dự. "Phát
hiện luật theo tiếp cận tập thô" bảo vệ 4-2003; (3) Phạm Thị Thanh Nam.
"Một sổ giải pháp cho bài toán tìm kiếm trong Cơ sở dữ liệu Hypertext"
bảo vệ 4-2003; (4) Phan Xuân Hiếu. "Khai phả song song luật kết hợp
mờ" bảo vệ 9-2003 (từ tháng 10-2003 là nghiên cứu sinh tại JAIST - Nhật
Bản); (5) Tào Thị Thu Phượng. "Song song hóa bước biểu diễn cây bát
phân trong thuật toán nhanh giải bài toán N-body và tính toán thử nghiêm

trên PC-cluster" bảo vệ tháng 3-2004; (6) Đặng Tiểu Hùng. "Phương
pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm idem Vỉetseek"
bảo vệ 5-2004; (7) Đỗ cẩm Vân. "Các thuật toán học mạng nơron theo
mô hình SOM và ứng dụng trong bài toán khách hàng ngân hàng" bảo vệ
5-2004.
- Mười hai (12) khóa luận tốt nghiệp đại học cử nhân Tin học và CNTT đã
bảo vệ có nội dung liên quan tới đề tài: Đỗ Thị Diệu Ngọc, Nguyễn Thành
Trung, Nguyễn Danh Hoàn (K44, Trường ĐH Công nghệ), Bùi Đình Thi,
Nguyễn Thị Kim Dung (K44, Khoa Toán-Cơ-Tin học, ĐHKHTN);
Nguyễn Hương Giang, Đặng Thanh Hải, Phạm Duy, Hoàng Tuấn Ninh,
Hoàng Gia Khải (K45, Trường ĐH Công nghệ), Nguyễn Hoài Nam,
Nguyễn Thị Thúy Hà (K45, Khoa Toán-Cơ-Tin học, ĐHKHTN).
- Chuẩn bị một phần nội dung cho các luận án tiến sỹ (trong nước hoặc gửi
đi nước ngoài): (1) Nghiên cứu sinh Nguyễn Lê Minh thực hiện đê tài tại
JAIST, bảo vệ cơ sở tháng 4 năm 2004, bảo vệ câp Nhà nước tháng 82004. (2) Ba nghiên cứu sinh Phạm Thọ Hoàn, Đoàn Sơn, Phan Xuân
Hiểu đang thực hiện đề tài tại JAIST; (3) Nghiên cứu sinh Hoàng Lan
Giao đang thực hiện đề tài "Khía cạnh đại số và lôgic khám phá luật theo
tiếp cận tạp thô" tại Viện Công nghệ thông tin (Viện KH và CNVN).
- Duy trì một (1) xemine khoa học sinh hoạt hàng tuân vê Data Mining,
thường xuyên cỏ 10 cán bộ và sinh viên tham gia,

3. Các kết quả khác
- Phát triển hiệu quả quan hệ đổi ngoại với Dự án liên kết quốc từ "Parallel
Computing Simulation and Parallel Algorithms for Data Mining" của Viện
Khoa học và Công nghệ tiên tiến Nhật Bản (Japan Advanced Institute of
Science and Technology - JAIST) do GS. Susumu Horiguchi (JAIST ĐHTH Honoku) chủ trì. Xác lập và phát triển mối quan hệ hợp tác với
GS. Arika Shimazu (JAIST). Duy trì và phát triển mối quan hệ với GS.
Hồ Tú Bảo (JAIST), PGS. Nguyễn Hùng Sơn (Đại học Tổng hợp
Warsaw). Từ mối quan hệ quốc từ của đê tài với JAIST, đã có bôn (4)



thành viên làm NCS và một (1) thành viên đi trao đổi khoa học thòi gian
hai tuần.
-

Tổ chức đón tiếp và làm việc với GS. Horiguchi tháng 2-2003.
Thu thập được một khối lượng đáng kể (khoảng 1 GB các file dưới dạng
nén) các tài liệu khoa học có giá trị về các lĩnh vực nghiên cứu Data
Mining nói chung, Text Mining và Web Mining nói riêng dược xuất bản
khoảng 5 năm trở lại đây.
J) Tính hình kinh p h í của đề tài
Tổng kin h phí: 60.000.000 đ trong 24 tháng (8/2002 - 7/2004).
Mã muc Tên mục
Sè tiền
110
Mua vật tư, sách, tài liệu cho công tác chuyên môn
3.064.000
và sao chụp tài liệu
111
Thông tin liên lạc, Fax, thư tín, truy nhập Internet
4.777.000
10.700.000
112
Hội nghị, seminar
113
Công tác phí
600.000
Chi phí thuê mướn
30.700.000
114

Hoạt động chuyên môn
119
10.159.000
145
Mua sắm tài sản cổ định (máy tính, nổi mạng)
0
60.000.000
Tổng cộng
Báo cáo sử dụng kinh phí có xác nhận cùa cơ quan chủ trì được trình bày
trong phần sau.
Một sổ điểm đáng chủ ý sau đầy về tình hình kinh phí thực hiện đề tài:
- Đề tài đã dành một khoản kinh phí quan trọng cho việc duy trì seminar
thường xuyên hàng tuần (seminar chung, seminar cùa nhóm Vinahoo)
nhằm tăng cường trao đổi, nâng cao kiến thức và trình độ của các thành
viên đề tài. Những nội dung nghiên cứu điển hình nhất công bố năm 20032004 dã dược trinh bày trong các seminar thuộc Đề tài. Những nghiên cửu
hiện tại và tương lai của nhóm chính là kết quả hoạt dộng của seminar,
- Kinh phí thuê mướn (114) và Hoạt động chuyên môn (119) dành cho hoạt
động chuyên môn trong đã:
> Kinh phí hỗ trợ trả lưomg cho thực tập sinh. Thường xuyên dề
tài có tới 3-5 thực tập sinh khoa học và đề tài đã hỗ trợ 50%
phần ìương hợp đồng cho số thực tập sinh này. Một mặt, các
thục tập sinh này thực hiện các nghiên cứu cùa đề tài, mặt khác,
từ nội dung nghiên cứu các thực tập sinh hoàn thiện luận vãn
cao học của mình,
> Được sự hỗ trợ của Ban Chù nhiệm Khoa Công nghệ (Trường
ĐH Công nghệ hiện nay), kinh phí đề tài đã chi cho việc đón
tiếp GS. Susumu Horiguchi (thuộc Viện Khoa học và Công
nghệ tiên tiến Nhật Bản - JAIST), nhà khoa học Nhật Bản có



nhiều dóng góp dào tạo cán bộ trẻ cho Trường ĐH Công nghệ
và nhóm “Khai phá dữ liệu và Phát hiện tri thức trong CSDL".
Vói điều kiện có được nguồn kinh phí thích hợp, chủng tồi tin tưởng rằng
nhóm "Khai phá dữ liệu và Phát hiện tri thức trong CSDL" trường Đại học
Công nghệ ĐHQGHN trở thành một nhóm nghiên cứu mạnh của
ĐHQGHN và Việt Nam, có thể tiếp cận trình độ khu vực và thế giới về
lĩnh vực nghiên cứu này.
Chủ trì đề tài

-0

Ịu

y

TS. Hà Quang Thụy


BẢO CÁO TÓM TẤT BẰNG TIÉNG ANH

a) Tên đề tài
Researching and Applied Realization of Data Mining Methods in Databases
and Parallel Algorithms
b) Mail results
• Main scientific research results
Four (4) published / submined articles on science magazine,
- Four (4) science reports in national / international conferences.
- Three (3) science reports of students of Faculty of Technology, Vietnam
National University, in March 2004, among them, one report won first
prize, two won second prize.

The scientific meaning of these results in the research is the hottest trends
in the World about association rule parallel mining, Web mining and serch
engine. Research results in applying above Web mining solutions in
Vietnamese search engine (developed from an open source search engine
ASPseek) show this is a coưect approach and feasible to build the first
Vietnamese search engine, which is integrated with Web mining solutions.
• Implemented, applied results
+ Technology product / reality application
Build five experimental products:
- Vietnamese search engine Vinahoo (previously called VietSeek), which is
experimentally implemented Web content searching,
- Two mining tools: association rule mining (ARM) and parallel fuzzy
association rule mining (ParallelFARM) run on PC-cluster,
- Improved and implemented Bayesian Web classification algorithm on
search engineVinahoo; parallelized Crawling module of Vinahoo search
engine,
Experimental software applying Data mining for syllable separation and
speech pattern recognition,
- MARAT software for association mining with adjustable support,
- Downloaded 17 GB Vietnamese Web pages for testing,
- Set
up
a
Website for seminar group
at URL http://
www.fotech.vnu.edu.vn/vinahoo.
+ Education products
- Seven (7) master theses about data mining and parallel algorithms,
- Twelve (12) Informatics and Information Technology bachelor theses
related to this defended project,

- Prepared partial contents for PhD theses,


Keep weekly seminar about data mining with usual attendance of more
than 10 staffs and students,

Other results
Effectively keep foreign relationship with international association
project: "Parallel Computing Simulation and Parallel Algorithms for Data
Mining" of Japan Advanced Institute of Applied Science and Technology
(JAIST),
Collect a large amount (about 1 GĐ compressed flies) of useful science
reports about current Data Mining, Text mining and Web mining research
trends, which are published 5 years recently.
Upgrating international co-operations between the group “Data Mining
and Knowledge Discovery in Databases” in the College of Applied
Sciences and Technology, VNUH with some scientific researching groups
in Japan, Poland... to exchange documents and reseachers. Welcomed and
worked with Professor Horiguchi in February -2003.


[ HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ

CỘNG HÒA XA HỘI CHỦ NGHIA VIỆT NAM
Đ ộc lậ p T ư do H ạ n h p h ú c

BÁO CÁO QUYẾT TOÁN KINH PHÍ ĐỀ TÀI ĐẶC BIỆT CẤP ĐẠI HỌC QUỐC GIA HÀ NỘI
Tên đề tài: Nghiên cứu, triển khai ứhg dụng khaiphá dữ liệu trong Cơ sở dữliệu và thuật toán song song
Mã số: QG-02-02

Tổng kinh phí: 60.000.000 VNĐ
Chủ nhiệm đề tài: TS. Hà Quang Thụy

nục
110
UI
112
113
114
119
145

Tên m ục nội dung chi
Mua vật tư, sách, tài liệu cho công tác chuyên môn và sao chup tài liêu
Thông tin liên lạc, Fax, thư tín, truy nhập Internet
Hội nghị, xêmine
Công tác phí
Chi phí thuê mưốn
Hoạt dộng chuyên môn
Mua sắm tài sản cố định (máy tính, nối mạng)
Tổng công

Tình hình chi
Năm 0 3 Tổng cộng
Năm 2002
0
3.064.000
3.064.000
1.733.000
3.044.000

4.777.000
3.790.000
6.910.000 10.700.000
600.000
0
600.000
18.300.000 12.400.000 30.700.000
5.577.000
4.582.000 10.159.000
0
0
0
30.000.000 30.000.000 60.000.000

(Bàng chữ: Sáu mươi triệu dồng chẩn)
Thủ trưởng dơn vị
----- R 4 p CHỦ N n ir

Bộ phận tài vụ
KHC -

Hà Nội, ngày 20 tháng 5 năm 2004
Chủ nhiệm dề tài


MỤC LỤC

Nội dung
Trang
Báo cảo tôm tắt nội dung vàkểí quả thực hiện đề tài nghiên cứu khoa học

2’
đặc biệt cấp Đại học Quốc gia Hà Nội
Bảo cáo tình hình sử dụng kinh phí của đề tài
10>
Mục lục
ỊỊ :
Báo cáo tồng quan về hoạt động chuyên môn của đề tài
J4'
Mở đầu
14'
Nội dung nghiên cứu chinh
75»
ì. Khai phả ỉuật
/5i
2. Khai phá text và Khai phá Web
Ỉ8<
3. Máy tìm kiếm với tích hợp giái pháp khai phá Web
21'
Các hoại động chuyên môn khác
23 ’
Keí luận
25 ■
Tài liệu tham khảo
25'
Phụ lục
32 ’
Tài liệu khoa học - kỹ íhuậí kểtquả của đề tài
47 ’
A. Các bài báo đăng tạp chi và gửi đăng tạp chí
48 >

A l. Phan Xuan Hieu, Ha Quang Thuy. Parallel Mining for Fuzzy
49 1
Association Rules. Tin học vả Điều khiển học 20(2), 2004, 121-136
A2. Phạm Thị Thanh Nam, Bùi Quang Minh, Hà Quang Thụy. Giải
65 i
pháp tìm kiểm trang Web tương tự trong máy tìm kiếm Vieíseek.
(Tạp chí Tin học và Điều khiển học nhận dăng tháng 1-2004)
A3. Ha Quang Thuy and Nguyen Tri Thanh. A Web site representation
78 ỉ
method using concept vectors and Web site classifications. Gửi
đăng Tạp chi Tin học và Điều khiển học tháng 4-2004
A4. v ề Bội Hăng, Nguyễn cẩm Tú, Đinh Trung Hiếu. Phưomg pháp
85 '
biểu diễn trang Web và để xuất giải pháp hòi-đảp trong máy lìm
kiểm Vinahoo. Gửi dăng Tạp chí khoa học, Đại học Quốc gia Hà
Nội
B. Các bảo cáo khoa học tại Hội thảo
93 ỉ
Bì. Son Doan, Susumu Horiguchi, "A New Text Representation Using
94 <
Fuzzy Concepts in Text Categorization", Proceeding of the 1st
International Conference on Fuzzy Systems and Knowledge
Discovery (FSKD 2002), Vol.2, p.514-518, November 2002,
Singapore, ISBN 981-04-7520-9
B2. Phan Xuan Hieu, Ha Quang Thuy. Parallel Mining for Fuzzy
101 '


Association Rules. Hội thào toàn quốc "Các lĩnh vực hiện đại của
Công nghệ Thông tin", Thái Nguyên, 28-30/8/2003

B3. Đô Thị Diệu Ngọc, Nguyền Yên Ngọc, Nguyễn Thu Trang,
Nguyen Hoài Nam. Một sổ thuật toán tính hạng trang Web và đề
xuât giải pháp tinh hạng trang trong máy tỉm kiểm Vinahoo. Báo
cáo Hội nghị Hội thảo toàn quốc "Các lĩnh vực hiện đại cùa Công
nghệ Thông tin" lần thứ VII, Đà Năng, 18-20/8/2004
B4. Đô Văn Thanh, Phạm Thọ Hoàn, Phan Xuân Hiếu, Nguyễn Thành
Trung. Khảm phả luật kết hợp với độ hỗ trợ không giống nhau. Hội
nghị khoa học các nhà khoa học trẻ ĐHQGHN lẩn thứ 2, Hà Nội,
12-2002,113-122
c. Một sổ bảo cảo nghiên cứu khác
Cỉ. Nguyên Trí Thành. Phân tích cấu trúc hệ thống máy tỉm kiếm
Vietseek. Báo cáo seminar đề tài, 11-2003.
C2. Nguyễn Hương Giang, Đặng Thanh Hải. Phân lớp và giải pháp
song song quá trình indexing trong máy tìm kiếm Vinahoo. Báo
cáo Hội nghị Khoa học sinh viên Khoa Công nghệ, 04-2004 (giải
nhì).
C3. Vũ Bội Hằng, Nguyễn cẩm Tú, Đinh Trung Hiếu. Phương pháp
biểu diễn trang Web và đề xuất giải pháp hỏi - đáp trong mảy tìm
kiểm Vinahoo. Báo cáo Hội nghị Khoa học sinh viên Khoa Công
nghệ, 04-2004 (giải nhì).
C4. Bui Quang Minh. CLOSET Algorithm fo r Mining Frequent Closed
Itemsets. Seminar Report. Institut ftir Informatik, Universitat
Freiburg.
D. Bìa luận văn cao học, khóa luận đại học
D I. Đoàn Sơn. Phương pháp biểu diễn văn bản sử dụng tập mờ và
ứng dụng trong khai phá dữ liệu văn bản. Luận văn cao học, Khoa
Công nghệ, ĐHQGHN, 9-2002
D2. Phạm Thị Thanh Nam. Mảy tìm kiếm Vietseek và thừ nghiệm
thuật toán tìm kiếm theo nội dung, Khoa Công nghệ, ĐHQGHN, 4*
2003

D3. Phan Xuân Hiếu. Khai phá song song luật kết hợp mờ. Luận văn
cao học, Khoa Công nghệ, ĐHQGHN, 9-2003
D4. Tào Thị Thu Phượng. Song song hóa bước biểu diên cây bát phân
trong thuật toán nhanh giải bài toán N-body và tỉnh toán thử
nghiệm trên PC-cluster. Luận vãn cao học, Khoa Công nghệ,
ĐHQGHN, 4-2004
D5. Đặng Tiểu Hùng. Mảy tìm kiếm Vietseek và thử nghiệm thuật toán
tìm kiếm theo ngữ nghĩa lân cận siêu liên kểt. Luận văn cao học,
Khoa Công nghệ, ĐHQGHN, 5-2004

121

130

140
141
147

179

219

226
227

228

229
230


231


D6. Đồ Cẩm Vân. ứng dụng mô hình SOM trong bài toán quản lý
khách hàng vay vôn ngân hàng. Luận văn cao học, Khoa Công
nghệ, ĐHQGHN, 5-2004

232

D7. Đỗ Thị Diệu Ngọc, về một so giải pháp phân lớp và tìm kiếm
trong Cơ sờ dữ liệu Web. Khóa luận tốt nghiệp đại học, Khoa Công
nghệ, ĐHQGHN, 6-2003
D8. Nguyễn Danh Hoàn Giải pháp rời rạc hỏa dữ liệu và phát hiện
luật sử dụng siờu phang theo hướng tiểp cận tập thô. Khóa luận tốt
nghiệp đại học, Khoa Công nghệ, ĐHQGHN, 6-2003
D9. Nguyễn Thành Trung. Thuật toán khai phả luật kết hợp với độ
hap dan hiệu chỉnh được. Khóa luận tốt nghiệp đại học, Khoa
Công nghệ, ĐHQGHN, 6-2003
D Ỉ0 Bùi Đình Thi. ứng dụng Data Mining xây dựng công cụ ho trợ
quả trình chuyển file âm thanh sang file văn bản. Khóa luận tốt
nghiệp đại học, Khoa Toán - Cơ - Tin học, ĐHKHTN, ĐHQGHN,
6-2003
D I 1. Nguyễn Thị Kim Dung Phân tích, thiết kế và cài đật thừ nghiệm
chức năng tìm kiếm trong Cơ sở dữ liệu Hypertext. Khóa luận tốt
nghiệp đại học, Khoa Toán - Cơ - Tin học, ĐHKHTN, ĐHQGHN,
6-2003
E. Quyết định hướng dẫn Nghiên cứu sinh Hoàng Thị Lan Giao
F. Phiếu đăng ký đề tài nghiên cứu khoa học đặc biệt cap Đại học Quốc
gia Hà Nội
Phiếu đăng k i kết quả nghiên cứu khoa học - công nghệ


233

234

234

235

236

237
238
245


BÁO CÁO TỔNG QUAN VỀ HOẠT ĐỘNG CHUYÊN MÔN
CỦA ĐÈ TÀI
MỞ ĐẦU
Lĩnh vực khai phá dữ liệu và phát hiện tri thức trong các CSDL, một lĩnh
vực nghiên cứu thời sự hiện nay ứên thế giới, được phát triển rất manh mẽ. Bắt
đầu hoạt động từ năm 1998, nhóm nghiên cứu "Khai phá dữ liệu và Phát hiện tri
thức trong các cơ sở dữ liệu” tại Trường Đại học Công nghệ ĐHQGHN (ĐHCN)
với hoạt động seminar thường xuyên hàng tuần đã thu hút được nhiều cán bộ và
sinh viên trong và ngoài ĐHQGHN tham gia, và vì vậy đạt được một số kết quả
bựớc đầu. Kết quả thực hiện các đề tài cấp ĐHQGHN (đề tài QT 98-03 "Lập luận
xâp xỉ và ứng dụng", đề tài QC-01-05 "Hệ điều hành Linux: Nghiên cứu và triển
khai trong hoạt động của Trường ĐH Công nghệ-ĐHQGHN và ờ Việt Nam") mà
nhóm đã thực hiện trong thời gian trước đây được ghi nhận bằng các kết quả
nghiên cứu thuần túy lý thuyết về độ đo phụ thuộc thuộc tính [14], về các thuật

toán học máy mô tả phức, về song song hóa các giải pháp khai phá dữ liệu [27]
hoặc khảo sát về khai phá text (chủ yếu quan tâm đến bài toán biểu diễn và phân
lớp văn bản) [26,28-30]. Đề tài cấp ĐHQG HN đặc biệt mã số QG 02-02 được
tiến hành để phát triển những kết quả bước đầu của những đề tài nói ữên.
Thời gian năm năm gần đây ghi nhận sự phát triển vượt bậc của lĩnh vực
khai phá dữ liệu và phát hiện tri thức trong các CSDL. Các giải pháp liên quan
đến việc phân tích và giải quyết các bài toán khai phá dữ liệu được tiến hành theo
những cách thức linh hoạt hơn nhằm tăng hiệu quả của quá trinh khai phá dữ
liệu. Tronẹ sự phát triển nhanh chóng và đa dạng cùa lĩnh vực nghiên cứu rộng
lớn này, đe tài QG-02-02 được định hướng tới một số khía cạnh được trình bày
như dưới đây.
Đối với bài toán phát hiện luật và cây quyết định, nhiều phương pháp đa
dạng ừong việc trình bày và phát hiện luật đã được đề xuất thêm. Một mặt, nhiều
nghiên cứu nồi bật đã được định hướng tới các phương pháp biểu diễn luật kết
hợp có tính tới trọng sổ khác nhau đối với các thuộc tính khác nhau và như vậy,
các giải pháp khai phá luật cũng được phát triển, mở rộng để tương ứng với việc
mở rộng khái niệm luật kết hợp [33,36,41-43,49,52,54,55,57,66,72,74-76]. Mặt
khác, khi quan tâm tới miền giá ừị các thuộc tính, nhiêu giải pháp tích hợp yêu tố
mờ vào luật kết hợp hoặc khai phá luật (mẫu) dựa theo mô hình tập thô cũng
được nghiên cứu. Hom nữa, mô hình khai phá dữ liệu song song cũng tiếp tục
được nghiên cứu và phát triển. Theo xu thê nghiên cứu đó, các thành viên cùa đê
tài cũng đạt được một số kết quả nghiên cứu bước đẩu [23,26,27].
Trong xu thế phát triển nhanh của khai phá dữ liệu thì nổi bật nhất là sự
phát triển vượt bậc của lĩnh vực khai phá text, Web ngữ nghĩa và khai phá Web.
Những nôi dung nghiên cứu này đã nhận được sự quan tâm đặc biệt của các nhà
khoa học, các nhóm nghiên cứu trên toàn thế giới. Nhiều hội thảo quốc từ được
tổ chức nhiều công trình khoa học được công bô trên các tạp chí khoa học, các


trang thông tin điện tử [34,37,38,40,45,47,48,50,51,58-61,67-69,73,78-83,85-87],

Ngoài ra, trong phần phụ lục của báo cáo này cũng giới thiệu một sá két quả khác
về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong các cơ sở dữ liệu.
Phù hợp với xu thế phát triển chung nói trên của thể giới khoa học, nhất
quán và là sự phát triển mới của các nghiên cứu mà nhóm đã thực hiện trong các
dề tài trước đây, nội dung nghiên cứu được tiến hành trong khuôn khổ Đê tài
QG-02-02 được định hướng vào các nội dung là khai phá luật, khai phá text khai phá Web và tích hợp giải pháp khai phá Web trong máy tìm kiếm.
Phần tiếp theo cùa báo cáo này trình bày những nội dung và kết quả
nghiên cứu chính của dề tài trong thời gian thực hiện từ tháng 8-2002 tỏi
tháng 7-2004.

NỘI DUNG NGHIÊN c ứ u CHÍNH
1. Khai phá luật
Kể từ khi được R. Agrawal đề xuất vào năm 1993 [75], lĩnh vực khai phá
luật kết hợp đến nay đã được nghiên cứu vả phát triển theo nhiều hướng khác
nhau. Có những đề xuất nhàm vào cải tiến tốc độ thuật toán, có những đề xuất
nhằm tim kiếm luật có ý nghĩa hơn, v.v. Sau đây là một sổ hướng chính.
• Luật kết hợp nhị phân (binary association rule hoặc boolean association
rule): là hướng nghiên cứu đầu tiên của luật kết hợp. Hầu hết các nghiên
cứu ở thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợp nhị
phân [49,74,75], Trong dạng luật kết hợp này, các mục (thuộc tính) chi
dược quan tâm là có hay không xuất hiện trong giao dịch cùa CSDL chứ
không quan tâm về “mức độ” xuất hiện. Thuật toán tiêu biểu nhấỉ khai
phá dạng luật này là thuật toán Apriori và các biến thể cùa nó [74]- Đây
là dạng luật đơn giản và như sau này ỉa biết các dạng luật khác cũng có
thể chuyển về dạng luật này bằng một số phương pháp như rời rạc hóa,
mờ hóa, .v.v.
• Luật kết hợp có thuộc tính sổ và thuộc tính hạng mục (quantitative and
categorical association rule): các thuộc tính của các CSDL thực từ có
kiểu rất đa dạng (nhị phân - binary, số - quantitative, hạng mục categorical, .V.V.). Để phát hiện luật kết hợp với các thuộc tính này, các
nhà nghiên cửu dã để xuât một số phương pháp rời rạc hóa nhăm chuyển

dạng luật này về dạng nhị phân dể có thể áp dụng các thuật toán đã có
[71,72].
• Luật kết hợp mờ (fuzzy association rule): với những hạn chế còn gặp
phải trong quá trình rời rạc hóa các thuộc tính so (quantitative
attributes), các nhà nghiên cứu dã đề xuât luật kết hợp mờ nhàm khấc
phục những hạn chế ừên và chuyển luật kết hợp về một dạng tự nhiên
hơn, gần gũi hom với người sử dụng [36,41],

-Ì 5 -


• Luật kểt hợp nhiều mức (multi-level association rules): ngoài các dạnẹ
luật trên, các nhà nghiên cứu còn đề xuất một hướng nghiên cứu nữa ve
luật kết hợp là luật kết hợp nhiều mức [76].
• Luật kết hợp với thuộc tính được đánh trọng số (association rule with
weighted items): trong thực tể, các thuộc tính trong CSDL không phải có
vai trò ngang băng nhau. Có một số thuộc tính được chú trọng và lúc đó
ta nói những thuộc tính đó có mức độ quan trọng cao hơn các thuộc tính
khác. Đây là một hướng nghiên cứu rất thú vị và dã được một sá nhà
nghiên cứu đề xuất cách giải quyết bài toán này. Với luật kết hợp có
thuộc tính được đánh trọng sổ, chúng ta sẽ khai phá được những luật
mang rất nhiều ý nghĩa, thậm chí là những luật “hiểm” (tức có độ hỗ trợ
thấp, nhimg mang một ý nghĩa đặc biệt).
• Đên cạnh những nghiên cứu về những biến thể cùa luật kết hợp, các nhà
nghiên cứu còn chú trọng đề xuất những thuật toán nhàm tăng tốc quá
trình tỉm kiếm tập phổ biến từ CSDL. Người ta chứng minh rằng, chi
cần tlm kiếm những tập phổ biến tái đại (maximal ữequent itemsets) là
đủ đại diện cho tập tắt cả các tập phổ biến (xem thuật toán MAFIA
[42]), hoặc chỉ cần tỉm tập các tập phổ biến đóng (closed itemsset) là đủ
(xem thuật toán CLOSET [54J và thuật toán CHARM [62]). Những

thuật toán này cải thiện đáng kể về mặt tổc độ do áp dụng được những
chiến lược cất tia “tinh xảo” hơn các thuật toán trước dó.
• Khai phá luật kết hợp song song (parallel mining of association rules):
bên cạnh khai phá luật kết hợp với các giải thuật tuần tụ, các nhà làm tin
học cũng tập trung vào nghiên cứu các giải thuật song song cho quá
trình phát hiện luật kết hợp. Nhu cầu song song hóa và xử ]ý phân tán là
cần thiết bởi kích thuớc dữ liệu ngày càng lớn nên đòi hòi tác độ xử lý
cũng như dung lượng bộ nhớ cùa hệ thống phải được đảm bảo. Có rất
nhiều thuật toán song song khác nhau đã được đê xuât [33,57,72,43,66,
64,70], chúng có thể phụ thuộc hoặc độc lập với nền tàng phần cứng.
• Luật kết hợp tiếp cận theo hướng tập thô (mining association rules based
on rough set): tìm kiếm luật kết hợp dựa trên lý thuyết tập thô
[31,32,53,65,83,90],
• Ngoài ra, còn một số hướng nghiên cứu khác về khai phá luật kết hợp
như: khai phá luật kết hợp trực tuyến, khai phá luật kết hợp dược kết noi
trực tuyến đến các kho dữ liệu đa chiều (multidimensional data, data
warehouse) thông qua công nghệ OLAP (Online Analysis Processing),
MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP), ADO
(ActiveX Data Object) for OLAP .v.v.
Kểt quả nghiên cứu chính của đề tài về nội dung này được thề hiện trong
các công trình cùa Phan Xuân Hiếu, Hà Quang Thụy [3,8], Đỗ Văn Thành, Phạm
Thọ Hoàn, Phan Xuân Hiếu, Nguyễn Thành Trung [5], nội dung các luận văn cao
học của Phan Xuân Hiếu, Tiêu Thị Dự, Đỗ Cam Vân, Tào Thị Thu Phượng

-16-


[11,13-15] và các khóa luận tốt nghiệp của Nguyễn Thành Trung, Nguyễn Danh
Hoàn, Bùi Đình Thi [16,18,19].
Trong [8] và tiếp theo đó trong [3], Phan Xuân Hiểu, Hà Quang Thụy đã

trình bày các thuật toán khai phá và khai phá song song song luật kết hợp mờ.
Đẩu tiên các tác giả trình bày nội dung về luật kết hợp mờ, độ hỗ trợ và độ tin
cậy trong ngữ cảnh của luật kết hợp mờ. Sau đó, qua khảo sát thuật toán tìm luật
kêt hợp mờ trong [36,41] và dựa trên thuật toán Apriori cùng với một vài sửa đôi
nhỏ, bài viết đề xuất một thuật toán khai phá luật kết hợp mờ (FuzzyARM). Kết
quả quan trọng hơn là các tác giả đã đe xuẩt một thuật toán song song mới
(ParallelFARM) áp dụng cho bài toán khai phá luật kết hợp mờ. Theo thuật toán
này, các bộ xử lý trong hệ thống giảm được tối đa công việc truyền thông và
đồng bộ hỏa trong suốt quá trình tính toán. Lý do thuật toán hoạt động khá hiệu
quả là việc chia tập thuộc tính ứng cử vừa công bằng vừa khôn khéo. Yếu tố
công bằng được đảm bảo bằng cách tập ứng cử viên được chia đều cho các bộ xử
lý, còn yếu tố khôn khéo được đảm bảo nhờ cách các tập ứng cử viên sau khi
chia cho từng bộ xử lý là hoàn toàn độc lập với nhau. Các tác giả cũng trình bày
kết quả chạy thực nghiệm các sản phẩm phần mềm Fuzzy ARM và ParallelFARM
trên các tập dữ liệu chuẩn (heart disease diagnosis * George John, October 1994,
statlog-adm @ ncc.up.pt. bob@ stam s■Strathclyde.ac ■uk. diabetes disease, auto and
vehicle - Drs.Pete Mowforth and Barry Shepherd, Turing Institute George House
36 North Hanover St. Glasgow GI 2AD). Ket quả nghiên cứu trong luận văn cao
học của Phan Xuân Hiếu [13] là khởi đầu của các công trình nói trên.
Trong [5], Đỗ Văn Thành, Phạm Thọ Hoàn, Phan Xuân Hiếu, Nguyễn
Thành Trunẹ quan tâm tới xu thế mở rộng khái niệm luật kết hợp thông qua khái
niệm luật kêt hợp với độ hỗ trợ thuộc tính không giống nhau đã được đê cập
trong một số công trình [42,54,62,71,74,89], Trong cách tiếp cận này, vai trò của
các mục (thuộc tính) không đồng nhất, một số mục được coi là "quan trọng hom"
các mục khác trong khai phá luật. Điều đó được thi hành băng cách găn kêt các
giá trị độ hỗ trợ tối thiểu (minsup) khác nhau đổi với các mục khác nhau. Trên cơ
cở của thuật toán CHARM, các tác giả đề xuất thuật toán NEW-CHARM khai
phá luật kết hợp với độ hỗ ượ không giống nhau định hướng tới việc lý giải ý
nghĩa của tập được sinh ra và hiệu quả khi thi hành thuật toán.
Cũng phát triển nghiên cứu luật kết hợp theo hướng nói ứên, Nguyễn

Thành Trung [19] đề xuất khái niệm độ hấp dẫn ữong khai phá luật kết hợp.
Theo cách tiếp cận này, độ hấp dẫn của luật được biểu diễn dựa ừên độ hỗ trợ
của các tập mục. Với khái niệm độ hấp dẫn điều chinh được, người sử dụng được
phép tùy biến đưa ra tham số hệ thống theo để tìm ra các luật “hấp dẫn” mình.
Một kết quả đáng ghi nhận là tác giả đã đề xuất và cài đặt sản phẩm phần mềm
khai phá luật với độ hấp dẫn tùy biến với tên gọi là MARAI (Mining Association
with Adjustable Interestingness). Kết quả thử nghiệm chứng tỏ thuật toán hoạt
động tốt và luật được phát hiện là có ý nghĩa.
Các kết quả nghiên cứu của Tiêu Thị Dự [15] và Nguyễn Danh Hoàn [18]
là sự tiếp tục hướng nghiên cứu mà nhóm đã tiến hành về khai phá luật theo tiếp


cận tập thô [23,27]. Thông qua việc khai thác bộ công cụ ROSETTA [31,84],
Tiêu Thị Dự [15] đã bước đầu áp dụng khai phá luật kết hợp theo tiếp cận tập tho
đoi với một bài toán quản lý thông tin xuất nhâp cảnh. Tác giả kiến nghị một
phương án tiền xử lý dữ liệu trong quá trinh áp dụng ROSETTA là phục hồi giá
trị thiêu văng băng giá trị có sổ lần xuất hiện nhiều nhất trong các đối tượng
không phân biệt được từ các thuộc tính còn lại. Theo các gợi mờ được đề cập
trong [32], Nguyên Danh Hoàn [18] trình bày phương pháp rời rạc hoá đữ liệu
theo hướng tiêp cận tập thô có sử dụng mô hình SVM và xây dựng chương trinh
thử nghiệm phát hiện luật băng cách sử dụng siêu phẳng tối ưu theo hướng tiếp
cân tập thô. Chương trình chạy thử nghiệm trên bộ dữ liệu chứa thông tin về 768
bệnh nhân bị bệnh tiểu đường do tổ chức "National Institute o f Diabetes and
Digestive and Kidney Diseases" cung cấp. Qua hệ thống luật kết quả thực
nghiệm thuật toán cây quyết định, tác giả cũng trình bày các đề xuất hỗ trợ công
việc khám bệnh của các bác sĩ.
Trong [11], Đỗ cẩm Vân ứng dụng thuật toán SOM theo phương pháp
mạng neuron để giải quyết bài toán phân cụm dữ liệu tại ngân hàng. Thông qua
việc khai thác bộ công cụ SOM Toolkit (được phát triển từ Trường Đại học
Hensinhky) vào bài toán phân tích thông tin khách hàng ngân hàng, tác giả đã

nhận được kết quả phân cụm khách hàng tiền gửi mà theo nghiệp vụ ngân hàng
là có giá trị. Bùi Đình Thi [16] ứng dụng giải pháp khai phá dữ liệu đối với bài
toán nhận dạng các từ trong file âm thanh tiếng Việt tại Thông tấn xã Việt Nam.
Tác giả đã trình bày quá trình tiến hành tách và nhận dạng âm tiết, vấn đề xác
định bộ tham số tách âm tiết, kết qỊuả thử nghiệm chương trình tách âm tiết. Tào
Thị Thu Phượng [14] quan tâm đen sự phát triển các ứng dụng song song trên
nền một cụm máy tính nhằm chuẩn bị nền tảng tính toán ừong việc phát triển các
giải pháp khai phá dữ liệu song song như Phan Xuân Hiếu, Hà Quang Thụy đã
tiến hành [3, 8, 13].

2. Khai phả Text và khai phả Web
Trong sự phát triển nhanh chóng của lĩnh vực khai phá dữ liệu và phát
hiện tri thức trong cơ sở dữ liệu thì khai phá text và khai phá Web đang trờ thành
lĩnh vực nổi bật nhất trong thời gian từ năm 2000 ữở lại đây. Với sự phát triển
mạnh mẽ của công nghệ Internet, đặc biệt là công nghệ Web, từ những năm 1990
thì các hệ thống CSDL phức tạp kết hợp với hệ thống thông tin toàn cầu dựa trên
Web đóng một vai trò quan trọng trong công nghiệp thông tin [52,79]. Mặt khác,
mối liên hệ mật thiết cùa mỗi người dùng với thông tin văn bản, và thêm vào đó
là tính đa nghĩa của ngôn ngữ tự nhiên đòi hỏi sự phát triền các công cụ khai phá
Text và khai phá Web. Nhiều hội thảo khoa học được tồ chức hàng năm, nhiều
công trình nghiên cứu được công bố về lĩnh vực này, chằng hạn như WebKDD99 WebKDD-2000 và nhiều công trình khác [34,38,40,44,45,48,50,51,56,5861,69,78-80,88,92).
Đúng như s. Ananyan đã khẳng định trong [79], nhu cầu về các công cụ
hỗ trợ khai phá Text và khai phá Web của hàng ừãm triệu người có hoạt động


thường xuyên liên quan Web đằ thúc đẩy sự phát triển nhanh chóng của lĩnh vục
nghiên cứu nói trên. Song song với các công trình nghiên cứu, một số sản phẩm
khai phá Text và khai phá Web đã được đưa vào sử dụng, điển hình là các sản
phẩm như TextAnalyst*, Texừactor*, WebAnalyst cùa công ty Megaputer
Intelligence Inc. (1 hoặc WebFoudation của IBM.

Phần Phụ lục của báo cáo tổng quan này cung cấp một số thông tin liên quan tới
các công cụ dó.
Theo [79], các bài toán điển hình trong khai phá text là:
• Tìm kiếm (Search and retrieval): Quá trình tìm kiếm văn bản theo yêu
cầu của người dùng. Yêu cầu được thể hiện dưới dạng câu hỏi (query),
mà dạng đơn giản nhất là các từ khóa. Các phương pháp điển hình tìm
kiếm văn bản ỉà dựa theo chỉ số (như Excite, Altavista ...), dựa trên kiến
trúc (như Yahoo, Lycos, Megaputer theo nền kiến trúc ), dựa theo phân
tích nhị phân và gốc từ (như HotBot, dt-Search), dựa trên ngữ nghĩa và
ngôn ngữ (nliư Megaputer) [37,79,80,92],
• Phân tích ngữ nghĩa (Semantic analysis): Quá trình đưa ra cách “hiểu”
về văn bản thông qua mối liên quan ngữ nghĩa của văn bản với tập khái
niệm cho trước [69,78,79,92].
• Phân cụm (Clustering): Quá trình nhóm các văn bản trong một tập văn
bản thành các “cụm”, trong đó nội dung các văn bản trong cùng một
cụm là “gần gũi” nhau theo một độ đo nào đó [44,79,92].
• Phân lớp (Categorization): Quá trỉnh tự động xếp văn bản vào một trong
một số lớp văn bản đã xác đjnh từ trước. Các giải pháp phân lớp tự động
văn bản thường được thiết kế dựa trên các phương pháp học máy (Cây
quyết định, Bayes, k-người láng giềng gần nhất). Phân đoạn
(Segmenting) là quá trình kết hợp cùa hai quá trình phân cụm và phân
lớp, trước tiên tiến hành phân cụm sau đỏ tiến hành phân lớp [79,92].
• Trích chọn đặc trưng (Feature extraction): Quá trình phát hiện và lưu trữ
lại những thành phần ngôn ngữ cần quan tâm được xuất hiện trong văn
bản. Phát hiện từ mang nghĩa (term), cụm từ mang nghĩa (feature) xuất
hiện trong vãn bản, biểu diễn vãn bản theo các thành phần mang nghĩa
dó hoặc sử dụng chúng trong các cơ sờ dữ liệu Web được coi là thuộc
vào công việc trích chọn đặc trưng. Trong một số trường hợp, các đặc
trưng chưa xác định trước, việc xác định chúng dồng thời với việc phân
tích nội dung văn bàn; tuy nhiên, trong một số trường hợp khác, các dặc

trưng (như tên người, công việc ...) có thể được xác định trước, việc
phân tích văn bản cho phép phát hiện sự xuất hiện (có tân số) các dặc
trưng đó ừong văn bản [56,60,92],
• Ngoài ra, các bài toán Tóm tắt văn bản (Abstract), Xây dựng kiến trúc
(Ontology building), Dẫn dưòmg văn bản (focus) cũng nhận được nhiều
sự quan tâm [69,79, 92].

-19-


Do đặc thù các trang Web sử dụng các siêu liên kết kết nối lẫn nhau, tính
chất “theo phiên làm việc” của người dùng, các bài toán trong khai phá Web
phong phú ham, trong đó các bài toán điển hình [79,92] là:
• Các bài toán Phân lớp (Classifying), Phân cụm và Phân đoạn trong khai
phá Web là tương tự các phân lớp và phân cụm trong khai phá Text
nhưng có tính đến sự kết nối nội dung giữa các trang Web có siêu liên
kêt với nhau,
• Các bài toán Phát hiện ràng buộc (Associating) và Luật kết hợp
(Association rules) liên quan đến không chỉ ràng buộc các yếu tổ trong
nội dung văn bản như Text Mining mà còn có các ràng buộc khác do đặc
thù của Web Mining. Có thể kể đến ràng buộc giữa các ừang Web với
nhau qua các siêu liên kết, ràng buộc giữa người sử dụng với các trang
Web mà họ quan tâm trong phiên làm việc, ràng buộc giữa nhóm người
với nhóm trang Web mà họ thường quan tâm,
• Bài toán Dự báo (Predicting) khai thác yếu tổ thời gian liên quan tới thời
điểm xuất hiện trang Web để có thể dự báo về xu thế đặc trưng (về nội
dung, về cấu trúc và hình thức trình bày ...) của các trang Web xuất hiện
trong thời gian tới,
• Các bài toán Dự báo nhu cầu (Response prediction) và Đánh giá khách
hàng khai thác Web (Customer valuation) liên quan đến đổi tượng sử

dụng cơ sở dữ liệu trang Web.
Nêu tính đến đối tượng và phạm vi khai phá, công việc khai phá Web
được phân thành khai phá nội dung Web (nội dung trang Web, kết quả tìm kiếm),
khai phá liên kết Web và khai phá sử dụng Web (phát hiện mẫu truy nhập chung,
sử dụng định hướng người dùng ...).
Ngay tà năm 1998, nhóm "Khai phá dữ liệu và phát hiện tri thức trong
CSDL" thuộc Khoa Công nghệ thông tin, trường ĐHKHTN, ĐHQGHN đâ quan
tâm tới nội dung nghiên cứu về cơ sở dữ liệu full-text và khai phá text [28-30] và
đã có được một số kết quả bước đầu về giải pháp từ đồng nghĩa và đa ngôn ngữ
trong cơ sờ dữ liệu full-text [26]. Một nội dung nghiên cứu điển hình nhất mà đề
tài QG-02-02 đã tiến hành là tiếp tục các nghiên cứu nhăm phát triên kêt quả nói
trên theo định hướng cố gắng tiệm cận được những nội dung nghiên cứu thời sự
trên thế giới về hướng nghiên cứu này. Kết quả chính của đê tài vê hướng nghiên
cứu này bao gồm các công ừình của Hà Quang Thụy, Nguyên Trí Thành [1],
Phạm Thị Thanh Nam, Bùi Quang Minh, Hà Quang Thụy [2], Son Doan, s.
Horiguchi [7], Đặng Tiểu Hùng [9], Đoàn Sơn [10], Phạm Thị Thanh Nam [12],
Đỗ Thị Diệu Ngọc [17].
Một bài toán quan trọng mang tính cốt lõi trong khai phá Text và khai phá
Web là bài toán biểu diễn văn bản. Tồn tại một loạt phương pháp giải quyết bài
toán này mà đai đa số là căn cứ theo tập các từ có nghĩa xuất hiện trong nội dung
văn bản. Trong [26], một giải pháp cho vấn đề từ đồng nghĩa và đa ngôn ngữ
trong văn bản đã được đề xuất, tuy nhiên, việc xác định các hệ số đồng nghĩa đổi


với từ dồng nghĩa là còn bò ngỏ. Phát ưiển các nghiên cứu cùa Holger Billhardt,
Daniel Borrajo, Victor Maojo [48], Son Doan, s. Horiguchi [7] dề xuất một
phương pháp biểu diễn văn bản mới sử dụng khái niệm tập mờ và ứng dụng vào
phân lớp văn bản. Ngữ nghĩa cùa văn bản được xác định bằng độ quan trọng của
các khái niệm mờ và được tính toán thông qua việc tích hợp các hàm mờ thành
phân cùa các khái niệm trên tập các từ khóa dã được đánh chi sổ. Thuật toán cây

quyết định được sử dụng để xây dựng các luật phân lớp.
Phát triển kết quả nghiên cứu nói trên, kết hợp với kểt quả nghiên cứu của
Martin Ester, Hans-Peter Kriegei, Matthias Schubert [60], Hà Quang Thuỵ,
Nguyễn Trí Thành [1] đề xuất một phương pháp biểu diễn Website dưới dạng
một vector khái niệm như giá trị của một hàm mò trên tập khái niệm. Một thuật
toán phân lớp Website dựa trên phương pháp phân lớp Bayes thứ nhất đã dược
phát triển. Phát triển kết quả nghiên cứu của Sen Slattery [80], Phạm Thị Thanh
Nam, Bùi Quang Minh và Hà Quang Thụy [2] đề nghị một phương pháp biểu
diễn vector cho trang Web, trong dó công thức cụ thể xác định thành phần vector
biểu diễn cũng dược xác định. Các tác giả cũng đề nghị một dộ do tương tự theo
nội dung giữa hai trang Web và một thuật toán tìm kiếm các trang Web tương tự
với một trang Web cho trước theo nghĩa cùa độ đo nói trên. Đặng Tiểu Hùng [9]
nghiên cứu phương pháp biểu diễn nội dung trang Web có dộ tinh xảo hơn, trong
dó mổi liên kết ngữ nghĩa cùa các trang Web có liên kết nhau được tính trong
phạm vi nội dung của tiêu đề liên kết và lân cận cùa liên kết đó. Các kết quả thử
nghiệm cùa tác giả cho thấy phương pháp biểu diễn kết hợp nội dung văn bản và
lân cận siêu liên kết với cỡ lân cận 32 cho kết quả tìm kiếm tốt nhất.
Trong [12], Phạm Thị Thanh Nam giới thiệu một thuật toán xây dựng cây
khái niệm biểu diễn Website do tác giả đề nghị; thuật toán này tuy đơn giản song
dược coj là hữu dụng trong nhiều trường hợp. Đỗ Thị Diệu Ngọc [17] giới thiệu
ứng đụng một số giải pháp biểu diễn và khai phá Web vào máy tìm kiếm, chẳng
hạn có thể ứng dụng thuật toán học máy FOIL vào máy tìm kiếm Vinahoo.

3. Máy tìm kiểm tiếng Việt với tích hợp giải pháp khai phá Web
Vào dầu năm 1994, máy tìm kiếm (mô tơ tỉm kiếm, hệ tìm kiếm) đầu tiên
w w w w (WWW Worm) được McBryan phát triển có khà năng đánh chi số
được chừng 110.000 trang Web và đáp ứng được khoảng 1500 câu hỏi mỗi ngày
[67]. Ngay từ thòi điểm đó, máy tìm kiếm đã khẳng định tính hữu dụng cùa nó và
vi vây nhiều máy tỉm kiếm được xuất hiện trên Internet để cung cấp cho người sủ
dụng Internet một môi trường tlm kiếm thông tin thuận tiện và hiệu quả. Một số

máy tìm kiếm hiện nay đã có khả năng đánh chỉ số tới hàng tỷ trang Web và đáp
ứng mỗi ngày sổ lượng hàng trăm triệu câu hỏi tìm kiếm thông tin cùa người
dùng [9],
Trong thế hệ đầu tiên cùa máy tìm kiếm, người ta phân loại chúng thành
máy tlm kiểm chung và dịch vụ tim kiếm theo cách thức hoạt động tìm kiếm của
mỗi loai này. Tuy nhiên, xu thể hiện nay là tích hợp các chức năng cùa mỗi loại
nói trên trong một máy tìm kiám [67].

-2/ -


Trong hai năm trở lại đây, giải pháp tích hợp giải pháp khai phá Web vào máy
tìm kiệm đạng nhận được sự quan tâm đặc biệt vì răng kết quả làm việc cùa máy
tim kiêm đôi với hàng trăm triệu, hàng tỷ trang Web cho phép tạo ra những cơ sở
dữ liệu Web hữu ích, phát hiện nhiều tri thức cung cấp cho ngưòi sử dụng [92],
Những sản phẩm khai phá Text, khai phá Web (chẳng hạn, các sản phẳm
TextAnalyst*, Textractor*, WebAnalyst cùa công ty Megaputer Intelligence Inc.
hoặc WebFoudation của IBM) càng trở nên hữu dụng hơn khi đirợc tích hợp vào
máy tìm kiếm [79,92], Một số đặc trưng cơ bản nhất của một số máy tìm kiếm
điển hình được trình bày trong phần phụ lục cùa báo cáo.
Phù hợp với sự phát triển nói trên của các nghiên cứu về việc tích hợp giải
pháp khai phá Web vào máy tìm kiểm, đề tài QG-02-02 định hướng xây dựng
một máy tìm kiếm tiếng Việt, trước hết dược tích hợp với một số giải pháp khai
phá Web nói chung, và lâu dài hướng đến việc tích hợp các giải pháp khai phá
Web liên quan dến tiếng Việt. Trong giai đoạn dầu tiên trong quá trình hiện thực
hóa định hướng khoa học nói trên, chúng tồi đã và đang phát triển máy tìm kiếm
tiếng Việt có tên là Vinahoo (trước đây được gọi là Vietseek) trên cơ sở phần
mềm mã nguồn mở ASPseek [93]). Các kết quả điển hình cùa dề tài về nội dung
nghiên cứu này được trình bày trong các công trinh [2,4,6,9,21] cùng với các
cồng trình nghiên cứu tiếp theo [22,24,25],

Ngoài các kết quả nghiên cứu liên quan dến biểu diễn trang Web, xác định
độ đo tương tự theo nội dung giữa các trang Web như đã dược trình bày ở phần
trên, Phạm Thị Thanh Nam, Bùi Quang Minh và Hà Quang Thụy [2] đã dể xuất
giải pháp áp dung các nội dung đó vào máy tìm kiếm Vinahoo. Các tác giả dề
nghị việc bo sung các cấu trúc dữ liệu phù hợp với mô hình biểu diễn vector các
trang Web. Hom nữa, các tác giả đã đề xuất các thuật toán tương ứng cho việc tỉm
kiếm các trang Web có nội dung tương tụ với một trang Web đã cho nhàm bổ
sung cho Vinahoo chức năng tương ứng cho người dùng khi cần tìm các trang có
nội dung tương tự nội dung với trang hiện thời. Cũng theo hướng nghiên cứu giải
pháp tìm các trang Web tương tự trong các máy tìm kiêm, Đặng Tiểu Hùng [9]
khai thác cây phân loại chủ đề các trang Web ODP trong việc tính toán dộ tưcmg
tự giữa các trang Web để đưa ra một giải pháp cải tiến thành phần tìm kiếm các
trang Web tương tự với một trang Web đã cho trong Vinahoo.
Ngôn ngũ hỏi-đáp trong máy tìm kiếm cũng là nội dung quan trọng cần
được quan tâm với mục đích cho phép người dùng đặt ra những câu hỏi đa dạnệ
cho máy tìm kiếm. Vũ Bội Hằng, Đinh Trung Hiếu và Nguyễn cẩm Tú [4] dê
xuất việc mở rộng câu hỏi cùa Vinahoo nhăm cho phép người sử dụng dưa câu
hỏi tìm kiếm hạn chế trong một số lĩnh vực nào đó. Đe làm điêu đó, các tác giả
giả thiết rằng các trang Web ữong hệ thống đã được phân chia theo các lĩnh vực,
mà việc này được thực hiện nhờ thành phần phân lớp được cài dặt bổ sung trong
hệ thống [21,22], Đe thực hiện được việc mở rộng ngôn ngữ hỏi cùa Vinahoo
theo hướng đó, với nhận xét ngôn ngữ hỏi- đáp cùa Vinahoo thuộc loại đom giản
LL(1) các tác già đã đề xuất bổ sung thêm một từ tố, thay đổi luật thứ 6 và bô

-22-


sung thêm bốn luật mới vào Vũiahoo. Môđun tìm kiểm đẫ được biến đổi để phù
hợp với việc mở rộng ngôn ngừ hỏi - đáp nói trên.
Như đã biết, bài toán hiển thị các ứang Web kết quả qua tìm kiếm tương

ứng với câu hỏi của ngựời dùng là bài toán hết sức quan ừọng [2,6,24,67,68,80,
82.83.85.86]. Trong nhiêu máy tìm kiếm, người ta sử dụng “độ quan trọng” của
trang Web để sắp xếp thứ tự hiển thị các ứang Web có chửa từ (hay các từ) ừong
câu hỏi người dừng. Trong những thuật toán đầu tiên, người ta xác định độ quan
trọng của trang Web theo môi liên hệ của chung qua các siêu liên kết theo hướng
“các trang nào càng được nhiều trang khác trỏ tới thì càng quan trọng”. Để giải
bài toán này, các nhà khoa học quy tới việc giải bài toán tìm vector riêng của ma
trận vuông cỡ rât lớn và sử dụng thuật toán lặp đom. Chính vì lẽ đó, ửong một số
trường hợp thuật toán này được gọi là thuật toán tính hạng trang - pagerank - đom
giản. Nhăm khăc phục các thiêu sót và tăng tôc độ hội tụ của các thuật toán đã có
các nhà khoa học đã đề xuất một số thuật toán tính hạng trang tinh vi hơn trong
đó có tính đến mức độ liên quan của trang Web với câu hỏi người dùng [2,68,80,
82.83.85.86]. Trong [6], Đỗ Thị Diệu Ngọc, Nguyễn Yến Ngọc, Nguyễn Thu
Trang và Nguyễn Hoài Nam đã phân tích đặc trưng của các thuật toán tính hạng
trang điển hình, bao gồm một số thuật toán tính hạng trang khá tiên tiến
[82,85,86]. Nội dung quan trọng hơn của công trình nghiên cứu này là các tác giả
đã đề xuất một vài cải tiến nhỏ cho thuật toán Topic-sensitive PageRank. Mặt
khác, các tác giả đã cài đặt thuật toán tính hạng trang Modified Adaptive
PageRank trong Vinahoo thay cho thuật toán sẵn có trên ASPseek. Ket quả thực
nghiệm cho thấy rằng, phương án tính hạng trang mới hiệu quả hom phương án
sẵn có của ASPseek.
Một số kết quả nghiên cứu khác về máy tìm kiểm được trình bày trong
trang Web của nhóm nghiên cứu [21].
CÁC HOẠT ĐỘNG CHUYÊN MÔN KHÁC
Một thành công đáng kể nhất của đề tài là hoạt động đào tạo nhân lực về
lĩnh vực khai phá dữ liệu (đặc biệt là khai phá text và khai phá Web) và phát hiện
tri thức trong các Cơ sở dữ liệu. Tính thời sự của hướng nghiên cứu thực hiện đề
tài cho phép triển khai được nhiều nội dung nghiên cứu cho các thành viên là học
viên cao học và sinh viên để hoàn thành luận văn và khóa luận tôt nghiệp của
mình. Đổng thời, nội dung nghiên cứu của đề tài đã thu hút thêm được các cán

bô nhân viên của các cơ quan khác tham gia sinh hoạt chuyên môn ừong đề tài.
Bảy luận văn cao học và mười khóa luận tôt nghiệp đại học đã được hoàn thành
trong khuôn khổ nghiên cứu của đề tài. Điều quan trọng hơn là chất lượng luận
vãn cao học, khóa luận tốt nghiệp đại học của các thành viên trong nhóm ờ trình
đô cao. Điều đó được minh chứng thông qua việc hai thành viên trong nhóm là
Đoàn Sơn và Phan Xuân Hiếu được làm nghiên cứu sinh cùa Viện Khoa học và
Công nghệ tiên tiến Nhật Bản ngay sau khi bảo vệ thành công luận văn cao học
trong nước. Nội dung đề tài nghiên cửu sinh ở nước ngoài của các thành viên này
chính là sự phát triển nội dung nghiên cứu đã thực hiện ữong nước trong khuôn

-2 3 -


×