Tải bản đầy đủ (.docx) (77 trang)

ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.84 MB, 77 trang )

BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

KS. TRẦN ĐỨC QUỲNH

ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC PHÂN
TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA HỌC SINH
TRƯỜNG TRUNG CẤP NGHIỆP VỤ &
CÔNG NGHỆ HẢI PHÒNG

LUẬN VĂN THẠC SĨ KỸ THUẬT

1


HẢI PHÒNG – 2015

2


BỘ GIAO THÔNG VẬN TẢI

BỘ GIÁO DỤC ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

KS. TRẦN ĐỨC QUỲNH


ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC PHÂN
TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA HỌC SINH
TRƯỜNG TRUNG CẤP NGHIỆP VỤ &
CÔNG NGHỆ HẢI PHỊNG
LUẬN VĂN THẠC SĨ KỸ THUẬT

NGÀNH: CƠNG NGHỆ THÔNG TIN; MÃ SỐ: 60480201
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

Người hướng dẫn: TS. Trần Thị Hương

HẢI PHÒNG – 2015
3


LỜI CẢM ƠN
Luận văn này được hoàn thành, trước hết em xin chân thành cảm ơn TS.
Trần Thị Hương, đã hướng dẫn em về việc chuẩn bị các kiến thức tổng quan và các
phương pháp nghiên cứu đề tài ứng dụng khai phá dữ liệu và khám phá tri thức.
Đồng thời em cũng gửi lời cám ơn đến các thày cơ và các bạn trong cùng khóa
học, vì đã cùng trao đổi, chia sẻ thông tin và các kiến thức liên quan để em có điều
kiện nghiên cứu và hồn thành đề tài khoa học của mình.
Đối với em, đây là những kiến thức mang tính chất vừa tổng quan vừa sâu
rộng, do cịn nhiều hạn chế về trình độ hiểu biết và năng lực của bản thân, cũng
như các tài liệu tham khảo và thời gian có hạn, mặc dù đã cố gắng làm việc, nghiên
cứu tích cực nhưng đề tài của em cũng không thể tránh được những sai sót và cịn
có những vấn đề chưa được hồn thiện.
Kính mong được sự góp ý và chỉ dẫn tận tình của thầy cơ, cùng các bạn để
đề tài của em được hoàn thiện hơn.


4


Em xin trân trọng cảm ơn.LỜI CAM ĐOAN
Tôi xin cam đoan đây là cơng trình nghiên cứu của riêng tơi. Các kết quả
nêu trong luận văn là trung thực và chưa từng được ai cơng bố trong bất kỳ cơng
trình nào khác.
Tơi xin cam đoan rằng các thơng tin trích dẫn trong luận văn đều đã được
chỉ rõ nguồn gốc.
Ngày

5

tháng 9 năm 2015
TÁC GIẢ


MỤC LỤC

6


Chữ viết tắt
CSDL
KPDL
KDD

Giải thích
Cơ sở dữ liệu
Khai phá dữ liệu (Datamining)

- Knowledge discovery and Datamining (Kỹ thuật phát hiện

PCDL
ĐTB; TB
SPMN
CBMA

tri thức và khai phá dữ liệu )
Phân cấp dữ liệu
Điểm trung bình; Trung bình
Ngành Sư phạm mầm non
Ngành Chế biến món ăn

7


DANH MỤC CÁC HÌNH
Số hình
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
1.12

1.13
1.14
1.15
1.16a,b
1.17
1.18

Tên hình
Q trình khám phá tri thức
Các lĩnh vực liên quan đến khám phá tri thức trong CSDL
Trực quan hóa kết quả KPDL trong Oracle
Mối quan hệ giữa hệ thống CSDL và hệ thống khai KPDL
Ví dụ về phân cụm dữ liệu
Ví dụ phân cụm các đối tượng dựa trên khoảng cách
Ví dụ phân cụm các ngơi nhà dựa trên kích cỡ
Các chiến lược phân cụm phân cấp
Ví dụ về phân cụm theo mật độ (1)
Ví dụ về phân cụm theo mật độ (2)
Cấu trúc phân cụm dựa trên lưới
Ví dụ về phân cụm dựa trên mơ hình
Các cách mà các cụm có thể đưa ra
Các thiết lập để xác định ranh giới các cụm ban đầu
Tính tốn trọng tâm của các cụm mới
Tâm cụm có phần tử ngoại lai, khơng có phần tử ngoại lại
Các bước cơ bản của AGNES
Ví dụ các bước cơ bản của thuật tốn AGNES

1.19
1.20
2.1

2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11

Các bước cơ bản của DIANA
Hình dạng các cụm được khám phá bởi thuật tốn DBSCAN
Mơ hình mạng LAN của hể thống quản lý CSDL
Mơ hình hệ thống tự động quản lý CSDL
Sơ đồ use case đặc tả chức năng của hệ thống
Sơ đồ luồng dữ liệu mức khung cảnh
Sơ đồ dữ liệu mức đỉnh
Sơ đồ minh họa cập nhật thông tin học sinh
Sơ đồ minh họa cập nhật thông tin lớp
Sơ đồ minh họa cập nhật thông tin môn học
Sơ đồ minh họa cập nhật thông tin điểm học tập
Sơ đồ Class Diagram
Các table sử dụng trong chương trình Sơ đồ use case đặc tả

30
32
45
46
47

49
49
51
51
51
52
53
55

3.1
3.2
3.3

chức năng của hệ thống
Các bước thực hiện của thuật toán k-mean
Giao diện chương trình
Màn hình khởi động của chương trình

58
62
62

8

Trang
7
8
12
13
14

15
16
18
19
20
20
21
23
24
25
26
28
29


MỞ ĐẦU
1. Lí do chọn đề tài
Sau một q trình được học tập và nghiên cứu, bản thân em đã được lĩnh hội
những kiến thức hết sức bổ ích, cùng với sự dạy dỗ chỉ bảo tận tình của các Thày
cơ cùng các bạn trong khóa học, em đã có định hướng về việc tìm hiểu và ứng
dụng kiến thức Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge
discovery and Datamining).
Ngày nay, lượng dữ liệu đang ngày càng tăng lên khiến cho chúng ta bị ngập
trong khối dữ liệu khổng lồ đó, nhưng những dữ liệu thực sự có giá trị thì lại nằm
trong chính khối dữ liệu đó. Do vậy, khai phá dữ liệu (Data mining) ra đời để giúp
ta chọn lọc được những thơng tin có giá trị từ khối dữ liệu thơ khổng lồ ta nhận
được.
Vậy khai phá dữ liệu có thể hiểu đơn giản là quá trình chọn lọc hay khai phá
tri thức từ một khối dữ liệu lớn.
Khai phá dữ liệu cần sử dụng kiến thức từ nhiều ngành và nhiều lĩnh vực khác

nhau như thống kê, trí tuệ nhân tạo, CSDL, tính tốn song song,…Đặc biệt, nó rất
gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mơ hình hóa
dữ liệu và phát hiện các mẫu.
Tổng quan của khai phá dữ liệu có thể dùng để:
Cung cấp tri thức, hỗ trợ ra quyết định dựa trên số liệu dựa thống kê.
Dự báo tình hình căn cứ các số liệu được xử lý bằng thuật tốn.
Khái qt dữ liệu dưới dạng mơ hình, sơ đồ luồng, sơ đồ thực thể…
Ngoài ra, ứng dụng của khai phá dữ liệu vơ cùng đa dạng, có thể dùng trong:
Bảo hiểm, tài chính và thị trường chứng khốn: phân tích tình hình tài chính
của một cơng ty dựa trên báo cáo tài chính; dựa vào dữ liệu về thị trường chứng
khoán để dự đoán được giá cổ phiếu; phát hiện gian lận…
Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định.
Trong Y học: dựa vào mối liên hệ giữa các triệu chứng để chẩn đoán bệnh và
hướng điều trị.

9


Mạng viễn thơng: phân tích các cuộc gọi điện thoại để dự đoán hành vi người
dùng nhằm nâng cao chất lượng dịch vụ.
Bán hàng: phân tích các mặt hàng để dự đoán nhu cầu người dùng để đưa ra
hướng phát triển đúng cho nhà sản xuất…
Ngoài ra, khai thác dữ liệu còn ứng dụng vào trong rất nhiều lĩnh vực khác
nhau của đời sống giúp đưa ra những giải pháp hiệu quả cho các vấn đề nan giải
của đời sống. Trong đó thuật tốn k-mean là một lựa chọn phù hợp với mục tiêu
nghiên cứu.
Phân cụm đặc biệt hiệu quả khi ta không biết về thông tin của các cụm, hoặc
khi ta quan tâm tới những thuộc tính của cụm mà ta chưa biết hoặc biết rất ít những
thơng tin đó. Phân cụm được coi như một cơng cụ độc lập để xem xét phân bố dữ
liệu, làm bước tiền xử lý cho các thuật toán khác.

Phân cụm dữ liệu là một trong những kỹ thuật để khai thác dữ liệu có hiệu
quả. Phân cụm dữ liệu đã được ứng dụng trong nhiều lĩnh vực khác nhau như: kinh
tế, bảo hiểm, quy hoạch đô thị, nghiên cứu về địa chất…
Theo các nghiên cứu cho thấy thì hiện nay chưa có một phương pháp
phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc
cụm dữ liệu. Hơn nữa, các phương pháp phân cụm cần có cách thức biểu diễn
cấu trúc của các cụm dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương
ứng một thuật tốn phân cụm phù hợp. Vì vậy phân cụm dữ liệu vẫn đang là
một vấn đề khó và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn
vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu
hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng là một
trong những thách thức lớn trong lĩnh vực khai phá dữ liệu.
Lĩnh vực giáo dục là ngành có khối lượng dữ liệu khá lớn, cần phân tích để
đưa ra các chiến lược phát triển phù hợp thì thực sự chưa được khai thác có hiệu
quả. Hiện tại, bản thân đang làm việc tại ban tuyển sinh thuộc phòng đào tạo của
trường, nên nhận thấy việc phân tích, đánh giá kết quả học tập của học sinh là rất
cần thiết, để từ đó đề xuất các biện pháp nhằm nâng cao chất lượng giáo dục

10


chun nghiệp. Đó là lí do em chọn đề tài : “Ứng dụng Khai phá dữ liệu trong việc
phân tích, đánh giá kết quả học tập của học sinh trường Trung cấp nghiệp vụ và
cơng nghệ Hải Phịng”.
Mục đích của việc đánh giá kết quả học tập của học sinh là giúp “thúc đẩy
học sinh rèn luyện, học tập không ngừng tiến bộ” cịn làm thơng tin, và tiền đề cho
việc “điều chỉnh việc thực hiện chương trình giáo dục chuyên nghiệp hiện hành và
tạo cơ sở thực tiễn cho việc phát triển chương trình giáo dục chuyên nghiệp tiếp
theo”. Đây là một vấn đề mà nhà trường, ngành giáo dục và toàn xã hội đang rất
quan tâm.

2. Mục tiêu và nhiệm vụ của đề tài
2.1. Mục tiêu
Mục tiêu của đề tài là giúp cho Phòng đào tạo và phụ trách chun mơn có
được số liệu phân tích, đánh giá kết quả học tập của học sinh nhờ vào một hệ thống
tư vấn trên cơ sở khai phá dữ liệu có sẵn. Đồng thời cung cấp số liệu báo cáo chất
lượng quản lý đào tạo. Thông qua các số liệu thu được từ hệ thống làm cơ sở cho
Ban giám hiệu tổng hợp, đánh giá chung công tác dạy và học.
2.2. Nhiệm vụ
Để đạt được mục tiêu đã nêu luận văn sẽ tập trung vào 3 nhiệm vụ chính:
Nghiên cứu cơ sở lý thuyết, các phương pháp, các thuật toán, mơ hình, cơng
cụ đã được sử dụng để khai phá dữ liệu có sẵn.
Nghiên cứu đề xuất giải pháp nhằm xây dựng hệ thống phân tích, đánh giá kết
quả học tập của học sinh trường trung cấp nghiệp vụ và cơng nghệ Hải Phịng.
Xây dựng hệ thống và thử nghiệm giải pháp.
3. Đối tượng và Phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
- Điểm học sinh trường Trung cấp nghiệp vụ và cơng nghệ Hải Phịng.
- Các vấn đề về khai phá dữ liệu.

11


3.2. Phạm vi nghiên cứu
- Tiến hành khảo sát và nghiên cứu dữ liệu điểm của học sinh trường Trung
cấp nghiệp vụ và cơng nghệ Hải Phịng.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứu được sử dụng trong luận văn là nghiên cứu tài liệu
và thu thập dữ liệu. Đã tiến hành thu thập tài liệu từ nhiều nguồn khác nhau như:
giáo trình, các bài báo, các đề tài nghiên cứu khoa học, luận văn đã được đánh giá
cao và những tài liệu khác có liên quan đến vấn đề này, nhằm đưa ra những thông

tin cần thiết phục vụ nghiên cứu. Đã tiến hành thu thập dữ liệu điểm của học sinh
tại trường chuyên nghiệp phục vụ cho việc nghiên cứu và triển khai hệ thống thử
nghiệm.
5. Mục đích và ý nghĩa của đề tài
5.1. Mục đích
- Đánh giá kết quả học tập của học sinh trường Trung cấp nghiệp vụ và cơng
nghệ Hải Phịng.
- Giúp cho phịng đào tạo, lãnh đạo nhà trường có được các kết quả tương đối
chuẩn xác, nhanh chóng về tổng kết tình hình học tập, rèn luyện của học sinh của
các khóa qua từng năm học.
- Tìm ra những đối tượng học sinh có kết quả tốt trong nhiều kỳ để kịp thời
khen thưởng động viên, và có phương án xử lý kịp thời những đối tượng học sinh
có kết quả kém, nhằm rút ra kinh nghiệm và bổ sung vào phương hướng cũng như
nhiệm vụ từng năm học.
5.2. Ý nghĩa khoa học và thực tiễn
Về khoa học: Cung cấp cái nhìn tổng quan về phát hiện tri thức, áp dụng các
kỹ thuật khai phá dữ liệu trên cơ sở dữ liệu điểm của học sinh. Phát hiện ra tình
hình học tập của học sinh để giúp lãnh đạo Nhà trường có những nhận định cụ thể
và các giải pháp để công tác dạy và học đảm bảo chất lượng.
Về thực tiễn: Qua đề tài này tác giả muốn làm rõ tình hình học tập của học
sinh trường Trung cấp nghiệp vụ và cơng nghệ Hải Phịng, thơng qua đó chỉ ra

12


những nhóm đối tượng học sinh có nhóm kết quả cao, thấp, trung bình… ứng với
từng nhóm mơn học, đồng thời phân loại và từ đó đưa ra những giải pháp mang
tính thực tiễn giúp cho lãnh đạo nhà trường có thêm cơ sở khoa học để nâng cao
chất lượng học tập trong học sinh sinh viên của trường, nhằm đưa trường ngày
càng phát triển và nâng cao thương hiệu, là địa chỉ đào tạo tin cậy.

6. Kết quả dự kiến
6.1. Lý thuyết
Nắm được quy trình làm việc của các hệ thống khai phá dữ liệu, kho dữ liệu.
6.2. Thực tiễn
Xây dựng được một chương trình Demo giúp hỗ trợ cho việc phân tích và
đánh giá kết quả học tập.
Đưa ra dự báo về việc đánh giáchất lượng đào tạo của nhà trường.
Có một cái nhìn khái qt hóa về đào tạo và quản lý đào tạo.
7. Bố cục của luận văn
Chương 1. Tổng quan về khai phá dữ liệu và kỹ thuật phân cụm dữ liệu
trong khai phá dữ liệu Datamining.
Chương 2. Thiết kế hệ thống.
-

Tổng quan về cơ sở nghiên cứu.

-

Thực trạng.

-

Khảo sát hệ thống thực tế.

-

Phân tích và thiết kế hệ thống.

-


Cơ sở dữ liệu.

Chương 3. Xây dựng hệ thống thử nghiệm: Phân cụm dữ liệu phân tích,
đánh giá kết quả học tập của học sinh trường Trung cấp nghiệp vụ và cơng nghệ
Hải Phịng.
-

Giải pháp xây dựng hệ thống.

-

Yêu cầu khi cài đặt thuật toán.

-

Kết luận.

-

Kiến nghị.

13


CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT
PHÂN CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU DATAMINING
1.1. Khai phá dữ liệu và phát hiện tri thức
1.1.1. Khai phá dữ liệu
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin
trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng

nghĩa với lượng dữ liệu đã được các cơ quan đơn vị thu thập và lưu trữ ngày một
tích luỹ nhiều lên. Việc lưu trữ các dữ liệu này kỳ vọng trong nó ẩn chứa những giá
trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những
dữ liệu này (khoảng từ 10% đến 15%) là ln được phân tích đánh giá, số dữ liệu
cịn lại khơng biết sẽ phải xử lý ra sao hoặc và có thể làm gì với chúng, tuy nhiên
vẫn tiếp tục thu thập rất tốn kém với ý nghĩ rằng có thơng tin nào đó quan trọng bị
bỏ qua sau này có lúc sẽ cần đến. Một vấn đề đặt ra là làm thế nào để tổ chức, khai
thác những khối lượng dữ liệu khổng lồ và đa dạng đó được?
KPDL là một lĩnh vực mới được nghiên cứu, nhằm tự động khai thác thông
tin, tri thức mới hữu ích, tiềm ẩn từ những CSDL lớn cho các đơn vị, tổ chức,
doanh nghiệp,…. từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh
cho các đơn vị, tổ chức này. Các kết quả nghiên cứu khoa học cùng những ứng
dụng thành công trong KDD ( Knowledge discovery and Datamining) cho thấy
KPDL là một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và có nhiều
triển vọng, đồng thời có ưu thế hơn hẵn so với các cơng cụ tìm kiếm phân tích dữ
liệu truyền thống. Hiện nay, KPDL đã ứng dụng ngày càng rộng rãi trong n h i ể u
lĩnh vực như thương mại, tài chính, y học, viễn thơng, sinh học,….
Các kỹ thuật chính được áp dụng trong lĩnh vực KPDL hầu hết được thừa
kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thơng tin, xác suất thống
kê và tính tốn hiệu năng cao,...
Như vậy ta có thể khái quát hóa khái niệm KPDL là một quá trình tìm
kiếm, phát hiện các tri thức mới, hữu ích, tiềm ẩn trong CSDL lớn.

14


KDD (Knowledge discovery and Datamining) là mục tiêu chính của KPDL,
do vậy hai khái niệm KPDL và KDD (Knowledge discovery and Datamining) được
các nhà khoa học trên hai lĩnh vực xem là tương đương với nhau. Tuy nhiên, nếu
phân chia một cách chi tiết thì KPDL là một bước chính trong quá trình KDD

(Knowledge discovery and Datamining).
1.1.2. Quá trình khám phá tri thức
Quá trình khám phá tri thức được phân chia thành 5 bước cơ bản như sau:

Hình 1.1. Quá trình khám phá tri thức
Q trình KPDL có thể chia thành các cơng đoạn sau:
Trích chọn dữ liệu: Đây là bước trích chọn những tập dữ liệu cần được khai phá từ
các tập dữ liệu lớn ban đầu theo một số tiêuchí nhất định.
Tiền xử lý dữ liệu: Đây là bước làm sạch dữ liệu (xử lý những dữ liệu không
đầy đủ, nhiễu, không nhất quán,...), rút gọn dữ liệu (sử dụng hàm nhóm và tính
tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu,...), rời rạc hóa
dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân
khoảng,...). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và được
rời rạc hóa.
Biến đổi dữ liệu: Đây là bước chuẩn hóa và làm mịn dữliệu để đưa dữ liệu về dạng
thuận lợi nhất nhằm phục vụ quá trình khai phá ở bước sau.
Khai phá dữ liệu: Đây là bước áp dụng những kỹ thuật phân tích (như các kỹ
thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những mẫu thông

15


tin, những mối liên hệ đặc biệt trong dữ liệu. Đây được xem là bước quan trọng và
tốn nhiều thời gian nhất của tồn q trình KDD.
Đánh giá và biểu diễn tri thức: Những mẫu thông tin và mối liên hệ trong dữ
liệu đã được khám phá ở bước trên được biến đổi và biểu diễn ở một dạng gần
gũi với người sử dụng như đồ thị, bảng biểu, luật,... Đồng thời bước này cũng
đánh giá những tri thức khám phá được theo những tiêu chí nhất định.
1.1.3. Khai phá dữ liệu và ứng dụng
Khai phá dữ liệu có nhiều ứng dụng trong thực tế, chẳng hạn như:

- Bảo hiểm, tài chính và thị trường chứng khốn: phân tích tình hình tài chính và
dự báo giá của các loại cổ phiếu trong thị trường chứng khoán. Danh mục vốn và
giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, ...
- Điều trị y học và chăm sóc y tế: một số thơng tin về chuẩn đốn bệnh lưu trong
các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh,
chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, ...)
- Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố.
- Textmining và Webmining: Phân lớp văn bản, các trang Web, tóm tắt văn bản,...
- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm
kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene di truyền, ...
- Mạng viễn thơng: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự
cố mạng, chất lượng dịch vụ, ...
1.1.4. Các kỹ thuật áp dụng trong khai phá dữ liệu
KDD (Knowledge discovery and Datamining) là một lĩnh vực liên ngành.
Thống kê
Khám phá
tri thức
Công nghệ cơ sở dữ liệu
Các nguyên tắc
Hình 1.2. Các lĩnh vực liên quan đến khám phá tri thức trong CSDL

16


Trên quan điểm của học máy, thì các kỹ thuật trong KPDL, bao gồm:
Học có giám sát: Là q trình gán nhãn lớp cho các phần tử trong CSDL dựa
trên một tập các ví dụ huấn luyện và các thơngtin về nhãn lớp đã biết.
Học khơng có giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp
hay cụm dữ liệu tương tự nhau mà chưa biết trước các thơng tin về lớp hay tập các
ví dụ huấn luyện.

Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp dựa trên
một tập nhỏ các ví dụ huấn luyện và các thơng tin về một số nhãn lớp đã biết
trước.
+ Nếu căn cứ vào lớp các bài tốn cần giải quyết, thì KPDL bao gồm các
kỹ thuật áp dụng sau:
Phân lớp và dự báo: Xếp một đối tượng vào một trong những lớp đã biết trước.
Ví dụ như phân lớp các dữ liệu bệnh nhân trong hồ sơ bệnh án. Hướng
tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định,
mạng nơron nhân tạo,... Phân lớp và dự báo cịn được gọi là học có giám sát.
Luật kết hợp: Là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Ví dụ: “50%
nữ giới vào siêu thị nếu mua phấn thì có tới trên 40% trong số họ sẽ mua thêm sản
phẩm son phấn”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y
học, cơng nghệ thơng tin- sinh, tài chính và thị trường chứng khốn,...
Phân tích chuỗi theo thời gian: Tương tự như khai phá luật kết hợp nhưng có thêm
tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh
vực tài chính kế tốn và thị trường chứng khốn vì nó có tính dự báo khá cao.
Phân cụm: Xếp các đối tượng theo từng cụm dữ liệu tự nhiên. Phân cụm còn
được gọi là học khơng có giám sát.
Mơ tả và tóm tắt khái niệm: Thiên về mơ tả, tổng hợp và tóm tắt khái niệm, chẳng
hạn như tóm tắt một văn bản text.
Do KPDL được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu
dữ liệu khác nhau. Dưới đây là một số dạng dữ liệu điển hình: Dữ liệu quan hệ,
dữ liệu đa chiều, dữ liệu dạng giao dịch, dữ liệu quan hệ - hướng đối tượng, dữ

17


liệu không gian và thời gian, dữ liệu chuỗi thời gian, dữ liệu đa phương tiện, dữ
liệu văn bản và Web,…
1.1.5. Những chức năng chính của khai phá dữ liệu

Hai mục tiêu chính của KPDL chính là mơ tả và dự báo. Dự báo là dùng
một số biến hoặc trường trong CSDL để dự đoán ra các giá trị chưa biết hoặc sẽ có
của các biến quan trọng khác. Việc mơ tả tập trung vào tìm kiếm các mẫu mà con
người có thể hiểu được để mơ tả dữ liệu. Trong lĩnh vực KDD, mô tả được quan
tâm nhiều hơn dự báo, nó ngược với các ứng dụng học máy và nhận dạng mẫu mà
trong đó việc dự báo thường là mục tiêu chính. Trên cơ sở mục tiêu chính của
KPDL, các chức năng chính của KDD gồm có:
- Mơ tả lớp và khái niệm: Dữ liệu có thể được kết hợp trong lớp và khái
niệm. Giả sử, trong kho dữ liệu bán hàng thiết bị tin học, các lớp mặt hàng bao
gồm máy tính, máy quét, máy in,…và khái niệm khách hàng bao gồm khách
hàng mua bán buôn và khách hàng mua lẻ. Việc mô tả lớp và khái niệm là rất
hữu ích cho giai đoạn tổng hợp số liệu, tóm lược và chính xác hố. Mơ tả lớp và
khái niệm được bắt nguồn từ đặc trưng hoá dữ liệu và phân biệt dữ liệu. Đặc trưng
hoá dữ liệu là q trình tổng hợp những đặc tính hoặc các thành phần chung của
một lớp dữ liệu mục tiêu. Phân biệt dữ liệu là so sánh lớp dữ liệu mục tiêu với
những lớp dữ liệu đối chiếu khác. Lớp dữ liệu mục tiêu và các lớp đối chiếu là
do người dùng chỉ ra và tương ứng với các đối tượng dữ liệu nhận được nhờ truy
vấn.
- Phân lớp và dự báo: Phân lớp là quá trình tìm kiếm một tập các mơ hình
hoặc chức năng mà nó được mơ tả và phân biệt nó với các lớp hoặc khái niệm
khác. Các mơ hình này nhằm mục đích dự báo về lớp của một số đối tượng. Việc
xây dựng mơ hình dựa trên sự phân tích một tập các dữ liệu được huấn luyện
có nhiều dạng thể hiện mơ hình như luật phân lớp (IF-THEN), cây quyết định,
cơng thức tốn học hay mạng nơron,... Sự phân lớp được sử dụng để dự đoán
nhãn lớp của các đối tượng trong dữ liệu. Do vậy trong nhiều ứng dụng, người ta
mong muốn dự đốn những giá trị bị khuyết nào đó. Thơng thường đó là trường

18



hợp dự đoán các giá trị của dữ liệu kiểu số(numberic). Trước khi phân lớp và
dự báo, có thể cần thực hiện phân tích thích hợp để xác định và loại bỏ các
thuộc tính khơng tham gia vào q trình phân lớp và dự báo.
- Phân cụm: Không giống như phân lớp và dự báo, phân cụm tập trung
phân tích các đối tượng dữ liệu khi chưa biết nhãn của lớp. Mặt khác, nhãn lớp
không tồn tại trong suốt quá trình huấn luyện dữ liệu, nó phân cụm có thể được sử
dụng để đưa ra nhãn của lớp. Sự phân cụm thực hiện nhóm các đối tượng dữ liệu
theo nguyên tắc sau: Các đối tượng nằm trong một nhóm thì giống nhau hơn so
với các đối tượng khác nhóm. Mỗi cụm được tạo thành có thể được coi như
một lớp các đối tượng mà các luật được lấy ra từ đó. Dạng của cụm được hình
thành theo một cấu trúc phân cấp của các lớp mà với mỗi lớp là một nhóm các sự
kiện tương tự nhau.
- Phân tích các đối tượng ngoại lai: Một CSDL có thể chứa các đối
tượng khơng tn theo mơ hình dữ liệu. Các đối tượng như thế được gọi là đối
tượng ngoại lai. Hầu hết các phương pháp KPDL đều coi các đối tượng ngoại lai
là nhiễu và loại bỏ chúng. Tuy nhiên trong một số ứng dụng, ví dụ như phát hiện
nhiễu, thì sự kiện hiếm khi xảy ra có vẻ được chú ý hơn những gì thường
xun gặp phải. Sự phân tích dữ liệu ngoại lai được coi là sự khai phá các đối
tượng ngoại lai. Một số phương pháp được sử dụng để phát hiện đối tượng ngoại
lai: sử dụng các test (kiểm thử) mang tính thống kê trên cơ sở một phân phối
dữ liệu hay một mơ hình xác suất thống kê cho dữ liệu, dùng các độ đo khoảng
cách mà theo đó các đối tượng có một khoảng cách đáng kể đến cụm bất kì khác
được coi là đối tượng ngoại lai, dùng các phương pháp dựa trên độ lệch để
chec k ( kiểm tra) sự khác nhau trong những đặc trưng chính của các nhóm đối
tượng đó.
- Phân tích sự tiến hố: Phân tích sự tiến hố là thực hiện việc mơ tả và mơ
hình hố các qui luật hay khuynh hướng của những đối tượng mà hành vi của nó
thay đổi với thời gian. Phân tích sự tiến hố có thể bao gồm cả đặc trưng hố,
phân biệt, tìm luật kết hợp, phân lớp hay PCDL liên quan đến thời gian, phân


19


tích dữ liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ và phân tích dữ liệu dựa
trên độ tương tự.
1.1.6. Ứng dụng của khai phá dữ liệu
KPDL là một lĩnh vực đã và đang được quan tâm cũng như ứng dụng rất
rộng rãi. Một số ứng dụng điển hình trong KPDL có thể liệt kê như sau: Phân tích
dữ liệu và hỗ trợ ra quyết định, điều trị trong y học, khai phá Web, công nghệ tinsinh, tài chính kế tốn và thị trường chứng khốn, bảo hiểm,...
Thương mại: Để phân tích dữ liệu bán hàng và thị trường, phân tích đầu tư, phát
hiện việc gian lận, chứng thực hóa khách hàng, hay dự báo xu hướng phát triển,...
Thông tin sản xuất: Trong điều khiển, lập kế hoạch, hệ thống quản lý, phân tích
thử nghiệm, khảo sát,...
Thơng tin khoa học: Dự báo thời tiết, bão lụt, động đất, tin - sinh học,...
Cho đến nay các hệ quản trị CSDL đã đ ư ợ c tích hợp những modul để
KPDL như SQL Server, Oracle, đến năm 2007 Microsoft đã cung cấp sẵn cơng
cụ KPDL tích hợp trong cả MS-Word, MS-Excel,..

Hình 1.3. Trực quan hóa kết quả KPDL trong Oracle
20


Hình 1.4. Mối quan hệ giữa hệ thống CSDL và hệ thống khai phá dữ liệu
1.2. Một số kỹ thuật phân cụm dữ liệu
1.2.1. Khái niệm và mục tiêu của phân cụm dữ liệu
1.2.1.1. Phân cụm dữ liệu là gì?
Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát
hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu
lớn để từ đó cung cấp thơng tin, tri thức cho việc ra quyết định.
Phân cụm dữ liệu là sự phân chia một tập cơ sở dữ liệu lớn thành các

nhóm dữ liệu mà trong đó các đối tượng tương tự như nhau. Trong mỗi nhóm,
một số chi tiết có thể không được chú trọng đến để đổi lấy dữ liệu đơn giản
hóa.
Hay nói cách khác, ta có thể hiểu “Phân cụm dữ liệu là quá trình tổ chức
các đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều tương tự

21


(Similar) nhau theo một tính chất nào đó, những đối tượng khơng tương tự
(Dissimilar) nhau về tính chất sẽ ở nhóm khác”.
Phân cụm dữ liệu là q trình nhóm một tập các đối tượng tương tự nhau
trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là
tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương
đồng.
Phân cụm dữ liệu là một điển hình của phương pháp học khơng có thầy.
Khơng giống như phân lớp dữ liệu, phân cụm dữ liệu khơng địi hỏi phải định
nghĩa trước các mẫu dữ liệu huấn luyện. Do đó, có thể coi phân cụm dữ liệu là
một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ . . .
Mặt khác, phân cụm dữ liệu cịn có thể được sử dụng như một bước tiền xử
lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mơ tả đặc điểm, có
tác dụng trong việc phát hiện ra các cụm.
Như vậy, phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu
thành các cụm dữ liệu sao cho các đối tượng trong một cụm “tương tự” (Similar)
với nhau và các đối tượng trong các cụm khác nhau sẽ “không tương tự”
(Dissimilar) với nhau. Số các cụm dữ liệu được phân chia ở đây có thể được
xác định trước theo kinh nghiệm hoặc có thể được tự động xác định.
Điều này được làm rõ với một ví dụ như sau:

Hình 1.5. Ví dụ về phân cụm dữ liệu


22


Trong trường hợp này, chúng ta dễ dàng xác định được 5 cụm dựa vào các
dữ liệu đã cho; các tiêu chí “tương tự” để phân cụm trong trường hợp này là
khoảng cách: hai hoặc nhiều đối tượng thuộc nhóm của chúng được “đóng gói”
theo một khoảng cách nhất định. Điều này được gọi là phân cụm dựa trên khoảng
cách.
Một kiểu khác của phân cụm dữ liệu là phân cụm dữ liệu dựa vào khái
niệm: hai hay nhiều đối tượng thuộc cùng nhóm nếu có một định nghĩa khái niệm
chung cho tất cả các đối tượng trong đó. Nói cách khác, đối tượng của nhóm phải
phù hợp với nhau theo miêu tả các khái niệm đã được định nghĩa, không phải
theo những biện pháp đơn giản tương tự.
1.2.1.2. Các mục tiêu của phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu nhằm mục đích xác định các nhóm nội tại bên
trong một bộ dữ liệu khơng có nhãn. Nhưng vấn đề quyết định là cái gì tạo thành
một cụm tốt. Hay vấn đề đặt ra là làm thế nào để quyết định cái gì đã tạo nên một
phân cụm dữ liệu tốt ? Nó có thể được hiển thị rằng khơng có tiêu chuẩn tuyệt đối
“tốt nhất” mà sẽ là độc lập với mục đích cuối cùng của phân cụm dữ liệu. Do đó,
mà người sử dụng phải cung cấp một tiêu chuẩn, và như vậy mà kết quả của phân
cụm dữ liệu sẽ phù hợp với nhu cầu của họ cần. Giả sử, chúng ta có thể quan tâm
đến việc tìm kiếm đối tượng đại diện cho các nhóm đồng nhất trong “các cụm tự
nhiên” và mơ tả thuộc tính khơng biết của chúng trong việc tìm kiếm các nhóm
hữu ích và phù hợp hoặc trong việc tìm kiếm các đối tượng bất thường trong dữ
liệu (cá biệt, ngoại lệ, nhiễu).

23



Hình 1.6. Ví dụ phân cụm các đối tượng dựa trên khoảng cách
Một vấn đề thường được đề cập trong phân cụm là hầu hết các dữ liệu cần
cho phân cụm đều có chứa dữ liệu nhiễu do q trình thu thập thiếu chính xác
hoặc thiếu thoog tin, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữ
liệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sang giai đoạn phân tích
cụm dữ liệu. Nhiễu ở đây được hiểu là các đối tượng dữ liệu khơng chính xác,
khơng tường minh hoặc là các đối tượng dữ liệu bị khuyết thiếu thông tin về
một số thuộc tính... Một trong các kỹ thuật xử lí nhiễu phổ biến là việc thay
thế giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương
ứng. Ngồi ra, dị tìm đối tượng ngoại lai cũng là một trong những hướng
nghiên cứu rất quan trọng trong phân cụm, chức năng của nó là xác định một
nhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệu trong cơ sở dữ
liệu, tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc mô hình dữ
liệu nhằm tránh sự ảnh hưởng của chúng tới q trình và kết quả của phân cụm.

Hình 1.7. Ví dụ phân cụm các ngơi nhà dựa trên kích cỡ
Theo các nghiên cứu đến thời điểm hiện nay thì chưa có một phương pháp
phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc
cơ sở dữ liệu. Hơn nữa, đối với các phương pháp phân cụm cần có cách thức biểu
diễn cấu trúc của cơ sở dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có
24


tương ứng một thuật tốn phân cụm phù hợp. Vì vậy, phân cụm dữ liệu vẫn
đang là một vấn đề khó và mở, vì nó phải giải quyết nhiều vấn đề cơ bản một
cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với
dữ liệu hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng là
một trong những thách thức lớn trong lĩnh vực khai phá dữ liệu.
1.3. Những kỹ thuật phân cụm dữ liệu
Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong

thực tiễn, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám
phá được và tốc độ thực hiện của thuật toán. Hiện nay, các kỹ thuật phân cụm có
thể phân loại theo các phương pháp tiếp cận chính như sau : phân cụm phân họach
(Partitioning Methods); phân cụm phân cấp (Hierarchical Methods); phân cụm dựa
trên mật độ (Density-Based Methods); phân cụm dựa trên lưới (Grid-Based
Methods); phân cụm dựa trên mơ hình phân cụm (Model-Based Clustering
Methods) và phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods)
1.3.1. Phương pháp phân cụm phân hoạch (Partitioning Methods)
Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử tạo thành k nhóm
cho đến khi xác định số các cụm được thiết lập. Số các cụm được thiết lập là các
đặc trưng được lựa chọn trước. Phương pháp này là tối ưu cho việc tìm các cụm
hình cầu trong khơng gian Euclidean. Ngồi ra, phương pháp này cũng phụ thuộc
vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan
hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào khơng có quan hệ hoặc
có quan hệ là xa nhau so với mỗi điểm khác. Tuy vậy, phương pháp này khơng thể
xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc. Các
thuật tốn phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu
toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân
hoạch có thể được. Chính vì lẽ đó, trên thực tế thường đi tìm giải pháp tối ưu cục
bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng
của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu. Như

25


×