Tải bản đầy đủ (.pdf) (78 trang)

Tiếp cận tập thô xây dựng cây quyết định đa trị trong khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (944.73 KB, 78 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-----------------------------------------------

NGUYỄN THỊ MINH TÂM
TIẾP CẬN TẬP THÔ XÂY DỰNG CÂY QUYẾT ĐỊNH ĐA TRỊ
TRONG KHAI PHÁ DỮ LIỆU

LUẬN VĂN THẠC SĨ KHOA HỌC
CHUYÊN NGÀNH: ……………………..

Hà Nội 2008


CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
-------------------------LỜI CAM ĐOAN
Tên tôi là:

Nguyễn Thị Minh Tâm

Sinh ngày:

21/01/1980

Quê quán:

Thành phố Vinh - Tỉnh Nghệ An

Địa chỉ:
Nghệ An.



Khối 8 - Phường Quang Trung – Thành phố Vinh - Tỉnh

Là học viên lớp Cao học Công Nghệ Thơng Tin khố 2003 – 2005,
trường Đại học Bách khoa Hà nội.
Tôi làm luận văn tốt nghiệp cao học với đề tài “Tiếp cận tập thô xây
dựng cây quyết định đa trị trong khai phá dữ liệu”, do PGS. TS Nguyễn
Thanh Thuỷ hướng dẫn.
Tôi xin cam đoan đây là luận văn tốt nghiệp do tôi làm. Các kết quả của
luận văn là trung thực và chưa từng được ai công bố trong bất kỳ cơng trình
nào khác.
Hà nội, ngày 01 tháng 11 năm 2005
Người cam đoan

Nguyễn Thị Minh Tâm


2

MỤC LỤC
LỜI CAM ĐOAN ................................................................................... 1
MỤC LỤC............................................................................................... 2
Danh mục các hình vẽ và bảng ............................................................ 5
Mở đầu .................................................................................................... 6
Chương 1 Tổng quan về phát hiện tri thức trong cơ sở dữ liệu ........ 9
1.1. Khái niệm về phát hiện tri thức ................................................... 9
1.2. Tiến trình phát hiện tri thức trong cơ sở dữ liệu...................... 10
1.3. Các nhiệm vụ chính của khai phá dữ liệu ................................ 12
1.4. Các phương pháp DM................................................................ 15
1.4.1. Tập thô .................................................................................. 15

1.4.2. Tập mờ .................................................................................. 16
1.4.3. Cây quyết định ...................................................................... 16
1.4.4. Các phương pháp Bayes....................................................... 16
1.4.5. Mạng Nơron ......................................................................... 17
1.4.6. Tin học tiến hoá .................................................................... 17
1.4.7. Học máy................................................................................ 18
1.4.8. Phân cụm .............................................................................. 18
1.4.9. Các phương pháp khác......................................................... 19
1.5. Các ứng dụng của KDD ............................................................. 20
1.6. Các thách thức của KDD ........................................................... 21
Kết luận .............................................................................................. 23
Chương 2 : Lý thuyết tập thô ............................................................. 24


3
2.1. Các khái niệm cơ bản của tập thô ............................................. 24
2.1.1. Các hệ thông tin ................................................................... 24
2.1.2. Các xấp xỉ của tập ................................................................ 26
2.1.3. Các bảng quyết định ............................................................. 31
2.1.4. Sự phụ thuộc của các thuộc tính .......................................... 32
2.1.5. Rút gọn các thuộc tính .......................................................... 33
2.2. Cách tiếp cận tập thô đối với hệ thông tin đa trị ..................... 34
2.2.1. Các hệ thông tin đa trị.......................................................... 36
2.2.2. Các xấp xỉ của tập ................................................................ 38
2.2.3. Sự phụ thuộc của các thuộc tính .......................................... 39
2.2.4. Rút gọn các thuộc tính .......................................................... 39
2.2.5. Các luật quyết định .............................................................. 41
Kết luận .............................................................................................. 43
Chương 3. Cây quyết định đa trị ........................................................ 44
3.1. Cây quyết định ............................................................................ 44

3.1.1. Giới thiệu về cây quyết định ................................................. 45
3.1.2. Các vấn đề trong việc khai phá dữ liệu với cây quyết định . 45
3.1.3. Giải thuật xây dựng cây quyết định cơ bản ......................... 49
3.2. Cây quyết định đa trị .................................................................. 51
3.2.1. Giới thiệu về cây quyết định đa trị ....................................... 51
3.2.2 Những khó khăn trong việc quản lý dữ liệu đa trị bằng các
phương pháp phân lớp truyền thống ........................................................ 54
3.2.3. Giải thuật xây dựng cây quyết định đa trị............................ 56
Kết luận .............................................................................................. 58


4
Chương 4. Xây dựng cây quyết định đa trị dựa trên tập thơ có độ
chính xác thay đổi........................................................................................... 59
4.1. Giới thiệu .................................................................................... 59
4.2. Lý thuyết tập thơ có độ chính xác thay đổi ............................... 61
4.2. Giải thuật xây dựng cây quyết định dựa trên tập thơ có độ
chính xác thay đổi........................................................................................ 64
4.3. Ví dụ minh hoạ .......................................................................... 66
4.4. Đánh giá .................................................................................... 69
Kết luận .............................................................................................. 73
KẾT LUẬN ........................................................................................... 74
Tài liệu tham khảo ............................................................................... 75


5

Danh mục các hình vẽ và bảng
Hình 1.1 - Tiến trình KDD ............................................................................ 11
Hình 1.2. Các kỹ thuật khai phá dữ liệu (tháng 2/2005) [16]..................... 20

Bảng 2.1 – Hệ thông tin T1 ............................................................................ 25
Hình 2.1. Các xấp xỉ thơ của tập ................................................................... 27
Hình 2.2. Các miền của khơng gian đối tượng ............................................ 28
Bảng 2.2. Hệ thông tin T2. ............................................................................. 29
Bảng 2.3 - Hệ thông tin đa trị về các bệnh nhân bị nghẽn mạch [15] ....... 34
Bảng 3.1. Tập dữ liệu huấn luyện đa trị...................................................... 52
Hình 3.1. Ví dụ về cây quyết định đa trị ...................................................... 53
Bảng 4.1. Ví dụ bảng quyết định.................................................................. 66
Hình 4.1. Cây quyết định đa trị được xây dựng bằng giải thuật VPRSDTA .......................................................................................................... 68
Hình 4.2. Cây quyết định xây dựng bằng giải thuật ID3. .......................... 72


6

Mở đầu
Với tốc độ tin học hoá rất nhanh trong vài thập kỷ qua, hầu hết các tổ
chức và cá nhân đều thu thập và lưu trữ một khối lượng dữ liệu khổng lồ
trong các cơ sở dữ liệu của họ. Lúc đó, việc có thể hiểu được chúng vượt xa
khả năng của con người. Dữ liệu được thu thập trong các cơ sở dữ liệu vì thế
trở thành dữ liệu "bị chôn vùi" - rất hiếm khi được xem xét. Các quyết định
thường được thực hiện dựa vào trực giác của người tạo quyết định mà không
dựa vào dữ liệu giàu thơng tin có sẵn trong cơ sở dữ liệu. Đơn giản vì người
tạo quyết định khơng có các cơng cụ để trích rút các tri thức có giá trị. Các kỹ
thuật hệ chuyên gia dựa vào thao tác thủ công để chuyển đổi các tri thức
chuyên môn thành tri thức biểu diễn trong máy. Các thao tác này thiên về tính
chủ quan, có nhiều lỗi cộng với chi phí cao, thời gian xử lý rất lớn. Tình
huống lúc này được mô tả như "Giàu dữ liệu nhưng nghèo thông tin" [11].
Các công cụ phát hiện tri thức trong cơ sở dữ liệu (Knowledge
Discovery in Databases - KDD) ra đời thực hiện việc phân tích dữ liệu để
phát hiện các tri thức có ích như các dạng hay các mơ hình.

Phương pháp dùng cây quyết định là phương pháp khai phá dữ liệu để
tìm ra sự phân lớp tri thức trong các tập dữ liệu huấn luyện bằng cách xây
dựng cây quyết định. Trong quá trình xây dựng cây quyết định, các thuộc tính
xấp xỉ phải được chọn làm các nút của cây dựa trên một số tiêu chuẩn như có
độ chính xác cao, chiều cao nhỏ,... để thu được cây kết quả tối thiểu theo
nghĩa nào đó. Cây quyết định có cấu trúc cây trong đó mỗi nút biểu diễn phép
kiểm tra giá trị một thuộc tính nào đó, mỗi nhánh tương ứng với các giá trị
của thuộc tính, nút lá biểu diễn các lớp hay phân bố lớp.


7
Có nhiều giải thuật xây dựng cây quyết định. Giải thuật cơ bản xây
dựng cây quyết định là giải thuật trên xuống (top – down) và tìm kiếm tham
lam trên tồn bộ khơng gian của cây quyết định.
Lý thuyết tập thô được Pawlak đề xuất vào đầu những năm 1980 được
xem như một cách tiếp cận mới để phát hiện tri thức và nó "tạo thành một cơ
sở vững chắc cho các ứng dụng khai phá dữ liệu" [8]. Chúng ta đã thấy rõ sự
phát triển nhanh của các nghiên cứu về lý thuyết tập thô và các ứng dụng của
chúng. Cho đến nay, đã có hàng ngàn bài báo được công bố về tập thô và các
ứng dụng của chúng. Lý thuyết tập thô đã được áp dụng thành công trong
nhiều lĩnh vực như y học, dược học, ngân hàng, tài chính, phân tích thị
trường. Lý thuyết tập thơ đưa ra các cơng cụ tốn học để phát hiện các dạng
ẩn trong dữ liệu: nhận biết một phần hoặc tồn bộ sự phụ thuộc (ví dụ, các
quan hệ ngun nhân-kết quả) trong các cơ sở dữ liệu, loại ra các dữ liệu
thừa, đưa ra cách tiếp cận đối với vấn đề dữ liệu khơng đầy đủ (dữ liệu khơng
có giá trị, thiếu dữ liệu, dữ liệu động ...) Dữ liệu khơng đầy đủ ở đây có nhiều
dạng, trong đó có nhiều trường hợp dữ liệu lưu trữ là khơng chắc chắn được
thể hiện qua các hệ thông tin với các thuộc tính đa trị. Cách tiếp cận lý thuyết
tập thô của Pawlak không xem xét trường hợp này, do đó làm hạn chế các ứng
dụng của nó trong xử lý dữ liệu.

Luận văn trình bày một cách tiếp cận mới để xây dựng cây quyết định
đa trị có khả năng chịu lỗi dựa trên những phát triển của lý thuyết tập thơ - mơ
hình tập thơ có độ chính xác thay đổi (VPRS - Variable precision Rough
Sets). Dựa trên lý thuyết tập thơ có độ chính xác thay đổi, một khái niệm mới
về quan hệ tương đương được đưa ra, đó là quan hệ tương đương có độ chính
xác β được dùng để xây dựng cây quyết định đa trị.


8
Ngoài phần mở đầu và kết luận, luận văn bao gồm bốn chương.
Chương 1 Tổng quan về phát hiện tri thức trong cơ sở dữ liệu. Chương
này trình bày các khái niệm cơ bản của lĩnh vực nghiên cứu KDD, quy trình
KDD, các nhiệm vụ chủ yếu của khai phá dữ liệu (Data Mining - DM), các
phương pháp DM, các ứng dụng của KDD và các thách thức của lĩnh vực
nghiên cứu này.
Chương 2 Lý thuyết tập thô. Chương này trình bày các khái niệm cơ
bản lý thuyết tập thơ, cách tiếp cận tập thô để xử lý các hệ thơng tin với các
thuộc tính đa trị.
Chương 3 Cây quyết định đa trị. Chương này trình bày về cây quyết
định đơn trị và giải thuật xây dựng cây quyết định đơn trị. Từ đó ta thấy được
những khó khăn trong việc quản lý dữ liệu đa trị bằng các phương pháp phân
lớp truyền thống như cây quyết định đơn trị. Trong chương này cũng trình
bày về cây quyết định đa trị và giải thuật cơ bản để xây dựng cây quyết định
đa trị.
Chương 4 Xây dựng cây quyết định đa trị dựa trên tập thơ có độ chính
xác thay đổi. Chương này giới thiệu về mơ hình tập thơ có độ chính xác thay
đổi và đưa ra giải thuật xây dựng cây quyết định dựa trên tập thơ có độ chính
xác thay đổi nhằm khai phá dữ liệu.
Tác giả xin được bày tỏ lòng biết ơn sâu sắc tới PGS. TS Nguyễn
Thanh Thuỷ về những chỉ dẫn khoa học quý giá, định hướng cho luận văn và

sự hướng dẫn tận tình của Thầy. Tác giả cũng xin chân thành cảm ơn các
Thầy Cô giáo khoa Công Nghệ Thông Tin, Trung tâm Đào tạo và Bồi dưỡng
Sau Đại học trường Đại học Bách khoa Hà Nội cùng các bạn lớp Cao học
2003 CNTT đã tạo mọi điều kiện, giúp đỡ tác giả hoàn thành luận văn.


9

Chương 1
Tổng quan về phát hiện tri thức trong cơ sở dữ liệu
Knowledge Discovery and Data mining (KDD) là lĩnh vực nghiên cứu
đang phát triển mạnh mẽ. KDD là sự kết hợp giữa cơ sở dữ liệu (CSDL) với
các kỹ thuật thống kê, học máy và các lĩnh vực liên quan để trích rút tri thức
và thơng tin có giá trị từ số lượng dữ liệu rất lớn.
KDD có nhiều lợi ích trong các ứng dụng khoa học và thương mại. Các
tổ chức, chính phủ và cộng đồng những người nghiên cứu khoa học ngày nay
đang bị tràn ngập trong dòng chảy dữ liệu được thu thập và lưu trữ hàng ngày
từ cơ sở dữ liệu trực tuyến. Việc phân tích dữ liệu này và trích rút các dạng có
ích trong một thời gian hợp lý là rất khó khăn nếu khơng có sự trợ giúp của
máy tính và các cơng cụ phân tích mạnh. Các chương trình phân tích và thống
kê dựa vào máy tính thường bị hạn chế là khơng có sự điều khiển, chỉ dẫn của
các nhà thống kê và các chuyên gia để lọc và giải thích các kết quả. KDD
được xem là một trong các lĩnh vực nghiên cứu có triển vọng nhất từ những
năm 1990 bởi các nhà nghiên cứu về học máy và cơ sở dữ liệu.
1.1. Khái niệm về phát hiện tri thức
KDD là lĩnh vực nghiên cứu và ứng dụng tập trung vào dữ liệu, thơng
tin và tri thức. Nói chung, chúng ta thường xem dữ liệu như là một chuỗi các
bit, các số hay các ký hiệu, các đối tượng mà có ý nghĩa khi được gửi đến cho
một chương trình theo một định dạng cho trước (nhưng vẫn chưa hiểu được).
Chúng ta sử dụng các bit để đo thông tin và xem nó như là dữ liệu đã được

lược bỏ các dư thừa và được rút gọn tới mức tối thiểu cần thiết để tạo nên các
quyết định mà đặc tả được bản chất của dữ liệu (dữ liệu hiểu được). Chúng ta


10
có thể xem tri thức như là thơng tin được kết hợp, bao gồm các sự kiện và các
quan hệ của chúng, là cái mà được hiểu, được phát hiện hay được biết như
"hình ảnh trí tuệ" của chúng ta. Nói cách khác, tri thức có thể được xem như
dữ liệu ở mức cao của sự trừu tượng hoá và tổng qt hố.
Có sự khác biệt trong cách hiểu các thuật ngữ “phát hiện tri thức” và
“khai phá dữ liệu” giữa những người xây dựng lĩnh vực mới này từ các lĩnh
vực khác nhau :
Phát hiện tri thức (Knowledge discovery) trong CSDL là quá trình phát
hiện các mẫu hay các mơ hình đúng đắn, mới lạ, có lợi ích tiềm tàng và có thể
hiểu được trong dữ liệu.
Khai phá tri thức (Data mining) là quá trình phát hiện tri thức bao gồm
các giải thuật khai phá dữ liệu để tìm ra các mẫu hay các mơ hình trong dữ
liệu dưới khả năng có thể chấp nhận được của máy tính điện tử.
Nói cách khác, mục đích của phát hiện tri thức và khai phá dữ liệu là để
tìm ra các mẫu hay các mơ hình quan tâm tồn tại trong CSDL nhưng lại ẩn
trong lượng dữ liệu lớn.
1.2. Tiến trình phát hiện tri thức trong cơ sở dữ liệu
Tiến trình KDD bao gồm nhiều bước được chỉ ra trong hình 1.1.
Bước thứ nhất là khảo sát miền ứng dụng và xác định, phát biểu vấn đề.
Bước này rõ ràng là điều kiện tiên quyết cho việc trích rút các tri thức có ích
và lựa chọn các phương pháp DM thích hợp ở bước thứ ba theo mục đích ứng
dụng và bản chất dữ liệu.


11

Bước thứ hai là thu thập và tiền xử lý dữ liệu, bao gồm việc lựa chọn
nguồn dữ liệu, loại bỏ các nhiễu hay các ngoại lệ (outliers), xử lý vấn đề thiếu
dữ liệu, chuyển đổi (rời rạc hoá nếu cần thiết) và rút gọn dữ liệu, v.v... Bước
này thường chiếm hầu hết thời gian cần cho toàn bộ tiến trình KDD.

Hình 1.1 - Tiến trình KDD
Bước thứ ba là DM để trích rút ra các dạng và các mơ hình ẩn trong dữ
liệu. Một mơ hình có thể được xem như "một sự mơ tả tồn bộ một cấu trúc
để tổng kết các thành phần cơ bản của dữ liệu một cách có hệ thống hay mơ tả
dữ liệu có thể được xuẩt hiện như thế nào". Ngược lại, "một dạng là một cấu
trúc cục bộ, có thể chỉ liên quan một số các biến và các trường hợp".
Bước thứ tư là giải thích tri thức được phát hiện, nhất là giải thích các
điều kiện được chấp nhận của sự mơ tả và dự báo – hai mục đích chính của
các hệ thống phát hiện tri thức trong thực tế. Các kinh nghiệm cho thấy rằng
các mơ hình hay các dạng được phát hiện từ dữ liệu ngay từ đầu khơng phải
ln đúng. Do đó tiến trình KDD lặp đi lặp lại một cách tất yếu để đánh giá tri


12
thức được phát hiện. Một cách thức chuẩn để đánh giá các luật được đưa ra là
chia dữ liệu thành hai tập, huấn luyện trên tập đầu tiên và kiểm thử trên tập
thứ hai. Có thể lặp lại quy trình này một số lần, với cách phân chia khác nhau,
sau đó lấy trung bình của các kết quả để đánh giá hiệu năng các luật.
Bước cuối cùng là đưa tri thức được phát hiện sử dụng trong thực tế.
Trong một số trường hợp, có thể sử dụng trực tiếp tri thức được phát hiện,
không cần nhúng trong một hệ thống máy tính. Ngược lại, người dùng có thể
cho rằng tri thức được phát hiện có thể đưa vào trong các máy tính và được
khai thác bởi các chương trình ứng dụng, chẳng hạn hệ chuyên gia, hệ trợ
giúp quyết định.
1.3. Các nhiệm vụ chính của khai phá dữ liệu

Trong thực tế, DM có hai mục đích chính là dự báo và mơ tả. Mục đích
thứ nhất địi hỏi phải sử dụng một số biến hoặc trường trong cơ sở dữ liệu để
dự báo các giá trị chưa biết hoặc sẽ có của các biến quan tâm khác. Mục đích
thứ hai tập trung vào việc tìm các dạng mơ tả dữ liệu có thể hiểu được. Mối
quan hệ của hai mục đích này đối với các ứng dụng khai phá dữ liệu có thể
thay đổi một cách đáng kể. Một hệ thống DM có thể hồn thành một hoặc
nhiều hơn các nhiệm vụ sau [4]:
- Mô tả lớp. Mô tả lớp cung cấp một sự tổng kết ngắn gọn và súc tích
của một sự thu thập dữ liệu. Sự tổng kết của một sự thu thập dữ liệu được gọi
là đặc tả lớp; ngược lại, sự so sánh giữa hai hoặc nhiều hơn các thu thập dữ
liệu được gọi là so sánh hoặc phân biệt lớp. Mô tả lớp không chỉ bao gồm các
tính chất tổng kết của nó, như count, sum và average, mà cịn cả các tính chất
về sự phân tán dữ liệu như variance, outliers, quartiles .v.v...


13
- Kết hợp. Sự kết hợp là việc phát hiện các mối quan hệ kết hợp hay các
quan hệ chung giữa một tập các item. Chúng thường được biểu diễn ở dạng
luật chỉ ra các điều kiện giá trị-thuộc tính xuất hiện thường xuyên cùng với
nhau trong một tập dữ liệu đã cho. Một luật kết hợp ở dạng X⇒Y được hiểu
như "các bộ dữ liệu mà thoả mãn X thì có khả năng thoả mãn Y". Các phân
tích kết hợp được sử dụng một cách rộng rãi trong các cơ sở dữ liệu giao dịch
đối với xu hướng tiếp thị, các sản phẩm có quan hệ với nhau, thiết kế catalog
và các quy trình tạo quyết định thương mại khác. Việc nghiên cứu đáng kể
được thực thi gần đây dựa trên các phân tích kết hợp với các giải thuật hiệu
quả đã được đề xuất, bao gồm tìm kiếm apriori, khai phá đa cấp, các kết hợp
đa chiều, khai phá các kết hợp đối với dữ liệu số, categorical, dữ liệu khoảng,
meta-pattern hay khai phá các tương quan.
- Sự phân lớp. Sự phân lớp phân tích một tập dữ liệu huấn luyện (ví dụ,
một tập các đối tượng mà nhãn lớp được biết) và xây dựng một mơ hình cho

mỗi lớp dựa vào các đặc trưng trong dữ liệu. Một cây quyết định hoặc một tập
các luật phân lớp được tạo bởi một quy trình phân lớp như thế có thể sau đó
được dùng cho một sự hiểu biết tốt hơn của mỗi lớp trong cơ sở dữ liệu và
cho sự phân lớp của dữ liệu trong tương lai. Có nhiều phương pháp phân lớp
được phát triển trong các lĩnh vực học máy, thống kê, cơ sở dữ liệu, mạng
nơron, tập thô . . . Phân lớp được dùng trong phân đoạn khách hàng, mơ hình
thương mại và các phân tích tín dụng.
- Dự báo. Chức năng khai phá này dự báo các giá trị có thể của một số
dữ liệu bị thiếu hoặc sự phân bố giá trị của các thuộc tính nào đó trong một
tập đối tượng. Nó bao gồm việc tìm tập thuộc tính liên quan với thuộc tính
quan tâm (ví dụ, một số phân tích thống kê) và dự báo phân bố giá trị dựa trên
tập dữ liệu tương tự với các đối tượng đã chọn. Ví dụ, tiền lương của một


14
người làm có thể được dự báo dựa vào phân bố lương của những người làm
tương tự trong công ty. Thơng thường, các phân tích hồi quy (regression), mơ
hình tuyến tính suy rộng, các phân tích tương quan và các cây quyết định là
các cơng cụ có ích trong chất lượng dự báo.
- Phân cụm. Các phân tích phân cụm phân vùng dữ liệu thành các cụm.
Một cụm là một tập hợp các đối tượng "tương tự" với nhau. Tính tương tự
thường được định rõ bởi hàm khoảng cách. Các khoảng cách Hamming và
Euclidean thường được dùng. Một phương pháp phân cụm tốt mang lại các
cụm bảo đảm tính chất: độ tương tự giữa các cụm thì thấp cịn độ tương tự
trong một cụm thì cao. Nghiên cứu DM tập trung vào tính chất lượng và các
phương pháp phân cụm scalable (khả năng sử dụng cùng một giải thuật cho
một số lượng lớn các đầu vào) đối với cơ sở dữ liệu lớn và nhiều chiều.
- Các phân tích theo thời gian. Các phân tích theo thời gian là để phân
tích một tập dữ liệu theo thời gian để phát hiện các quy tắc nào đó và các đặc
trưng quan tâm, bao gồm tìm kiếm các chuỗi hay các chuỗi con tương tự, và

khai phá các dạng, các chu kỳ, các xu hướng và độ lệch tuần tự. Ví dụ, một ai
đó có thể dự đốn giá trị cổ phần của một công ty dựa vào lịch sử về cổ phần
của cơng ty đó, các tình huống thương mại, giá cả thị trường hiện thời .v.v...
Cũng có các nhiệm vụ DM khác, như các phân tích ngoại lệ (outlier). . .
Việc nhận biết các nhiệm vụ DM mới để có được cách sử dụng dữ liệu tốt
hơn là vấn đề nghiên cứu thú vị.


15
1.4. Các phương pháp DM
1.4.1. Tập thô
Tập thô được đề xuất bởi Giáo sư Zdzislaw Pawlak, nhà nghiên cứu
khoa học tại Viện Tin học Lý thuyết và Ứng dụng thuộc Viện hàn lâm Khoa
học Ba Lan vào năm 1982. Ý tưởng của tập thô dựa vào các quan hệ tương
đương, cho phép phân chia một tập dữ liệu thành các lớp tương đương và bao
gồm các tập được định nghĩa như một cặp của các tập, được gọi là các xấp xỉ
trên và xấp xỉ dưới. Xấp xỉ dưới của một tập đối tượng (một khái niệm) chứa
tất cả các đối tượng mà dựa vào tri thức của một tập thuộc tính cho trước, có
thể được phân loại một cách chắc chắn là thuộc vào khái niệm. Xấp xỉ trên
của một tập là tập tất cả các đối tượng mà có thể thuộc vào khái niệm. Do đó
tập thơ là một xấp xỉ của một tập. Nó cung cấp một định lượng, phép đo bằng
số của sự xấp xỉ phân lớp [20].
Lý thuyết tập thơ đối với thơng tin có thể được mô tả như một bảng.
Bảng bao gồm các đối tượng (còn gọi là các trường hợp) và các thuộc tính. Ta
qui ước gọi mỗi đầu vào của bảng là mỗi giá trị của các thuộc tính. Mục đích
đặt ra là phân loại các đối tượng trong bảng. Nếu cho rằng một bảng quyết
định chính là một tập các luật "if-then", lý thuyết tập thô cung cấp cho ta một
tập tối thiểu các luật "if-then" đơn giản nhất.
Mục đích khác ở đây là tạo ra các luật quyết định cho việc phân lớp và
dự báo các lớp cho các đối tượng chưa được xem xét. Tập thô đã được ứng

dụng thành cơng trong việc rút gọn thuộc tính.


16
1.4.2. Tập mờ
Lý thuyết tập mờ là sự mở rộng của lý thuyết tập thông thường (tập rõ),
mở rộng khái niệm chân lý cổ điển với các giá trị chân lý nằm giữa 0 (sai
hoàn toàn) và 1 (đúng hoàn tồn). Chẳng hạn ta khơng nói cao bao nhiêu cm,
mà lại nói "hơi cao", "thấp quá"… Lý thuyết tập mờ được đề xuất bởi Lofti
Zadeh năm 1965 như một công cụ để mơ hình hố tính mờ và tính nhập
nhằng trong các hệ thống phức tạp.
1.4.3. Cây quyết định
Cây quyết định là công cụ khá mạnh và phổ biến để phân lớp và dự
đoán. Ưu điểm lớn của cây quyết định là biểu diễn các luật một cách rõ ràng,
để có thể hiểu chúng. Trong nhiều ứng dụng, độ chính xác của phân lớp hay
dự đoán là vấn đề rất quan trọng.
Cây quyết định có nhiều ưu điểm như là tốc độ nhanh, độ chính xác cao
và phương thức dễ tạo. Vì vậy, cây quyết định được nhiều nhà nghiên cứu tập
trung trong khai phá dữ liệu.
1.4.4. Các phương pháp Bayes
Xử lý thống kê được dựa vào lý thuyết quyết định Bayes là một kỹ
thuật nền tảng cho nhận dạng và phân lớp. Cách tiếp cận Bayes giả định rằng
các dạng có các đặc tính ngẫu nhiên và chúng được tạo ra theo một cách ngẫu
nhiên bởi một vài quy trình hay hiện tượng tự nhiên. Việc phân lớp các dạng
được biểu diễn trong các điều kiện xác suất. Ở đây giả sử rằng các đặc tính
thống kê của các dạng ngẫu nhiên được biểu diễn như mật độ xác suất điều
kiện của các dạng và các lớp. Nó cung cấp các phương pháp thống kê để phân


17

loại các dạng vào trong các lớp dựa vào các xác suất của các dạng và các đặc
trưng của chúng.
Có nhiều công cụ khác nhau trong thị trường để thực thi các phương
pháp Bayes cho DM.
1.4.5. Mạng Nơron
Mạng nơron là phương pháp tốt khi có nhiều mẫu. Tập dữ liệu được
chia thành các tập huấn luyện và các tập kiểm thử. Hầu hết các ứng dụng của
mạng nơron thuộc vào các loại sau:
- Dự báo: sử dụng các giá trị đầu vào để dự báo một số đầu ra.
- Phân lớp: sử dụng các giá trị đầu vào để xác định sự phân lớp.
- Sự kết hợp dữ liệu: tương tự với phân lớp nhưng nó nhận biết dữ
liệu chứa lỗi.
- Lọc dữ liệu: làm trơn một tín hiệu đầu vào.
1.4.6. Lập trình tiến hố
Các giải thuật di truyền đang được dùng hiện thời trong các ứng dụng
DM để cải tiến hiệu năng của mạng nơron. Hầu hết các công cụ DM được
thiết kế để phát hiện, trong khi các giải thuật di truyền là các công cụ để tối
ưu hoá. Tuy nhiên, khi được dùng nối tiếp nhau, một giải thuật di truyền có
thể được dùng để tối ưu hoá hiệu năng của một mạng nơron trong phân lớp và
dự báo.
Giải thuật di truyền cũng có thể được dùng chung với bộ tạo luật để đạt
được sự thực thi dự báo các luật cao hơn hay được dùng chung với các giải


18
thuật học máy để tối ưu việc tìm kiếm khơng gian và cải tiến tồn bộ độ chính
xác của các mơ hình dự báo.
Một lĩnh vực nghiên cứu hứa hẹn là việc thiết lập một chương trình di
truyền phức tạp trong đó các cá thể là các cấu trúc phức tạp.
1.4.7. Học máy

Học máy là lĩnh vực nghiên cứu tập trung vào các giải thuật quy nạp và
các giải thuật khác để có thể "học". Các giải thuật học máy mơ hình hố mơi
trường dựa vào dữ liệu đã cho, sản xuất các luật hiện (explicit) hay các cây
quyết định trong quy trình. Nhiều giải thuật khác nhau đã được thực thi thành
cơng.
1.4.8. Phân cụm
Phân cụm hay nhóm là việc tìm ra các nhóm trong dữ liệu. Hàng trăm
phương pháp phân cụm tồn tại và nhiều phương pháp đã được áp dụng trong
cơng nghiệp. Nói chung, các phương pháp phân cụm có thể được phân thành
hai loại:
- Phân cụm có thứ bậc: mỗi điểm trong dữ liệu được xem như một cụm
riêng biệt và được kết hợp một cách liên tiếp dựa vào các quan hệ của nó với
các dạng khác. Việc đệ quy các cụm được thiết lập để phát triển cây nhị phân
mô tả một sự xấp xỉ của các tương tự giữa các item.
- Các phương pháp tối ưu hoá dựa trên hàm đối tượng: các phương
pháp này sử dụng một chỉ số hiệu năng để giúp cho việc phát triển các phân
chia tốt của các điểm dữ liệu.


19
Các giải thuật phân cụm thực tế đòi hỏi các kiểm tra dữ liệu một cách
cẩn thận để đạt được sự hội tụ. Với một cơ sở dữ liệu lớn, các kiểm tra này trở
thành chi phí rất đắt đỏ. Các hướng mới trong nghiên cứu đang khắc phục vấn
đề này.
1.4.9. Các phương pháp khác
Hình học fractal (cơng cụ nén dữ liệu rất hiệu quả) là một cách tiếp cận
khác trong DM. Hình học fractal cung cấp lợi thế duy nhất để nén dữ liệu mà
khơng bị mất mát. Ngồi ra lập luận dựa vào tình huống cũng là một phương
pháp hiệu quả. Trong cách tiếp cận này, hệ thống lưu trữ các tình huống trước
đó (hoặc các thử nghiệm) như các kết quả đặc biệt. Hệ thống cũng cho phép

người dùng xem xét các tình huống để tác động đến quyết định.
Các kỹ thuật khai phá dữ liệu hiện nay đang được sử dụng được minh
hoạ trong hình 1.2.


20

Cây quyết định/Luật (107)
Nhóm dần (101)
Hồi qui (90)
Thống kê (80)
Trực quan hoá (63)
Mạng nơron (61)
Luật kết hợp (54)
Lân cận gần nhất (34)
Vectơ (31)
Bayes (30)
Phân tích chuỗi thời gian/tần số
Boosting (25)
Hybrid (23)
Bagging (20)
Giải thuật di truyền (19)
Các kỹ thuật khác (20)

Hình 1.2. Các kỹ thuật khai phá dữ liệu [16]
1.5. Các ứng dụng của KDD
Các kỹ thuật KDD có thể được áp dụng trong nhiều lĩnh vực, điển hình
là :
• Thơng tin thương mại :
o Phân tích dữ liệu bán hàng và tiếp thị.

o Phân tích vốn đầu tư.
o Chấp nhận vay nợ.
o Phát hiện gian lận.
• Thơng tin sản xuất :


21
o Điều khiển và lập lịch.
o Quản lý mạng.
o Phân tích kết quả thực nghiệm. v.v...
• Thơng tin khoa học :
o Phân loại địa hình thời tiết (sky survey).
o Các cơ sở dữ liệu chuỗi sinh học.
o Khoa học địa lý. v.v...
• Thơng tin cá nhân.
1.6. Các thách thức của KDD
- Các cơ sở dữ liệu lớn. Các cơ sở dữ liệu lớn với hàng trăm bảng, hàng
triệu bản ghi và kích thước cỡ GB là khá phổ biến, các cơ sở dữ liệu terabyte
bắt đầu xuất hiện.
- Dữ liệu nhiều chiều. Khơng chỉ có các cơ sở dữ liệu có số bản ghi lớn
mà cịn có các cơ sở dữ liệu có số các trường (các thuộc tính, các biến) rất
lớn. Một tập dữ liệu nhiều chiều tạo ra các vấn đề dưới dạng tăng kích thước
của khơng gian tìm kiếm cho sự quy nạp mơ hình trong một cách thức bùng
nổ tổ hợp. Hơn nữa, nó làm tăng khả năng mà một giải thuật DM sẽ tìm ra các
dạng khơng chính xác, nói chung là khơng hợp lệ. Các cách tiếp cận đối với
vấn đề này bao gồm các phương pháp rút gọn số chiều của vấn đề một cách
hiệu quả và sử dụng tri thức trước đó để nhận biết các biến khơng thích hợp.
- Hiện tượng quá khớp (over-fitting). Khi giải thuật tìm kiếm các tham
số tốt nhất cho một mơ hình cụ thể thì sẽ sử dụng một tập dữ liệu có giới hạn,
nó có thể quá khớp với dữ liệu, dẫn đến hiệu năng của mơ hình trên dữ liệu

test sẽ kém. Các giải pháp có thể bao gồm cross-validation, regularization và
các chiến lược thống kê khác.


22
- Đánh giá ý nghĩa thống kê. Một vấn đề (liên quan tới over-fitting)
xuất hiện khi hệ thống đang tìm kiếm qua nhiều mơ hình có thể có. Một cách
để đối phó với vấn đề này là sử dụng các phương pháp điều chỉnh số liệu
thống kê test như một hàm của tìm kiếm.
- Thay đổi dữ liệu và tri thức. Việc thay đổi dữ liệu với một tốc độ
nhanh có thể làm cho các dạng được phát hiện trước đó khơng cịn giá trị.
Hơn nữa, các biến được đo trong một ứng dụng cơ sở dữ liệu đã cho có thể bị
thay đổi, ... Các giải pháp có thể bao gồm các phương pháp tăng trưởng để
cập nhật các dạng và xem sự thay đổi như một cơ hội phát hiện bằng cách sử
dụng nó để xử lý một cách thích hợp việc tìm kiếm các cho chỉ các dạng của
sự thay đổi.
- Dữ liệu thiếu và nhiễu. Vấn đề này đặc biệt nghiêm trọng trong các cơ
sở dữ liệu giao dịch. Dữ liệu điều tra dân số Mỹ có tỷ lệ lỗi lên tới 20%. Các
giải pháp có thể bao gồm các chiến lược thống kê tinh vi hơn để nhận biết các
biến ẩn và các phụ thuộc.
- Các quan hệ phức tạp giữa các trường. Các thuộc tính hoặc các giá trị
được xây dựng có thứ tự, các quan hệ giữa các thuộc tính, và các ý nghĩa tinh
vi hơn đối với việc mô tả tri thức về các nội dung của một cơ sở dữ liệu sẽ đòi
hỏi các giải thuật phức tạp. Về phương diện lịch sử, các giải thuật DM được
phát triển cho các bản ghi giá trị-thuộc tính đơn giản, mặc dù các kỹ thuật mới
tìm thấy các quan hệ giữa các biến đang được phát triển.
- Tính có thể hiểu được của các dạng. Trong nhiều ứng dụng, điều đó
thật quan trọng để tạo ra các phát hiện có thể hiểu được nhiều hơn bởi con
người. Các giải pháp có thể bao gồm sự biểu diễn biểu đồ, cấu trúc luật với
các đồ thị có hướng.



23
- Tích hợp với các hệ thống khác. Một hệ thống phát hiện đứng một
mình có thể khơng mang lại nhiều lợi ích. Các vấn đề tích hợp điển hình bao
gồm tích hợp với một DBMS (ví dụ, qua một giao diện truy vấn), tích hợp với
các bảng tính và các cơng cụ visualization, ...
Kết luận
Trong chương 1, đã trình bày các khái niệm cơ bản của lĩnh vực nghiên
cứu KDD, quy trình KDD, các nhiệm vụ chủ yếu của DM, các phương pháp
DM, các ứng dụng của KDD và các thách thức của lĩnh vực nghiên cứu này.


24

Chương 2 : Lý thuyết tập thô
Lý thuyết tập thô được Giáo sư Pawlak đề xuất năm 1982. Ông nghiên
cứu tri thức từ một quan điểm mới và kết hợp tri thức với sự phân lớp, cung
cấp cơng cụ tốn học có thể chia sẻ cho sự nhận dạng của con người để đối
phó với vấn đề phân lớp dữ liệu khơng đầy đủ và khơng chính xác. Lý thuyết
tập thô được dùng rộng rãi trong nhiều lĩnh vực, chủ yếu được áp dụng để rút
gọn tri thức và phân tích sự phụ thuộc tri thức.
Lý thuyết tập thơ giả định rằng mọi đối tượng của khơng gian đối tượng
có một số điểm đặc trưng được mô tả bởi thông tin về đối tượng. Các đối
tượng có cùng các điểm đặc trưng sẽ không phân biệt được với nhau. Các
quan hệ không phân biệt được dẫn đến cách tiếp cận đối với tính mập mờ
được gọi là "đường ranh giới", được đề ra đầu tiên bởi ông tổ của logic hiện
đại, Gotlob Frege. Do đó, theo quan điểm của triết học thì lý thuyết tập thơ có
thể được hiểu như một trường hợp đặc biệt của ý tưởng được Frege đề xuất
[19].

2.1. Các khái niệm cơ bản của tập thô
2.1.1. Các hệ thông tin
Các khái niệm cơ bản của lý thuyết tập thơ có thể được trình bày thơng
qua các hệ thơng tin hay cịn được gọi là các bảng thơng tin, các hệ giá trịthuộc tính. Các cột của bảng được gán bởi các thuộc tính, các hàng là các đối
tượng và các đầu vào là các giá trị thuộc tính.
Ví dụ: Cho hệ thơng tin T1:


×