Tải bản đầy đủ (.pdf) (81 trang)

Nghiên cứu một số thuật toán liên quan đến tập rút gọn trên bảng quyết định nhất quán

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 81 trang )

..

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CNTT & TRUYỀN THÔNG

DƢƠNG ĐỨC NGUYÊN

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN LIÊN QUAN ĐẾN
TẬP RÚT GỌN TRÊN BẢNG QUYẾT ĐỊNH NHẤT QUÁN
Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƢỜI HƢỚNG DẪN KHOA HỌC: GS.TS VŨ ĐỨC THI

Thái Nguyên – 2013

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




i

LỜI CAM ĐOAN
1) Tôi xin cam đoan luận văn này là sản phẩm nghiên cứu của riêng tôi.
2) Một số định lý, định nghĩa và hệ quả, thuật tốn tơi lấy từ nguồn tài liệu
chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng.
3) Chƣơng trình thử nghiệm là của tôi viết và cài đặt, tôi không hề sao chép


của bất cứ ai.
4) Tôi xin chịu trách nhiệm hoàn toàn về sản phẩm nghiên cứu của mình.

Tác giả

Dƣơng Đức Ngun

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




ii

LỜI CẢM ƠN
Để có thể hồn thành đề tài luận văn thạc sĩ một cách hoàn chỉnh, bên cạnh
sự nỗ lực cố gắng của bản thân cịn có sự hƣớng dẫn nhiệt tình của q Thầy Cơ,
cũng nhƣ sự động viên ủng hộ của gia đình và bạn bè trong suốt thời gian học tập
nghiên cứu và thực hiện luận văn thạc sĩ.
Xin chân thành bày tỏ lòng biết ơn đến Thầy Vũ Đức Thi, ngƣời đã hết lòng
giúp đỡ và tạo mọi điều kiện tốt nhất cho tơi hồn thành luận văn này. Xin gửi lời
tri ân nhất của tôi đối với những điều mà Thầy đã dành cho tơi.
Xin chân thành bày tỏ lịng biết ơn đến tồn thể quý thầy cô đã giảng dạy và
truyền đạt kiến thức cho tơi để tơi có thể hồn thành các môn học trong xuất thời
gian học cao học tại trƣờng Đại học Thái Nguyên.
Xin gửi lời cảm ơn tới ban lãnh đạo cùng tồn thể các thầy cơ trong trƣờng
Đại học Công Nghệ Thông Tin và Truyền Thông Đại Học Thái Nguyên đã tạo điều
kiện thuận lợi cho tôi trong thời gian tôi học tập và nghiên cứu tại đây.
Xin chân thành bày tỏ lịng biết ơn đến gia đình, những ngƣời đã không
ngừng động viên, hỗ trợ và tạo mọi điều kiện tốt nhất cho tôi trong suốt thời gian

học tập và thực hiện luận văn.
Cuối cùng, tôi xin chân thành bày tỏ lòng cảm ơn đến các anh chị, các đồng
nghiệp đã hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực
hiện đề tài luận văn thạc sĩ một cách hoàn chỉnh.
Thái Nguyên, tháng 8 năm 2013.
Học viên

Dƣơng Đức Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iii

MỤC LỤC
MỞ ĐẦU .................................................................................................................... 1
CHƢƠNG 1: MỘT SỐ KHÁI NIỆM CƠ BẢN .........................................................4
1.1. Quá trình khai phá tri thức từ cơ sở dữ liệu .........................................................4
1.1.1. Xác định vấn đề .................................................................................................5
1.1.2. Thu thập và tiền xử lí dữ liệu ............................................................................ 5
1.2. Khai phá dữ liệu ................................................................................................... 7
1.2.1. Một số quan niệm về khai phá dữ liệu .............................................................. 7
1.2.2.Nhiệm vụ của khai phá dữ liệu .......................................................................... 7
1.2.3. Triển khai việc khai phá dữ liệu ........................................................................ 8
1.2.4. Một số ứng dụng khai phá dữ liệu .................................................................... 9
1.2.5. Các kỹ thuật khai phá dữ liệu ........................................................................... 9
1.2.6. Kiến trúc của hệ thống khai phá dữ liệu ......................................................... 11
1.2.7. Quá trình khai phá dữ liệu ............................................................................... 12

1.2.8. Những khó khăn trong khai phá dữ liệu.......................................................... 13
1.3. Hệ thơng tin đầy đủ và mơ hình tập thô truyền thống........................................ 14
1.3.1. Hệ thông tin đầy đủ ......................................................................................... 14
1.3.2 Mơ hình tập thơ truyền thống ........................................................................... 15
1.3.3. Bảng quyết định đầy đủ................................................................................... 17
1.3.4. Tập rút gọn và tập lõi ...................................................................................... 18
1.4.1. Một số khái niệm cơ bản ................................................................................. 20
1.4.2 Một số thuật toán cơ bản .................................................................................. 22
1.5.Tổng kết chƣơng ................................................................................................. 27
CHƢƠNG 2: RÚT GỌN THUỘC TÍNH VÀ MỘT SỐ THUẬT TOÁN TRÊN
BẢNG QUYẾT ĐỊNH NHẤT QUÁN ..................................................................... 28
2.1 Mở đầu ................................................................................................................ 28
2.2 Một số tính chất của metric trên bảng quyết định ............................................... 29
2.3. Rút gọn thuộc tính trong bảng quyết định sử dụng metric ................................. 34
2.3.1.Tập lõi và tập rút gọn của bảng quyết định dựa trên metric ............................ 34

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




iv

2.3.2. Thuật tốn tìm tập rút gọn của bảng quyết định sử dụng metric. ................... 35
2.3.3. Mối liên hệ giữa tập rút gọn dựa trên Metric và tập rút gọn Entropy Shannon42
2.3.4. Thuật tốn tìm tập rút gọn theo tham số độ chắc chắn của tập luật ................ 43
2.4. Thuật tốn tìm tập tất cả các thuộc tính rút gọn của bảng quyết định nhất quán45
2.4.1. Đặt vấn đề ....................................................................................................... 45
2.4.2. Thuật tốn........................................................................................................ 46
2.5. Thuật tốn tìm họ tất cả các tập rút gọn của bảng quyết định nhất quán .......... 48

2.6. Thuật toán xây dựng các phụ thuộc hàm từ bảng quyết định nhất quán............ 51
2.7. Thuật toán xây dựng bảng quyết định từ tập phụ thuộc hàm ............................. 52
2.8. Tổng kết chƣơng 2 ............................................................................................. 56
CHƢƠNG 3: CÀI ĐẶT CHƢƠNG TRÌNH TÌM TẬP TẤT CẢ CÁC THUỘC
TÍNH RÚT GỌN TRÊN BẢNG QUYẾT ĐỊNH NHẤT QUÁN ............................ 57
1. Đặt vấn đề ............................................................................................................. 57
2. Yêu cầu hệ thống và cấu hình cho máy ................................................................ 57
2.1. Yêu cầu hệ thống ................................................................................................ 57
2.2. Cấu hình cho máy............................................................................................... 57
3. Giới thiệu chƣơng trình và cách sử dụng .............................................................. 58
3.1 Cấu trúc chƣơng trình ......................................................................................... 58
3.2. Giới thiệu chƣơng trình ...................................................................................... 60
4. Thực hiện thuật toán với bộ dữ liệu Flu, EXAMPLE1, EXAMPLE .................... 61
4.1. Bộ dữ liệu “Flu” ................................................................................................. 61
4.2. Bộ dữ liệu “EXAMPLE1” ................................................................................. 63
4.3. Bộ dữ liệu “EXAMPLE” ................................................................................... 65
5. Kiểm thử ................................................................................................................ 67
6. Tổng kết chƣơng ................................................................................................... 67
KẾT LUẬN VÀ ĐỀ NGHỊ ....................................................................................... 68
TÀI LIỆU THAM KHẢO ......................................................................................... 69

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




v

DANH MỤC CÁC BẢNG


Bảng 1.1 Bảng thông tin về bệnh cúm ............................................................... 16
Bảng 1.2. Bảng quyết định về bệnh cúm ............................................................. 19
Bảng 2.1. Bảng quyết định về bệnh cảm cúm ...................................................... 33
Bảng 2.2. Bảng quyết định minh họa Ví dụ 2.2/ .................................................. 36
Bảng 2.3. Bảng quyết định ở ví dụ 2.6 ................................................................ 50
Bảng 2.4. Bảng Bảng quyết định đƣợc xây dựng từ thuật toán ............................. 56
Bảng 3.1. Triệu chứng cúm của bệnh nhân ......................................................... 62
Bảng 3.2. Bảng quyết định ................................................................................ 63
Bảng 3.3. Bảng dữ liệu kết quả thực hiện trên 3 bộ dữ liệu mẫu ........................... 67

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




vi

DANH MỤC CÁC HÌNH
Hình 1.1. Q trình khám phá tri thức từ cơ sở dữ liệu .......................................... 4
Hình 1.2. Kiến trúc của hệ thống khai phá dữ liệu ............................................... 11
Hình 1.3. Quá trình khai phá dữ liệu ................................................................... 13
Hình 3.1. Liên kết giữa các lớp trong chƣơng trình ............................................. 58
Hình 3.2. Lớp Reduced ...................................................................................... 59
Hình 3.3. Lớp DesisionTable ............................................................................. 59
Hình 3.4. Lớp EqualSystem ............................................................................... 59
Hình 3.5. Lớp Ultilities ...................................................................................... 60
Hình 3.6. Giao diện chính của chƣơng trình ........................................................ 60
Hình 3.7. Sửa hay thêm một dòng dữ liệu mới trên bảng “Flu” ............................ 61
Hình 3.8. Kết quả của bộ dữ liệu Flu .................................................................. 63
Hình 3.9. Kiểm tra xem bảng quyết định Example1 có nhất qn khơng .............. 64

Hình 3.10. Kết quả khi thực hiện thuật toán với bộ dữ liệu Example1 .................. 65
Hình 3.11. Kiểm tra xem bảng quyết định Example có nhất qn khơng .............. 66
Hình 3.12. Kết quả khi thực hiện thuật toán với bộ dữ liệu Example .................... 66

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




vii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Ký hiệu, từ viết tắt

Diễn giải

IS = (U,A,V,f)

Hệ thông tin, hệ thông tin đầy đủ

IIS = (U,A,V,f)

Hệ thông tin không đầy đủ

DS =(U,C  D,V,f) Bảng quyết định, bảng quyết định đầy đủ
IDS =(U,C  D,V,f) Bảng quyết định không đầy đủ
U

Số đối tƣợng


C

Số thuộc tính điều kiện trên bảng quyết định

A

Số thuộc tính trong hệ thơng tin

BX

B- xấp xỉ dƣới của X

BX

Xấp xỉ trên của X

BNB(D)

B – Miền biên của D

POSB(D)

B- Miền dƣơng của D

HRED(C)

Họ tất cả các tập rút gọn Entropy Shannon

U/B


Phân hoạch của U sinh bởi tập thuộc tính B

SB(u)

Lớp dung sai của đối tƣợng u

SĐQH

Sơ đồ quan hệ

H(Q/P)

Entropy Shannon có điều kiện của Q khi đã biết P

IE(P)

Entropy liang mở rộng của tập thuộc tính P trong hệ thơng
tin đầy đủ

SIM(B)

Quan hệ dung sai trên hệ thuộc tính

IND(B)

Quan hệ B không phân biệt

dj(K(P),K(Q))

Khoảng cách giữa K(P) và K(Q) trong hệ thông tin đầy đủ

dựa trên entropy Liang mở rộng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




1

MỞ ĐẦU
Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin
đã làm cho khả năng thu thập và lƣu trữ thông tin của hệ thống thơng tin tăng
nhanh một cách nhanh chóng. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là
cần có những kỹ thuật và cơng cụ mới để tự động chuyển đổi lƣợng dữ liệu
khổng lồ kia thành các tri thức có ích. Từ đó, các kỹ thuật khai phá dữ liệu đã trở
thành một lĩnh vực thời sự của nền công nghệ thông tin thế giới hiện nay nói
chung và Việt Nam nói riêng.
Khai phá dữ liệu đang đƣợc áp dụng một cách rộng rãi trong nhiều lĩnh vực
kinh doanh và đời sống khác nhau: Market tinh, tài chính ngân hàng và bảo hiểm,
khoa học kinh tế…Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ
thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu đƣợc
nhiều lợi ích to lớn.
Trong lý thuyết tập thơ, dữ liệu đƣợc biểu diễn thông qua một hệ thông tin
IS=(U,A) với U là tập các đối tƣợng và A là tập thuộc tính. Phƣơng pháp tiếp cận
chính của lý thuyết tập thô là dựa trên quan hệ không phân biệt đƣợc để đƣa ra các
tập xấp xỉ dƣới và xấp xỉ trên của nó. Xấp xỉ dƣới bao gồm các đối tƣợng chắc chắn
thuộc tập đó, cịn xấp xỉ trên chứa tất cả các đối tƣợng có khả năng thuộc về tập đó.
Nếu tập xấp xỉ dƣới bằng tập xấp xỉ trên thì tập đối tƣợng cần quan sát là tập rõ.
Ngƣợc lại là tập thô. Các tập xấp xỉ là cơ sở để đƣa ra các kết luận từ tập dữ liệu.
Bảng quyết định là hệ thông tin IS với tập thuộc tính A đƣợc chia thành hai tập

con khác rỗng rời nhau C và D, lần lƣợt đƣợc gọi là tập thuộc tính điều kiện và
tập thuộc tính quyết định. Nói cách khác, DS=(U,C  D) với C  D  . Bảng
quyết định là mơ hình thƣờng gặp trong thực tế, Khi mà giá trị dữ liệu tại các
thuộc tính điều kiện có thể cung cấp cho ta thơng tin về giá trị của thuộc tính
quyết định. Bảng quyết định là nhất quán khi phụ thuộc hàm C→D là đúng, trái
lại là khơng nhất qn.
Rút gọn thuộc tính là ứng dụng quan trọng nhất trong lý thuyết tập thơ. Mục
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




2

tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dƣ thừa để tìm ra các thuộc tính
cốt yếu và cần thiết trong cơ sở dữ liệu. Với bảng quyết định, rút gọn thuộc tính là
tập con nhỏ nhất của tập thuộc tính điều kiện bảo tồn thơng tin phân lớp của bảng
quyết định. Đối với một bảng quyết định có nhiều tập rút gọn khác nhau tuy nhiên
trong thực hành thƣờng khơng địi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm đƣợc
một tập rút gọn tốt nhất theo một tiêu chuẩn đánh giá nào đó là đủ. Vì vậy, mỗi
phƣơng pháp rút gọn thuộc tính đều trình bày một thuật tốn Heuristic tìm tập rút
gọn. Các thuộc tính này giảm thiểu đáng kể khối lƣợng tính tốn, nhờ đó có thể áp
dụng đối với các bài tốn có khối lƣợng dữ liệu lớn.
Cho bảng quyết định nhất quán DS=(U,C  {d}), tập thuộc tính R  C đƣợc gọi
là tập rút gọn của thuộc tính điều kiện C nếu R là tập tối thiểu thỏa mãn phụ thuộc
hàm R→{d}. Xét quan hệ r trên tập thuộc tính R  C{d} đƣợc gọi là một tập tối
thiểu của thuộc tính {d} nếu R là tập thuộc tính tối thiểu thỏa mãn phụ thuộc hàm
R→{d}. Do đó, khái niệm tập rút gọn của bảng quyết định tƣơng đƣơng với tập tối
thiểu của thuộc tính {d} trên quan hệ, và một vài bài toán trên bảng quyết định liên
quan đến tập rút gọn có thể đƣợc giải quyết bằng một số kết quả liên quan đến tập

tối thiểu của một thuộc tính trong cơ sở dữ liệu quan hệ; bao gồm bài tốn tìm tập
tất cả các thuộc tính rút gọn, bài tốn tìm họ tất cả các tập rút gọn, bài tốn trích lọc
tri thức dƣới dạng các phụ thuộc hàm từ bảng quyết định, bài toán xây dựng bảng
quyết định từ tập phụ thuộc hàm cho trƣớc. Cho đến nay, hƣớng tiếp cận này chƣa
đƣợc nhiều tác giả quan tâm nghiên cứu.
Trên bảng quyết định nhất quán, vấn đề nhiên cứu đặt ra là xây dựng các thuật
tốn có ý nghĩa liên quan đến tập rút gọn sử dụng một số kết quả liên quan đến tập
tối thiểu của một thuộc tính trong một cơ sở dữ liệu quan hệ.
Mục tiêu nghiên cứu của đề tài
- Tổng hợp kiến thức cơ bản nhất liên quan đến tập rút gọn và bảng quyết định
nhất quán.
- Dựa trên lý thuyết đã tổng kết đƣợc, đi xâu vào tìm hiểu, nghiên cứu một số
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




3

thuật toán liên quan đến tập rút gọn trên bảng quyết định nhất qn. Cài đặt thuật
tốn tìm tập tất cả các thuộc tính rút gọn của bảng quyết định nhất quán.
Ý nghĩa khoa học của đề tài
- Đây là lĩnh vực đƣợc nhiều nhà khoa học nghiên cứu và đã có đóng góp
trong thực tiễn.
- Có thể coi đề tài là một tài liệu tham khảo khá đầy đủ, rõ ràng về một số
thuật toán liên quan đến tập rút gọn trên bảng quyết định nhất quán.
Đối tƣợng và phạm vi nghiên cứu của đề tài
- Các thuật toán cơ bản nhất liên quan đến tập rút gọn trên bảng quyết định
nhất quán.
Phƣơng pháp nghiên cứu

- Lập kế hoạch, lên quy trình, tiến độ thực hiện.
- Tham khảo nhiều tài liệu có liên quan, tham khảo các ý kiến các chuyên gia
trong lịnh vực nghiên cứu.
Thực tiễn của đề tài nghiên cứu
- Tổng kết các kiến thức cơ bản nhất của khai phá dữ liệu
- Luận văn có thể trở thành tài liệu tham khảo cho những ngƣời muốn tìm hiểu
về khai phá dữ liệu và một số thuật toán liên quan đến tập rút gọn trên bảng
quyết định nhất quán. Luận văn gồm 3 chƣơng với các nội dung sau:
Chƣơng 1: Trình bày về một số khái niện cơ bản
Chƣơng 2: Rút gọn thuộc tính và một số thuật toán trên bảng quyết định nhất quán.
Chƣơng 3: Cài đặt chƣơng trình tìm tập tất cả các thuộc tính rút gọn trên bảng
quyết định nhất quán.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




4

CHƢƠNG 1: MỘT SỐ KHÁI NIỆM CƠ BẢN
1.1. Quá trình khai phá tri thức từ cơ sở dữ liệu
Quá trình khai phá tri thức có thể chia thành các bƣớc nhƣ sau:
- Làm sạch dữ liệu (Data cleaning): Loại bỏ dữ liệu nhiễu hoặc dữ liệu khơng
thích hợp.
- Tích hợp dữ liệu (Data integration): Tích hợp dữ liệu từ các nguồn khác nhau.
- Chọn dữ liệu (Data Selection): Chọn những dữ liệu liên quan trực tiếp đến
nhiệm vụ.
- Chuyển đổi dữ liệu (Data Transformation): Chuyển dữ liệu về những dạng
phù hợp cho việc khai thác.

- Khai phá dữ liệu (Data mining): Các kỹ thuật đƣợc áp dụng để trích xuất
thơng tin có ích hoặc các mẫu điển hình trong dữ liệu.
- Đánh giá mẫu (Pattern evaluation): Đánh giá mẫu hoặc tri thức đã thu đƣợc.
- Trình diễn dữ liệu (Knowledge presentation): Biểu diễn những tri thức khai
phá đƣợc cho ngƣời sử dụng.
5. Đƣa kết quả vào thực tiễn
4. Minh hoạ và đánh giá tri thức

3. Khai thác dữ liệu- trích ra các
mẫu/mơ
2. Thu thập và tiền xử lí dữ liệu

hình

1. Hiểu và xác định vấn đề

Hình 1.1. Quá trình khám phá tri thức từ cơ sở dữ liệu
Hình 1.1 mơ tả 5 giai đoạn trong quá trình khám phá tri thức từ cơ sở đến dữ
liệu. Mặc dù có 5 giai đoạn nhƣ trên trong quá trình khám phá tri thức từ cơ sở dữ
liệu là một quá trình tƣơng tác lặp đi lặp lại theo chu trình liên tục kiểu xốy trơn
ốc, trong đó lần lặp sau hồn chỉnh hơn lần lặp trƣớc. Ngoài ra, giai đoạn sau lại

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




5

dựa trên kết quả theo kiểu thác nƣớc. Đây là một q trình biện chứng mang tính

chất khoa học của lĩnh vực phát hiện tri thức và là phƣơng pháp luận trong việc xây
dựng các hệ thống phát hiện tri thức.
1.1.1. Xác định vấn đề
Đây là một quá trình mang tính định tính với mục đích xác định đƣợc lĩnh vực
yêu cầu phát hiện tri thức và xây dựng bài toán. Trong thực tế, các cơ sở dữ liệu
đƣợc chuyên mơn hố và phân chia theo các lĩnh vực khác nhau nhƣ sản phẩm, kinh
doanh, tài chính,...Với mỗi tri thức phát hiện đƣợc có thể có giá trị trong lĩnh vực
này nhƣng lại không mang nhiều ý nghĩa đối với một lĩnh vực khác. Vì vậy mà việc
xác định lĩnh vực và định nghĩa bài toán giúp định hƣớng cho giai đoạn tiếp theo
thu nhập và tiền sử lí dữ liệu.
1.1.2. Thu thập và tiền xử lí dữ liệu
Ngƣời ta chia giai đoạn thu thập và tiền xử lí dữ liệu thành các công đoạn nhƣ:
lựa chọn dữ liệu, làm sạch, làm giàu, mã hóa dữ liệu. Các cơng đoạn đƣợc thực hiện
theo trình tự đƣa ra đƣợc một cơ sở dữ liệu thích hợp cho các giai đoạn sau. Tuy
nhiên, tùy từng dữ liệu cụ thể mà quá trình trên đƣợc điều chỉnh cho phù hợp vì
ngƣời ta đƣa ra một phƣơng pháp cho mọi loại dữ liệu.
a. Chọn lọc dữ liệu: Đây là bƣớc chọn lọc các dữ liệu có liên quan trong các
nguồn dữ liệu khác nhau. Các thơng tin đƣợc chọn lọc sao cho có chứa nhiều thông
tin liên quan tới lĩnh vực cần phát hiện tri thức đã xác định trong giai đoạn xác định
vấn đề.
b. Làm sạch dữ liệu: Dữ liệu thực tế, đặc biệt dữ liệu lấy từ nhiều nguồn khác
nhau thƣờng không đồng nhất. Do đó cịn có biện pháp xử lí để đƣa về một cơ sở dữ
liệu thống nhất phục vụ cho khai thác. Nhiệm vụ làm sạch dữ liệu thƣờng bao gồm:
Điều hồ dữ liệu, xử lí các giá trị khuyết, xử lí nhiễu và các ngoại lệ.
c. Làm giàu dữ liệu: Việc thu nhập dữ liệu đôi khi khơng đảm bảo tính đầy
đủ của dữ liệu. Một số thơng tin quan trọng có thể thiếu hoặc khơng đầy đủ. Chẳng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





6

hạn, dữ liệu về khách hàng lấy từ một nguồn bên ngồi khơng có hoặc khơng đầy đủ
thơng tin về thu nhập. Nếu thông tin về thu nhập là quan trọng trong q trình khai
thác dữ liệu để phân tích hành vi khách hàng thì rõ ràng là ta khơng thể chấp nhận
đƣa các dữ liệu khuyết thiếu vào đƣợc.
d. Mã hóa:
Các Phƣơng pháp dùng để chọn lọc, làm sạch, làm giàu dữ liệu sẽ đƣợc mã
hóa dƣới dạng các thủ tục, chƣơng trình hay tiện ích nhằm tự động hóa việc kết
xuất, biến đổi và di chuyển dữ liệu. Các hệ thống con đó có thể đƣợc thực thi định
kỳ làm tƣơi dữ liệu phục vụ cho việc phân tích.
1.1.3. Khai thác dữ liệu
Giai đoạn khai thác dữ liệu đƣợc bắt đầu sau khi dữ liệu đã đƣợc thu thập và
tiến hành xử lí. Trong giai đoạn này, cơng việc chủ yếu là xác định đƣợc bài toán
khai thác dữ liệu, tiến hành lựa chọn phƣơng pháp khai thác phù hợp với dữ liệu có
đƣợc và tách ra các tri thức cần thiết.
Thơng thƣờng, các bài tốn khai thác dữ liệu bao gồm: Các bài tốn mang tính
chất mơ tả - đƣa ra những tính chất chung nhất của các dữ liệu, các bài toán khai
thác dự báo - bao gồm cả việc thực hiện các suy diễn trên dữ liệu. Tùy theo bài toán
xác định đƣợc mà ta lựa chọn các phƣơng pháp khai thác dữ liệu cho phù hợp.
1.1.4. Minh họa và đánh giá tri thức
Các tri thức phát hiện từ cơ sở dữ liệu cần đƣợc tổng hợp dƣới dạng các báo
cáo phục vụ cho các mục đích hỗ trợ quyết định khác nhau.
Do nhiều phƣơng pháp khai thác có thể đƣợc áp dụng nên các kết quả có mức
độ tốt/xấu khác nhau. Việc đánh giá các kết quả thu đƣợc là cần thiết, giúp tạo cơ sở
cho các quyết định chiến lƣợc. Thông thƣờng chúng đƣợc tổng hợp, so sánh bằng
các biểu đồ và đƣợc kiểm nghiệm, tin học hố. Cơng việc này thƣờng là của các
chuyên gia, các nhà phân tích và quyết định.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




7

1.2. Khai phá dữ liệu
1.2.1. Một số quan niệm về khai phá dữ liệu
Sau đây là một số quan niệm về khai phá dữ liệu:
Khai phá dữ liệu là tập hợp các thuật tốn nhằm chiết xuất những thơng tin có
ích từ kho dữ liệu khổng lồ.
Khai phá dữ liệu đƣợc định nghĩa nhƣ một quá trình phát hiện mẫu trong dữ
liệu. Q trình này có thể là tự động hay bán tự động, song phần nhiều là bán tự
động. Các mẫu đƣợc phát hiện thƣờng hữu ích theo nghĩa: Các mẫu mang lại cho
ngƣời sử dụng một lợi thế nào đó, thƣờng là lợi thế về kinh tế.
Khai phá dữ liệu giống nhƣ q trình tìm ra và mơ tả mẫu dữ liệu. Dữ liệu nhƣ
là một tập hợp của các sự kiện, cịn đầu ra q trình khai phá dữ liệu nhƣ là dự báo
của các vật hay sự kiện mới.
Khai phá dữ liệu áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch, cơ sở
dữ liệu không gian, cũng nhƣ các kho dữ liệu phi cấu trúc, điển hình là World
Wide Web.
Khám phá tri thức là q trình nhận biết các mẫu hoặc các mơ hình trong dữ
liệu với các tính chất: Đúng đắn, mới, khả ích và có thể hiểu đƣợc. Khai phá dữ liệu
là một bƣớc trong quá trình khám phá tri thức bao gồm các thuật toán khai phá dữ
liệu chuyên dùng dƣới một số quy định về hiệu quả tính tốn chấp nhận đƣợc để
tìm ra các mẫu và các mơ hình trong dữ liệu.
1.2.2.Nhiệm vụ của khai phá dữ liệu
Các bài toán liên quan đến khai phá dữ liệu về bản chất là các bài toán thống

kê. Điểm khác biệt giữa các kỹ thuật khai phá dữ liệu và các cơng cụ phục vụ tính
tốn thống kê mà chúng ta đã biết là ở khối lƣợng cần tính tốn. Khi dữ liệu đã trở
nên khổng lồ thì những khâu nhƣ: Thu thập dữ liệu, tiền xử lí và xử lí dữ liệu đều
địi hỏi phải đƣợc tự động hố. Tuy nhiên ở cơng đoạn cuối cùng, việc phân tích kết

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




8

quả sau khi đã khai phá dữ liệu vẫn luôn là công việc của con ngƣời.
Do là một lĩnh vực đa ngành, khai phá dữ liệu thu hút các lĩnh vực khoa học
khác nhƣ trí tuệ nhân tạo, cơ sở dữ liệu, hiển thị dữ liệu, marketing, toán học, vận
trù học sinh, nhận dạng mẫu, tính tốn thống kê…
Điều mà khai phá dữ liệu có thể làm rất tốt là phát hiện ra những giả thuyết
mạnh trƣớc khi sử dụng những cơng cụ tính tốn thống kê. Mơ hình dự báo sử dụng
kỹ thuật phân cụm (Crustering) để chia nhóm các sự vật, sự kiện sau đó rút ra các
luật nhằm tìm ra đặc trƣng cho mỗi nhóm và cuối cùng đề nghị một mơ hình. Ví dụ,
những bạn đọc đăng ký dài hạn của một tạp chí có thể phân nhóm dựa theo nhiều
tiêu trí khác nhau (lứa tuổi, giới tính, thu nhập…), sau đó tạp chí căn cứ vào đặc
trƣng riêng của từng nhóm để đề ra mức phí thu trong năm sao cho phù hợp nhất.
Chúng ta thấy, những nhiệm vụ cơ bản nhất của khai phá dữ liệu là:
- Phân cụm, phân loại, phân nhóm, phân lớp. Nhiệm vụ là trả lời câu hỏi; khai
phá luật kết hợp; Lập mơ hình dự báo, bao gồm hai nhiệm vụ; Phân tích đối tƣợng
ngồi cuộc; Phân tích sự tiến hố.
1.2.3. Triển khai việc khai phá dữ liệu
Nhóm các tác giả CABENAETAL. Đề nghị triển khai quá trình khai phá dữ
liệu theo 5 bƣớc.

Bước 1: Xác định rõ mục tiêu thƣơng mại cần khai phá.
Bước 2: Chuẩn bị dữ liệu (thu thập, tiền xử lí, chuyển đổi khn dạng dữ liệu
nếu thấy cần thiết).
Bước 3: Khai phá dữ liệu (chọn thuật tốn thích hợp).
Bước 4: Phân tích kết quả thu đƣợc (xem có gì thú vị khơng ?).
Bước 5: Xử lí các tri thức thu lƣợm đƣợc (nhằm đề ra kế hoạch khai thác các
thơng tin mới).

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




9

1.2.4. Một số ứng dụng khai phá dữ liệu
Hiện nay, kỹ thuật khai phá dữ liệu đang đƣợc áp dụng một cách rộng rãi trong
rất nhiều lĩnh vực kinh doanh và đời sống khác nhau nhƣ:
- Thƣơng mại: Phân tích dữ liệu bán hàng và thị trƣờng, phân tích đầu tƣ,...
- Thông tin sản xuất: Điều khiển và lập kế hoạch, hệ thống quản lý,...
- Thông tin khoa học: Dự báo thời tiết, cơ sở sản xuất sinh học,...
- Trong y tế marketing, ngân hàng, viễn thông, du lịch, internet,…
1.2.5. Các kỹ thuật khai phá dữ liệu
Các kỹ thuật khai phá dữ liệu thƣờng đƣợc chia thành hai nhóm chính:
- Kỹ thuật khai phá dữ liệu mơ tả: Có nhiệm vụ mơ tả về tính chất hoặc các
đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có. Các kỹ thuật này gồm có:
Phân cụm (clustering), tóm tắt (summerization), trực quan hố (visualiztation), phân
tích sự phát triển và độ lệch (evolution and deviation analyst), phân tích luật kết hợp
(association rules)...
- Kỹ rhuật khai phá dữ liệu đốn: Có nhiệm vụ đƣa ra các dự đoán dựa vào các

suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có: Phân lớp (classification),
hồi quy (regession)...
Tuy nhiên, chỉ có một số phƣơng pháp thông dụng nhất là: Phân cụm dữ liệu,
phân lớp dữ liệu, phƣơng pháp hồi quy và khai phá kết hợp.
a. Phân cụm dữ liệu: Mục tiêu chính của phƣơng pháp phân cụm dữ liệu là
nhóm các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho các đối
tƣợng thuộc các cụm khác nhau sẽ không tƣơng đồng. Phân cụm dữ liệu là một ví
dụ của phƣơng pháp học khơng có thầy. Khơng giống nhƣ phân lớp dữ liệu, phân
cụm dữ liệu không đòi hỏi phải định nghĩa trƣớc các mẫu dữ liệu huấn luyện. Vì thế
có thể coi phân cụm dữ liệu là một cách học bằng quan sát (learning by
observation). Trong phƣơng pháp này bạn không thể biết kết quả các cụm thu đƣợc

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




10

sẽ thế nào khi bắt đầu quá trình. Vì vậy, thơng thƣờng cần có một chun gia về
lĩnh vực đó để đánh giá các cụm thu đƣợc. Phân cụm dữ liệu đƣợc sử dụng nhiều
trong các ứng dụng về phân đoạn thị trƣờng, phân đoạn khách hàng, nhận dạng
mẫu, phân loại trang web...Ngồi ra phân cụm dữ liệu cịn có thể đƣợc sử dụng nhƣ
một bƣớc tiền xử lí cho các thuật toán khai phá dữ liệu khác.
b. Phân lớp dữ liệu: Mục tiêu của phƣơng pháp phân lớp dữ liệu là dự đoán
nhãn lớp cho các mẫu dữ liệu. Quá trình phân lớp dữ liệu thƣờng gồm hai bƣớc:
Xây dựng mơ hình và sử dụng mơ hình để phân lớp dữ liệu.
Bước 1: Một mơ hình sẽ đƣợc xây dựng dựa trên việc phân tích các mẫu dữ
liệu có sẵn. Mỗi mẫu tƣơng ứng với một lớp, đƣợc quyết định bởi một thuộc tính
gọi là thuộc tính lớp. Các lớp dữ liệu này còn đƣợc gọi là lớp dữ liệu huấn luyện

(training data set). Các nhãn lớp của tập dữ liệu đều phải đƣợc xác định trƣớc khi
xây dựng mơ hình.
Bước 2: Sử dụng mơ hình để phân lớp dữ liệu. Trƣớc hết chúng ta phải tính độ
chính xác của mơ hình. Nếu độ chính xác là chấp nhận đƣợc, mơ hình sẽ đƣợc sử
dụng để dự đốn nhãn lớp cho các mẫu dữ liệu khác trong tƣơng lai.
c. Phƣơng pháp hồi quy: Phƣơng pháp hồi quy khác với phân lớp dữ liệu ở
chỗ: Hồi quy dùng để dự đốn về các giá trị liên tục cịn phân lớp dữ liệu chỉ dùng
để dự đoán về các giá trị rời rạc.
Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đốn có giá trị
thực. Có rất nhiều ứng dụng khai phá dữ liệu với nhiệm vụ hồi quy, chẳng hạn nhƣ
khả năng đánh giá tử vong của bệnh nhân khi biết các kết quả. Xét nghiệm, chẩn
đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chỉ tiêu quảng cáo
d. Khai phá luật kết hợp: Mục tiêu của phƣơng pháp này là phát hiện và đƣa
ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Một đầu ra của giải
thuật khai phá dữ liệu là luật kết hợp tìm đƣợc. Chẳng hạn phân tích cơ sở dữ liệu
bán hàng nhận đƣợc thông tin về những khách hàng mua máy tính có khuynh hƣớng
mua phần mềm quản lý tài chính trong cùng lần mua đƣợc miêu tả trong luật kết
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




11

hợp sau: "Máy tính => Phần mềm quản lý tài chính" (độ hỗ trợ: 2%, độ tin cậy: 60%).
Khai phá luật kết hợp đƣợc thực hiện qua hai bƣớc:
Bước1: Tìm tất cả các tập mục phổ biến, một tập mục phổ biến đƣợc xác định
qua tính hỗ trợ và thoả mãn độ hỗ trợ cực tiểu.
Bước2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật thoả mãn
độ hỗ trợ cực và độ tin cậy cực tiểu.

Phƣơng pháp này đƣợc sử dụng rất hiệu quả trong các lĩnh vực nhƣ maketing
có chủ đích, phân tích quyết định, quản lý kinh doanh, phân tích giá thị trƣờng...
1.2.6. Kiến trúc của hệ thống khai phá dữ liệu
Nhƣ đã trình bày ở trên, khai phá dữ liệu là một giai đoạn trong quá trình phát
hiện tri thức từ số lƣợng lớn dữ liệu lƣu trữ trong các cơ sở dữ liệu, kho dữ liệu
hoặc các kho lƣu trữ khác. Bƣớc này có thể tƣơng tác lẫn nhau giữa ngƣời sử dụng
và cơ sở tri thức, những mẫu đáng quan tâm đƣợc đƣa cho ngƣời dùng hoặc lƣu trữ
nhƣ là tri thức mới trong cơ sở tri thức.
Giao diện ngƣời dùng

Đánh giá mẫu

Mô tả khai phá dữ liệu
cơ sở tri thức
CSDL hay kho dữ liệu phục
vụ
Cơ sở dữ liệu

Kho dữ liệu

Hình 1.2. Kiến trúc của hệ thống khai phá dữ liệu
Kiến trúc của hệ thống khai phá dữ liệu (Hình 1.2) có các thành phần sau:
- Cơ sở dữ liệu, kho dữ liêụ đó là một hoặc tuyển tập các cơ sở dữ liệu, kho
dữ liệu...Các kĩ thuật làm sạch dữ liệu, lọc dữ liệu có thể thực hiện trên dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





12

- Cơ sở dữ liệu hoặc kho dữ liệu phục vụ: Là kết quả lấy dữ liệu có liên quan
trên cơ sở khai phá dữ liệu của ngƣời dùng.
- Cơ sở tri thức: Đó là lĩnh vực tri thức đƣợc sử dụng để hƣớng dẫn việc tìm
hoặc đánh giá các mẫu kết quả thu đƣợc
- Mô tả khai phá dữ liệu: Bao gồm tập các modul chức năng để thực hiện các
nhiệm vụ mô tả đặc điểm, kết hợp, phân lớp, phân cụm dữ liệu...
- Đánh giá mẫu: Thành phần này sử dụng các độ đo và tƣơng tác với modul
khai phá dữ liệu để tập trung vào tìm các mẫu quan tâm.
- Giao diện ngƣời dùng: Đây là modul giữa ngƣời dùng và hệ thống khai phá
dữ liệu. Cho phép ngƣời dùng tƣơng tác với hệ thống trên cơ sở những truy vấn hay
tác vụ, cung cấp thông tin cho việc tìm kiếm.
1.2.7. Quá trình khai phá dữ liệu
Các thuật tốn khai phá dữ liệu thƣờng đƣợc mơ tả nhƣ những chƣơng trình
hoạt động trực tiếp trên tệp dữ liệu. Với phƣơng pháp máy học và thống kê trƣớc
đây, thƣờng thì bƣớc đầu tiên các thuật tốn nạp tồn bộ tệp dữ liệu vào bộ nhớ. Khi
chuyển sang các ứng dụng công nghiệp liên quan đến việc khai thác các kho dữ liệu
lớn, mơ hình này khơng thể ứng dụng bởi vì khơng thể nạp hết các dữ liệu vào bộ
nhớ mà cịn khó có thể chiết xuất ra những tệp đơn giản để phân tích.
Q trình khai phá dữ liệu (Hình 1.3) bắt đầu bằng cách xác định chính xác
vấn đề cần giải quyết. Tiếp đến là xác định dữ liệu liên quan dùng để xây dựng giải
pháp. Bƣớc tiếp theo là thu thập các dữ liệu liên quan và xử lí chúng thành dạng sao
cho thuật tốn khai phá có thể hiểu đƣợc.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





13

Xác định nhiệm
vụ

Xác định dữ liệu

Thu thập và tiền xử

Thuật tốn khai phá

liên quan

lí dữ liệu

dữ liệu

M
ẫu
Dữ liệu trực tiếp

Hình 1.3. Q trình khai phá dữ liệu
Sau đó chọn thuật tốn khai phá dữ liệu thích hợp và thực hiện việc khai phá
dữ liệu để tìm đƣợc các mẫu có ý nghĩa dƣới dạng biểu diễn tƣơng ứng (luật kết
hợp, cây quyết định ...).
Kết quả thu đƣợc mẫu phải có đặc điểm mới. Độ mới có thể đƣợc đối sánh
tƣơng ứng với độ thay đổi trong dữ liệu hoặc bảng tri thức. Thƣờng thì độ đo mới
của mẫu đƣợc đánh giá bằng một hàm logic hoặc hàm độ đo mới. Ngồi ra mẫu cịn
có khả năng sử dụng tiềm ẩn.
Với thuật toán và nhiệm vụ khai phá dữ liệu khác nhau thì dạng mẫu chiết xuất

đƣợc cũng rất đa dạng.
1.2.8. Những khó khăn trong khai phá dữ liệu
Việc nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu gặp nhiều khó khăn,
nhƣng khơng phải là khơng giải quyết đƣợc mà chúng cần phải đƣợc tìm hiểu để
có thể phát triển tốt hơn. Những khó khăn phát sinh trong khai phá dữ liệu chính
là dữ liệu trong thực tế thƣờng động, không đầy đủ lớn và bị nhiễu. Trong trƣờng
hợp khác, ngƣời ta khơng biết cơ sở dữ liệu có chứa thông tin cần thiết cho việc
khai thác hay không và làm thế nào để giải quyết sự dƣ thừa thơng tin khơng thích
hợp này. Dữ liệu lớn, kích thƣớc lớn là những khó khăn cho khai phá dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




14

1.3. Hệ thơng tin đầy đủ và mơ hình tập thô truyền thống
1.3.1. Hệ thông tin đầy đủ
Hệ thông tin là công cụ biểu diễn tri thức dƣới dạng 1 bảng dữ liệu gồm p cột
tƣơng ứng với p thuộc tính và n hàng ứng với n đối tƣợng. Một cách hình thức, hệ
thơng tin đƣợc định nghĩa nhƣ sau.
Định nghĩa 1.1. Hệ thông tin là một bộ tứ IS=(U,A,V,f) trong đó U là một tập
hữu hạn, khác rỗng các đối tƣợng, A là một tập hữu hạn, khác rỗng các thuộc tính,
V=  Va với Va là tập giá trị các thuộc tính a∈A; f: U  A  Va là hàm thông tin,
a A

 a∈ A, u∈U f(u, a)∈ Va .

Với mọi u∈U, a∈A ta ký hiệu giá trị thuộc tính a tại đối tƣợng u là a(u) thay vì

f(u,a). Nếu B={b1,b2, ...,bk}⊆ A là một tập con các thuộc tính thì ta ký hiệu bộ các
giá trị bi(u) bởi B(u). Nhƣ vậy, nếu u và v là hai đối tƣợng, thì ta viết B(u)=B(v), nếu
bi(u)=bi(v) với mọi i = 1,...,k.
Cho hệ thông tin IS=(U,A,V,f), nếu tồn tại u∈U và a∈A sao cho a(u) thiếu
giá trị (missing value) thì IS đƣợc gọi là hệ thơng tin khơng đầy đủ, trái lại IS
đƣợc gọi là hệ thông tin đầy đủ. Ta tự hiểu hệ thông tin đầy đủ đƣợc gọi tắt là hệ
thông tin.
Xét hệ thông tin IS=(U,A V,f). Mỗi tập con các thuộc tính P⊆ A xác định một
quan hệ hai ngôi trên U, ta ký hiệu IND(P), xác định bởi
IND(P)={(u,v)∈ U x U  a ∈ P, a(u)=a(v)}.
IND(P) là quan hệ P – không phân biệt được. Dễ thấy rằng IND (P) là một
quan hệ tƣơng đƣơng trên U. Nếu (u,v)∈ IND(P) thì hai đối tƣợng u và v khơng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




15

phân biệt đƣợc bởi các thuộc tính trong P. Quan hệ tƣơng đƣơng IND(P) xác định
một phân hoạch U/P chứa đối tƣợng u là [u]p, khi đó [u]p={v∈ U/(u,v)∈ IND(P)}.
Định nghĩa 1.2. [12] Cho hệ thông tin IS=(U,A,V,f), và P, Q⊆A.
1) Phân hoạch U/P và phân hoạch U/Q là nhƣ nhau (viết U/P=U/Q), khi và chỉ
khi  u∈ U, [u]P =[u]Q.
2) Phân hoạch U/P mịn hơn phân hoạch U/Q là nhƣ nhau (viết U/P p U/Q), khi
và chỉ khi  u∈ U, [u] P⊆ [u] Q.
Tính chất 1.1 [12] Xét hệ thông tin IS=( U,A,V,f ) và P, Q⊆A.
1) Nếu P⊆Q thì U/Q ≤ U/P, mỗi lớp của U/P là một lớp hoạch hợp của một số
lớp thuộc U/Q.

2) Với mọi u∈U ta có [u]P∪Q=[u]p ∩[u]Q.
1.3.2 Mơ hình tập thơ truyền thống
Cho hệ thông tin IS=(U,A,V,f), và tập đối tƣợng X⊆U. Với một tập thuộc tính
B⊆A cho trƣớc chúng ta có các lớp tƣơng đƣơng của phân hoạch U/B, thế thì một
tập đối tƣợng X có thể biểu diễn thơng qua các lớp tƣơng đƣơng này nhƣ thế nào?
Trong lý thuyết tập thô, để biểu diễn X thông qua các lớp tƣơng đƣơng của
U/B (còn gọi là biểu diễn X bằng tri thức có sẵn trong B), ngƣời ta xấp xỉ X bởi hợp
của một số hữu hạn các lớp tƣơng đƣơng của U/B. Có hai cách xấp xỉ tập đối tƣợng
X thơng qua tập thuộc tính B, đƣợc gọi là B xấp xỉ dưới và B xấp xỉ trên của X, ký
hiệu lần lƣợt là BX và BX đƣợc xác định nhƣ sau:
BX ={u∈U /[u]B⊆X}, BX ={u∈U /[u]B∩X ≠  };

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập BX
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




16

bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B. Từ hai tập
xấp xỉ nêu trên, ta định nghĩa các tập.
BNB(X = BX - BX : B miền biên của X, U- BX : B miền ngoài của X.
B miền biên của X là tập chứa các đối tƣợng có thể thuộc hoặc khơng thuộc X,
cịn B miền ngồi của X chứa các đối tƣợng chắc chắn không thuộc X. Sử dụng các
lớp của phân hoạch U/B, các xấp xỉ dƣới và trên của X có thể viết lại
BX =∪{Y∈U /B Y ⊆X }, BX =∪{Y∈U / B Y ∩X ≠  }.

Trong trƣờng hợp BNB(X)=  thì X đƣợc gọi là tập chính xác (exact set),
ngƣợc lại X đƣợc gọi là tập thô (rough set). Với B,D⊆A, ta gọi B - miền dƣơng của

D là tập đƣợc xác định nhƣ sau POSB(D)=



( BX ).

X U / D

Rõ ràng POSB(D) là tập tất cả các đối tƣợng u sao cho với mọi v∈U mà
u(B)=v(B) ta đều có u(D)= v(D). Nói cách khác, POSB(D)={u∈U [u]B ⊆ [u]D}.
Ví dụ 1.1. Xét hệ thơng tin biểu diễn các triệu chứng cúm của bệnh nhân cho ở
Bảng 1.1
U

Đau đầu

Thân nhiệt

Cảm cúm

U1



Bình thƣờng

Khơng

U2




Cao



U3



Rất cao



U4

Khơng

Bình thƣờng

Khơng

U5

Khơng

Cao

Khơng


U6

Khơng

Rất cao



U7

Khơng

Cao



U8

Khơng

Rất cao

Khơng

Bảng 1.1 Bảng thơng tin về bệnh cúm
Ta có: U/ {Đau đầu}={ {u1, u2, u3}, {u4, u5, u6, u7, u8}},
U/ {Thân nhiệt}={ {u1, u4}, {u2, u5, u7}, {u3, u6, u8}},
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





17

U/ {Cảm cúm}={ {u1, u4, u5, u8}, {u2, u3, u6, u7, }},
U/ {Đau đầu, Cảm cúm}={ {u1}, {u2, u3}, {u4, u5, u8}, {u6, u7}}.
Nhƣ vậy, các bệnh nhân u2, u3 không phân biệt đƣợc về đau đầu và cảm cúm,
nhƣng phân biệt đƣợc về thân nhiệt.
Các lớp không phân biệt đƣợc bới B={Đau đầu, Thân nhiệt} là:
{ u1}, { u2}, { u3}, { u4}, { u5, u7}, { u6, u8}.
Đặt X={u/u (Cảm cúm)= Có}={u2, u3, u6, u7}. Khi đó:
BX ={u2, u3},

BX ={u2,u3,u5,u6,u7,u8}. Như vậy, B miền biên của X là tập hợp

BNB(X)={u5,u6,u7,u8}. Nếu đặt D={Cảm cúm} thì:
U/D={X1={u1,u4,u5,u8}; X2= {u2,u3,u6,u7}},
BX 1={u1,u4}, BX 2={u2,u3}, POSB (D) =



( BX )={u1,u2,u3,u4}.

X U / D

Với các khái niệm của tập xấp xỉ đối với phân hoạch U/B, các tập thô đƣợc
chia thành bốn lớp cơ bản:
1) Tập X là B - xác định thô nếu BX ≠  và BX ≠U
2) Tập X là B - không xác định trong nếu BX =  và BX ≠U
3) Tập X là B - không xác định ngoài nếu BX ≠  và BX =U

4) Tập X là B - khơng xác định hồn tồn nếu BX =  và BX =U.
1.3.3. Bảng quyết định đầy đủ
Một lớp đặc biệt của hệ thơng tin có vai trị quan trọng trong nhiều ứng dụng là
bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập thuộc tính A đƣợc
chia thành hai tập khác rỗng rời nhau C và D, lần lƣợt đƣợc gọi là tập thuộc tính
điều kiện và tập thuộc tính quyết định. Tức là DS=(U,C∪D,V,f) với C ∩ D=  .

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




×