Tải bản đầy đủ (.pdf) (78 trang)

Phương pháp sinh luật mờ phân lớp dựa trên đại số gia tử và ứng dụng phân lớp dữ liệu sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.66 MB, 78 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

Style Definition: CAP3: Indent: First line: 0"

LUẬN VĂN THẠC SĨ
PHƯƠNG PHÁP SINH LUẬT MỜ PHÂN LỚP
DỰA TRÊN ĐẠI SỐ GIA TỬ VÀ ỨNG DỤNG PHÂN LỚP
DỮ LIỆU SINH VIÊN

NGUYỄN VIẾT BÌNH

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60480201
HƯỚNG DẪN KHOA HỌC

:TS. DƯƠNG THĂNG LONG

HÀ NỘI - 2017
i


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tôi,
không sao chép của ai do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và thực
hiện. Nội dung lý thuyết trong trong luận văn tôi có sử dụng một số tài liệu tham
khảo như đã trình bày trong phần tài liệu tham khảo. Các số liệu, chương trình phần
mềm và những kết quả trong luận văn là trung thực và chưa được công bố trong bất
kỳ một công trình nào khác.
Hà Nội, ngày 250tháng 121 năm 2017
Học viên thực hiện



Nguyễn Viết Bình

i


LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến TS. Dương Thăng Long
người đã tận tình hướng dẫn, chỉ bảo, giúp đỡ em trong suốt quá trình làm luận văn.
Em cũng xin gửi lời cảm ơn đến các thầy cô giảng dạy và các thầy cô trong
Khoa Đào Tạo Sau Đại Học đã truyền đạt những kiến thức và giúp đỡ em trong suốt
quá trình học của mình.
Và cuối cùng em xin gửi lời cảm ơn tới các đồng nghiệp, gia đình và bạn bè
những người đã ủng hộ, động viên tạo mọi điều kiện giúp đỡ để em có được kết quả
như ngày hôm nay.

Hà Nội, ngày 250tháng 121 năm 2017
Học viên thực hiện

Nguyễn Viết Bình

i


MỤC LỤC

LỜI CAM ĐOAN ........................................................................................................ ii
LỜI CẢM ƠN ............................................................................................................. iii
MỤC LỤC ...................................................................................................................iv
DANH MỤC CÁC THUẬT NGỮ, KÝ HIỆU VIẾT TẮT ........................................vi

DANH MỤC CHỮ VIẾT TẮT ...................................................................................vi
DANH SÁCH BẢNG..................................................................................................vii
DANH SÁCH HÌNH VẼ .......................................................................................... viii
MỞ ĐẦU ....................................................................................................................... 1
CHƯƠNG 1: KIẾN THỨC CƠ SỞ VỀ TẬP MỜ, ĐẠI SỐ GIA TỬ VÀ KHAI
PHÁ DỮ LIỆU....................................................................................................... 4
1.1. Kiến thức cơ sở về tập mờ, đại số gia tử ........................................................ 4
1.1.1. Tập mờ và logic mờ ................................................................................ 4
1.1.1.1.Tập mờ.............................................................................................. 4
1.1.1.2. Logic mờ .......................................................................................... 5
1.1.2. Biến ngôn ngữ ....................................................................................... 9
1.1.3. Đại số gia tử ......................................................................................... 12
1.2. Bài toán phân lớp trong khai phá dữ liệu ............................................ 151516
1.2.1. Mô tả bài toán .............................................................................. 151516
1.2.2. Một số phương pháp giải bài toán ....................................................... 19
1.2.2.1. Cây quyết định ............................................................................ 19
1.2.2.2. Bayer .......................................................................................... 22
1.2.2.3. Phân lớp dữ liệu bằng Fuzzy C- MEANS (FCM) ........................ 24
1.3. Kết luận ......................................................................................................... 25
CHƯƠNG 2: PHƯƠNG PHÁP SINH HỆ LUẬT MỜ PHÂN LỚP DỰA TRÊN
ĐẠI SỐ GIA TỬ .................................................................................................. 26
2.1. Hệ luật mờ phân lớp dựa trên đại số gia tử ................................................. 26
2.1.1. Hệ luật mờ phân lớp .............................................................................. 26
iv


2.1.2. Phương pháp lập luận dựa trên hệ luật mờ ............................................ 28
2.2. Phân hoạch hệ khoảng tính mờ của Đại số gia tử trên miền thuộc tính .... 31
2.3. Hàm định lượng ngữ nghĩa .......................................................................... 41
2.4. Thuật toán sinh luật từ tập dữ liệu ...................................................... 424243

2.5. Kết luận ................................................................................................. 515152
CHƯƠNG 3: ỨNG DỤNG THỬ NGHIỆM CHO BÀI TOÁN PHÂN LỚP DỮ
LIỆU SINH VIÊN ....................................................................................... 525253
3.1. Phát biểu bài toán và thu thập dữ liệu ................................................. 525253
3.1.1. Phát biểu bài toán ........................................................................ 525253
3.1.2. Phương pháp thu thập dữ liệu ..................................................... 555556
3.2. Cài đặt chương trình .................................................................................... 61
3.3. Kết quả thử nghiệm và đánh giá .................................................................. 66
3.4. Kết luận ................................................................................................. 676766
KẾT LUẬN ......................................................................................................... 686867
TÀI LIỆU THAM KHẢO .................................................................................. 696968

v


DANH MỤC CÁC THUẬT NGỮ, KÝ HIỆUVIẾT TẮT
Ký hiệu

Ý nghĩa

AX

Đại số gia tử tuyến tính

AX

Đại số gia tử tuyến tính đầy đủ

µ(h),fm(x)


Độ đo tính mờ gia tử h và hạng từ x v Giá trị định lượng theo
điểm của giá trị ngôn ngữ

µA(v)
sm(x,y)

Hàm định lượng của giá trị ngôn ngữ A (đo độ thuộc của v)
Hàm xác định mức độ gần nhau của hai hạng từ x và y



Khoảng tính mờ của giá trị ngôn ngữ

Xk

Tập cách hạng từ có độ dài đúng k

X(k)

Tập các hạng từ có độ dài không quá k

Ik

Hệ khoảng tính mờ mức k của các giá trị ngôn ngữ

I(k)

Hệ khoảng tính mờ mức từ 1 đến mức k của các giá trị ngôn
ngữ


DANH MỤC CHỮ VIẾT TẮT
Các chữ viết

Tiếng anh

tắt

Tiếng Việt

ĐSGT

Đại số gia tử

Đại số gia tử

CSDL

Database

Cơ sở dữ liệu

IFRG

Initial Fuzzy Rules Generation

Tạo hệ luật luật mờ ban đầu

Rule Base

Luật cơ sở


RB

vi


DANH SÁCH BẢNG
Bảng 1.1: Bảng mua máy tính của sinh viên................................................................ 20

Formatted: Font: No underline

Bảng 2.1: Danh sách sinh viên và kết quả 2 môn học .................................................. 45

Formatted: Indent: Left: -0.25", First line:
0", Space Before: 0 pt, After: 0 pt, Line
spacing: 1.5 lines

Bảng 2.2: Kết quả 2 môn học sinh viên về đoạn [0, 1] ................................................ 46
Bảng 2.3: Tham số mờ gia tử 2 thuộc tính Môn học .................................................... 47
Bảng 2.4: Kết quả học tập sinh viên và độ thuộc của thuộc tính .................................. 49
Bảng 2.5: Danh sách luật sinh bởi thuật toán IFRG cho bài toán ................................. 50
Bảng 3.2: Mô tả dữ liệu sinh viên ra trường làm việc đúng chuyên ngành................... 60
Bảng 3.3: Hệ luật thu được từ tập mẫu dữ liệu kết quả học tập của sinh viên .............. 66
Bảng 3.4: Danh sách luật sinh bởi thuật toán IFRG cho bài toán phân lớp Sinh viên ... 66
Bảng 3.5: Bảng đánh giá kết quả thử nghiệm và hiệu năng của hệ luật ........................ 67
Bảng 1.2: Bảng mua máy tính của sinh viên ............................................................................... 20
Bảng 2.1: Danh sách sinh viên và kết quả 2 môn học ................................................................... 46
Bảng 2.2: Kết quả 2 môn học sinh viên về đoạn [0, 1].................................................................. 47
Bảng 2.3: Tham số mờ gia tử 2 thuộc tính Môn học .................................................................... 48
Bảng 2.4: Kết quả học tập sinh viên và độ thuộc của thuộc tính .................................................... 50

Bảng 2.5: Danh sách luật sinh bởi thuật toán IFRG cho bài toán .................................................... 51
Bảng 3.2: Mô tả dữ liệu sinh viên ra trường làm việc đúng chuyên ngành....................................... 60
Bảng 3.3: Hệ luật thu được từ tập mẫu dữ liệu kết quả học tập của sinh viên ................................. 66
Bảng 3.4: Bảng đánh giá kết quả thử nghiệm và hiệu năng của hệ luật ........................................... 66

vii

Formatted: Indent: Left: -0.5"


DANH SÁCH HÌNH VẼ
Hình 1.1: Mô hình huấn luyện ......................................................................................... 17
Hình 1.2: Mô hình kiểm tra đánh giá .............................................................................. 18
Hình 1.3: Cây quyết định mua máy tính của sinh viên ......................................... 202021
Hình 2.1: Độ đo tính mờ của biến TRUTH............................................................ 323233
Hình 2.2: Khoảng tính mờ của các hạng từ của biến TRUTH .................................... 35
Hình 2.3: Lưới phân hoạch mờ trên miền của 2 thuộc tính ................................. 393940
Hình 2.4: Phương pháp phân hoạch mờ scatter-partition ..................................... 404041
Hình 2.5: Hàm định lượng ngữ nghĩa dạng tam giác .................................................... 42
Hình 2.6: Phân hoạch thuộc tính Môn 1 ................................................................. 484849
Hình 2.7: Phân hoạch thuộc tính Môn 2 ................................................................. 484849
Hình 3.1: Mô hình sinh hệ luật mờ phân lớp từ tập CSDL mẫu ......................... 545455
Hình 3.2: Mô hình phân lớp sinh viên dựa trên kết quả học tập ......................... 545456
Hình 3.3: Giao diện đăng nhập hệ thống ........................................................................ 62
Hình 3.4: Biểu đồ hoạt động của user case đăng nhập ................................................. 62
Hình 3.5: Giao diện chương trình sinh luật mờ phân lớp dựa trên ĐSGT ................. 63
Hình 3.6: Biểu đồ training sinh hệ luật mờ phân lớp dựa trên ĐSGT .................... 6463
Hình 3.7: Giao diện training sinh hệ luật mờ phân lớp dựa trên ĐSGT..................... 64
Hình 3.8: Biểu đồ mờ phân lớp Sinh viên dựa trên ĐSGT ...................................... 6564
Hình 3.9: Giao diện phân lớp dữ liệu Sinh viên ............................................................ 65


viii


MỞ ĐẦU
1.Tính cấp thiết của đề tài
Công nghệ Logic mờ được giáo sư Lotfi Zadeh công bố lần đầu tiên tại Mỹ
vào năm 1965. Sự bùng nổ của thời đại thông tin như hiện nay, lượng thông tin
được tạo ra hàng ngày là rất lớn. Nhu cầu cần thiết đến các quá trình tự động tìm
kiếm thông tin hữu ích, các quan hệ phát hiện các tri thức. Để làm được điều đó các
nhà nghiên cứu đã đề xuất và nghiên cứu lĩnh vực này như phân lớp và nhận dạng
mẫu, hồi quy và dự báo, phân cụm... dựa trên tâp mờ.
Lý thuyết tập mờ được coi là nền tảng của lập luận xấp xỉ, nhưng lý thuyết
tập mờ vẫn chưa mô phỏng đầy đủ, hoàn chỉnh cấu trúc ngôn ngữ mà con người vẫn
sử dụng. Vì thế năm 1990 N.C.Ho & W.Wechler đã khởi xướng phương pháp tiếp
cận đại số dựa trên miền giá trị của biến ngôn ngữ.
Thực tế cho thấy khái niệm mờ luôn luôn tồn tại, ứng dụng trong các bài
toán và ngay cả trong cách thức suy luận của con người. Bằng các phương pháp tiếp
cận khác nhau các nhà nghiên cứu đã đưa ra kết quả về lý thuyết cũng như ứng
dụng trong các bài toán điều khiển mờ, hệ hỗ trợ quyết định... Vậy để làm được
những điều đó luận văn sẽ đi trình bày những ngữ nghĩa của thông tin mờ, tìm cách
biểu diễn chúng bằng khái niệm toán học là tập mờ, xem xét đại số gia tử là một cấu
trúc chặt chẽ trên nền ngôn ngữ và xét bài toán phân lớp.
Một trong những bài toán cơ bản đặt ra trong lĩnh vực nghiên cứu này là cho
trước một Cơ sở dữ liệu (thường là CSDL số, tức các giá trị của CSDL là các số
thực), từ đó, bằng các phương pháp xử lý nhất định, rút ra một hệ tri thức phản ánh
các quy luật chứa trong CSDL số này. Các quy luật này có thể biểu diễn dưới dạng
hệ luật IF X is A and Y is B THEN Z is C, trong đó X, Y, Z là các biến mờ (thường
là các biến ngôn ngữ), A, B, C là các giá trị biến ngôn ngữ (thường là các tập mờ).
Ví dụ luật IFđường là xa vàtốc độdi chuyển là trung bình THEN thời gian đến

đích sẽ là lâu. Để có thể sinh ra những luật như vậy, đầu tiên ta phải chuyển hóa
miền giá trị của các thuộc tính “khoảng cách”, “tốc độ”, “thời gian” thành các miền
mờ, hay nói cách khác là phân chia các miền giá trị đó thành các miền mờ cho các

1

Formatted: Footer distance from edge: 0.44"


bước xử lý tiếp theo. Chẳng hạn, có thể chia miền giá trị thuộc tính độ dài (có các
giá trị min, max tương ứng chẳng hạn là 0km, 200km) thành các miền mờ “gần”
(0km- 50km), “trung bình” (51km-100km), “xa” (100km-200km). Trong lý thuyết
tập mờ, mỗi miền mờ như vậy được coi là một tập mờ và ứng với một hàm thuộc
(MF- membership function) nhằm xác định độ “thuộc” của giá trị biến vào tập mờ
đã cho. Khi đó, một giá trị của một thuộc tính CSDL sẽ ứng với một tập các giá trị
của các hàm thuộc ứng với với các tập mờ của thuộc tính đó. Và ta sẽ xây dựng hệ
luật mờ dựa trên việc xử lý tập giá trị độ thuộc này thay vì xử lý bản thân giá trị ban
đầu của CSDL. Việc xây dựng các phân hoạch khoảng tính mờ thuộc tính là bước
đầu tiên nhưng rất quan trọng trong quy trình xây dựng hệ luật mờ vì chỉ có trên cơ
sở phân chia hợp lý các khoảng tính mờ thuộc tính ta mới có thể có các tập mờ
ngôn ngữ phản ánh tương đối chính xác ngữ nghĩa định tính của nhãn ngôn ngữ
dùng trong hệ luật được xây dựng tiếp theo.Phương pháp tiếp cận theo lý thuyết tập
mờ cho ta một cách xử lý dữ liệu khá mềm dẻo, nhanh chóng so với các phương
pháp xử lý số cổ điển. Đại số gia tử (ĐSGT) ra đời dựa trên một cấu trúc thứ tự tốt
trong tập các giá trị ngôn ngữ của biến ngôn ngữ có thể khắc phục phần nào những
điểm yếu đó. Luận văn đặt mục tiêu sử dụng cách tiếp cận ĐSGT trong phương
pháp sinh hệ luật mờ phân lớp dựa trên tập CSDL mẫu, để có thể xây dựng được
các hệ luật mờ tốt trong các bước tiếp theo nhằm giải quyết các bài toán quan tâm
trong lĩnh vực khai phá dữ liệu hay điều khiển mờvì vậy tôi quyết định chọn đề tài:
“Phương pháp sinh luật mờ phân lớp dựa trên đại số gia tử và ứng dụng

phân lớp dữ liệu sinh viên”.
2. Mục tiêu nghiên cứu
Luận văn nghiên cứu các phương pháp sinh luật mờ dựa trên phân hoạch hệ
khoảng tính mờ của Đại số gia tử giải bài toán phân lớp miền xác định thuộc tính
của các tác giả trong nước cũng như trên thế giới, ưu, khuyết điểm của các phương
pháp đã có và nghiên cứu cách giải bài toán theo cách tiếp cận của Đại số gia tử.
- Tìm hiểu kiến thức cơ sở về tập mờ, logic mờ, ĐSGT, các phương pháp khai
khá dữ liệu.

2


- Nghiên cứu hệ luật mờ, phương pháp lập luận dựa trên hệ luật mờ.
- Nghiên cứu thuật toán sinh luật từ tập dữ liệu mẫu.
- Xây dựng mô hình, ứng dụng phân lớp Sinh viên ra trường làm việc đúng
chuyên nghành.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là cơ sở dữ liệu về điểm các môn học
của Sinh viên làm đầu vào để dùng sinh hệ luật.Lý thuyết tập mờ và đại số gia tử
cũng được nghiên cứu như là công cụ để giải bài toán phân lớp dữ liệu.
4. Phương pháp nghiên cứu
Tìm hiểu các lý thuyết về tập mờ, các dạng tập mờ, tìm hiểu cách biểu diễn
tập giá trị chân lý ngôn ngữ cho tập mờ. Tìm hiểu mối quan hệ giữa các dạng biểu
diễn tập mờ với hàm định luợng ngữ nghĩa của đại số gia tử, tìm hiểu phương pháp
lập luận mờ dựa trên Đại số gia tử, phân hoạch hệ khoảng tính mờ, phương pháp
sinh hệ luật mờ phân lớp từ tập cơ sở dữ liệu mẫu.
Phân tích, đối sánh, liệt kê, nghiên cứu tài liệu, tổng hợp các kết quả của các
nhà nghiên cứu liên quan đến lĩnh vực nghiên cứu.
5. Ý nghĩa khoa học
Bài toán phân lớp dữ liệu nói chung đóng vai trò quan trọng trong quá trình

khai phá dữ liệu và do đó nó có ý nghĩa ứng dụng rộng lớn, đặc biệt loại bài toán
liên quan đến thông tin mờ vì con nguời thuờng quyết định thông qua thông tin mờ
ngôn ngữ.
Phương pháp sinh luật mờ phân lớp dựa trên Đại số gia tử cho ta một
phuơng pháp tuơng đối đơn giản nhưng khá hữu hiệu trong các cách mà Đại số gia
tử nói riêng và lý thuyết tập mờ nói chung có thể sử dụng.

3


CHƯƠNG 1:KIẾN THỨC CƠ SỞ VỀ TẬP MỜ, ĐẠI SỐ GIA
TỬ VÀ KHAI PHÁ DỮ LIỆU
1.1. Kiến thức cơ sở về tập mờ, đại số gia tử
1.1.1. Tập mờ và logic mờ
1.1.1.1.Tập mờ
Định nghĩa 1.1. [2] Cho một tập vũ trụ U với các phần tử ký hiệu bởi x,U

={x}. Một tập mờ A trên U là tập đuợc đặc trung bởi một hàm ߤ஺ (x) mà nó liên kết

mỗi phần tử x ∈U với một số thực trong đoạn [0,1]. Giá trị hàm ߤ஺ (x) biểu diễn mức
độ thuộc của x trong A. ߤ஺ (x) là một ánh xạ từ U vào [0,1] và đuợc gọi là hàm thuộc

của tập mờ A.

Giá trị hàm ߤ஺ (x) càng gần tới 1 thì mức độ thuộc của x trong A càng cao.

Tập mờ là sự mở rộng của khái niệm tập hợp kinh điển. Thật vậy, khi A là một tập

hợp kinh điển, hàm thuộc của nó, ߤ஺ (x)), chỉ nhận 2 giá trị 1 hoặc 0, tuơng ứng với


x có nằm trong A hay không.

Một số hàm thuộc thông dụng trong ứng dụng của lý thuyết tập mờ:
-

Dạng tam giác: μ୅ (x) = max(min((x-a)/(b-a),(c-x)/(c-b)),0),

Dạng hình thang: μ୅ (x) = max(min((x-a)/(b-a\(d-x)/(d-c), 1),0),

Dạng Gauss: μ୅ (x) = exp(-(c-x2/(2σଶ )),... trong đó a, b, c, d, σ,... là

các tham số của hàm thuộc tuơng ứng.

Các khái niệm, tính chất, phép toán trong lý thuyết tập kinh điển cũng đuợc
mở rộng cho các tập mờ. Theo đó, các phép toán như t-norm,t-conorm, negation và
phép kéo theo (implication),... trong lôgíc mờ đuợc đề xuất, nghiên cứu chi tiết
cung cấp cho các mô hình ứng dụng giải các bài toán thực tế.
Một khái niệm quan trọng trong việc tiếp cận giải bài toán phân lớp về sau
trong luận văn đó là phân hoạch mờ (fuzzy partition).Về hình thức, chúng ta định
nghĩa như sau.
Định nghĩa 1.2 [2] Cho p điểm cố định m1
4


⊂ R. Khi đó tập Φ gồm p tập mờ A1 A2,..., Ap(với ߤ஺ೖభ , ߤ஺ೖమ ,..., ߤ஺೛ là các hàm thuộc
tương ứng) định nghĩa trên U được gọi là một phân hoạch mờ của U nếu các điều

kiện sau thỏa mãn, ∀k=1,...,p:
(1)

(2)
(3)
(4)
(5)

ߤ஺ೖభ (mk) = 1 (mk được gọi là một điểm trong lõi của Ak);

Nếu x∈ [mk-1, mk+1], ߤ஺ೖ (x) = 0 (trong đó m0 = m1 = α và mp+1 = mp= b);
ߤ஺ೖ (x) liên tục;

ߤ஺ೖ (x) đơn điệu tăng trên [mk-1, mk] và đơn điệu giảm trên [mk, mk+1];

∀x∈U, ∃k, sao cho ߤ஺ೖ (x) > 0 (tất cả mọi điểm trong U đều thuộc một

lớp của phân hoạch này với độ thuộc nào đó khác không).

Ngoài ra, các tác giả đưa thêm một số điều kiện để đảm bảo phân hoạch mờ
là đều và mạnh.

Như vậy, theo định nghĩa, tập các tập mờ là không gian ‫(ܨ‬U,[0,1]) các hàm

từ U vào đoạn [0,1], một không gian tương đối giàu về cấu trúc tính toán mà nhiều
nhà nghiên cứu đã sử dụng cho việc mô phỏng phương pháp lập luận của con
người.
Thực tế các khái niệm mờ trong các bài toán ứng dụng rất đa dạng và khó để
xác định được các hàm thuộc của chúng một cách chính xác, thông thường dựa trên
ngữ cảnh mà khái niệm mờ đó đang được sử dụng.Một lớp rộng các khái niệm mờ
có thể mô hình qua các tập mờ mà L. A. Zadeh đã đưa ra gọi là biến ngôn ngữ.

1.1.1.2. Logic mờ

Cùng với khái niệm biến ngôn ngữ, L. A. Zadeh đã phát triển lôgic mờ mà các
giá trị chân lý nhận trong T(Truth) = {true, very true, more false, possible false,
very very false,... }, tập các giá trị của biến ngôn ngữ Truth. Khi đó, một mệnh đề
dạng “X is A”, với A là một khái niệm mờ, sẽ có giá trị chân lý thuộc T(Truth) và
đuợc biểu thị bởi một tập mờ có hàm thuộc µ A trên không gian tham chiếu U.
Lý thuyết tập mờ là cơ sở toán học cho việc phát triển các phuơng pháp mô

5


phỏng lập luận của con nguời. Về nguyên tắc, vấn đề tư duy, lập luận của con nguời
rất phức tạp và do đó không thể sử dụng một cấu trúc toán học duy nhất để mô
phỏng. Vì vậy, mục tiêu của chúng ta là càng xây dựng đuợc nhiều cấu trúc đại số
các tập mờ càng tốt để linh hoạt trong tiếp cận các vấn đề ứng dụng. Ở đây, chúng
ta sẽ định nghĩa một họ các cặp đối ngẫu t-norm và t-conorm cùng với phép phủ
định làm cơ sở cho lôgic mờ và lập luận xấp xỉ.
Định nghĩa 1.3 Một hàm 2-biến T : [0,1]x[0,1] ^ [0,1] đuợc gọi là phép t-

norm nếu nó thỏa các tính chất sau với ∀a,a’,b,c∈[0,1]:
i) Tính chất điều kiện biên: T(a,1)=a
ii) Tính giao hoán:

T(a,b) = T(b,a)

iii) Tính đơn điệu:

a ≤ a’ =>T(a,b) ≤ T(a’,b)

iv) Tính kết hợp:


T(a,T(b,c)) = T(T(a,b),c)

Ngoài ra, một số tính chất khác cần đòi hỏi phải có trong nhiều ứng dụng đối
với phép t-norm bao gồm:
v) Tính liên tục:

T là hàm hai biến liên tục

vi) Tính lũy đẳng dưới:

T(a,b) < a

vii) Tính đơn điệu chặt:

a ≤ a’ và b ≤ b’ =>T(a,a’) ≤T(b,b ’)

Định nghĩa 1.4 Một hàm 2-biến S : [0,1]x[0,1] → [0,1] được gọi là phép t-

conorm nếu nó thỏa các tính chất sau với ∀a,a’,b,c∈[0,1]:
Tính giới nội:

S(a,0) = a

Tính giao hoán:

S(a,b) = S(b,a)

Tính đơn điệu:

a ≤ a’ => S(a,b) ≤ S(a’,b)


Tính kết hợp:

S(a,S(b,c)) = S(S(a,b),c)

Như vậy, chỉ có hai tính chất điều kiện biên và giới nội làm nên sự khác biệt
giữa hai họ phép tính t-norm và t-conorm.
Chúng ta cũng có thể mở rộng định nghĩa cho phép t-norm và t-conorm này

đối với trường hợp nhiều biến vào, tức là Tex : [0,1]n→ [0,1] và Sex : [0,1]n→ [0,1],

6


bằng cách áp dụng liến tiếp các phép t-norm và t-conorm ở trên.
Định nghĩa 1.5 Hàm N : [0,1] ^ [0,1] được gọi là phép phủ định (negation)

nếu nó thỏa các tính chất sau với ∀a,a’∈[0,1]:

i)Tính đơn điệu giảm: a ≤ a’ => N(a) ≥N(a’)
iv) Tính lũy đẳng:

N(N(a))=a

Ví dụ 1.1 Các phép t-norm, t-conorm và phép phủ định hay được sử dụng
như:
TM(a,b) = min{a,b}
TP(a,b) = a.b
TL(a,b) = max{0,a+b-1}


ܽ݇ℎܾ݅ = 1
ܶ ∗ ሺܽ, ܾሻ = ൝
ܾ݇ℎ݅ܽ = 1
0݇ℎ݅ܽ ≠ 1‫ݒ‬àܾ ≠ 1

SM(a,b) = max{a,b}
SP(a,b) = a+b-a.
SL(a,b) = min{1,a+b}
N(a) = 1-a.

ܽ݇ℎܾ݅ = 0
ܵ ∗ ሺܽ, ܾሻ = ൝
ܾ݇ℎ݅ܽ = 0
0݇ℎ݅ܽ ≠ 0‫ݒ‬àܾ ≠ 0

Định nghĩa 1.6 Ba phép tính t-normT, t-conormS và phép phủ định N được
gọi là một hệ đối ngẫu (T,S,N) nếu chúng thỏa điều kiện sau:

N(S(a,b)) = T(N(a),N(b)), ∀a,b∊[0,1].

Việc áp dụng các phép t-norm, t-conorm và phép phủ định cho việc tính toán
các toán tử hội, tuyển và phủ định trong lôgic mờ làm tăng tính mềm dẻo trong ứng
dụng. Thực vậy, khi hai mệnh đề “X is A” và “X is B” có giá trị chân lý được biểu
thị bởi hai hàm thuộc tương ứng µ A và µ B trên không gian tham chiếu U và V thì

7


mệnh đề mờ “X is A and B” có hàm thuộc biểu thị giá trị chân lý làߤ஺∩஻ = T(µ A,µ B),
với T là một t-norm nào đó. Tương tự, mệnh đề “X is A or B” có hàm thuộc là


ߤ஺∪஻ = S(µ A,µ B) và mệnh đề “X is not A” có hàm thuộc là µ~A = N(µ A), ở đây S là

một t-conorm và N là một phép phủ định được chọn nào đó.

Các mệnh đề mờ cùng với giá trị chân lý của chúng là những đối tượng nghiên
cứu chính của lôgíc mờ. Trong đó, một dạng mệnh đề mờ thường biểu diễn cho tri
thức dạng luật trong lập luận xấp xỉ và ứng dụng, đó là mệnh đề mờ có điều kiện
dạng “If X is A then Y is B” và được biểu diễn bằng toán tử kéo theo mờ.
Ở đây, một cách tổng quát, chúng ta đưa ra một số tính chất cho một phép kéo
theo mờ.

Định nghĩa 1.7[1] Phép kéo theo là một hàm số I : [0,1]2→ [0,1] có các tính

chất sau:

i)Tính đơn điệu giảm đối với biến thứ nhất

x ≤ z => I(x,y) ≥ I(z,y), ∀y∊ [0,1]

ii) Tính đơn điệu tăng đối với biến thứ hai

y ≤u => I(x,y) ≤ I(x,u), ∀x∊ [0,1]

iii)Tính chi phối của giá trị chân lý sai

I(0,x) = 1
iv)Tính trung tính của giá trị chân lý đúng
I(1,x) = x
v)Tính đồng nhất

I(x,x) = x
vi)Tính chất hoán đổi
I(x,I(y,z)) = I(y,I(x,z))
vii)Tính chất về điều kiện giới nội
I(x,y) = 1 nếu và chỉ nếu x < y
vii) Tính chất khái quát hóa của phép kéo theo kinh điển

8


I(x,y) = I(N(y),N(x)), trong đó N là phép phủ định
ix)I là hàm liên tục theo cả hai biến.
Rõ ràng mệnh đề điều kiện ở dạng “If X is A then Y is B” thể hiện mối quan hệ
giữa hai khái niệm mờ A và B. Vì vậy, chúng cảm sinh một quan hệ mờ R thể hiện
bởi một tập mờ trên không gian tích Đề-Các UxV được xác định bởi hàm thuộc
thông qua một phép kéo theo được chọn.
Ví dụ 1.2 Một số dạng phép kéo theo thường dùng
Mamdani
I(x,y) = min{x,y}
Dạng khái quát từ phép kéo theo kinh điển
I(x,y) = S(N(x),y), hoặc
I(x,y) = S(N(x),T(x,y)), hoặc
I(x,y) = S(T(N(x),N(y)),y), với T, S và N là các phép
t-norm, t-conorm và phép phủ định.
Reichenbach
I(x,y) = 1-x+x.y.
Lukasiewicz
I(x,y) = min{1, 1-x+y}.

1.1.2. Biến ngôn ngữ

L.A.Zadeh viết “khi thiếu hụt tính chính xác bề ngoài của những vấn đề phức
tạp, một cách tự nhiên là tìm cách sử dụng các biến ngôn ngữ, đó là các biến mà giá
trị của chúng không phải là số mà là các từ hoặc các câu trong ngôn ngữ tự nhiên
hoặc nhân tạo. Động lực cho việc sử dụng các từ, các câu hơn các số là đặc trưng
ngôn ngữ của các từ, các câu thường là ít xác định hơn của số”(Zaddeh [11]).
Trong cơ sở dữ liệu quan hệ, các quan hệ hay các bảng dữ liệu chứa các thuộc
tính hay các tên cột.Nó chỉ tính chất của đối tượng. Các thuộc tính này cũng thể
hiện trong ngôn ngữ như để mô tả tính chất đối tượng là con người, trong ngôn ngữ

9


tự nhiên chúng ta có những thuộc tính TUỔI, CHIỀU CAO, LƯƠNG, NĂNG LỰC
.... Các thuộc tính này có thể được mô tả bằng giá trị ngôn ngữ như trẻ, già, rất trẻ,
... Vì lý do như vậy, Zadeh gọi các thuộc tính kiểu như vậy là biến ngôn ngữ và
miền giá trị của chúng là giá trị ngôn ngữ hay gọi là miền ngôn ngữ (linguistic
domain). Tuy nhiên, như chúng ta đã đề cập trong Mục 1.1, vì bản thân giá trị ngôn
ngữ không phải là đối tượng toán học, ngữ nghĩa của chúng được biểu thị bằng các
tập mờ hay hàm thuộc. Để khái niệm biến ngôn ngữ trở thành một khái niệm toán
học, Zadeh hình thức hóa khái niệm này như sau:
Định nghĩa 1.8 [4] Biến ngôn ngữ là một bộ năm (X, T (X), U, R, M), trong đó
X là tên biến, T(X) là tập các giá trị ngôn ngữ của biến X, U là không gian tham
chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến mờ trên U kết hợp
với biến cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn ngữ của T(X), M là
qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T(X) với một tập mờ trên U.
Ví dụ 1.3 [4] Cho X là biến ngôn ngữ có tên là AGE, biến cơ sở u lấy theo số
số tuổi có thang điểm trên miền xác định là U = [0,100]. Tập các giá trị ngôn ngữ
T(AGE) = {good, very good, more or less bed, less bed, very bed....}. R là một qui
tắc sinh các giá trị này.M gán ngữ nghĩa mỗi tập mờ với một giá trị ngôn ngữ.
Chẳng hạn, đối với giá trị nguyên thủy good, quy tắc gắn ngữ nghĩa M cho good

bằng tập mờ sau:
M(good) ={(u, µgood(u))}: u∈[0,100]},
Trong đó µgood(u) = max(min(1,(u-50)/20),0), là một cách chọn hàm thuộc
cho khái niệm mờ good.
Các đặc trưng của biến ngôn ngữ
Trong thực tế có rất nhiều biến ngôn ngữ khác nhau về các giá trị nguyên
thuỷ, chẳng hạn như biến ngôn ngữ số NGÀY LÀM VIỆC có giá trị nguyên thuỷ là
ít, nhiều, biến ngôn ngữ LƯƠNG có giá trị nguyên thuỷ là thấp, cao.Tuy nhiên,
những kết quả nghiên cứu đối với một miền trị của một biến ngôn ngữ cụ thể vẫn
giữ được ý nghĩa về mặt cấu trúc đối với miền giá trị của các biến còn lại.Đặc trưng

10


này được gọi là tính phổ quát của biến ngôn ngữ.Ngữ nghĩa của các gia tử và các
liên từ hoàn toàn độc lập với ngữ cảnh, điều này khác với giá trị nguyên thủy của
các biến ngôn ngữ lại phụ thuộc vào ngữ cảnh. Ví dụ ta nói LƯƠNG của cán bộ An
là rất cao, khi đó được hiểu rằng LƯƠNG khoảng trên 8.000.000 đồng, nhưng ta
nói CHIỀU CAO của cán bộ An là rất cao thì được hiểu rằng CHIỀU CAO khoảng
trên 1.8 m. Do đó khi tìm kiếm mô hình cho các gia tử và các liên từ chúng ta
không quan tâm đến giá trị nguyên thuỷ của biến ngôn ngữ đang xét. Đặc trưng này
được gọi là tính độc lập ngữ cảnh của gia tử và liên từ.Các đặc trưng trên cho phép
chúng ta sử dụng cùng một tập các gia tử và xây dựng một cấu trúc toán học duy
nhất cho miền giá trị của các biến ngôn ngữ khác nhau.
Xét một biến ngôn ngữ X như đã được định nghĩa ở trên. Trước hết, chúng ta
có nhận xét rằng, nhìn chung, tập ảnh của tập T(X) qua ánh xạ M(X) không có cấu
trúc đại số, trên đó chúng ta không định nghĩa được các phép u∈ [0,50], u∈
[50,100]. Một lý do nữa làm cho chúng ta không quan tâm đến điều này là cấu trúc
đại số của tập gốc T(X) cũng chưa được phát hiện. Trong khi chúng ta chưa phát
hiện ra cấu trúc đại số của miền T(X), trong mục này chúng ta sẽ định nghĩa trên tập

F(U, [0,1]) một cấu trúc đại số. Cũng cần nhấn mạnh rằng mục tiêu của lý thuyết
tập mờ là mô hình hóa toán học ngữ nghĩa của các khái niệm mờ và, quan trọng
nhất, là mô hình hóa phương pháp lập luận của con người.Đây là một vấn đề cực kỳ
khó và phức tạp vì những vấn đề này thuộc loại có cấu trúc yếu, hay khó có thể có
một cấu trúc toán duy nhất mô hình hóa trọn vẹn những vấn đề nêu trên. Như là một
hệ quả, khó lòng chúng ta tìm được một cấu trúc toán học chặt chẽ, đẹp của tập
F(U, [0, 1]). Chính vì vậy chúng ta không có một ràng buộc chặt chẽ, minh bạch
trong định nghĩa các phép toán trong F(U, [0, 1]). Như chúng ta sẽ thấy dưới đây,
chúng ta có nhiều cách khác nhau để định nghĩa các phép tính và do đó nó tạo ra
tính mềm dẻo, đa dạng trong tiếp cận, thích nghi với các bài toán ứng dụng khác
nhau, miễn là nó cho phép giải quyết được các bài toán ứng dụng, đặc biệt các bài
toán thuộc lĩnh vực trí tuệ nhân tạo.
Trước khi định nghĩa các phép tính trong F(U, [0, 1]), chúng ta hãy xem đoạn

11


[0, 1] như là một cấu trúc dàn L[0, 1] = ([0, 1], ∪, ∩, -) với thứ tự tự nhiên trên đoạn
[0, 1]. Khi đó, với mọi a, b ∈ [0, 1], ta có:

a∪ b = max {a, b}, a ∩ b = min {a, b} và - a = 1 - b.

Chúng ta có thể kiểm chứng rằng L[0, 1] = ([0, 1], ∪, ∩, -) là một đại số De

Morgan, hơn nữa nó có các tính chất sau:

- Các phép tính hợp ∪và giao ∩ có tính giao hoán
- a ∪ b = b ∪ a và a ∩ b = b ∩a

- Các phép tính hợp ∪ và giao ∩ có tính chất phân phối lẫn nhau


a ∪ (b ∩ c) = (a ∪ b) ∩ (a ∪ c) và a ∩ (b ∪ c) = (a ∩ b) ∪ (a ∩ c)

- Tính chất nuốt (absorption) và nuốt đối ngẫu (dual absorption):
- Tính chất nuốt
- Tính chất nuốt đối ngẫu
- Tính lũy đẳng
- Tính chất phủ phủ định
- Tính đơn điệu giảm
- Tính chất De Morgan

: a ∩ (a ∪ b) = a.

: a ∪ (a ∩ b) = a.

: a ∪a = a và a ∩ a = a.
: -(-a) = a.

: a < b => -a > -b

: -(a ∪ b) = -a ∩ -b; -(a ∩ b) = -a ∪ -b

- Dựa trên cấu trúc L[0,1]chúng ta sẽ định nghĩa các phép tính trên tập mờ
thông qua các phép tính của dàn L[0,1].

1.1.3. Đại số gia tử
Để xây dựng phương pháp luận tính toán nhằm giải quyết vấn đề mô phỏng
các quá trình tư duy, suy luận của con người chúng ta phải thiết lập ánh xạ: gán mỗi
khái niệm mờ một tập mờ trong không gian tất cả các hàm F(U, [0, 1]). Nghĩa là ta
mượn cấu trúc tính toán rất phong phú của tập để mô phỏng phương pháp lập luận

của con người thường vẫn được thực hiện trên nền ngôn ngữ tự nhiên.
Vậy một vấn đề đặt ra là liệu bản thân ngôn ngữ có cấu trúc tính toán không?
Nếu có thì các phương pháp lập luận xây dựng trên đó đem lại những lợi ích gì?
Thông qua lý thuyết về đại số gia tử ta có thể thấy rằng tập các giá trị củamột biến
ngôn ngữ (biến mà giá trị của nó được lấy trong miền ngôn ngữ) là một cấu trúc đại

12


số đủ mạnh để tính toán.
Lý thuyết đại số gia tử đã cố gắng nhúng tập ngôn ngữ vào một cấu trúc đại số
thích hợp và tìm cách xem chúng như là một đại số để tiên đề hóa sao cho cấu trúc
thu được mô phỏng tốt ngữ nghĩa ngôn ngữ.
Vấn đề sử dụng tập mờ để biểu diễn các giá trị ngôn ngữ và dùng các phép

toán trên tập mờ để biểu thị các gia tử ngôn ngữ như ߤ௥ấ௧௧௥ẻ = (ߤ௧௥ẻ )2,ߤ௥ấ௧௧௥ẻ =
(ߤ௧௥ẻ )1/2 đã cho phép thực hiện các thao tác dữ liệu mờ, đáp ứng nhu cầu thực tế của
con người. Tuy nhiên, theo cách sử dụng tập mờ ta thấy có nhiều nhược điểm do

việc xây dựng các hàm thuộc và xấp xỉ các giá trị ngôn ngữ bởi các tập mờ còn
mang tính chủ quan, phụ thuộc nhiều vào ý kiến chuyên gia cho nên dễ mất mát
thông tin và còn nhiều vấn đề đặt ra như việc phân chia miền mờ thế nào cho hợp
lý, làm sao xây dựng được các hàm thuộc nhanh chóng, phù hợp và cách xử lý các
hàm thuộc này thế nào để giữ được ngữ nghĩa gắn với chúng. Mặt khác, bản thân
các giá trị ngôn ngữ có một cấu trúc thứ tự nhưng ánh xạ gán nghĩa sang tập mờ,
không bảo toàn cấu trúc đó nữa. Do đó, vấn đề đặt ra là có một cấu trúc toán học
mô phỏng chính xác hơn cấu trúc ngữ nghĩa của một khái niệm mờ. N.C.Ho và
cộng sự đưa ra ĐSGT và ĐSGT mở rộng và ĐSGT tuyến tính đầy đủ được giải đáp
đầy đủ cho câu hỏi này.
Đại số gia tử được ra đời do đề xuất của N.C. Ho và W. Wechler vào năm

1990, đến nay đã có nhiều nghiên cứu phát triển và ứng dụng thành công của các
tác giả.
Các tác giả đã chứng minh miền ngôn ngữ X = Dom(X) của một biến ngôn
ngữ X có thể được tiên đề hóa và được gọi là đại số gia tử và được ký hiệu là AX =
(X, G, H,≤) trong đó G là tập các phần tử sinh, H là tập các gia tử (hedge) còn “≤”
là quan hệ cảm sinh ngữ nghĩa trên X. Giả thiết trong G có chứa các phần tử hằng
0,1, Wvới ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hòa

(neutral) trong X. Ta gọi mỗi giá trị ngôn ngữ x ∈X là một hạng từ (term)trong
ĐSGT [1].

Nếu tập X và H là các tập sắp thứ tự tuyến tính, khi đó AX= (X, G, H,≤) là

13


ĐSGT tuyến tính. Hơn nữa, nếu được trang bị thêm hai gia tử tới hạn là ∑ và ૖ với

ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x) khi tác động lên x , thì ta

được ĐSGT tuyến tính đầy đủ, ký hiệu AX= (X, G,H, ∑, ૖,≤). Ngoài ra, thông
thường trong các ứng dụng, miền giá trị của biến ngôn ngữ bao gồm từ sinh ra từ

hai phần tử sinh đối xứng (như “cao” và “thấp”, “xa và “gần”...). Vì trong luận văn
chỉ quan tâm đến ĐSGT tuyến tính kể từ đây nói ĐSGT cũng có nghĩa là ĐSGT
tuyến tính.ĐSGT tuyến tính có hai phần tử sinh đối xứng ký hiệu là c+ và c-. Như
vậy, G={0, c+, W, c-,1}.
Ví dụ ĐSGT có X là miền giá trị của biến ngôn ngữ “chiều cao”, là tập các từ
như (“rất cao”, “thấp”, “rất rất thấp”, “tương đối thấp”, “tương đối rất thấp”...}, với
G={0, cao, W, thấp,1} và H= (“rất”, “tương đối”,...} có quan hệ < cảm sinh ngữ

nghĩa như “rất cao” > “thấp” > “rất rất thấp”> “tương đối thấp”> “tương đối rất
thấp”...
Khi tác động gia tử h∈H vào phần tử x∈ X, thì thu được phần tử ký hiệu hx.
Với mỗi x∈X, ký hiệu H(x) là tập tất cả các hạng từ u∈X sinh từ x bằng cách áp
dụng các gia tử trong H và viết u = hn...hjx, với hn…h1∈H.

Tập H gồm các gia tử dương H+ và gia tử âm H-. Các gia tử dương làm tang

thiên hướng ngữ nghĩa của một hạng từ mà nó tác động, còn gia tử âm làm giảm
thiên hướng ngữ nghĩa của hạng từ. Không mất tính tổng quát, ta luôn giả thiết rằng
H = {h-1< h2<... < h-q} vàH+ = {h1< h2<... < hp}.
Để ý rằng biểu thức hn„...h1u được gọi là một biểu diễn chính tắc của một

hạng từ V đối với u nếu x = hn...hju và hi...h1u ≠ hi-1 …h1u với i nguyên và i ≤ n. Ta
gọi độ dài của một hạng từ x là số gia tử trong biểu diễn chính tắc của nó đối với
phần tử sinh cộng thêm 1, ký hiệu l(x).
Ví dụ 1.4Cho biến ngôn ngữ TRUTH, có G = {0, FALSE, W, TRUE, 1}, H-=
{Possible< Little}và H+={More < Very}. Khi đóTRUE< More TRUE < Very
TRUE, Little TRUEBây giờ chúng ta xét một số tính chất của đại số gia tử tuyến tính.Định lý sau
cho thấy tính thứ tự ngữ nghĩa của các hạng từ trong ĐSGT.
Định lý 1.1 [1] Cho tập H-và H+ là các tập sắp thứ tự tuyến tính của ĐSGT

14


AX=(X, G, H, ≤). Khi đó ta có các khẳng định sau:

(1) Với mỗi u ∈ ܺ thì H(u) là tập sắp thứ tự tuyến tính. (2) Nếu X được sinh
từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X cũng là tập sắp thứ


tự tuyến tính. Hơn nữa nếu u v∉H(u), thì H(u) ≤ H(v).
Định lý tiếp theo xem xét việc so sánh của hai hạng từ trong miền ngôn ngữ
của biến x.
Định lý 1.2[1] Cho x = hn... h1uvà y = km...k1ulà hai biểu diễn chính tắc của x
và y đối với u. Khi đó tồn tại chỉ số j≤ min {n, m} + 1 sao cho hj' = kj'với mọi j'

mhoặc kj = I, j = m + 1 ≤ n) và

(1) x < y khi và chỉ khi hjxj(2) x = ykhi và chỉ khi m = nvà hjxj< kjxj.
(3) x và ylà không so sánh được với nhau khi và chỉ khi hjxj< kjxj là không so

sánh được với nhau.
Trong phần tiếp theo, chúng ta trình bày một số vần đề của đại số gia tử làm
cơ sở cho việc nghiên cứu và phát triển một số mô hình lập luận và ứng dụng về
sau.

1.2. Bài toán phân lớp trong khai phá dữ liệu
1.2.1. Mô tả bài toán
1.2.1.1. Phân lớp dữ liệu (classification)
Là một dạng của phân tích dữ liệu, thao tác với những đối tượng dữ liệu mà có
bộ giá trị biết trước dùng để trích ra những lớp dữ liệu quan trọng, hay dự đoán
những khuynh hướng phát triển trong tương lai.
Phân lớp dữ liệu là xếp đối tượng dữ liệu vào một trong các lớp đã được xác
định trước. Tức là có 1 tập các đối tượng và theo một tiêu chí nào đó chia các đối
tượng này thành các lớp, sao cho các phần tử trong cùng một lớp thì được hiểu là
tương đương nhau theo một nghĩa nào đó.

Nhiều phương pháp phân lớp dữ liệu được đề xuất bởi các nhà nghiên cứu trong

15


các lĩnh vực như máy học (machine learning), hệ chuyên gia (expert system), thống
kê (statistics),... hầu hết giải thuật sử dụng để phân lớp dữ liệu với kích thước nhỏ.
Các nghiên cứu về khai phá dữ liệu đã phát triển nhanh chóng, phù hợp phân lớp
cho các gói cơ sở dữ liệu lớn.
Một số kỹ thuật cơ bản để phân lớp dữ liệu: sử dụng phân lớp cây quyết định
(decision tree classification), bộ phân lớp Bayesian (Bayesian classifier), mạng nơ
ron(neural network), mô hình phân lớp K hàng xóm gần nhất (knearest neighbor
classifier), phân tích thống kê, các thuật toán di truyền, phương pháp tập thô (rough
set approach).

1.2.1.2. Các bước phân lớp dữ liệu
Bước 1: Xây dựng mô hình (learning)
Xây dựng mô hình mô tả một tập các dữ liệu hay các khái niệm định trước. Đầu
vào là một tập dữ liệu có cấu trúc mô tả bằng các thuộc tính và được tạo ra từ các
bộ giá trị của các thuộc tính.
Mỗi bộ giá trị được gọi chung là một phần tử dữliệu (data tuple) hay các mẫu
(samples), đối tượng (object) bản ghi (record)… hay truờng hợp case. Trong tập dữ
liệu này, mỗi phần tử dữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là
giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính
phân lớp (class lable attribute). Đầu ra thường là các quy tắcluật phân lớp dưới dạng
luật if - then, cây quyết định, công thức logic hay
mạng nơ-ron. Mô hình mô tả như sau:

16



Hình 1.1: Mô hình huấn luyện
Mô tả một tập những lớp được định nghĩa trước trong đó: mỗi bộ hoặc mẫu
được gán thuộc về một lớp được định nghĩa trước như là được xác định bởi thuộc
tính nhãn lớp, tập hợp của những bộ được sử dụng trong việc sử dụng mô hình được
gọi là tập huấn luyện .Mô hình được biểu diễn là những luật phân lớp, cây quyết
định và những công thức toán học.
Bước 2: Sử dụng mô hình (classifìcation)
Sử dụng mô hình phục vụ cho mục đích phân lớp dữ liệu trong tương lai hoặc
phân lớp cho những đối tượng chưa biết đến tức là dùng mô hình xây dựng ở bước
trước để phân lớp dữ liệu mới. Trước khi sử dụng mô hình người ta thường phải
đánh giá tính chính xác của mô hình trong đó, nhãn được biết của mẫu kiểm tra
được so sánh với kết quả phân lớp của mô hình, độ chính xác là phần trăm của tập
hợp mẫu kiểm tra mà phân loại đúng bởi mô hình, tập kiểm tra là độc lập với tập
huấn luyện.

17


×