phương pháp thống kê cho ví dụ về bộ phân lớp theo phương pháp thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.27 MB, 39 trang )

BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ
KHOA CÔNG NGHỆ THÔNG TIN

TRÍ TUỆ NHÂN TẠO
Lớp: CHKHMT – TPHCM23A1

PHƢƠNG PHÁP HỌC THỐNG KÊ,
CHO VÍ DỤ VỀ BỘ PHÂN LỚP THEO
PHƢƠNG PHÁP THỐNG KÊ

GVHD: TS. Ngô Hữu Phúc
Học Viên: Đặng Quang Vinh

TP. Hồ Chí Minh, tháng 07 năm 2012
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 1

MỤC LỤC

PHƢƠNG PHÁP HỌC THỐNG KÊ (STATISTICAL LEARNING METHODS) 3
I. GIỚI THIỆU: 3
1. Sự không chắc chắn: 3
2. Nguồn gốc của sự không chắc chắn: 3
3. Cách tiếp cận thống kê đối với tính không chắc chắn [1] 3
II. TIẾP CẬN THỐNG KÊ ĐỐI VỚI TÍNH KHÔNG CHẮC CHẮN 5
1. BAYESIAN LEARNING 5
1.1 Phép xấp xỉ MAP (Maximum a posteriori): [3] 8
1.2 Phƣơng pháp hợp lý cực đại ML (Maximum likelihood) [3] 8
1.3 Phƣơng pháp thông số ML trong lƣới Bayes. [3] 9
1.4 Thông số bội [3] 10
2. MẠNG NƠRON (NEURAL NETWORK) [5] 12
2.1 Giải thuật mạng Nơron 12
Mô hình minh họa mạng nơron một lớp: 14
Mô hình minh họa mạng nơron tổng hợp (nhiều lớp): 15
Một ví dụ mạng lan truyền: 15
2.2 Đánh giá: 17
VÍ DỤ VỀ BỘ PHÂN LỚP THEO PHƢƠNG PHÁP THỐNG KÊ 18
1. Phân lớp là gì? [4] 18
2. Phân lớp - Tiến trình hai bƣớc [4] 18
3. Đánh giá các phƣơng pháp phân lớp 19
4. Phân lớp Bayes: Tại sao? 19
5. Phân lớp Naïve Bayesian 20
ỨNG DỤNG PHÂN LỚN NAIVE BAYES ĐỂ PHÂN LOẠI THÔNG ĐIỆP TRÊN
DIỄN ĐÀN [5] 23
1. Hệ thống chƣơng trình 23
2. Quy trình thực hiện: 24
2.1 Cơ sở dữ liệu lƣu trữ thông điệp 25

2.2 Xây dựng website diễn đàn thảo luận: 29
2.3 Quá trình trích chọn đặc trƣng thông điệp 30
2.3.1 Sửa tiếng Việt không dấu 30
2.3.2 Loại bỏ các thẻ HTML 31
2.3.3 Loại bỏ các phụ từ 31
2.3.4 Chuyển mã văn bản 31
2.3.5 Tách từ và gán nhãn từ loại 31
2.3.6 Trích danh từ, cụm danh từ làm đặc trƣng (có xem xét nghĩa của từ) 31
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 2

2.4 Xây dựng bộ phân lớp văn bản Naive Bayes 32
TÀI LIỆU THAM KHẢO 38

Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 3

PHƢƠNG PHÁP HỌC THỐNG KÊ
(STATISTICAL LEARNING METHODS)
I. GIỚI THIỆU:
1. Sự không chắc chắn:
Tri thức của con ngƣời trong nhiều lĩnh vực là không chắc chắn.
Ví dụ:
- Trong các games chơi bài:
Đối thủ nào đó đang nắm giữ quân 2 cơ -> không chắc.
- Trong các hệ chuẩn đoán y khoa:
Một số triệu chứng nào đó xảy ra thì chƣa hẳn 100% bệnh nhân bị bệnh X nào
đó.
2. Nguồn gốc của sự không chắc chắn:
- Thông tin không đầy đủ:
o Ta không thể biết hết mọi thứ.
o Ta có thể không muốn đợi.
- Nhập nhằng:
o Sự việc có thể đƣợc diễn tả trong nhiều (hơn một) cách.
- Sự không chính xác:
o Sai số của Con ngƣời/Thiết bị.
- Các luật thƣờng là các heuristic đƣợc các chuyên gia sử dụng trong một tình
huống nào đó:
o Không hoàn hảo!
o Các luật đƣợc học hoặc đƣợc viết không chính xác.
3. Cách tiếp cận thống kê đối với tính không chắc chắn [1]
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 4

- Rút ra những kết luận tốt từ những bằng chứng đƣợc xác định nghèo nàn và
không chắc chắn thông qua việc sử dụng những luật suy diễn không vững chắc
không phải là một nhiệm vụ không thể thực hiện đƣợc; chúng ta thực hiện
chúng rất thành công trong hầu hết mọi khía cạnh của cuộc sống chúng ta.
Chúng ta phát biểu những chuẩn đón y học đúng đắn và đề xuất cách điều trị từ
những triệu chứng không rõ ràng; chúng ta phân tích những trục trặc của
những chiếc xe hơi hay máy stereo của chúng ta, …
- Bằng cách sử dụng phƣơng pháp xác xuất và lý thuyết quyết định, nhƣng trƣớc
tiên phải học lý thuyết xác suất từ kinh nghiệm của thế giới.
- Sử dụng lý thuyết xác suất, chúng ta thƣờng có thể xác định đƣợc, từ một tập
lập luận biết trƣớc, cơ hội xuất hiện của những sự kiện. Chúng ta cũng có thể
mô tả những tổ hợp của các sự kiện ảnh hƣởng đến nhau nhƣ thế nào.
- Có nhiều tình huống thích hợp với sự phân tích xác suất. Trƣớc hết, là khi mà
thế giới thực sự có tính chất ngẫu nhiên, nhƣ trong khi chơi một ván bài với
các quân bài đƣợc trộn đều, hoặc khi quay một bánh xe rulet. Ví dụ, trong trò
chơi bài, quân bài tiếp theo đƣợc chia là một hàm của bộ bài (pinochle, poker)
và các quân bài hoàn toàn đƣợc nhìn thấy. Một tình huống khác cho lý thuyết
xác suất là mô tả thế giới “bình thƣờng”. Mặc dù các sự kiện trong thế giới có
thể không thật sự ngẫu nhiên, thông thƣờng không thể biết và đo đƣợc đầy đủ
tất cả các nguyên nhân và những tƣơng tác giữa chúng để dự đoán các sự kiện.
Những tương quan thống kê là một thay thế tốt cho kiểu phân tích nhân quả
này. Một công dụng nữa của xác suất là dự đoán những ngoại lệ có thể xảy ra
đối với những quan hệ chung. Phƣơng pháp thống kê nhóm tất cả các ngoại
lệ vào trong một quan hệ rồi sau đó sử dụng số liệu này để cho biết một ngoại
lệ của bất kỳ kiểu nào có thể xuất hiện với mức độ trông đợi nhƣ thế nào. Một
vai trò quan trọng khác của thống kê là làm cơ sở cho phép quy nạp và học.
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 5

II. TIẾP CẬN THỐNG KÊ ĐỐI VỚI TÍNH KHÔNG CHẮC CHẮN

1. BAYESIAN LEARNING
Xét qua một ví dụ rất đơn giản: [2]
Giả sử có năm loại túi bánh kẹo có hai hƣơng vị là anh đào và chanh. Các nhà
sản xuất kẹo có một ý tƣởng đặc biệt hài hƣớc, bọc mỗi viên kẹo trong một tờ giấy
đục, bất kể hƣơng vị của nó là gì. Kẹo bỏ trong các túi rất lớn, không thể phân biệt
từ bên ngoài:
h1: 100% anh đào
h2: 75% anh đào + 25% chanh
h3: 50% anh đào + 50% chanh
h4: 25% anh đào + 75% chanh
h5: 100% chanh

Với một chiếc túi mới, biến ngẫu nhiên H (giả định) biểu thị loại túi, với giá trị
có thể chạy từ h1 đến h5. Đƣơng nhiên H không thể nhìn thấy một cách trực tiếp.
Khi những viên kẹo đƣợc mở ra và kiểm tra, giá trị đƣợc thể hiện là D1, D2, Dn,
trong đó Di là một biến ngẫu nhiên với giá trị có thể là anh đào và chanh. Nhiệm
vụ chính là làm sao có thể dự đoán đƣợc mùi vị của viên kẹo kế tiếp. Tuy đơn
giản nhƣng ví dụ này đƣợc dùng để giới thiệu nhiều vấn đề chính. Thực sự cần để
suy luận ra nguyên tắc mặc dù khá đơn giản.
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 6

Phƣơng pháp Bayesian đơn giản tính toán khả năng của từng giả định, dữ liệu
đƣợc đƣa ra và đƣa ra sự dự đoán dựa trên căn cứ đó. Những dự đoán đƣợc thực
hiện bằng cách sử dụng tất cả những giả định, cân nhắc những khả năng có thể
xảy ra hơn là chỉ sử dụng một giả định đơn “ tốt nhất”. Cho D đại diện cho tất cả
những giá trị, với giá trị có thể quan sát đƣợc d, khi đó khả năng của từng giả
định đƣợc tính toán theo nguyên tắc Bayes:

Bây giờ, giả định chúng ta muốn dự đoán về giá trị chƣa biết X, sau đó chúng
ta có công thức,

giả định rằng mỗi giả định quyết định một sự phân phối khả năng X. Phƣơng trình
này cho thấy những dự đoán đƣợc đƣa ra bằng cách tính toán trung bình những dự
đoán của những giả định đơn. Những giả định chính bản thân nó là “những ngƣời
trung gian” cần thiết giữa những dữ liệu thô và những dự đoán. Những số lƣợng
quan trọng trong cách tiếp cận Bayes là những giả thuyết trƣớc, P (hi), và khả
năng của các dữ liệu theo từng giả thuyết, P (d \ hi).
Với ví dụ về viên kẹo ở trên, chúng ta sẽ giả định là sự phân phối trƣớc từ h1, ,
h5 đƣợc cho bởi (0.1,0.2,0.4,0.2,0.1), nhƣ đƣợc quảng cáo bởi các nhà sản xuất.
Tính đúng của dữ liệu đƣợc tính toán dựa trên giả định là những quan sát là i.i.d-
đƣợc phân phối một cách độc lập và giống nhau, do đó

Ví dụ, giả định đó là chiếc túi đựng toàn những viên kẹo chanh và 10 viên kẹo
đầu tiên đều là kẹo chanh, khi đó P(d\hs) là 0.5
10
, bởi vì một nữa những viên kẹo
trong 1 chiếc túi h3 là kẹo chanh. Hình 20.1(a) thể hiện cách những khả năng của
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 7

5 giả định sau thay đổi nhƣ một hệ quả của 10 viên kẹo chanh đầu tiên đã đƣợc
quan sát. Ghi nhận những khả năng bắt đầu ở những giá trị trƣớc của chúng, do đó
h3 là sự lựa chọn đầu tiên và tiếp tục duy trì sau khi viên kẹo chanh thứ nhất đƣợc
bóc vỏ. Sau khi viên kẹo chanh thứ 2 đƣợc bóc vỏ, h4 là chủ yếu, từ viên thứ 3 thì
h5 là chủ yếu. Sau khi kiểm tra 10 viên kẹo, chúng ta có thể phần nào chắc chắn
về dự đoán của mình. Hình 1(b) cho thấy giá trị đƣợc dự đoán là viên kẹo tiếp
theo là kẹo chanh, dựa trên phƣơng trình

.
Nhƣ chúng ta kì vọng, nó sẽ tăng đơn điệu đến 1.
Ví dụ trên cho thấy giả định đúng thậm chí lấn át cả sự dự đoán Bayesian. Đó
là đặc trƣng của phƣơng pháp Bayesian.

Hình 1(a)

Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 8

Hình 1(b)
1.1 Phép xấp xỉ MAP (Maximum a posteriori): [3]
Tổng hợp trên không gian giả thuyết là thƣờng rất khó.
Phƣơng pháp MAP: chọn hMAP tối đa hóa P(hi|d)
Tức, tối đa hóa P(d|hi)P(hi) hoặc log P(d|hi) + log P(hi)
Những thuật ngữ Log có thể xem nhƣ những bit để mã hóa dữ liệu những giả
định đƣợc đƣa ra + những bit để mã hóa giả định.
Đó là ý tƣởng cơ bản phƣơng pháp MDL (minimum description length).
Đối với các giả thuyết tất định, P (d | hi) là 1 nếu phù hợp, 0 nếu ngƣợc lại
 MAP = giả thuyết phù hợp đơn giản nhất.
1.2 Phƣơng pháp hợp lý cực đại ML (Maximum likelihood) [3]

Với những tổ hợp dữ liệu lớn, xác suất trƣớc trở nên không phù hợp.
Phƣơng pháp hợp lý cực đại (ML): chọn HML tối đa hóa P (d | hi). Nghĩa là, đơn
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 9

giả lấy giá trị tốt nhất sự phù hợp với dữ liệu; giống với phƣơng pháp MAP đồng

nhất prior. (điều đó là hợp lý nếu tất cả các giả thuyết là phức tạp nhƣ nhau.)

ML là một phƣơng pháp học thống kê "tiêu chuẩn"(non-Bayesian).

1.3 Phƣơng pháp thông số ML trong lƣới Bayes. [3]
Chiếc túi từ một nhà sản xuất mới, thành phần θ là một viên kẹo anh đào?

θ bất kì là có thể: miền liên tục của các giả định hθ
θ là một thông số cho những mô hình tổ hợp đơn giản
này (nhị thức) Giả định chúng ta bóc vỏ N viên kẹo, c viên kẹo anh đào và
ℓ=N − c viên kẹo chanh. Đó là những giá trị quan sát i.i.d. (independent,
identically distributed)
do đó

Tối đa hóa w.r.t. θ này, cái đƣợc xem là dễ dàng hơn cho log-likelihood:

Trong có vẻ hợp lý nhƣng có chút vấn đề với những phép tính 0!

Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 10

1.4 Thông số bội [3]
Giấy gói xanh hay đỏ phụ thuộc vào hƣơng vị.

Ví dụ: likeihood (tính khả năng) cho viên kẹo
hƣơng đào trong giấy gói màu xanh.

Ví dụ N viên kẹo, rc viên kẹo đào với vỏ bọc màu đỏ:

Đạo hàm của L chỉ chứa đựng những thông số liên quan:
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 11

Với dữ liệu hoàn chỉnh, những thông số có thể đƣợc xem xét riêng biệt
Ví dụ: mô hình tuyến tính Gaussian

Tối đa hóa

= tối thiểu hóa

Đó là, giảm thiểu tổng bình phƣơng các lỗi mang đến cho giải pháp ML một
giả định phù hợp tuyến tính Gaussian phƣơng sai cố định nhiễu.
Tóm tắt
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 12

- Phƣơng pháp Bayesian hoàn chỉnh đƣa ra những dự đoán có thể tốt nhất nhƣng
phức tạp.
- Phƣơng pháp MAP cân bằng giữa tính phức tạp và độ chính xác trên dữ liệu
thực nghiệm.
- ML giả định xác suất trƣớc (prior) đồng nhất, có thể sử dụng cho những tổ hợp
dữ liệu lớn.

1. Lựa chọn một tổ hợp các mẫu đã đƣợc tham số hóa để mô tả dữ liệu.
Đòi hỏi nhận thức thực tế và đôi khi là những mẫu mới.
2. Liệt kê những khả năng của dữ liệu nhƣ là một chức năng của các thông số.
Có thể yêu cầu tổng hợp các biến số ẩn.
3. Viết ra đạo hàm log likelihood w.r.t. của từng thông số.
4. Tìm ra những giá trị thông số mà đạo hàm của chúng là 0. Có thể phức tạp
hoặc không thể thực hiện đƣợc; những kỹ thuật tối ƣu hóa hiện đại có thể giúp
ích trong trƣờng hợp này.
2. MẠNG NƠRON (NEURAL NETWORK) [5]
2.1 Giải thuật mạng Nơron
Mạng nơron (Neural Network) là một công cụ có khả năng giải quyết đƣợc
nhiều bài toán khó. Mạng nơron là giải thuật phân loại dựa trên sự mô phỏng khả
năng suy luận của con ngƣời.
Mạng nơron đƣợc ứng dụng nhiều trong các bài toán về nhận dạng (vân tay,
tiếng nói, chữ, hay các ứng dụng nhận dạng khác), trong lĩnh vực khai phá dữ
liệu (data mining), bài toán xây dựng các hệ hổ trợ ra quyết định, đáng giá hiệu
năng của mạng Mạng nơron còn có thể kết hợp với logic mờ để tạo ra mạng
nơron mờ.
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 13

Trong mạng nơron có rất nhiều mô hình mạng nhƣ mạng nơron lan truyền
thuận/ ngƣợc, mạng Kronell Đối với trƣờng hợp học để giải thích dữ liệu nhạy
cảm của thế giới thực thì mạng nơron là một trong các phƣơng pháp học hiệu quả
nhất hiện nay. Thuật toán lan truyền ngƣợc đã chứng tỏ hiệu quả trong việc nhận
dạng chữ viết (LeCun et al, 1989) hay nhận diện khuôn mặt (Cottell, 1990).
Mạng nơron là một hệ thống đƣợc tạo thành bởi sự nối kết giữa rất nhiều đơn
vị nơron xử lý đơn giản và hoạt động song song gọi là perceptron. Những đơn vị
nơron có nhiệm vụ thu thập các tín hiệu, xác định các trọng số w
i

nhân đƣợc từ
các tín hiệu xử lý x
i
tại các đơn vị nơron khác truyền đến nó, sau đó tổng cộng và
chuyển các tín hiệu ấy sang các đơn vị nơron khác.
Trong mô hình nơron nhân tạo mỗi nơron đƣợc nối với các nơron khác và nhận
tín hiệu x
i
từ chúng với trọng số w
i
. Tổng thông tin vào có trọng số là:
Net =

ii
xw

Giá trị đầu ra y của một perceptron đƣợc tính bằng công thức sau:
)) ((
0112211


wxwxwwxwxfy
nnnn

Trong đó

đƣợc gọi là ngƣỡng kích hoạt của nơron.
Hàm f đƣợc gọi là hàm truyền

Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra

Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 14

Một số hàm truyền thƣờng đƣợc sử dụng:
- Hàm logistic (hay còn gọi là hàm sigma:
x
e
xf



1
1
)(

- Hàm Hyperpol:
x
x
e
e
xf





1
1
)(

Việc huấn luyện cho một mạng nơron bao gồm cập nhật các trọng số cho các

perceptron, giải thuật phức tạp hơn nhiều do ta chỉ biết dữ liệu nhập, dữ liệu xuất
cho từng mẫu và phải cập nhật các trọng số cho tất cả perceptron ở các lớp. Việc
cập nhật đƣợc thực hiện theo hai chiều là lan truyền thuận và lan truyền ngƣợc.
Lan truyền thuận: dữ liệu xuất của lớp i sẽ đƣợc sử dụng nhƣ dữ liệu nhập của lớp
i+1. Quá trình này đƣợc lan truyền từ lớp nhập để tính giá trị xuất cho lớp xuất.
Lan truyền ngƣợc: độ chênh lệch giữa giá trị thực với giá trị xuất bởi mạng ở lớp i
sẽ đƣợc dùng để điều chỉnh trọng số cho lớp i-1.
Mô hình minh họa mạng nơron một lớp:

Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 15

Mô hình minh họa mạng nơron tổng hợp (nhiều lớp):

Một ví dụ mạng lan truyền:

Nguyên tắc xác định giá trị Output của nút 5 trong hình trên là:
O
5
= f(W
3,5
A
3
+ W
4,5
A
4
)
= f(W
3,5

f(W
1,3
I
1
+ W
2,3
I
2
) + W
4,5
f(W
1,4
I
1
+ W
2,4
I
2
))
Mạng nơron nhìn theo hƣớng khác gồm các lớp: lớp nhập (input), lớp ẩn (hidden), và
lớp xuất (output).
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 16

Mỗi nút trong lớp nhập nhận giá trị của một biến độc lập và chuyển vào mạng.
Dữ liệu từ tất cả các nút trong lớp nhập đƣợc tổng trọng hóa và chuyển kết quả
cho các nút trong lớp ẩn. Tƣơng tự, các nút trong lớp xuất cũng nhận đƣợc các tín
hiệu tích hợp từ các nút trong lớp ẩn. Mỗi nút trong lớp xuất tƣơng ứng một lớp
phụ thuộc. Trong thực tế, hầu hết các bài toán gặp phải thƣờng có nhiều biến độc

lập và thƣờng có nhiều biến phụ thuộc. Vì thế ta cần một mạng tổng quát có nhiều
nút nhập và nhiều nút xuất.
Phần lớn các bài toán chỉ có một biến phụ thuộc, nhƣng mạng nơron cho phép
có số biến phụ thuộc tùy ý. Ví dụ trong bài toán phân lớp, chúng ta cần xác định
lớp của các mẫu mới (ví dụ: mỗi mẫu có 100 thuộc tính (đặc trƣng)) trong tổng số
12 lớp có thể có thì chúng ta có thể xây dựng một mạng với 100 nút trong lớp
nhập và 12 nút trong lớp xuất, giá trị nút trong lớp xuất nào cao nhất thì khả năng
mẫu mới sẽ thuộc về lớp tƣơng ứng với nút trong lớp xuất đó. Mạng lan truyền
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 17

tổng quát có thể có n lớp (n>2): lớp thứ nhất gọi là lớp nhập, lớp thứ n là lớp xuất,
và n-2 lớp ẩn.
2.2 Đánh giá:
Phƣơng pháp phân lớp dựa trên mạng nơron có các đặc điểm sau:
- Hàm đích của mạng nơron không tƣờng minh, khó hiểu.
- Việc xác định các tham số của mạng phục thuộc và ngƣời thiết kế mạng.
- Nhƣợc điểm của phân lớp mạng nơron là giải thuật phức tạp, thời gian học của
phƣơng pháp này thƣờng chậm và không phù hợp với lƣợng dữ liệu lớn thƣờng
gặp trong phân lớp văn bản.

Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 18

VÍ DỤ VỀ BỘ PHÂN LỚP
THEO PHƢƠNG PHÁP THỐNG KÊ
1. Phân lớp là gì? [4]
• Mục đích: để dự đoán những nhãn phân lớp cho các bộ dữ liệu/mẫu mới.
• Đầu vào: một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi
mẫu dữ liệu.
• Đầu ra: mô hình (bộ phân lớp) dựa trên tập huấn luyện và những nhãn phân lớp.
• Phân lớp:
• Dự đoán các nhãn phân lớp.
• Phân lớp dữ liệu dựa trên tập huấn luyện và các giá trị trong một thuộc.
tính phân lớp và dùng nó để xác định lớp cho dữ liệu mới.
2. Phân lớp - Tiến trình hai bƣớc [4]
Bƣớc 1: Xây dựng mô hình từ tập huấn luyện
• Mỗi bộ/mẫu dữ liệu đƣợc phân vào một lớp đƣợc xác định trƣớc
• Lớp của một bộ/mẫu dữ liệu đƣợc xác định bởi thuộc tính gán nhãn lớp
• Tập các bộ/mẫu dữ liệu huấn luyện - tập huấn luyện - đƣợc dùng để xây dựng mô
hình
• Mô hình đƣợc biểu diễn bởi các luật phân lớp, các cây quyết định hoặc các công
thức toán học.
Bƣớc 2: Sử dụng mô hình - kiểm tra tính đúng đắn của mô hình và dùng nó để
phân lớp dữ liệu mới
• Phân lớp cho những đối tƣợng mới hoặc chƣa đƣợc phân lớp
• Đánh giá độ chính xác của mô hình
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra

Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 19

o Lớp biết trƣớc của một mẫu/bộ dữ liệu đem kiểm tra đƣợc so sánh với kết quả
thu đƣợc từ mô hình
o Lỉ lệ chính xác = phần trăm các mẫu/bộ dữ liệu đƣợc phân lớp đúng bởi mô
hình trong số các lần kiểm tra
3. Đánh giá các phƣơng pháp phân lớp
• Độ chính xác
• Tốc độ
• Bền vững
• Co dãn (scalability)
• Có thể biểu diễn đƣợc
• Dễ làm
4. Phân lớp Bayes: Tại sao?
• Học theo xác suất:
o tính các xác suất rõ ràng cho các giả thiết
o một trong những hƣớng thiết thực cho một số vấn đề thuộc loại học
• Có tăng trƣởng:
o mỗi mẫu huấn luyện có thể tăng/giảm dần khả năng đúng của một giả thiết
o tri thức ƣu tiên có thể kết hợp với dữ liệu quan sát
• Dự đoán theo xác suất:
o dự đoán nhiều giả thiết, trọng số cho bởi khả năng xảy ra của chúng
• Chuẩn:
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 20

o Ngay cả khi các phƣơng pháp Bayes khó trong tính toán, chúng vẫn có thể
cung cấp một chuẩn để tạo quyết định tới ƣu so những phƣơng pháp khác
Phân lớp Bayes
• Bài toán phân lớp có thể hình thức hóa bằng xác suất a-posteriori:

P(C|X) = xác suất mẫu
X=<x
1
,…,x
k
> thuộc về lớp C
• Ví dụ
P(class=N | outlook=sunny,windy=true,…)
• Ý tƣởng: gán cho mẫu X nhãn phân lớp là C sao cho P(C|X) là lớn nhất
Tính xác suất a-posteriori
• Định lý Bayes:
P(C|X) = P(X|C)·P(C) / P(X)
• P(X) là hằng số cho tất cả các lớp
• P(C) = tần số liên quan của các mẫu thuộc lớp C
• C sao cho P(C|X) lớn nhất =
C sap cho P(X|C)·P(C) lớn nhất
• Vấn đề: tính P(X|C) là không khả thi!
5. Phân lớp Naïve Bayesian
• Thừa nhận Naïve: sự độc lập thuộc tính
P(x
1
,…,x
k
|C) = P(x
1
|C)·…·P(x
k
|C)
Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 21

• Nếu thuộc tính thứ i là rời rạc:
P(x
i
|C) đƣợc ƣớc lƣợng bởi tần số liên quan của các mẫu có giá trị x
i
cho thuộc
tính thứ i trong lớp C
• Nếu thuộc tính thứ i là liên tục:
P(x
i
|C) đƣợc ƣớc lƣợng thông qua một hàm mật độ Gaussian
• Tính toán dễ dàng trong cả hai trƣờng hợp
Phân lớp Naïve Bayesian – Ví dụ (1)

Phân lớp Naïve Bayesian – Ví dụ (2)
• Phân lớp X:
o một mẫu chƣa thấy X = <mưa, nóng, cao, không>
o P(X|p)·P(p) =
P(mưa|p)·P(nóng|p)·P(cao|p)·P(không|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 =
0.010582
• Ƣớc lƣợng

• … làm cho có thể tính toán
• … cho ra bộ phân lớp tối ƣu khi thỏa yêu cầu
• … nhƣng yêu cầu ít khi đƣợc thỏa trong thực tế vì các thuộc tính (các biến)
thƣờng có liên quan với nhau.
• Những cố gắng khắc phục điểm hạn chế này:
o Các mạng Bayes (Bayesian networks), kết hợp lý luận Bayes với các
mối quan hệ nhân quả giữa các thuộc tính
o Các cây quyết định, lý luận trên một thuộc tính tại một thời điểm, xét
những thuộc tính quan trọng nhất trƣớc

Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 23

ỨNG DỤNG PHÂN LỚN NAIVE BAYES ĐỂ PHÂN
LOẠI THÔNG ĐIỆP TRÊN DIỄN ĐÀN [5]
Dựa trên các phƣơng pháp phân lớp văn bản và căn cứ vào đặc điểm của tuần
phƣơng pháp, phần ứng dụng này chọn phƣơng pháp phân lớp các thông điệp trên
diễn đàn thảo luận.
1. Hệ thống chƣơng trình
Hệ thống chƣơng trình đƣợc chia thành các công việc chính nhƣ sau:
a. Xây dựng một website diễn đàn quản trị nội dung.
b. Thu thập cơ sở dữ liệu có trên diễn đàn, sửa tiếng Việt không dấu trên diễn
đàn, lọc các thông điệp dữ liệu mẫu, tạo kho ngữ liệu tiếng Việt. Phân tích
và tách từ thông điệp, xác định danh từ, cụm danh từ, trích danh từ, cụm
danh từ làm đặc trƣng. Dựa vào một ngƣỡng T
0
để chọn số đặc trƣng cho

từng ”diễn đàn chuyên đề” (hay còn gọi là từng lớp, ví dụ: diễn đàn học tập
có một số diễn đàn chuyên đề nhƣ: Lập trình Windows, Lập trình Web, ).
c. Dựa vào kho ngữ liệu huấn luyện, chƣơng trình xây dựng bộ phân lớp
Naive Bayes để phân lớp các thông điệp mới dựa trên xác suất xuất hiện
của các đặc trƣng mỗi lớp.

Môn Học Trí Tuệ Nhân Tạo Bài Kiểm Tra
Học Viên Thực Hiện: Đặng Quang Vinh – STT: 24 Trang: 24

2. Quy trình thực hiện:

Qui trình thực hiện tổng quát

phương pháp thống kê cho ví dụ về bộ phân lớp theo phương pháp thống kê

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về