Tải bản đầy đủ (.docx) (61 trang)

QUẢN Lý d6cntt epu dai

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 61 trang )

MỤC LỤC


DANH MỤC HÌNH ẢNH


DANH MỤC BẢNG BIỂU


KÍ HIỆU CÁC CỤM TỪ VIẾT TẮT
Từ
khóa
LDA
HMM
NB
pLSA
EM

Tiếng Anh

Tiếng Việt

Latent Direchlet Allocation Mô hình phân phối Direchlet
ẩn
Hidden Markov Model
Mô hình Markov ẩn
Naïve Bayes
Phương pháp Naïve Bayes
Probabilistic Latent
Xác suất phân tích ngữ nghĩa
Semantic Analysis


tiềm ẩn
Expectation Maximization Phương pháp tối đa hóa kỳ
vọng


LỜI MỞ ĐẦU
Trong những năm gần đây, sự phát triển vượt bậc của công nghệ
thông tin đã làm tăng số lương giao dịch thông tin trên mạng
Internet một cách đáng kể đặc biệt là thư viện điện tử, tin tức điện
tử... Do đó mà số lượng văn bản xuất hiện trên mạng Internet cũng
tăng theo với một tốc độ chóng mặc. Theo số lượng thống kê tử
Broder et al (2003), lượng thông tin đó lại tăng gấp đôi từ 9 đến 12
tháng, và tốc độ thay đổi thông tin là cực kỳ nhanh chóng.
Việc có thêm thông tin khiến chúng ta khó khăn hơn khi tìm
kiếm các thông tin cần thiết. Chính vì vậy chúng ta cần một “công
cụ” mới để có thể sắp xếp, tìm kiếm và hiểu được khối thông tin
khổng lồ.
Mô hình chủ đề có thể giải quyết được vấn đề này bằng cách
cung cấp các phương pháp để tự động tổ chức, tìm kiếm, hiểu và
tóm tắt tài liệu lưu trữ điện tử lớn, chú thích các tài liệu theo những
chủ đề, sử dụng chú thích để tổ chức, tổng hợp và tìm kiếm các tài
liệu,... Đã có mô hình chủ đề được xây dựng thành công dành cho
tiếng Anh bởi David M.Blei và các cộng sự bằng phương pháp LDA.
Mô hình này đã đóng góp rất nhiều trong việc xử lý, phân loại các
văn bản tiếng Anh trên internet. Với sự phát triển của các văn bản và
tài liệu tiếng Việt hiện nay thì việc xây dựng một mô hình chủ để
dành cho tiếng Việt cũng rất quan trọng.
Chính vì vậy em đã tập trung thực hiện đề tài: “Xây dựng mô
hình chủ đề dành cho tiếng Việt bằng phương pháp Naïve
Bayes” nhằm tìm hiểu và xây dựng thử nghiệm một mô hình chủ đề

dành cho tiếng Việt.
Em chọn phương pháp Naïve Bayes (NB) để xây dựng mô hình
chủ đề là do: NB là phương pháp phân loại dựa vào xác xuất được sử
dụng rộng rãi trong lĩnh vực máy học [Mitchell, 1996] [Joachims,
1997] [Jason, 2001] được sử dụng lần đầu tiên trong lĩnh vực phân
loại bởi Maron vào năm 1961[Maron, 1961] sau đó trở nên phổ biến
trong nhiều lĩnh vực như trong các công cụ tìm kiếm [Rijsbergen et
al, 1970], các bộ lọc mail [Sahami et al, 1998]..bên cạnh đó NB còn
có những ưu điểm như: cài đặt đơn giản, tốc độ nhanh, dễ dàng cập


nhật dữ liệu huấn luyện mới và có tính độc lập cao với tập huấn
luyện, có thể sử dụng kết hợp nhiều tập huấn luyện khác
nhau,...thích hợp cho việc phân tích một lượng lớn dữ liệu của mô
hình chủ đề.
Quá trình tìm hiểu và xây dựng đề tài được thể hiện qua các
chương trong báo cáo như sau:
 Chương 1. Mô hình chủ đề: Trong chương này em xin
trình bày về khái niệm mô hình chủ đề; một số phương
pháp đã được nghiên cứu để xây dựng mô hình chủ đề và
tìm hiểu thuật toán chính để xây dựng mô hình chủ đề
dành cho tiếng Anh.
 Chương 2. Tìm hiểu về thuật toán Naïve Bayes: Tìm
hiểu về thuật toán Naïve Bayes và một số ứng dụng của
thuật toán Naïve Bayes.
 Chương 3. Xây dựng mô hình chủ đề dành cho tiếng
Việt: Tìm hiểu về văn bản tiếng Việt; những khó khăn gặp
phải khi xây dựng mô hình chủ đề; kết quả thực nghiệm
sau khi xây dựng mô hình chủ đề.
Do có những mặt hạn chế nhất định về mặt kiến thức cũng như

kinh nghiệm thực tế nên đồ án này không thể tránh được những
thiếu sót, khuyết điểm. Em rất mong được thầy cô và các bạn giúp
đỡ để kiến thức bản thân cũng như đồ án được hoàn thiện hơn.


CHƯƠNG 1: MÔ HÌNH CHỦ ĐỀ (TOPIC MODEL)
Mô hình chủ đề là hệ thống dùng để tìm kiếm các chủ đề chính
từ các tài liệu phi cấu trúc. Khái niệm đầu tiên về mô hình đề tài đã
được khởi xướng vào năm 2002 do Griffiths và Steyvers. Ngay sau
đó, một số nhà nghiên cứu phương pháp đã đề nghị để xây dựng mô
hình chủ đề, hầu như của phương pháp này để xây dựng mô hình đề
tài dựa trên lý thuyết xác suất kết hợp với các mô hình ẩn như
LDA(Latent Direchlet Allocation) và mô hình Markov ẩn (Hidden
Markov Model-HMM). Trong chương này ta sẽ tìm hiểu về các phương
pháp đã được sử dụng để xây dựng mô hình chủ đề, và mô hình chủ
đề dành cho tiếng Anh.
1.1. Mô hình xác suất phân tích ngữ nghĩa tiềm ẩn(Probabilistic Latent
Semantic Analysis-pLSA)
1.1.1. Mô hình tổng quát:
Mục tiêu của PLSA là tìm các tham số P(w|z) và P(z|d) cho mô
hình Aspect của tập các văn bản. Sử dụng phương pháp EM
(Expectation Maximization) ta có thuật toán:
Khởi tạo: P(w|z) và P(z|d)
Vòng lặp:
Tính:

=

Tính:


=

Tính:

=

(1.1)
(1.2)
(1.3)

Tuy nhiên, theo Blei. Ng dù pLSA một bước tiến trong việc mô
hình hóa text theo xác suất nhưng nó chưa hoàn thiện. Lí do là pLSA
chưa phải là một mô hình xác suất được xác định rõ ràng ở mức văn
bản (document). Hệ quả là nó gặp vấn đề khi xác định xác suất với
những văn bản nằm ngoài tập huấn luyện (trainning set). Hơn nữa,
nó còn dẫn tới việc tăng tuyến tính số tham số của mô hình so với độ
lớn của tập văn bản (corpus). LDA là mô hình phân tích chủ đề có thể
xử lý được những vấn đề đó. Trong phần tiếp theo chúng ta sẽ tìm
hiểu về mô hình LDA.

7


1.2. Mô hình phân phối Direchlet ẩn (Latent Direchlet Allocation-LDA)
1.2.1. Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA :
Phân tích chủ đề cho văn bản nói riêng và cho dữ liệu Web nói
chung có vai trò quan trọng trong việc “hiểu” và định hướng thông
tin trên Web. Khi ta hiểu một trang Web có chứa những chủ đề hay
thông tin gì thì dễ dàng hơn cho việc xếp loại, sắp xếp, và tóm tắt
nội dung của trang Web đó. Trong phân lớp văn bản, mỗi văn bản

thường được xếp vào một lớp cụ thể nào đó. Trong phân tích chủ đề,
chúng ta giả sử mỗi văn bản đề cập đến nhiều hơn một chủ đề (K
chủ đề) và mức độ liên quan đến chủ đề được biểu diễn bằng phân
phối xác suất của của tài liệu đó trên các chủ đề

Hình 1.1: Văn bản được tạo bởi K chủ đề
1.2.2. Mô hình sinh trong LDA
Theo Blei. Ng dù pLSA một bước tiến trong việc mô hình hóa text
theo xác suất nhưng nó chưa hoàn thiện. Lí do là pLSA chưa phải là
một mô hình xác suất được xác định rõ ràng ở mức văn bản
(document). Hệ quả là nó gặp vấn đề khi xác định xác suất với
những văn bản nằm ngoài tập huấn luyện (trainning set). Hơn nữa,
nó còn dẫn tới việc tăng tuyến tính số tham số của mô hình so với độ
lớn của tập văn bản (corpus). LDA là mô hình phân tích chủ đề có thể
xử lý được những vấn đề đó. Hình 1.2 giới thiệu những bước cơ bản
trong tiến trình sinh của LDA.

8


Hình 1.2: Tiến trình sinh văn bản LDA
1.2.3. Phân phối Direchlet ẩn (Latent Direchlet Allocation)
LDA là mô hình sinh văn bản được giới thiệu bởi Blei. Ng và cộng
sự với pLSA về ý tưởng cơ bản là dựa trên việc coi văn bản là sự pha
trộn của các chủ đề. Nhưng LDA là một mô hình Bayes ba mức: mức
tập văn bản (corpus), mức văn bản (document), mức từ (word). Hình
1.3 và hình 1.4 mô tả tiến trình sinh văn bản bằng phương pháp LDA:

Hình 1.3: Kí hiệu khối lặp lại
Cho một tập dữ liệu văn bản của M tài liệu biểu diễn bởi

D={d1,d2, …, dM}, trong đó, mỗi tài liệu m trong tập dữ liệu bao gồm
Nm từ wi rút từ một tập Vocabulary của các tập (term) {t 1, …, tv}, V là
số từ. LDA cung cấp một mô hình sinh đầy đủ chỉ ra kết quả tốt hơn
các phương pháp trước. Quá trình sinh ra văn bản như sau:

9


Hình 1.4: Mô hình biểu diễn của LDA
Các kí hiệu:
Các khối hình vuông hình 1.4 biểu diễn các quá trình lặp.
Tham số đầu vào: α và β ( tham số mức tập văn bản).
α : Dirichlet prior on .
β : Dirichlet prior on .
M : số văn bản trong tập văn bản: D = {d 1,d2,..,dM}.
K : số chủ đề ẩn.
V : số từ trong tập từ vựng
Nm : Số lượng các từ trong tài liệu thứ m (hay còn gọi là độ dài
của văn bản dm).
zm,n : chủ đề của từ wn trong văn bản dm ( hay chỉ số chủ đề).
wm,n : từ thứ n trong văn bản dm chỉ bởi zm,n.

: Phân phối của chủ đề trong văn bản thứ m, biểu diễn tham số

cho p(z|d = m), thành phần trộn chủ đề cho tài liệu m. Tỷ lệ cho mỗi
tài liệu

: phân phối của các từ được sinh từ chủ đề z m,n. biểu diễn tham
số cho p(t|z=k), thành phần trộn của chủ đề k, một tỷ lệ cho mỗi chủ
đề. LDA sinh một tập các từ wm,n cho các văn bản bằng cách:

• Với mỗi văn bản m, sinh ra phân phối chủ đề cho văn bản
theo Dir(α).
• Với mỗi từ, zm,n được lấy mẫu dựa vào phân phối chủ đề Mult()
• Với mỗi giá trị của chủ đề z m,n, dựa vào phân phối từ , w m,n,
được sinh ra.

10


1.2.4. Ước luợng giá trị tham số và inference thông qua Gibbs Sampling cho mô
hình LDA
Ước lượng tham số cho mô hình LDA bằng phương pháp cực đại
hóa hàm likelihood trực tiếp và một cách chính xác có độ phức tạp
thời gian rất cao và không khả thi trong thực tế.
Người ta thường sử dụng các phương pháp xấp xỉ như Variational
Methods và Gibbs Sampling . Gibbs Sampling được xem là một thuật
toán nhanh, đơn giản, và hiệu quả để huấn luyện LDA. Cho trước một
tập các văn bản, tìm xem mô hình chủ đề nào đã sinh ra tập các văn
bản trên. Bao gồm:
• Tìm phân phối xác suất trên tập từ đối với mỗi chủ đề
• Tìm phân phối chủ đề của mỗi tài liệu

Hình 1.5: Ước lượng tham số tập dữ liệu văn bản
1.3. Mô hình Markov ẩn (Hidden Markov Model- HMM)
1.3.1. MarKov Models (HM):
Một dãy trạng thái ngẫu nhiên gọi là có thuộc tính Markov nếu
như xác suất chuyển sang trạng thái tiếp theo chỉ phụ thuộc vào
trạng thái hiện tại và quá khứ.
Dãy chuyển trạng quan sát được được gọi là chuỗi Markov hay
Xích Markov. Dãy chuyển trạng không quan sát được gọi là mô hình

Markov ẩn.


Có N trạng thái: s1, s2 .. sN
11


Các bước thời gian rời rạc tương ứng: t=0, t=1, …
Tại bước thời gian thứ t, hệ thống ở một trong các trạng thái
trên, gọi là qt.
Với qt ∈{s1, s2 .. sn }
Trạng thái hiện tại
S3
N=3
t=0, qt=q0=s3

S1

S3

Hình 1.6:
Cáctrạng
trạng thái
tại tiếp
từng thời
gian
Giữa mỗi bước thời
gian,
thái
theo

được chọn một
cách ngẫu nhiên. Trạng thái hiện tại sẽ quyết định xác xuất phân bố
của trạng thái tiếp theo (thường được kí hiệu bằng vòng cung kết nối
các trạng thái).
Trạng thái qt+1 độc lập có điều kiện với { q t-1, qt-2, … q1, q0 }, được
đưa ra bởi qt.
P(A) là xác suất trước hay xác suất bờ
P(A|B) là xác suất sau hay xác suất có điều kiện, là xác suất xuất
hiện A đối với B( hay xác xuất chuyển tiếp từ B đến A)
Một chuỗi q được gọi là chuỗi Markov, để thỏa thuộc tính của
Markov, trạng thái tiếp theo chỉ phụ thuộc vào trạng thái hiện tại và
không phụ thuộc vào trạng thái nào trong quá khứ. Đây được gọi là
mô hình Markov bậc 1

Hình 1.7: Mô hình
1

Markov bậc



hình

Markov bậc 2: là

mô hình được tạo

ra trên cơ sở

trạng thái hiện tại


qt phụ thuộc và

hai trạng thái liền

kề trước đó
12


Hình 1.8: Mô hình Markov bậc 2

=

(1.4)

Mô hình Markov đơn giản cho dự báo thời tiết



Thời tiết trong một ngày có thể rơi vào một trong ba trạng thái
sau:
• S1: mưa
• S2: mây mù
• S3: nắng

Hình 1.9: Mô tả trạng thái thời tiết
1.3.2. Giới thiệu về mô hình Markov ẩn
Mô hình Markov ẩn (Hiden Markov Model - HMM) được giới thiệu
vào cuối những năm 1960. Cho đến hiện nay nó có một ứng dụng
khá rộng như trong nhận dạng giọng nói, tính toán sinh học

(Computational Biology), và xử lý ngôn ngữ tự nhiên…HMM là mô
hình máy hữu hạn trạng thái với các tham số biểu diễn xác suất
chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng
thái.

13


Hình 1.10 Mô hình Markov ẩn
xi: Các trạng thái trong mô hình Markov
aij: Các xác suất chuyển tiếp
bij: Các xác suất đầu ra
yi: Các dữ liệu quan sát
Mô hình Markov ẩn là mô hình thống kê trong đó hệ thống được
mô hình hóa được cho là một quá trình Markov với các tham số
không biết trước, nhiệm vụ là xác định các tham số ẩn từ các tham
số quan sát được. Các tham số của mô hình được rút ra sau đó có
thể sử dụng để thực hiện các phân tích kế tiếp.Trong một mô hình
Markov điển hình, trạng thái được quan sát trực tiếp bởi người quan
sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy
nhất.
Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác
suất phân bố trên các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy
của các biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy
các trạng thái. Ta có tìm ra được chuỗi các trạng thái mô tả tốt nhất
cho chuỗi dữ liệu quan sát được bằng cách tính.
(1.5)

14



Y1

Y2







Yn

X1

X2







Xn

Hình 1.11: Đồ thị vô hướng HMM
Ở đó Yn là trạng thái tại thời điểm thứ t=n trong chuỗi trạng thái Y, Xn là dữ liệu
quan sát được tại thời điểm thứ t=n trong chuỗi X. Do trạng thái hiện tại chỉ phụ thuộc
vào trạng thái ngay trước đó với giả thiết rằng dữ liệu quan sát được tại thời điểm t chỉ
phụ thuộc và trạng thái t. Ta có thể tính:

(1.6)
Một số hạn chế của mô hình Markov để tính được xác suất P(Y,X)
thông thường ta phải liệt kê hết các trường hợp có thể của chuỗi Y và
chuỗi X. Thực tế thì chuỗi Y là hữu hạn có thể liệt kê được, còn X (các
dữ liệu quan sát) là rất phong phú. Để giải quyết các vấn đề này
HMM đưa ra giả thiết về sự độc lập giữa các dữ liệu quan sát: Dữ liệu
quan sát được tại thời điểm t chỉ phụ thuộc vào trạng thái tại thời
điểm đó. Hạn chế thứ hai gặp phải là việc sử dụng xác suất đồng thời
P(Y, X) đôi khi không chính xác vì với một số bài toán thì việc sử dụng
xác suất điều kiện P(Y | X) cho kết quả tốt hơn rất nhiều.
1.4. Tìm hiểu về mô hình chủ đề trong tiếng Anh:
Theo David M. Blei, mỗi 1 văn bản được cấu thành bởi hỗn hợp
nhiều chủ đề, đại diện cho các chủ đề này là các từ chủ đề. Các từ
chủ đề này được phân bố bằng các tỷ lệ khác nhau sẽ tạo nên các
văn bản với các chủ đề khác nhau.

15


Hình 1.12: Văn bản được cấu thành bởi nhiều chủ đề với tỷ lệ phân bố
khác nhau
Trong hình 1.12:
• Mỗi một chủ đề được thể hiện qua sự phân bố của các
từ
• Tài liệu được xây dựng bởi hỗn hợp các chủ đề
• Mỗi từ trong tài liệu được trích rút từ trong các chủ đề
tương ứng
Tuy nhiên trong thực thế chúng ta không thể quan sát được các
chủ đề cầu thành văn bản cũng như tỷ lệ của các từ cấu thành văn
bản, ta chỉ có thể quan sát được nội dung của văn bản. Các cấu trúc

còn lại đều là những biến ẩn.

16


Hình 1.13: Hình ảnh trực quan của tài liệu trong thực tế
Để có thể tìm ra các biến ẩn là các từ và các chủ đề trong 1 tài
liệu như trên, một mô hình chủ đề dành cho tiếng Anh đã được
nghiên cứu và xây dựng bởi David M.Blei và các cộng sự bằng mô
hình LDA (Latent Direchlet Allocation).
Công thức cơ bản để xây dựng lên mô hình chủ đề này là (1.7):

Trong đó: Các chủ đề là sao cho mỗi là một phân phối của chủ
đề qua các từ vựng. Các tỷ lệ cho văn bản thứ d là sao cho mỗi là
một tỷ lệ của chủ đề k trong văn bản thứ d. là chủ đề của từ thứ n
trong văn bản d. Cuối cùng là các từ mà ta quan sát được trong văn
bản d đó là , là từ thứ n trong văn bản d, đó là một phần tử từ vựng
cố định.
Dưới đây là một số hình ảnh về mô hình chủ đề dành cho tiếng
Anh:

17


Hình 1.14: Tập các từ được phân loại theo chủ đề

Hình 1.15: Các từ được sử dụng xây dựng mô hình chủ đề

18



Hình 1.16: Các văn bản liên quan đến chủ đề

Hình 1.17: Xác định các chủ đề trong văn bản
1.5. Kết luận chương 1:
Như vậy ta đã hiểu được sơ lược về mô hình chủ đề và các
phương pháp đã được đề xuất để xây dựng mô hình chủ đề.
Trong chương tiếp theo chúng ta sẽ tìm hiểu sơ lược về thuật
toán NB, một phương pháp nữa để xây dựng mô hình chủ đề.

19


CHƯƠNG 2: TÌM HIỂU VỀ THUẬT TOÁN NAIVE BAYES
Naïve Bayes (NB) là phương pháp phân loại dựa vào xác suất
được sử dụng rộng rãi trong lĩnh vực máy học, được sử dụng lần đầu
tiên trong lĩnh vực phân loại bởi Maron vào năm 1961 sau đó trở nên
phổ biến dùng trong nhiều lĩnh vực như trong các công cụ tìm kiếm,
các bộ lọc email.
Theo tác giả Mitchel, thuật toán phân loại Naïve Bayes có đặc
điểm nổi bật là có khả năng giảm độ phức tạp tính toán từ về còn .
Vậy đặc điểm nào giúp NB có khả năng đó? Trong chương này chúng
ta sẽ tìm hiểu chi tiết về các đặc điểm trên.
2.1. Thuật toán Naïve Bayes:
Thuật toán Naïve Bayes được xây dựng dựa trên định lý Bayes.
2.1.1. Định lý Bayes:
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện
ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này
được ký hiệu là P(A|B), và đọc là "xác suất của Anếu có B". Đại lượng
này được gọi xác suất có điều kiện hay xác suất hậu nghiệm vì nó

được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó.
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào
3 yếu tố:
Xác suất xảy ra A của riêng nó, không quan tâm đến B. Kí hiệu
là P(A) và đọc là xác suất của A. Đây được gọi là xác suất biên
duyên hay xác suất tiên nghiệm, nó là "tiên nghiệm" theo nghĩa rằng
nó không quan tâm đến bất kỳ thông tin nào về B.
Xác suất xảy ra B của riêng nó, không quan tâm đến A. Kí hiệu
là P(B) và đọc là "xác suất của B". Đại lượng này còn gọi là hằng số
chuẩn hóa (normalising constant), vì nó luôn giống nhau, không phụ
thuộc vào sự kiện A đang muốn biết.
Xác suất xảy ra B khi biết A xảy ra. Kí hiệu là P(B|A) và đọc là
"xác suất của B nếu có A". Đại lượng này gọi là khả năng (likelihood)
xảy ra B khi biết A đã xảy ra. Chú ý không nhầm lẫn giữa khả năng
xảy ra B khi biết A và xác suất xảy ra A khi biết B.
20


Khi biết ba đại lượng này, xác suất của A khi biết B cho bởi công
thức:
(2.1)
Từ đó dẫn tới
(2.2)
2.1.2. Công thức xác suất đầy đủ Bayes:
Giả sử ta muốn tính một hàm không biết giá trị đích

tương

đương với P(Y|X).
Đầu tiên, ta cho rằng Y là biến ngẫu nhiên có giá trị luận

lý(boolean).
X là vector gồm n thuộc tính luận lý (boolean), X = (X 1, X2,..., Xn)
Áp dụng định luật Bayes, P(Y=yi|X) được tính như sau:
(2.3)
Trong đó P(X|Y) và P(Y) được học từ tập huấn luyện. Tuy nhiên
để tính toán chính xác P(X|Y) thường đòi hỏi rất nhiều dữ liệu huấn
luyện. Để hiểu tại sao chúng ta sẽ tính toán số lượng tham số cần
thiết khi Y là biến boolean, X là vector gồm n thuộc tính boolean:

Trong đó i phải dựa trên

giá trị có thể cho những giá trị của

vector X và j cần 2 giá trị. Do đó, chúng ta cần tính toán khoảng
tham số. Mặt khác, ta phải đảm bảo 1= cho bất kì j cố định nào. Vì
vậy, ứng với mỗi giá trị đặc biệt và giá trị có thể của , chúng ta chỉ
cần tính toán

tham số độc lập. Dựa trên giá trị của Y (Y là biến

boolean), chúng ta cần tính tổng cộng là tham số
2.1.3. Tính độc lập có điều kiện (Conditional Independence)
Định nghĩa: cho các biến ngẫu nhiên X, Y và Z, chúng ta nói rằng
X là độc lập có điều kiện với Y gây ra Z, khi và chỉ khi xác suất phân
phôi chủ đạo X là độc lập với giá trị của Y gây ra Z. lúc đó:

Ví dụ: ta xem xét 3 biến lý luận (boolean) ngẫu nhiên trên đại
diện cho các trạng thái thời tiết là: Sấm, Mưa, Sét. Chúng ta đều biết
21



rằng sự kiện Sấm xảy ra hoàn toàn độc lập với sự kiện mưa gây ra
Sét. Bởi vì khi có Sét sẽ gây ra tiếng Sấm, nên một khi chúng ta biết
rằng có Sét hay không thì ta có thể biết được giá trị của Sấm mà
không cần thêm bất cứ thông tin nào từ Mưa. Trên thực tế, rõ ràng có
sự phụ thuộc giữa Mưa và Sấm, tuy nhiên ta không cần thêm thông
tin đó một khi đã có thông tin về Sét.
2.1.4. Phát biểu thuật toán Naïve Bayes
Thuật toán NB dựa trên luật Bayes, với giả định tất cả các thuộc
tính đều độc lập có điều kiện với nhau do sự kiện Y gây ra. Chính giả
thuyết này đã đơn giản hóa cách tính của P(X|Y), và vấn đề ước
lượng P(X|Y) từ tập ngữ liệu huấn luyện.
Chúng ta hãy xét ví dụ sau, giả sử ta có X = (), lúc đó:

Kết quả của là tính theo cách tính thông thường của xác suất,
và là phân tích trực tiếp theo định nghĩa về độc lập và có điều kiện.
Từ đó ta tổng quát hóa lên khi X chứa n thuộc tính đều độc lập
với nhau do sự kiện Y gây ra được biểu diễn như sau:
(2.7)
Chú ý, khi Y và là biến lý luận, chúng ta chỉ cần 2n tham số để
định nghĩa P().
Bây giờ, chúng ta hãy xét đến nguồn gốc của thuật toán NB. Giả
sử Y là một biến bất kì mang giá trị riêng biệt, và các thuộc tính là
thuộc tính rời rạc liên tục. Mục đích của chúng ta là huấn luyện để
thuật toán phân loại trả ra sự phân phối xác suất trên các giá trị của
Y đối với mỗi thể hiện C mà ta cần phân loại. Biểu thức sau đây biểu
diễn cho xác suất ứng với giá trị thứ k của Y:

Trong đó, tổng giá trị ở mẫu của biểu thức là tổng cho bởi tất cả
các giá trị của của Y. Lúc này, sử dụng công thức (2.7), ta có thể viết

lại công thức trên như sau:

22


Công thức (2.9) là công thức cơ bản của phương pháp phân loại
Naïve Bayes. Khi cho một thể hiện , theo công thức trên, ta sẽ tính
toán được các xác suất của Y gây ra bởi bằng cách dựa vào P(Y) và
P(X|Yi) được ước lượng từ tập ngữ liệu. Nếu chúng ta chỉ quan tâm
đến giá trị lớn nhất của Y, thì sử sụng công thức sau:
(2.10)
2.2. Ứng dụng của thuật toán Naïve Bayes:
Một trong số những ứng dụng nổi bật nhất của thuật toán Naïve
Bayes là ứng dụng trong việc phân loại văn bản.
Ý tưởng: Ý tưởng cơ bản của cách tiếp cận Naïve Bayes là sử
dụng xác suất có điều kiện giữa từ và chủ đề để dự đoán xác suất
chủ đề của một văn bản cần phân loại. Điểm quan trọng của phương
pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ
trong văn bản đều độc lập với nhau.
Giả định đó làm cho việc tính toán NB hiệu quả và nhanh chóng
hơn các phương pháp khác vì không sử dụng việc kết hợp các từ để
đưa ra phán đoán chủ đề. Kết quả dự đoán bị ảnh hưởng bởi kích
thước tập dữ liệu, chất lượng của không gian đặc trưng…
Hướng dẫn cài đặt: Mô tả vector đặc trưng của văn bản: Là
vector có số chiều là số đặc trưng trong toàn tập dữ liệu, các đặc
trưng này đôi một khác nhau. Nếu văn bản có chứa đặc trưng đó sẽ
có giá trị 1, ngược lại là 0.
Thuật toán gồm 2 giai đoạn huấn luyện và phân lớp:
1. Huấn luyện: tính và
Đầu vào:

• Các vector đặc trưng của văn bản trong tập huấn luyện
(Ma trận MxN, với M là số vector đặc trưng trong tập huấn
luyện, N là số đặc trưng của vector).
• Tập nhãn/lớp cho từng vector đặc trưng của tập huấn
luyện.
Đầu ra:
23


• Các giá trị xác suất và .
Công thức tính đã làm trơn Laplace [Napnik, 1982]

Trong đó:
o |docsi|: số văn bản của tập huấn luyện thuộc phân lớp
i.
o |total docs|: số văn bản trong tập huấn luyện.
o m số phân lớp
Cài đặt:
o Khởi tạo mảng A, B có kích thước m.
o Duyệt qua các văn bản trong tập dữ liệu, đếm số văn
bản trong mỗi phân lớp lưu vào A.
o Tính xác suất cho từng phân lớp theo công thức trên
và lưu vào mảng B.
Công thức tính đã làm trơn Laplace:

Trong đó:
o : Số văn bản trong trong phân lớp i có đặc trưng thứ k
mang giá trị xk. (hay số văn bản trong lớp i, có xuất
hiện/không xuất hiện đặc trưng k)
o : Số văn bản của tập huấn luyện thuộc phân lớp i.

o

Số giá trị có thể có của đặc trưng thứ k

Cài đặt:
o Với vector đặc trưng như mô tả bên trên, d k ở đây mang giá
trị là 2, tương ứng với xuất hiện và không xuất hiện. Do chỉ
có 2 giá trị, ta có thể tính nhanh xác suất không xuất hiện
theo công thức

24


o Khởi tạo mảng 3 chiều C, chiều 1 có kích thước là m (số
phân lớp), chiều 2 có kích thước là N (số đặc trưng), chiều
3 có kích là 2 (dk) để lưu các giá trị .
o Duyệt qua các văn bản trong tập dữ liệu, tiến hành thống
kê các chỉ số cần thiết để tính xác suất theo công thức
trên và lưu vào mảng C.
2. Phân lớp:

Đầu vào:
o Vector đặc trưng của văn bản cần phân lớp.
o Các giá trị xác suất và .
Đầu ra:
Nhãn/lớp của văn bản cần phân loại.
Công thức tính xác suất thuộc phân lớp i khi biết trước mẫu X

Dựa vào vector đặc trưng của văn bản cần phân lớp, áp dụng
công thức trên tính xác suất thuộc từng phân lớp cho văn bản, và

chọn ra lớp có xác suất cao nhất.
Ví dụ:
Docs
Doc1
Doc2
Doc3
Doc4
Doc5
Doc6

Var
1
0
1
1
0
0

Bit
0
1
1
0
1
1

Class
Math
Comp
Comp

Math
Math
Comp

25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×