ỨNG DỤNG NAÏVE BAYES VÀ ONTOLOGY VÀO BÀI TOÁN PHÂN LỚP VÀ TRÍCH XUẤT KEYPHRASE CHO TÀI LIỆU HỌC TẬP CÔNG NGHỆ THÔNG TIN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.29 MB, 19 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


ỨNG DỤNG GIẢI THUẬT NAÏVE BAYES VÀO
BÀI TOÁN PHÂN LỚP VÀ TRÍCH XUẤT KEYPHRASE
CHO TÀI LIỆU HỌC TẬP CÔNG NGHỆ THÔNG TIN

GVHD : PGS.TS VŨ THANH NGUYÊN
HVTH : NGUYỄN VĂN TIẾN
MSHV: CH1301109
Lớp : CH-08

TP. Hồ Chí Minh – Tháng 3 Năm 2014
Nguyn Vn Tin CH1301109 Trang 2

MC LC
I. C S Lí THUYT V THUT TON BAYES V CC VN
LIấN QUAN. 3
1. Cỏc cụng thc xỏc sut 3
2. Cụng thc Bayes 4
3. Bi toỏn phõn lp 4
4. Thut toỏn Naùve Bayes 4
II. NG DNG NAẽVE BAYES V ONTOLOGY VO BI TON
PHN LP V TRCH XUT KEYPHRASE 5
1. t vn 5
2. Ni dung ti: 6
3. Phng phỏp xõy dng mụ hỡnh Naùve Bayes 6

4. Cỏc c trng dựng phõn lp d liu 8
5. Xõy dng mụ hỡnh Naùve Bayes 11
6. Trớch xut Keyphrase cho ti liu. 13
III. CI T V TH NGHIM 14
1. Chc nng c bn: 14
2. Cụng ngh s dng: 14
3. Giao din ngi dựng: 14
4. Kt qu t c v ỏnh giỏ: 18
IV. TI LIU THAM KHO 19

Nguyễn Văn Tiến – CH1301109 Trang 3

I. CƠ SỞ LÝ THUYẾT VỀ THUẬT TOÁN BAYES VÀ CÁC VẤN
ĐỀ LIÊN QUAN.
Định lý Bayes được đặt tên sau khi Reverend Thomas Bayes (1702 – 1761), người
đã nghiên cứu việc làm thế nào để tính toán một phân phối cho các tham số xác suất của
một phân phối nhị thức. Sau khi Bayes chết, bạn của ông ấy là Richard Price đã biên tập
và trình bày công việc này vào năm 1763.
Phân loại Naïve Bayes là một phân loại xác suất đơn giản dựa trên việc áp dụng
định lý Bayes với sự độc lập hoàn toàn của các giả thiết.
Bayesian Classification là lớp các giải thuật học dựa trên định lý Bayes bao gồm
mạng Bayes và thuật toán Naïve Bayes, nó giải quyết các vấn đề về phân loại và gom
nhóm, được ứng dụng thành công trong nhiều lĩnh vực: phân tích dữ liệu, phân loại văn
bản, lọc thư rác, …
Thuật toán Naïve Bayes xem độ quan trọng của các thuộc tính là như nhau và các
thuộc tính hoàn toàn độc lập với nhau. Tuy nhiên, việc giả thiết các thuộc tính hoàn toàn
độc lập với nhau không bao giờ đúng, tuy vậy trong thực tế Naïve Bayes cho kết quả khá
tốt.
1. Các công thức xác suất

 Công thức xác suất có điều kiện:
)(
)(
)(
)(
)(
)(
AP
ABP
A|BP
BP
ABP
B|AP



 Công thức nhân xác suất: P(AB)=P(A).P(B|A)=P(B).P(A|B)
 Công thức độc lập xác suất: A
1
, A
2
,…, A
n
độc lập với nhau  P(A
1
.A
2
.….A
n
)

= P(A
1
).P(A
2
).….P( A
n
).
 A, B độc lập  P(AB)=P(A).P(B).
Nguyễn Văn Tiến – CH1301109 Trang 4

 A, B, C độc lập với nhau  P(A.B.C)=P(A).P(B).P(C).
2. Công thức Bayes
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
 Xác suất xảy ra A của riêng nó, không quan tâm đến B. Kí hiệu là P(A)
 Xác suất xảy ra B của riêng nó, không quan tâm đến A. Kí hiệu là P(B)
 Xác suất xảy ra B khi biết A xảy ra. Kí hiệu là P(B|A).
)(
)()(
)(
BP
APA|BP
B|AP 

3. Bài toán phân lớp
Đầu vào:
 Một tập các thuộc tính của mẫu X = {x
1
, x
2
, …, x

n
}
 Một tập cố định các phân lớp C = {c
1,
c
2
, …, c
l
}
Đầu ra: Phân lớp c
i
mà mẫu X thuộc về.
4. Thuật toán Naïve Bayes
Quá trình học: cho một tập tài liệu huấn luyện S

;in examples with )|( estimate)|(
ˆ

),1 ;,,1( attributeeach of valueattributeevery For
;in examples with )( estimate)(
ˆ

of t valueeach targeFor
1
S
S
ijkjijkj
jjjk
ii
Lii

cCxXPcCxXP
N,knj Xx
cCPcCP
)c,,c(c c





Đầu ra: bảng xác suất điều kiện cho X
j
, bao gồm N
j
xL phần tử.
Quá trình kiểm tra: cho một mẫu chưa xác định X’ = (a’
1
, a’
2
, ….a’
n
), tìm kiếm trong
bảng để gán c* cho X’ nếu:
Lnn
ccccccPcaPcaPcPcaPcaP ,, , ),(
ˆ
)]|(
ˆ
)|(
ˆ

[)(
ˆ
)]|(
ˆ
)|(
ˆ
[
1
*
1
***
1









Nguyễn Văn Tiến – CH1301109 Trang 5

II. ỨNG DỤNG NAÏVE BAYES VÀ ONTOLOGY VÀO BÀI TOÁN
PHÂN LỚP VÀ TRÍCH XUẤT KEYPHRASE
1. Đặt vấn đề
Thế giới dưới sự ảnh hưởng mạnh mẽ này cũng dần dần chuyển sang một nền kinh
tế xã hội mà tri thức là nguồn lực chủ yếu. Với sự xuất hiện của Internet tốc độ cao, các

thiết bị lưu trữ trở nên vô cùng phổ biến, các tài liệu điện tử được sử dụng hết sức rộng
rãi, thì lượng thông tin ngày càng khổng lồ, nhu cầu đối với những thông tin này tất
nhiên cũng ngày càng bức thiết: đó là nhu cầu học tập, chia sẻ, quản lý,…
Hiện nay, hầu hết các hệ thống tìm kiếm thông tin đều đang tập trung vào việc nghiên
cứu tìm kiếm thông tin theo ngữ nghĩa, phương pháp này mang lại độ chính xác cao hơn
vì nó mô phỏng gần gũi hơn với yêu cầu của con người. Một vấn đề quan trọng trong hệ
thống tìm kiếm thông tin theo ngữ nghĩa là việc lấy ra các thành phần quan trọng trong
các tài liệu, hay còn gọi là rút trích keyphrase. Keyphrase là một khái niệm không thể
thiếu đối với các hệ thống tìm kiếm thông tin theo ngữ nghĩa, nó là một đơn vị thông tin
mang đặc trưng, thể hiện nội dung chính của tài liệu
Các keyphrase có vai trò hết sức quan trọng trong các hệ quản lý tài liệu và biểu diễn
thông tin theo ngữ nghĩa. Nó ảnh hưởng trực tiếp đến sự hiệu quả của các hệ thống này,
bởi các keyphrase mô tả nội dung chính của tài liệu, nó chứa siêu dữ liệu ngữ nghĩa có
thể sử dụng cho nhiều mục đích khác nhau: biểu diễn và xử lý thông tin theo ngữ nghĩa,
tìm kiếm ngữ nghĩa, quản lý tài nguyên theo ngữ nghĩa…
Để có được những tập keyphrase tốt chúng ta cần một phương pháp tốt để phân lớp
dữ liệu dựa theo máy học để trích xuất chúng. Do vậy, bài toán phân lớp dữ liệu là một
trong những bài toán quan trọng trong trích xuất dữ liệu, nó là tiền đề để phương pháp
trích xuất có hiệu quả cao nhất.
Nguyễn Văn Tiến – CH1301109 Trang 6

2. Nội dung đề tài:
Sử dụng phương pháp máy học Naïve Bayes để phân lớp các keyphrase trong lĩnh
vực Công nghệ thông tin nhằm tạo mô hình máy học và áp dụng mô hình máy học này
kết hợp thuật giải KEA++ để trích xuất keyphrase cho lĩnh vực Công nghệ thông tin.
3. Phương pháp xây dựng mô hình Naïve Bayes
Trong thuật ngữ của học máy, cụm trong tài liệu là các “ví dụ” và vấn đề học ở đây
là tìm một kết nối từ các ví dụ đến hai lớp: “keyphrase” hoặc “không phải là keyphrase”.
Quá trình huấn luyện dùng một tập tài liệu huấn luyện trong đó các cụm từ khóa đã
được tác giả xác định trước. Đối với mỗi tài liệu trong tập huấn luyện, những cụm ứng

viên sẽ được xác định và các giá trị đặc trưng của từng cụm ứng viên sẽ được tính toán.
Mỗi cụm ứng viên sẽ được gán nhãn là cụm từ khóa hay không là cụm từ khóa
dựa vào những cụm từ khóa do tác giả chỉ định. Quá trình huấn luyện sẽ sinh ra một một
mô hình và mô hình này được dùng để dự đoán lớp cho các mẫu dữ liệu mới, sử dụng
các giá trị các đặc trưng đã được tính toán.

Nguyễn Văn Tiến – CH1301109 Trang 7

Hình 1: Quá trình huấn luyện – xây dựng mô hình máy học Naïve Bayes
ONTOLOGY
Cập nhật các ứng viên dưới sự giám sát của

con người. Thêm các ứng viên được cho là
quan trọng và loại bỏ các cụm không là ứng
viên. Thực hiện tính toán các đặc trưng cho
các ứng viên mới được thêm vào.
So khớp các cụm từ trong tài liệu với
các Keyphrase trong ontology, chọn
các cụm từ trùng khớp làm các ứng
viên.
Một tập các ứng viên đã được
đánh dấu là Keyphrase hay
không.
Tính toán các đặc trưng cho từng
ứng viên
Một tập các ứng viên cùng các
đặc trưng
Mô hình
huấn luyện
Các bài báo tiếng
Anh (*.PDF)
Lấy các Keyphrase trong bài
báo, lưu ra một file riêng,
đặt tên trùng với tên bài báo,
định dạng *.key, và đặt
trong cùng một thư mục.
Một tập các bài báo cùng
các tập Keyphrase tương
ứng.
Quá trình do con người thực hiện
Một tập các ứng viên cùng với các đặc
trưng sau khi đã được cập nhật

Xây dựng mô
hình huấn
luyện Naïve
Bayes
Một tập các ứng viên
Đánh dấu các ứng viên có phải là
keyphrase hay không dựa vào tập
keyphrase kèm theo tài liệu
Xây dựng mô hình:
 Rời rạc hóa các đặc trưng.
 Tính toán lớp xác xuất.
 TÍnh xác suất P
YES
, P
NO
Nguyễn Văn Tiến – CH1301109 Trang 8

4. Các đặc trưng dùng để phân lớp dữ liệu
Để xây dựng được một mô hình hoàn chỉnh cho phương pháp trích xuất ta cần những
đặc trưng cơ bản sao cho từ những đặc trưng cơ bản đó chúng ta sẽ xây dựng được mô
hình máy học cho trích xuất.
Ở đây, chúng ta sẽ sử dụng các đặc trưng sau để xây dựng mô hình máy học:
a. TF, IDF, TFxIDF.
TF được gọi là tần số thuật ngữ, là tần số xuất hiện của một từ hoặc một cụm từ trong
một văn bản.
IDF là tần số nghịch của một từ trong một tập các văn bản.
TFxIDF là kết quả của hai số liệu thống kê tần số từ (thuật ngữ) TF và tần số nghịch
của một từ trong tập ngữ liệu IDF.
Giá trị TFxIDF là một thống kê phản ánh tầm quan trọng của một từ trong tài liệu
trong một tập ngữ liệu. Nó thường được sử dụng như một yếu tố quan trọng trong trích

xuất thông tin và khai phá dữ liệu. Giá trị TFxIDF tăng theo tỉ lệ thuận với số lần một từ
xuất hiện trong các tài liệu, nhưng được bù đắp bởi các tần số của các từ trong tập ngữ
liệu, giúp kiểm soát một số từ phổ biến.
 TF: tần số xuất hiện của một từ trong một văn bản. Cách tính:
( , )
( , )
ax{ (w,d):w }
f t d
tf t d
m f d


(3.1)
Trong đó:
 ft(t,d): tần số xuất hiện của một từ trong một văn bản. Giá trị của biểu
thức là thương của số lần xuất hiện 1 từ trong văn bản với số lần xuất
hiện nhiều nhất của một từ bất kỳ trong văn bản đó. Giá trị của tf(t,d) sẽ
thuộc khoảng [0,1].
 f(t,d): số lần xuất hiện từ t trong văn bản d.
 max{f(w,d):wd}: số lần xuất hiện nhiều nhất của một từ bất kỳ trong
văn bản.
Nguyễn Văn Tiến – CH1301109 Trang 9

 IDF: Số tài liệu chứa từ hay cụm từ trong một tập tài liệu.
Việc tính IDF với mục đích giảm giá trị của những từ phổ biến. Mỗi từ chỉ có
1 giá trị IDF duy nhất trong tập văn bản.
Công thức tính IDF như sau:
||
( , ) log
|{d D: }|

D
idf t D
td


(3.2)
Trong đó:
 idf(t ,D): số tài liệu chứa từ hay cụm từ t trong tập tài liệu D.
 |D|: tổng số văn bản trong tập D.
 |{dD :td}|: số lượng văn bản chứa từ nhất định, với điều kiện t xuất
hiện trong văn bản d (hay: tf(t ,d)  0). Nếu từ đó không xuất hiện trong
tập mẫu nào trong tập thì mẫu số sẽ bằng 0 nên phép chia cho không
không hợp lệ, vì thế người ta thường thay bằng mẫu thức:
1 |{d D:t d}|  
(3.3)
Cơ số logarit trong công thức (2) không thay đổi giá trị của 1 từ mà chỉ thu
hẹp khoảng cách của từ đó. Vì thay đổi cơ số sẽ dẫn đến việc giá trị của các từ thay
đổi bởi một số nhất định và tỷ lệ giữa các trọng lượng với nhau sẽ không thay đổi.
Nói cách khác, thay đổi cơ số sẽ không ảnh hưởng đến tỷ lệ giữa các giá trị IDF.
Tuy nhiên, việc thay đổi khoảng giá trị sẽ giúp tỷ lệ giữa IDF vs TF tương đồng để
dùng cho công thức TFxIDF.
 TFxIDF:
tfidf(t, d, D) = tf(t, d) x idf(t, D) (3.4)

b. Vị trí xuất hiện đầu tiên, vị trí xuất hiện cuối cùng.
Vị trí xuất hiện đầu tiên và vị trí xuất hiện cuối cùng của một từ hay cụm từ là một
trong những đặc trưng không thể thiếu trong trích xuất keyphrase. Vị trí xuất hiện đầu
Nguyễn Văn Tiến – CH1301109 Trang 10

tiên và cuối cùng của một từ hay cụm từ cho ta biết được sự quan trọng của từ hay cụm

từ đó. Theo các chuyên gia lập chỉ mục thì các keyphrase thông thường nằm ở vị đầu
hoặc cuối của tài liệu.
 Vị trí xuất hiện đầu tiên: được tính bằng số lượng từ trước sự xuất hiện đầu
tiên của cụm từ chia cho số từ có trong tài liệu. Kết quả là một số giữa 0 và 1
đại diện cho bao nhiêu cụm từ xuất hiện đầu tiên của cụm từ.
  



 Vị trí xuất hiện cuối cùng: được tính bằng số lượng từ đứng sau vị trí xuất
hiện cuối cùng của từ hoặc cụm từ chia cho tổng số từ của tài liệu. Giá trị của
vị trí xuất hiện cuối cùng nằm trong khoảng [0…1].
 



c. Số từ trong cụm ứng viên
Chiều dài tối đa: phrase ứng viên thường tối đa là 3 từ
Phrase ứng viên không thể là tên riêng
Phrase ứng viên không được phép bắt đầu và kết thúc với 1 stopword.
Tất cả các dãy từ liền nhau trong mỗi dòng sẽ được kiểm tra dùng 3 luật trên. Kết
quả là một tập các cụm ứng viên.
Ví dụ:
Dòng
Cụm ứng viên
the programming by demonstration method
programming
demonstration
method

programming by demonstration
demonstration method
(3.7)
(3.8)
Nguyễn Văn Tiến – CH1301109 Trang 11

programming by demonstration
method

5. Xây dựng mô hình Naïve Bayes
Dựa vào quy trình trên (hình 1) chúng ta sẽ phân ra 2 giai đoạn để xây dựng mô hình
Máy học cho bài toán như sau:
a. Quá trình được chuyên gia/ người có kiến thức về lĩnh vực công nghệ thông tin:
Người có chuyên môn trong lĩnh vực Khoa học máy tính sẽ thu thập các bài
báo và các bài viết khoa học về ngành Khoa học máy tính.
Sau khi thu thập các bài báo về lĩnh vực này, ta phân các tài liệu này thành
hai tập khác nhau, một tập dùng để huấn luyện xây dựng mô hình, một tập dùng
để kiểm tra hiệu năng của mô hình vừa xây dựng. Đối với tập tài liệu dùng để
huấn luyện, ta thực hiện việc trích xuất bằng tay các keyphrase cho tài liệu, công
việc này được thực hiện bằng cách duyệt qua các phần chính của bài báo như:
title, abstract, keyword và các tiêu đề chính trong bài báo để chọn ra các keyphrase
cho tài liệu. Sau khi chọn được các keyphrase cho tài liệu ta tiến hành lưu các
keyphrase của từng tài liệu vào các tập tin có dạng <Tên tài liệu>.key được lưu
trong cùng một thư mục với tài liệu, tập tin có cấu trúc như sau:
<keyphrase>
<keyphrase>
……………
<keyphrase>

b. Quá trình do máy tính thực hiện và xây dựng mô hình.

Đối với tập tài liệu dùng để huấn luyện. Đầu tiên chương trình máy học sẽ so
khớp các cụm từ trong tài liệu với các keyphrase trong ontology, chỉ giữ lại các
cụm từ xuất hiện trong ontology, gọi các cụm từ này là các cụm ứng viên. Sau đó,
so khớp các cụm ứng viên này với tập các keyphrase kèm theo tài liệu, đối với các
Nguyễn Văn Tiến – CH1301109 Trang 12

ứng viên xuất hiện trong tập keyphrase của tài liệu, ta gán cho nó thuộc tính quyết
định là “Yes”, đối với các cụm ứng viên còn lại thì thuộc tính quyết định là “No”.
Sau bước này ta có được một tập các ứng viên để làm keyphrase cho tài liệu cùng
với thuộc tính quyết định của nó.
Bước tiếp theo, ta tính toán các đặc trưng cho từng cụm ứng viên, các đặc
trưng được tính toán như trong phần tính toán đặc trưng đã được trình bày ở trên.
Bao gồm các đặc trưng: TF, TFxIDF, vị trí xuất hiện đầu tiên, vị trí xuất hiện cuối
cùng, độ dài cụm từ và độ liên quan ngữ nghĩa. Sau bước này ta có được tập các
cụm ứng viên cùng với các đặc trưng của nó.
Tiếp theo, thực hiện việc cập nhật các mẫu huấn luyện dưới sự giám sát của
con người, đối với các mẫu học dùng để huấn luyện, ta có thêm vào một mẫu nếu
thấy nó có liên quan nhiều đến nội dung của tài liệu, hoặc loại bỏ các mẫu thừa
không liên quan đến nội dung của tài liệu. Sau khi thực hiện việc cập nhật các mẫu
học, ta thu được các mẫu học hoàn chỉnh dùng để huấn luyện và xây dựng mô hình.

Nguyễn Văn Tiến – CH1301109 Trang 13

Hình 3.9: Ví dụ về mô hình trích xuất keyphrase bằng Naïve Bayes
Để xây dựng mô hình, đầu tiên ta rời rạc hoác các đặc trưng của từng cụm ứng
viên, ta rời rạc hóa các giá trị của các đặc trưng từ các số thực qua số nguyên để thuận
tiện trong việc tính toán và đánh giá. Ví dụ như trong hình trên đặc trưng TFxIDF được
rời rạc hóa thành 6 cấp độ, đặc trưng chiều dài được rời rạc thành 2 cấp độ, …sau khi
rời rạc hóa các đặc trưng ta thu được tập các ứng viên cùng với các giá trị đặc trưng của
nó đã được rời rạc hóa.

Sau đó, ta thực hiện tính toán xác suất lớp cho từng đặc trưng, với mỗi đặc trưng
ta có 2 lớp là “Yes” và “No”, xác suất cho từng lớp của mỗi đặc trưng được tính bằng
cách lấy tổng số các ứng viên có cùng thuộc tính quyết định chia cho tổng các ứng viên
có cùng giá trị của đặc trưng sau khi đã rời rạc hóa. Ví dụ: theo mô hình trên xác suất
của đặc trưng TFxIDF có giá trị rời rạc hóa là 1 của phân lớp “Yes” có giá trị là 0.0056.
Cuối cùng ta tính toán các xác suất ưu tiên P
Yes
và P
No
, 2 xác suất ưu tiên này được tính
bằng công thức sau: P
Yes
=


trong đó, Y là tổng số các keyphrase được gán sẵn, N là
tổng số các ứng viên mà không phải là keyphrase, ta có công thức tính P
No
tương tự như
sau: P
No
=


. Như vậy ta đã có được một mô hình hoàn chỉnh cho việc trích xuất
keyphrase.
6. Trích xuất Keyphrase cho tài liệu.
Để rút trích các cụm từ khóa từ một tài liệu mới, chương trình xác định các cụm
ứng viên và các giá trị đặc trưng, sau đó áp dụng mô hình đã xây dựng trong quá trình
huấn luyện. Mô hình xác định xác suất mà mỗi ứng viên là một cụm từ khóa. Sau đó

thực hiên thao tác hậu xử lý để chọn ra tập hợp những cụm từ khóa tốt nhất có thể.
Giả sử khi mô hình Naïve Bayes được áp dụng cho các cụm ứng viên, chỉ sử dụng
2 giá trị đặc trưng t (TF*IDF) và d (distance), hai lượng sau được tính toán đó là:






  

















  












Nguyễn Văn Tiến – CH1301109 Trang 14

Trong đó:
Y: số lượng các cụm là cụm từ khóa (do tác giả chỉ định)
N: số lượng các cụm ứng viên không phải là cụm từ khóa.
Theo đánh giá Laplace để tránh xác suất 0 thì ta thay thế Y = Y + 1, và N = N + 1.
Xác suất tổng thể mà cụm ứng viên là cụm từ khóa được tính như sau:
 







Sau khi tính toán giá trị xác suất p. Các ứng viên được sắp theo thứ tự (tăng hay
giảm dần) của giá trị p này.
Chúng ta sẽ dựa vào xác suất p này để trích xuất những keyphrase được xem như
các keyword của các bài báo hay văn bản về khoa học máy tính.
III. CÀI ĐẶT VÀ THỬ NGHIỆM
1. Chức năng cơ bản:

Ứng dụng cho phép người dùng xây dựng mô hình Máy học bán tự động dưới sự
giám sát của chuyên gia giúp trích xuất keyphrase cho các tạp chí, báo khoa học, hay
các văn bản, sách có định dạng *.pdf .
Ở đây chương trình sử dụng tập thử nghiệm trên các bài báo khoa học về lĩnh vực
Khoa học máy tính.
2. Công nghệ sử dụng:
Sử dụng các công nghệ:
 Framework .NET 4.0 với ngôn ngữ lập trình C#.
 Sử dụng WPF để xây dựng giao diện tương tác với người dùng.
 Sử dụng thư viện: itextsharp để đọc file *.pdf; thư viện Nexcel để đọc file dữ
liệu excel (*.xls).
 Hệ quản trị Cơ sở dữ liệu: SQL, và sử dụng truy vấn LINQ.
3. Giao diện người dùng:
Giao diện người dùng được chia làm 2 phân hệ đơn giản:
Nguyễn Văn Tiến – CH1301109 Trang 15

- Phần training tạo mô hình.
- Phần trích xuất dữ liệu.
a. Training tạo mô hình:
Dữ liệu training bao gồm 2 phần chính:
- Tập các văn bản về khoa học máy tính như: bài báo khoa học, ebook,…
- Tập các keyphrase do chuyên gia/người có chuyên môn trong ngành Khoa
học máy tính trích xuất từ tập văn bản trên.

Hình 2: Ví dụ minh họa tập dữ liệu training
Giao diện người dùng:

Nguyễn Văn Tiến – CH1301109 Trang 16

Hình 3: Trích xuất dữ liệu từ văn bản.

Hình 4: Kết quả xây dựng mô hình Naïve Bayes
Nguyễn Văn Tiến – CH1301109 Trang 17

b. Trích xuất dữ liệu:

Hình 5: Rút trích ứng viên của một văn bản
Nguyễn Văn Tiến – CH1301109 Trang 18

Hình 6: Rút trích tập keyphrase cho văn bản

4. Kết quả đạt được và đánh giá:
Phương pháp phân lớp Bayes được xem như là thuật toán cơ bản nhất trong các thuật
toán. Nó được xem như tiền đề cho các phương pháp mới sau này như mạng neural,
SVM,… dùng để phân lớp dữ liệu.
Mặc dù là phương pháp cũ nhưng phân lớp Bayes là một định hướng tiếp cận theo
hướng sử dụng xác suất thống kê để xây dựng mô hình máy học. Nó được ứng dụng rộng
rãi ở nhiều lĩnh vực như: công nghệ tri thức, xử lý ngôn ngữ tự nhiên….

Nguyễn Văn Tiến – CH1301109 Trang 19

IV. TÀI LIỆU THAM KHẢO
[1] Ian H. Witten, Gordon W. Paynter, Eibe Frank, Carl Gutwin and Craig G. Nevill-
Manning, KEA: Practical Automatic keyphrase Extraction, ACM New York, NY,
USA, 1999.
[2] Olena Medelyan, Automatic keyphrase Indexing with a Domain-Specific

Thesaurus, Kertsch, Ukraine, WS 2004/2005.
[3] Peter D. Turney, Learning Algorithms for Keyphrase Extraction, Information
Retrieval, October 4, 1999
[4] Nhon Do, Thuong Huynh, An Pham, Organization model of semantic document
repository and search techniques for studying information technology, Proceedings
of WASET2011.
[5] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction
to Information Retrieval, Cambridge University Press, 2008.
[6] Fuchun Peng and Andrew McCallum, Accurate Information Extraction from
Research Papers using Conditional Random Fields, Volume 42 Issue 4, July 2006.

ỨNG DỤNG NAÏVE BAYES VÀ ONTOLOGY VÀO BÀI TOÁN PHÂN LỚP VÀ TRÍCH XUẤT KEYPHRASE CHO TÀI LIỆU HỌC TẬP CÔNG NGHỆ THÔNG TIN

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về