Tải bản đầy đủ (.pdf) (69 trang)

Text mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (628.26 KB, 69 trang )

MỤC LỤC
MỤC LỤC ...................................................................................................... 1
BẢNG DANH MỤC HÌNH HOẠ.................................................................. 4
LỜI GIỚI THIỆU ........................................................................................... 5
I. Đặt vấn đề .................................................................................................... 9
II. Cơ sở lý thuyết ......................................................................................... 11
1. Khái niệm Text Mining ........................................................................ 11
. Kh i phá ữ liệu D t Mining ........................................................ 11
. Kh i phá ữ liệu v n ản Text Mining .......................................... 13
2. Bài toán phân loại v n ản Text c tegoriz tion ................................. 17
. Khái niệm phân loại v n ản ............................................................ 17
. Các phương pháp phân loại v n ản................................................. 18
.1. Sử ụng từ điển phân cấp chủ đề ................................................ 18
.1.1. Giải thuật phân lớp và phân cấp chủ đề ............................. 19
.1.2. Sự phù hợp và sự phân iệt củ các trọng số ..................... 20
.2. Phương pháp cây quyết định Decision tree .............................. 22
3. Bài toán thu thập thông tin Inform tion retriev l - IR) ....................... 24
. Khái niệm thu thập thông tin ............................................................ 24
. Các phương pháp thu thập thông tin................................................. 26
.1. Các phương pháp chuẩn .............................................................. 27
.1.1. Mô hình Boole n ................................................................ 27
.1.2. Mô hình không gi n vec-tơ Vector space model - VSM) . 30
.2. Các phương pháp ự trí tuệ nhân tạo AI-based method) ......... 36
.2.1 Kỹ thuật mạng Nơ-ron (Neural network) ............................ 37


4. Một số công cụ phân tích v n ản tiếng Anh ....................................... 43
III. Các giải pháp áp ụng cho Vietn mese Text Mining ............................ 48
1. Đặc trưng củ v n ản tiếng Việt ......................................................... 48
. Các đơn vị củ tiếng Việt.................................................................. 48
.1. Tiếng và đặc điểm củ tiếng ........................................................ 48


.1.1. Tiếng và giá trị ngữ âm ....................................................... 48
.1.2. Tiếng và giá trị ngữ ngh ................................................... 48
.1.3. Tiếng và giá trị ngữ pháp .................................................... 49
.2. Từ và các đặc điểm củ từ ........................................................... 50
.2.1. Từ là đơn vị nh nhất để đặt câu......................................... 50
.2.2. Từ c ngh hoàn ch nh và cấu tạo n định ........................ 50
.3. Câu và các đặc điểm củ câu ....................................................... 51
.3.1. Câu c ý ngh hoàn ch nh .................................................. 51
.3.2. Câu c cấu tạo đ

ạng. ...................................................... 51

. Các phương tiện ngữ pháp củ tiếng việt. ........................................ 51
.1. Trong phạm vi cấu tạo từ. ........................................................... 51
.2. Trong phạm vi cấu tạo câu. ......................................................... 52
c. Từ tiếng việt ...................................................................................... 53
c.1. Từ đơn - từ gh p .......................................................................... 53
c.2. Từ loại .......................................................................................... 54
c.3. Dùng từ cấu tạo ngữ .................................................................... 55
. Câu tiếng việt .................................................................................... 56
.1. Câu đơn........................................................................................ 57
d.2. Câu gh p ...................................................................................... 58

2


.2.1. Câu gh p song song ............................................................ 58
.2.2. Câu gh p qu lại ................................................................. 59
d.2.3. Các thành ph n câu. ............................................................ 59
e. Các đặc điểm chính tả và v n ản tiếng Việt.................................... 60

2. Các giải pháp, đánh giá hiệu quả, đề r giải pháp cho phân tích v n ản
tiếng Việt................................................................................................... 61
. Bài toán phân loại v n ản tiếng Việt ............................................... 61
. Bài toán thu thập thông tin từ v n ản tiếng Việt............................. 62
IV. Xây ựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp
c điển ........................................................................................................... 64
1. Chương trình và ài toán được giải quyết ............................................ 64
2. Kết quả chạy chương trình.................................................................... 64
TÀI LIỆU THAM KHẢO ............................................................................ 66
PHỤ LỤC ..................................................................................................... 67
Các thông tin về áo cáo ........................................................................... 67
Cách chạy chương trình emo .................................................................. 67
TỪ ĐIỂN THUẬT NGỮ .............................................................................. 69

3


BẢNG DANH MỤC HèNH HOẠ
Hình 1: Một ví ụ về cây quyết định
Hình 2. Mô hình thu thập thông tin chuẩn
Hình 3. Đồ thị iểu iễn các vec-tơ củ

ài áo D1 và D2

Hình 4: Đồ thị iểu iễn qu n hệ giữ truy vấn query và các tài liệu
D1, D2
Hình 5. Mạng nơ-ron: toán tử AND

và toán tử OR


Hình 6. Mạng nơ-ron với lớp ẩn: toán tử NOR
Hình 7: Mô hình iểu iễn mạng nơ-ron
Hình 8: Minh hoạ công cụ TextAn lyst
Hình 9: Minh hoạ công cụ TextAn lyst nhỳng trờn Internet Explorer

4


LỜI GIỚI THIỆU
Ngày n y, cơ sở ữ liệu đã trở thành một ph n không thể thiếu củ xã
hội loài người. Trong k nguyên thông tin này, các thông tin được lưu trữ và
xử lý hiệu quả h u hết là thông qu cơ sở ữ liệu. S u g n 50 n m phát triển,
cơ sở ữ liệu đã c những ước tiến vô cùng qu n trọng trong lịch sử Công
nghệ thông tin. Từ mô hình Cơ sở ữ liệu qu n hệ o E.Co

đề xuất từ

những n m 60, các ng ụng công nghệ thông tin đã thực sự iờn viờc lưu
trữ ữ liệu trở thành lưu trữ thông tin thông qu các công cụ quản lý và xử lý
cơ sở ữ liệu. Ngày n y, nhu c u lưu trữ và xử lý thông tin c mặt ở kh p
mọi nơi. Ở ất c một t ch c nào, với ất kỳ một mô hình h y quy mô nào
c ng đều c những nhu c u về lưu trữ và kh i thác thông tin. Khái niệm
thông tin ở đây

o gồm cả thông tin về nội tại củ t ch c và thông tin về

môi trường và t ch c hoạt động.
Việc nghiên c u lý thuyết về cơ sở ữ liờu đ trở thành một ngành
kho học ng ụng. Do những tiến ộ vượt ậc trong nghiên c u lý thuyết
c ng như cài đặt thực tế, các hệ quản trị cơ sở ữ liệu đã trở thành nền tảng,

là ph n cốt yếu trong hoạt động củ các t ch c. Nhờ ch ng mà các t ch c
hoạt động hiệu quả hơn. Việc ng ụng cơ sở ữ liệu đ giỳp làm giảm rất
nhiều công s c l o động củ con người và nhờ đ hiệu suất l o động củ họ
c o hơn. Hệ quản trị cơ sở ữ liệu ngày n y không c n đơn thu n ch là một
cơ cấu cho ph p lưu trữ số liệu mà c n k m theo đ là các công cụ, tiện ích
h y các phương pháp luận để chuyển đ i số liệu thành thông tin. Tập tất cả
các công cụ o người ùng phát triển hoặc o các nhà cung cấp ph n mềm
tung r để phục vụ cho mục đích hoạt động củ t ch c, được tối ưu theo
những yêu c u nghiệp vụ củ t ch c được gọi là các ng ụng h trợ xử lý
tác nghiệp. C o hơn nữ , khi các nhu c u sử ụng thông tin ở m c c o cấp
5


hơn để h trợ các nhu c u phân tích củ các nhà lãnh đạo, các nhà lập chiến
lược trong một t ch c, một loại ng ụng mới r đời phục vụ cho các mục
đích này với tên gọi “hệ phân tích và xử lý trực tuyến”. Ở các ng ụng này,
thông tin được lưu trữ, xử lý và kết xuất theo các mục đích cụ thể ưới ạng
hướng chủ đề. Nhờ các thông tin ở ạng này mà các phân tích, các nhà lãnh
c thể đư r các quyết định hoạt động một cách hiệu quả nhất.
Khi các mô hình ữ liệu phát triển ở m c độ c o hơn, các thông tin lưu
trữ ưới ạng ữ liệu phong ph đ

ạng hơn, người t nhận r c n rất nhiều

tri th c c n tiềm ẩn trong ữ liệu mà các m c phân tích trước đ không phát
hiện r . Lý o củ vấn đề này là các phân tích trước đ ch mới hướng mục
đích cụ thể củ con người. Các mục đích này là cố định và các phân tích này
hoàn toàn o con người đư r trong hoàn cảnh cụ thể. Khi các thông tin
phản ánh môi trường th y đ i thì con người không nhận r để điều ch nh các
phân tích và đư r các phân tích mới. Các tri th c đ c thể là hướng kinh

o nh, các ự áo thị trường, c ng c thể là mối qu n hệ giữ các trường
h y nội ung ữ liệu... mà con người không hình ung r được khi tiến hành
mô hình hoá các hệ thống. Vì thế, ngành nghiên c u về Phát hiện tri th c
trong cơ sở ữ liệu Knowle ge Discovery in D t

se r đời với ài toán

Kh i phá ữ liệu D t Mining làm trung tâm nghiên c u. Các tư tưởng
nghiên c u và các thuật toán về Trí tuệ nhân tạo và Hệ chuyên gi đã được
áp ụng và thu được những kết quả rất qu n trọng như: cây quyết định,
mạng nơ-ron...
H u hết các thuật toán nghiên c u cho D t Mining là tập trung trờn c c
nguụn số liệu c cấu tr c structure

t . Nhưng ph n lớn thông tin mà

ch ng t lưu trữ và tr o đ i h ng ngày lại được lưu trữ ưới các ạng ữ liệu
án cấu tr c semi-structure

t

hoặc phi cấu tr c non-structured data).

6


Ví ụ như trong các nhà xuất ản, hệ thống các tr ng we trờn một
we site, tập các công v n, giấy tờ, áo cáo, thư tín điện tử trong một công
ty. Thậm chí t c thể nhận thấy r ng trong mụt hờ quản trị cơ sở ữ liệu
nơi mà ữ liệu được lưu trữ c cấu tr c thì ữ liệu kiểu text v n chiờm mụt

t lệ c o. Do đ một vấn đề đặt r là làm thế nào để c thể tìm kiếm và kh i
thác tri th c từ nguồn ữ liệu như vậy. Các kỹ thuật để giải quyết vấn đề này
được gọi là kỹ thuật TextMining h y Kh i phá ữ liệu v n ản. Bài toán
Kh i phá ữ liệu v n ản không ch tập trung vào một h y một nh m c c
thông tin được lưu trữ ưới ạng v n ản, vấn đề đặt r là làm thế nào c thể
Kh i phá được các thông tin theo lịch sử, từ quá kh hướng ự đoán tương
l i. Những tri th c tưởng trừng như vô ích trong quá kh nhưng c thể được
phát hiện để sử ụng cho các mục đích s u này.
Một số ài toán qu n trọng trong Kh i phá ữ liệu v n ản h y được
x t đến như là các ài toán “Text Cl ssific tion”, “Text Sum riz tion”, và
“Text C tegoriz tion”.
Trên thế giới đã c rất nhiều thành công trong đề tài phân lớp v n ản
như các nghiên c u củ hãng IBM, trong các ph ng thí nghiệm ở MIT h y ở
các viện nghiên c u củ các trường đại học ở Mỹ, Pháp, Nhật Bản, C n

.

Tuy nhiên, các thành công đ chủ yếu tập trung vào vấn đề nghiên c u về
các v n ản tiếng Anh, tiếng Pháp. Những ngôn ngữ này là các ngôn ngữ
tương đối thuận lợi khi xử lý.
Hiện n y, chư c một công cụ nào được coi là hiệu quả trong l nh vực
kh i phá v n ản tiếng Việt. Nền Công nghệ thông tin củ nước t được phát
triển hết s c mạnh mẽ. Do nhu c u hội nhập, nhu c u phát triển kinh tế, v n
hoá, Xã hội ngày càng t ng, các thông tin được xử lý thông qu v n ản điện
tử, qu we , qu em il phát triển với tốc độ ch ng mặt. Từ đ , nhu c u

7


nghiên c u và xây ựng các công cụ Kh i phá ữ liệu v n ản tiếng Việt

đ ng được hết s c coi trọng.
Trong đề tài thực tập này, em xin trình ày các nghiên c u t ng qu n
củ em về Text Mining và các ng ụng củ n về thu thập thông tin từ dữ
liệu văn bản và phân loại dữ liệu văn bản. Mục đích củ đề tài là hướng tới
phát triển các công cụ phân loại v n ản tiếng Việt ở các nghiên c u s u
trong đề tài luận v n tốt nghiệp.
Em xin chân thành cảm ơn th y Nguyễn Ngọc Bỡnh đ giỳp em rất
nhiều trong quá trình hướng ẫn em nghiên c u về đề tài. Em xin cảm ơn
nh Lưu Anh Tuấn đ giỳp em một số định hướng trong quá trình nghiên
c u đề tài.

8


I. Đặt vấn đề
Như ch ng t đã iết, h u hết các thông tin được tr o đ i hiện n y n m
ưới ạng tài liệu v n ản. Các thông tin đ c thể là các ài áo, các tài liệu
kinh o nh, các thông tin kinh tế, các ài nghiên c u kho học. Dù áp ụng
Cơ sở ữ liệu vào trong hoạt động củ t ch c là rất ph

iến và đem lại

nhiều lợi ích khi lưu trữ và xử lý, nhưng t không thể quên được r ng c n rất
nhiều ạng thông tin khác được lưu trữ ưới ạng v n ản. Thậm chí ng y
cả trong các thông tin được lưu trong các cơ sở ữ liệu thì ph n lớn trong số
ch ng c ng được t ch c ưới ạng v n ản. Hiện n y, các t ch c đã áp
ụng công nghệ thông tin vào quản lý hệ thống công v n giấy tờ, ví ụ các
hệ thống sử ụng Lotus No e. Tuy nhiên đ ch thực sự là cách quản lý
luồng ữ liệu v n ản, cung cấp các công cụ kho ch , c n ữ liệu vẫn thực
sự n m ưới ạng v n ản. Ch ng t chư c các giải thuật phân loại, tìm

kiếm tài liệu, các công cụ trích lọc thông tin nh m mục đích thống kê, phát
hiện tri th c, r quyết định trực tiếp trên các nguồn ữ liệu kiểu này.
Với thực tế đ , vấn đề đặt r là làm thế nào ch ng t c thể kh i thác
được những thông tin hữu ích từ các nguồn tài liệu v n ản n i chung. Các
nguồn ữ liệu này phải được xử lý như thế nào để người ùng c thể c
những công cụ tự động hoá trợ gi p trong việc phát hiện tri th c và kh i thác
thông tin. R ràng, ch ng t phải hiểu r

ản chất củ

ữ liệu v n ản, hiểu

r các đặc trưng củ các ữ liệu loại này để c thể c được những phương
pháp luận c n thiết.
Việc kh i thác thông tin từ các nguồn ữ liệu v n ản trong các t ch c
Việt N m ch c ch n phải ự vào những kết quả nghiên c u về v n ản n i
chung, về ữ liệu v n ản và các kỹ thuật xử lý đã được phát triờn trờn thế

9


giới. Tuy nhiên, những v n ản tiếng Việt lại c những đặc trưng riêng củ
n . T c thể nhận thấy được ng y sự khác iệt về mặt kí pháp, c pháp và
ngữ pháp tiếng Việt trong các v n ản so với các ngôn ngữ ph

iến trên thế

giới như tiếng Anh, tiếng Pháp. Vậy thì những đặc trưng này ảnh hưởng thế
nào đến các kỹ thuật kh i phá ữ liệu v n ản, t c n phải c những ký thuật
mới nào để c thể tận ụng được những ưu thế củ tiếng Việt c ng như giải

quyết được những ph c tạp trong tiếng Việt.
Để trả lời được những câu h i này, đồ án sẽ đi từ những ước nghiên
c u về Kh i phá ữ liệu v n ản, tìm hiểu những đặc trưng củ tiếng Việt, từ
đ đề r phương hướng gi p giải quyết ài toán phân loại v n ản tiếng Việt
ph c tạp ở các nghiên c u c o hơn. Các kết quả củ nghiên c u trong đề tài
thực tập này sẽ là nhưng ước tiến đ u tiên cho luận v n tốt nghiệp củ em
với đề tài “Phõn loại văn bản tiếng Việt bằng phương pháp phân tích cỳ
phỏp.”

10


II. Cơ sở lý thuyết
1. Khái niệm Text Mining

. h i phá d liệu D t

ining

Việc sử ụng cơ sở ữ liệu vào hoạt động củ một t ch c đã được phát
triển trong v ng 60 n m trở lại đây. Với ữ liệu được thu thập trong suốt quá
trình hoạt động củ một t ch c, một nhu c u được đặt r là tìm kiếm và
kh i thác tri th c từ những ữ liệu đ . Đ chính là xuất phát điểm củ

ài

toán Phát hiện tri th c từ cơ sở ữ liệu. Người t nhận thấy r ng c rất nhiều
tri th c mà ch ng t không lường trước đ ng c n tiềm ẩn trong ữ liệu,
nhiệm vụ củ ch ng t là phát hiện, khám phá các tri th c đ , phục vụ cho
những nhu c u sử ụng thông tin c o hơn, ví ụ như trong các hệ chuyên gi

h y hệ h trợ quyết định.
Kh i phá ữ liệu là gi i đoạn chủ yếu củ quá trình Phát hiện tri th c từ
cơ sở ữ liệu. Qu

trỡnh kh i phá tri th c được thực hiện s u các quá trình

thu thập và tinh lọc ữ liệu, c ngh
ý ngh

là ch tìm các mẫu tri th c p ttern c

trờn t p ữ liệu c hy vọng ch không phải là trên toàn ộ CSDL

như các phương pháp thống kê trước đây.
Vì vậy kh i phá ữ liệu

o gồm việc th t m m h nh ph h p với

d liệu và t m iếm các m u h nh tri th c t d liệu theo m h nh đ .
Mặc ù mẫu hình c thể tìm được từ ất kì một CSDL nào nhưng ch những
mẫu phù hợp với mục đích tìm kiếm mới được gọi là tri th c. T sẽ c
những hàm số để đánh giá các tiêu chí mẫu như mới c l i đáng đư c xem
x t.
Độ mới củ mẫu hình phụ thuộc vào khung phạm vi quy chiếu, c thể
đối với hệ thống hoặc đối với người ùng. Ví ụ với ữ liệu củ một công
11


ty, quá trình Kh i phá ữ liệu tìm r được mụt lu t như Lợi t c thu được
giảm vào mù thu ở vùng phí B c, đối với hệ thống thì rất mới, trước ki

chư hề c nhưng ất c một cán ộ lập kế hoạch nào c ng nhận r được
điều này qu các áo cáo tài chính.
Tính hữu ụng củ mẫu c thể đo được qu sự liên qu n đến mục đích
tìm kiếm. Với một cán ộ phụ trách ảo trì máy tính ở công ty thì luật trên
không c giá trị, mặc ù là mới đối với nh t .
C thể qu công đoạn kh i phá tri th c c rất nhiều mẫu được lấy r
nhưng không phải mẫu nào c ng c giá trị, c thể là mới, hữu ích nhưng lại
t m thường, đặc iệt là khi áp ụng các kỹ thuật ự trên thống kê. Do đ
luôn phải c các tiêu chí và các hàm đánh các mẫu đáng xem x t, không t m
thường.
T m lại, Kh i phá ữ liệu thực r c thể coi là một quá trình xác định
mẫu từ các D t w rehouse, sử ụng các kỹ thuật s n c như học máy, nhận
ạng, thống kê, phân oại... và các kỹ thuật được phát triển ởi ngành nghiên
c u trí tuệ nhân tạo như Mạng nơ-ron nhân tạo neutr l network , các thuật
toán i truyền generic lgorithm , quy nạp luật rule re uction ...
T c thể x t đến một số ài toán chính đối với nghiên c u về Kh i phá
ữ liệu
-

i to n phân l p (classification : Tìm một ánh xạ phân loại từ
mụt m u ữ liệu vào một trong các lớp cho trước.

-

i to n h i qu

regression : Tìm một ánh xạ hồi quy từ mụt m u

ữ liệu vào mụt iờn ự đoán c giá trị thực
-


i to n lập nh

( clustering : Là việc mô tả chung để tìm r các

tập xác định hữu hạn các nh m h y các loại để mô tả ữ liệu.

12


-

i to n t ng

t summ riz tion : Là việc đi tìm kiờm mụt mô tả

chung t m t t cho mụt t p con ữ liệu.

b. Khai phá d liệu văn bản Te t Mining)
Kh i phá ữ liệu v n ản h y phát hiện tri th c từ các cơ sở ữ liệu v n
ản textu l

t

ses đề cập đến tiến trình trích lọc các mẫu hình thông tin

p ttern h y tri th c knowle ge đáng qu n tâm hoặc c giá trị non-trivi l
từ các tài liệu v n ản phi cấu tr c. Quá trình này c thể được coi là việc mở
rộng kỹ thuật Kh i phá ữ liệu truyền thống, vì như ch ng t đã thấy đã
được đề cập ở trên kỹ thuật Kh i phá ữ liệu truyền thống D t Mining

hướng tới việc phát hiện tri th c từ các cơ sở ữ liệu c cấu tr c.
Thông tin được lưu trữ ưới ạng nguyên sơ nhất chính là v n ản.
Thậm chí t c thể thấy r ng ữ liệu tồn tại ưới ạng v n ản c n c khối
lượng lớn hơn rất nhiều so với các ữ liệu c cấu tr c khác. Thực tế, những
nghiên c u g n đây đã cho thấy r ng c đến 80

thông tin củ một t ch c

n m ưới ạng v n ản. Đ c thể là các công v n giấy tờ, các iểu mẫu
điều tr , các phiếu đặt hàng, các yêu c u khiếu nại, giải quyết quyền lợi, các
thư tín điện tử em il , các thông tin trên các we site thương mại... Khi các
nghiên c u về cơ sở ữ liệu r đời vào những n m 60, người t tưởng r ng
c thể lưu mọi loại thông tin ưới ạng ữ liệu c cấu tr c. Nhưng trên thực
tế s u g n 50 n m phát triển, người t vẫn ùng các hệ thống lưu trữ ở ạng
v n ản và thậm trớ c n c xu hướng ùng thường xuyên hơn. Từ đ người
t c thể tin r ng các sản phẩm Kh i phá ữ liệu v n ản c thể c giá trị
thương mại c o hơn rất nhiều l n so với các sản phẩm Kh i phá ữ liệu
truyền thống khác. Tuy nhiên t c ng c thể thấy ng y r ng các kỹ thuật
Kh i phá ữ liệu v n ản ph c tạp hơn nhiều so với các kỹ thuật Kh i phá

13


ữ liệu truyền thống ởi vì phải thực hiện trên ữ liệu v n ản vốn đã ở ạng
phi cấu tr c và c tính mờ fuzzy .
Một ví ụ cho ài toán kh i phá ữ liệu v n ản, khi phân tích các ài
áo nghiên c u kho học, t c c c thông tin s u:
- “stress là một ệnh liên qu n đến đ u đ u”
- “stress xuất hiện c thể o thiếu M gờ trong m u”
- “C nxi c thể ng n cản một số ch ng đ u đ u”

- “M gờ là một nguyên tố điều hoà c nxi tự nhiên trong m u”
S u khi phân tích các thông tin qu n trọng này, hệ thống c n phải đư
r các suy luân cụ thể m ng tính cách mạng:
- “Thiếu hụt M gờ c thể gây r một số ệnh đ u đ u”
R ràng ở đây c sự phân tích suy luận ở m c độ c o. Để đạt được khà
n ng như vậy c n phải c những công trình nghiên c u về trí tuệ nhân tạo
tiên tiến hơn.
Bài toán Kh i phá ữ liệu v n ản là một ài toán nghiên c u đ l nh
vực,

o gồm rất nhiều kỹ thuật c ng như các hướng nghiên c u khác nh u:

thu thập thông tin inform tion retriev l , phân tích v n ản text n lysis ,
chiết xuất thông tin inform tion extr ction , lập đoạn clustering , phân loại
v n ản c tegoriz tion , hiển thị trực qu n visu liz tion , công nghệ cơ sở
ữ liệu, học máy m chine le rning và ản thân các kỹ thuật Kh i phá ữ
liệu.
Trong đề tài này em chủ yếu đề cập đến h i ài toán cụ thể, đ là ài
toán phân loại dữ liệu văn bản Text c tegoriz tion và ài toán thu thập
thông tin (inform tion retriev l . C c nghiờn c u mới ch

14

ừng lại ở ước


tìm hiểu, khảo sát, so sánh là tiền đề cho các nghiên c u cụ thể s u này mà
mục đích trước m t là phục vụ cho luận v n tốt nghiệp.
Với một hệ thống Kh i phá v n ản thường


o gồm

ước chính:

- Bước tiền xử lý: Ở ước này, hệ thống sẽ chuyển v n ản từ
ạng phi cấu tr c về ạng c cấu tr c. Ví ụ, với v n ản T
chức n

to lắ , hệ thống sẽ cố g ng phân tích thành T

chức|n |to|lắ . Các từ được lưu riêng rẽ một cách c cấu tr c
để tiện cho việc xử lý.
- Loại

các thông tin không c n thiết. Ở ước này, ộ phân tích

tìm cách loại

các thông tin vô ích từ v n ản. Bước này phụ

thuộc rất nhiều vào ngôn ngữ đ ng được phân tích và kỹ thuật
sẽ được ùng để phân tích
phân tích v n ản ch
đ t c thể loại

ước tiếp theo. Ví ụ, nếu kỹ thuật

ự vào xác xuất xuất hiện từ khoá, khi
các từ phụ như: n u, thì, th nhưng, như


vậ …
- Kh i phá ữ liệu đã được giản lược với các kỹ thuật kh i phá
ữ liệu

t mining truyền thống.

C rất nhiều kỹ thuật và phương pháp tốt được sử ụng cho Text
Mining để tìm r các kiến tr c mới, các mẫu mới, và các liên kết mới. Các
ước tiền xử lý là các kỹ thuật rất ph c tạp nh m phân tích một phân lớp đặc
iệt thành các thuộc tính đặc iệt, s u đ tiến hành áp ụng các phương pháp
kh i phá ữ liệu kinh điển t c là phân tích thống kê và phân tích các liên kết.
Các ước c n lại sẽ kh i phá cả v n ản đ y đủ từ tập các v n ản, ví ụ như
phân lớp v n ản.

15


Mục tiêu cuối cùng củ Text Mining thường là đường lối hiệu quả,
hoàn thiện, và đặc trưng để trình iễn và tìm kiếm các tập hợp rộng lớn củ
các v n ản. Do đ , các kỹ thuật chính củ Text Mining c thể được phân
phân r thành các nhiệm vụ mà ch ng thực hiện khi xử lý kh i phá v n ản:
loại thông tin mà ch ng c thể trích r và loại phân tích được thực hiện ởi
ch ng.
Các loại thông tin được trích r c thể là:
- Cỏc nhãn: Giả sử, được liên kết với m i v n ản là tập c c
nh n c c th o tác kh i phá tri th c được thực hiện trờn c c
nh n củ m i v n ản. N i chung, c thể giả sử r ng c c nh n
tương ng với các từ khoá, m i một từ khoá c qu n hệ với một
chủ đề cụ thể nào đ .
- Các t : Ở đây giả sử r ng một v n ản được g n nh n với từng

từ xuất hiện trong v n ản đ .
- Các thuật ng : Ở đây với m i v n ản tìm thấy các chu i từ,
chu i từ đ thuộc về một l nh vực nào đ và o đ việc tìm kh i
phá v n ản được thực hiện trờn c c kh i niệm được g n nh n
cho m i v n ản. Ưu điểm củ phương pháp này là các thuật
ngữ được tách r ít và c xu hướng tập trung vào các thông tin
qu n trọng củ v n ản hơn h i phương pháp trước đây.
Các loại kết hợp:
- Kết h p th ng thường: Một số thuật toán trước đây giả sử
r ng ữ liệu nguyên mẫu được tạo lập chỳ

n để trợ gi p cho

các kỹ thuật xử lý ngôn ngữ tự nhiên. Các cấu tr c c ch

16

ẫn


trên thực tế c thể được sử ụng như một cơ sở cho việc xử lý
kh i phá tri th c.
- Các phân cấp thuật ng : Ở đây m i v n ản được đính với
các thuật ngữ lấy r từ một phân cấp các thuật ngữ. S u đ , một
hệ thống sẽ phân tích sự phân ố nội ung củ các thuật ngữ
hậu uệ củ từng thuật ngữ liện qu n đến các hậu uệ khác o
các phân ố liên kết và các ph p đo khác nh m kh i thác các
qu n hệ mới giữ ch ng. Loại liên kết này c thể c ng được sử
ụng để lọc và t ng hợp chủ đề củ các tin t c.
- Khai phá văn bản đầy đủ: Không giống như loại liên kết

thông thường thực hiện th o tác mù quáng trờn c c ch

ẫn củ

v n ản, kỹ thuật này sử ụng lợi thế củ nội ụng nguyên mẫu
củ các v n ản. Kỹ thuật này được gọi là “trớch v n ản
nguyên mẫu”.
2. Bài toán phân loại văn bản (Text categorization)

. hái niệm phân loại văn bản
Phân loại v n ản Text c tegoriz tion là xử lý nh m c c tài liệu thành
các lớp khác nh u h y các phân nh m c tegories . Đây là một tác vụ phân
lớp liên qu n đến việc r quyết định xử lý. Với m i xử lý phân nh m, khi
đư r một tài liệu, một quyết định được đư r n c thuộc một lớp nào h y
không. Nếu n thuộc một phân lớp nào đ thì phải ch r phân lớp mà n
thuộc vào. Ví ụ, đư r một chủ đề về thể th o, c n phải đư r quyết định
r ng chủ đề đ thuộc các phân lớp cờ vua, quần vợtt, cầu lông, bơi lội hay
ất c một môn thể th o nào khác. Các hệ thống phân loại v n ản thường
làm việc với một thuật to n tự học le rning lgorithm . Thuật to n đ được

17


cung cấp một tập mẫu để phục vụ cho việc ạy học. Tập mẫu này
một tập các thực thể c g n nh n được phân lớp trước c

o gồm

ạng x, y ở đ x


là thực thể được phân lớp, y là nhãn h y phân lớp được gán cho n . Với cơ
cấu cơ sở như vậy, khi một thực thể được cung cấp cho hệ thống, n sẽ cố
g ng suy r một hàm toán học từ tập đào tạo mẫu và ánh xạ thực thể mới đ
vào một phân lớp. Phân lớp v n ản là ài toán h y và đ ng c những ước
phát triển hết s c qu n trọng mà nguyên nhân chủ yếu o sự phát triển mạnh
mẽ g n đây củ các thông tin nguyên trực tuyến.

b. Các phương pháp phân loại văn bản
b.1. Sử dụng từ điển phân cấp chủ đề
Một phương pháp thống kê phân lớp v n ản được điều khiển ởi một
từ điển chủ đề c phân cấp được đề xuất. Phương pháp này sử ụng một từ
điển với một cấu tr c đơn giản. Từ điển này c thể ạy được ễ àng trờn
mụt tập hợp tài liệu được phân lớp

ng t y và c thể ịch được tự động

s ng nhiều ngôn ngữ khác nh u.
Ch ng t xem x t nhiệm vụ phân loại v n ản ởi chủ đề củ tài liệu: ví
ụ, một số tài liệu về những động vật, và một số khác n i về vấn đề công
nghiệp. Ch ng t giả sử r ng

nh sách chủ đề là lớn nhưng cố định. Giải

thuật củ ch ng t không thu được những chủ đề từ thân củ tài liệu nhưng
th y vào đ , n liên hệ tài liệu với một trong những chủ đề được liệt kê trong
từ điển hệ thống. Kết quả là ph p đo về ph n tr m sự tương ng củ tài
liệu với m i từngchủ đề c s n.
C một vấn về xuất hiện là độ tối ưu, h y độ hợp lý, độ chi tiết cho
phân loại như vậy. Ví ụ, khi phân loại tin t c trên internet với một người
đọc “ ình thường”, những phân loại như các loài động vật hoặc nghành công


18


nghiệp thì khá phù hợp, trong khi phân lớp các chủ đề về động vật học
giống như một cuốn từ điển như vậy sẽ đư r một câu trả lời chung chung
r ng tất cả các chủ đề đ đờu n i về động vật. H y n i cách khác, với một
người đọc tin t c trên internet ình thường, thật không thích hợp ùng để
phân loại những tài liệu với những chủ đề chi tiết hơn như những động vật
c v , động vật c xương sống, động vật thân nhiệt.
Trong ài nghiên c u này, ch ng t sẽ àn luận về cấu tr c củ từ điển
chủ đề, cách chọn lự và cách sử ụng các trọng số củ các n t riêng l trong
phân cấp, và một số khí thực tế về việc iên soạn điển chủ đề.
b. . . iải thuật phân l p v phân c p ch
Trong ài nghiên c u củ các tác giả Guzm n và Aren s vào n m 1997
và 1998, h i ông đề xuất việc sử ụng một từ điển c phân cấp để xác định
những đề tài chính củ một tài liệu [1]. Về mặt kỹ thuật, từ điển
ph n: c c nh m từ kh

o gồm h i

đại iện cho các chủ đề riêng iệt, và một iểu iễn

phân cấp củ các chủ đề này.
Một nh m từ kh

là một

nh sách các từ hoặc các iểu th c liên qu n


đến tình trạng th m chiếu ởi tên củ chủ đề. Ví ụ, chủ đề tôn giáo liệt kê
các từ như nhà thờ, th y tu, nến, kinh thánh, c u nguyện, người hành
hương,…Ch ý r ng những từ này không được liên kết với đ u mục tôn giáo
h y liên kết với nh u ởi ất kỳ qu n hệ ngữ ngh

tiêu chuẩn nào như kiểu

con, ph n,…
Cây chủ đề được t ch c thành một phân cấp, h y n i chung là t ch c
thành một mạng khi đ một số chủ đề c thể thuộc một vài n t củ cây phân
cấp .

19


Giải thuật tìm kiếm chủ đề trên từ điển c ng gồm c h i ph n : tìm
kiếm chủ đề đơn chủ đề lá và sự truyền l n trọng số củ chủ đề trờn c y.
Thực tế, n trả lời, cho câu h i s u: tới m c độ nào thì tài liệu này sẽ phù với
chủ đề đã cho Một câu h i như vậy được trả lời cho m i chủ đề riêng iệt.
Trong trường hợp đơn giản nhất, trọng số củ một chủ đề là sụ t n suất các
từ tương ng, trong

nh sách từ, được tìm thấy trong tài liệu [1].

Ph n th h i củ giải thuật c trách nhiệm l n truyền các t n suất tìm
thấy trờn c y [1]. Với ph n giải thuật này, ch ng t c thể ch r r ng một tài
liệu đề cập đến chủ về những động vật c v , những động vật thân mềm,
những động vật gi p s t ở nỳt l , phự hợp với chủ đề về những động vật, các
sinh vật sống và tự nhiên không ở nỳt l .
b. .2. Sự phù hợp v sự phân biệt c a c c trọng số

Th y vì các

nh sách từ đơn giản, một số trọng số c thể được sử ụng

ởi giải thuật để định ngh

1 ph p đo định lượng sự phù hợp củ các từ

với các chủ đề và 2 đo m c qu n trọng củ các n t củ thuộc cây phân cấp
[1].
Loại trọng số đ u tiên, ch ng t gọi là các trọng số sự phù hợp, c liên
hệ với các liên kết giữ các từ và các chủ đề và các liên kết giữ các n t trờn
c y. Ví ụ, nếu tài liệu đề cập đến từ “b ch h a h
tô. Làm s o phù hợp hoá từ b ch h a h

thì n đ ng n i về ô

hoặc bỏnh lỏi cho những

chủ đề về ô tô, độ mạnh trong các qu n hệ này như thế nào Về trực giác,
đ ng g p củ từ b ch h a h

vào chủ đề ô tô lớn hơn sự đ ng g p củ

từ bỏnh lỏi ; như vậy, mối liên kết giữ “b nh lỏi và chủ đề ô tô được
gán một trọng số nh hơn.

20



C thể thấy r ng, trọng số w ik củ một liên kết như vậy giữ một từ k
và một chủ đề j, h y giữ một chủ đề k và chủ đề ch j củ n trờn c y c
thể được định ngh

như độ phù hợp trung ình cho chủ đề củ những tài

r n

n
j

liệu được đư r ch

từ này: wkj

iD

iD

i

k
i

k
i

[1]. Ở đây ph p tính t ng được

thực hiện tất cả các tài liệu c s n D, ri j là ph p đo sự phù hợp củ tài liệu i

với chủ đề j, và nik là số l n xuất hiện củ từ h y chủ đề k trong tài liệu i.
Không m y, ch ng t không thành thạo ất c giải thuật đáng tin cậy
nào để tìm r ph p đo độ phù hợp ri j củ các tài liệu cho các l nh vực một
cách độc lập. Th y vào đ , mụt ph p đo như vậy được đánh giá

ng t y ởi

chuyên gi , và s u đ hệ thống được huấn luyện trên hợp các tài liệu. Các
chuyên gi c thể phải thường xuyên gán những trọng số thích hợp

ng t y

cho các tài liệu.
Cả h i cách tiếp cận này yêu c u r ng được làm

ng t y. Để tránh điều

đ , với một ph p toán g n đ ng, với những đề tài đủ h p, c thể giả thiết
r ng những v n ản trờn vờ chủ đề này g n như không
trong những v n ản thông thường. Khi đ
được đơn giản h : wkj 

o giờ xuất hiện

iểu th c củ các trọng số c thể

1
[1].
 nik
iD


Yêu c u chính cho loại th h i củ các trọng số - sự phân iệt các trọng
số - là khả n ng phân iệt giữ chỳng: mụt chủ đề c n phải tương ng tới
mụt t p con đáng kể

những tài liệu. Mặt khác, những chủ đề mà tương

ng với g n như tất cả các tài liệu trong cơ sở ữ liệu thỡ chỳng là vô ích vì
ch ng không cho ph p đư r

ất kỳ kết luận phù hợp nào với các tài liệu

tương ng.
21


Như vậy, trọng số w j củ một n t j trờn c y c thể được đánh giá như
độ iến đ i củ độ phù hợp wj chủ đề qu những tài liệu trong cơ sở ữ liệu.
Một cách đơn giản để tính toán một khả n ng phân iệt là đo n một cách rời
rạc: w j   (ri j  M ) 2 , ở đ M   ri j / D là giá trị trung ình củ ri j qu cơ
iD

iD

sở ữ liệu hiện thời D, và ri j được xác định ởi giải thuật này mà không tính
đến giá trị wj. Trong một yêu c u chính xác hơn, lý thuyết thông tin c thể
được áp ụng cho ph p tớnh c c trọng số. Ở đây ch ng t không àn luận về
ý tưởng này.
Với cách tiếp cận này, với một cơ sở ữ liệu sinh vật, trọng số củ các
chủ đề như các động vật, các sinh vật sống, thiên nhiên sẽ thấp vì tất cả các

tài liệu đề cập

ng nh u về các chủ đề này. Mặt khác, o c sự ph trộn

trong các tờ áo trọng số củ ch ng sẽ c o, o nhiều tài liệu trong đ không
tương ng tới những chủ đề này, nhưng vẫn g p ph n đề cập đáng kể đến
các chủ đề này.
b.2. Phương phỏp cây quyết định Decision tree)

22


l



l

nông trại

nông trại

l

thương nghiệp



giạ


giạ



xuất khẩu

thương nghiệp xuất khẩu

l

nông nghiệp



l



l

l





nông nghiệp

l




l

tấn



tấn

l


Hình 1: Một ví dụ về cây quyết định

Phương pháp phân lớp v n ản Cây quyết định (decision tree - DT)
được Mitchell đư r vào n m 1996 [2]. Trờn cây gồm các n t trong được
gán nhãn ởi các thuật ngữ, các nhánh cây ch

n t được g n nh n

ng các

trọng số củ thuật ngữ tương ng đối với tài liệu mẫu, và các lá cây được
g n nhãn ởi các phân lớp. Một hệ thống phân lớp như vậy sẽ phân loại một
tài liệu dj ởi ph p thử đệ quy các trọng số mà các thuật ngữ được gán nhãn


cho các n t trong với vec-tơ d j cho đến khi với tới một n t lá. Khi đ , nhãn
củ n t này được gán cho dj. Đ số các phướng pháp phân loại như vậy sử

ụng iểu iễn v n ản ở ạng nhị phân, và như vậy các cây c ng được iểu
iễn ưới ạng nhị phân. Một ví ụ vờ c y quyết định được minh hoạ trong
Hình 1.
Một phương pháp khả thi ùng để huấn luyện mụt c y quyết định phân
loại ci n m ở chiến lược chia v tr

[2]. Chiến lược này sẽ kiểm tr xem
23


liệu tất cả các khái niệm huấn luyện c cùng nhãn với n



hoặc ci hoặc ci ;

nếu không, lự chọn một khái niệm tk, ph n chi cây thành các lớp tài liệu c
cùng giá trị tk và ch n vào m i lớp như vậy một cây con riêng iệt. Quá trình
đệ quy lặp lại trên các cây con cho đến khi m i lá củ cây phát sinh ch

các

khái niệm hu n luyờn gán cho cùng phạm trù ci, khi đ n được chọn như là
nhãn củ lá đ . Bước quyết định là việc chọn thuật ngữ tk ở đ sẽ xảy r th o
tác chia, một phương pháp lự chọn là chọn theo lợi ích thông tin h y
entropi. Tuy nhiên, mụt c y quá lớn lên c thể ị sập, nếu như các nhánh
cây quá đặc iệt với ữ liệu huấn luyện.
Đ số các phướng pháp ạy cây quyết định như vậy

o gồm một


phương pháp thờm c y và một phương pháp x n ớt c y đờ loại

những

nhánh quá đặc iệt [2].
3. Bài toán thu thập th ng tin (Information retrieval - IR)

. hái niệm thu thập thông tin
Thu thập thông tin Inform tion Retriev l là một trong những ài toán
kh i phá ữ liệu v n ản. Bài toán này chủ yếu tập trung vào việc tìm r các
tài liệu trong một tập hợp các tài liệu c s n theo một điều kiện nào đ . Các
điều kiện này c thể là một truy vấn h y một v n ản.
Khi điều kiện đư vào là một truy vấn, ài toán sẽ đư r các suy luận
để tìm r đặc trưng củ câu truy vấn đ , s u đ so sánh với các đặc trưng củ
các tài liệu c s n để tìm r các tài liệu phù hợp nhất với câu truy vấn đ .
Trong ài toán này, mô hình củ

ài toán g n với ài toán Se rch Engine.

Tuy nhiên, ài toán thu thập thông tin là ài toán được phát triển ở m c độ
c o hơn. Đối với ài toán Se rch Engine, câu truy vấn đư vào là tập hợp
các niệm. Nhưng với ài toán thu thập thông tin, câu truy vấn đư vào c thể

24


là một câu v n c ngữ ngh . Hệ thống sẽ tìm cách phân tích ngữ ngh

củ


câu truy vấn để tìm r đặc trưng củ n .
Th ng tin cần thiết

Truy vấn

G i cho Hệ thống

C ng th c hoá lại

Nhận kết quả

Đánh giá kết quả

Sai

Tốt ?
Đúng

D ng lại

Hình 2. Mô hình thu thập thông tin chuẩn

Khi thu thập ữ liệu, ch ng t thường cố g ng tìm kiếm các ữ liệu
chính xác. Trong các trường hợp khác, ch ng t kiểm tr để xem một thông
tin c trong một tệp tin h y không. Khi thu thập thông tin, kết quả chính xác
thường được qu n tâm, nhưng thông thường ch ng t muốn tìm kiếm một
cách tương đối chính xác với một thông tin đặc iệt được đư vào. S u đ
ch ng t sẽ tự chọn thông tin phù hợp nhất từ các kết quả củ ph p xử lý
trước đ . Nếu ch ng t so sánh n với các kiểu hệ thống khác nh u, ch ng t

sẽ thấy r ng trong nội ung các truy vấn cơ sở ữ liệu, một ph p tìm kiếm
thực chất là để làm thoả mãn một truy vấn, là câu h i để tìm r câu trả lời

25


×