Phương pháp biểu diễn văn bản sử dụng tập mờ và ứng dụng trong khai phá dữ liệu văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (42.04 MB, 73 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ
Đ O À N SƠ N
PHUƠNG PHÁP BIỂU DIỄN VÁN BẢN SỦDỤNG TẬP MÒ
VÀ
ÚNG DỤNG TRONG KHAI PHÁ DỮLIỆU VĂN BẢN
C hu yên ngành: C ôn g n ghộ thô n g tin.
M ã số: 0 1 .0 1 .1 0
LUẬN VĂN THẠC sĩ
N G U Ờ I H U Ớ N G D Ẫ N K H O A H ỌC :
T S HÀ Q U A N G T H Ụ Y
[ OẠI HCC lỉ u :-í; G iA HÀ NÔI
ỉ TRƯNGTÃM ThuNGTIN.THƯ VIẺN
r:V-
Hà Nội - Nám 2002
MỤC LỤC
TÓM TÁT LUẬN V Ă N 3
LỜI CẢM Ơ N 7
CHUÔNG I. TỔNG Q U A N 8
1.1. Xử lý vãn bản và các khái niệm cơ bản 8
1.1.1. Xử lý văn bản 8
1.1.2. Một số khái niệm cơ b ả n
10
1.2. Các bài toán trong xử lý vãn bản 14
1.2.1. Tìm kiếm văn bản 14
1.2.2. Phân lớp văn bàn 15
1.2.3. Phân cụm văn bản (Text Clustering) 16
1.2.4. Dãn đường vãn bản (Text R outing) 17
1.2.5. Các bài toán khác 17
1.3. Mộl sỏ vấn clổ vổ biổu diễn dong xử lý vãn b an

17
CHUÔNG 2. CÁC PHUÜNG PHÁP lilỂU DlỄN VẢN B Ả N

20
2.1. Mô hình không quan vector 20
2.1.2. Mô hình Boolean 23
2 .1.3. Mô hình tần s ố 24
2.2. Loại bỏ các từ trong biểu diễn văn bản

25
2.2.1. Loại bỏ các từ d ừ n g 25
2.2.2. Định luật Z ip f 26
2.3. Phương pháp biểu diễn dựa trên các khái niệm mờ

28
2.3.1. Tập mờ và các phép toán cơ sờ
28
2.3.2. Quan hệ m ờ 33
2.3.2. Biểu diễn văn bản sử dụng các khái niệm mờ 38
CHUÔNG 3. PHÂN LỚP VÀ TÌM KI Ếm v ă n b ả n 46
3.1. Phân lớp văn b ản 46
3 .1. 1. Thuật toán học cíly quyết định 46
3 .1.2. Phân lớp VĨU1 bíìn sử dụng cfly tịiiyếl định 56
3.1.3. Hiệu suất phân lớp văn bản 58
3.2. Tìm kiếm văn bàn 59
3.2.1 Một số vấn dể chung

59
3.2.2 Thuật toán sắp loại văn bả n
60

Đoàn Sơì) - Luận văn Thạc sĩ - Khoa Công nghệ, ĐHQG Hỉ) Nội 2002
2
CHUƠNG 4. MỘT s ố KÊT QUẢ THỤC NGHIỆM

:

63
4.1. Phân lớp văn b ản 63
4.1.1. Thời gian chạ y 65
4.1.2. Đại lượng precision/recall 66
4.1.3. Hệ thống các luật
69
4.2. Tìm kiếm vãn bản 70
KẾT LUẬN VÀ HUỚNG PHÁT TRIEN 72
TÀI LIỆU THAM KHẢO 74
Đoàn Sơn - Luận văn Thạc sĩ- Khoa Công nghệ, ĐHỌGHà Nội 2002
8
CHUÔNG 1.TỔNG QUAN
T ron g ch ươ ng n à y, ch úng tôi giới thiộu tổ n g quan vể xừ lý văn bản và cá c
khái n iệ m c ơ b ả n , c ác bài toán quan trọng trong xừ lý văn bàn. N hữ ng vấn đề đặt ra
trong xử lý văn bản và c á ch tiếp cận g iải quyết do ch ún g tôi đ ề xuất.
1.1. X ử lý văn bàn và cá c khái n iệm c ơ bản
1 .1.1 . X ử lý văn bản
T ro n g c ác dạng dữ liệu ph ổ biến nhất h iện nay thì văn bản là m ộ t trong
nh ũng d ạ ng p hổ biến nhất, nó c ó mặt ờ khấp m ọi nơi và ch ún g ta thư ờng xu yên bắt
g ặ p h à ng ng ày . D o đó , c ác bài toán xử lý ván bản đã được đặt ra từ khá lâu và hiện
nay vẫn là m ộ t trong nhữn g vấn đé hay Irong khai phá d ữ liệu tex t, trong đ ó có
nhữ ng bài toán đá n g ch ú ý như tìm k iếm văn bản, phân lớp vãn bản, phân cụm vãn
bàn, hoặ c dãn đ ường văn b à n . .|3 |[ 4 ||5 ||6 || 1 2|[1 3 ]| I 4 || I 5 |[ 2 6 || 2 8 ||2 9 |
C ác vãn bản dư ợc tạp hợp trong CƯ sở d ữ liệu text và c ó thổ ch ia làm hai loại

sau:
Dạng không có cấu trúc (unstructured): N hữ ng văn bàn th ôn g thường m à
ch ú ng ta thư ờng d ọ c hàng ngày được thổ hiện dưới dạn g ngôn ngữ lự nhiên củ a con
ngư ời và nó k h ôn g có m ột cấu trúc định dạng nào.
Dang nửa cấu trúc (semi-structured): Nhữ ng văn bản đượ c tổ ch ức dưới dang
cấ u trúc k h ôn g ch ặt ch ẽ thành bản ghi mà dù n g cá c kí h iệu đánh dấu văn bản và vẫn
th ể hiện đư ợc nộ i du n g chín h củ a vãn bản, ví dụ như cá c dạ ng H TM L, em ail,
C ó n h iểu c ách phân lớp cá c lĩnh vực trong xử lý văn bàn, L e w is [14] đã ch ia
thành hai n hó m lĩnh vực c hính là Phùn ló p Víỉn bản (T ext C la ssifica tion ) gồ m cá c
c ôn g v iệ c x ác đ ịnh văn bản hoặc một phán củ a vãn bản v ào m ột hay Iiliiéu lớp xác
địn h trước và Hiếu nghĩa vắn biin (T ex l U n dersta n ding) bao gô m cá c c ôn g viộc phức
tạp hơn để xử lý nội du ng củ a văn bàn như tóm tắt văn bản (T ext Sum m ariza lio n
h oặ c A b str actio n ), chắt lọc thôn g tin (Text E xtraction ),
Đoàn Sơn - Luận văn Thạc sĩ - Khoa Công nghẹ, ĐHQG Hà Nội 2002
T uy n h iờn , v ic phõn lm hai loi c ng k h ụn g tht rừ rng, trong cỏ c h phn
m m , n g i ta th ng phi s d ng cỏ c phn kt hp li thnh m t h nh trong
cỏ c h tỡm tin (S earch E n gin e), hoc (rong bi toỏn tỡm k im vn bn (Tcxl
R etrie v a l), m t tron g nh ng lnh vc dc quan tõm nht hin nay. C hng hn trong
h tỡm k i m n h Y a h oo , A ltaVista, G oo g le u t ch c d liu th eo cỏ c n húm v
th m c , m i n h úm li cú th cú n h iu nhúm c on nm trong nú. H AltaVista cũ n
tớch h p thờm c h ng trỡnh d ch t n g c ú th d ch ch u y n i sa ng nhiu th ting
kh ỏc nhau v c h o kt qu khỏ tt.
ỡ* -
II
<ôv
fiMMt t ớ u u s n tẩMKEaal m m t M ti ớbumta aô*
fiiMMt Mm K M . U oiiLẫa!
y ằKm! E r am fc
(bid th e om Tor yon
0ht(zr to win$10,000

V
ằèH.I-Hô ớs u o r iu
KộmUM
Au. HonL Villipằ. CimtH
II Seoich ItdvMKdKMh
"tf ' Sre tfap - (n* e-ônk t t e l i * , Kwtnltô. HW y MI. BĩktaL Loyằ. Hmtci. KCn
IH * ? A uclioiu A i t M CUf>ifi<fa ShttMBC TiVô! I i B g g P a M *Pf M * U H tw j Sportằ W th ằ
C*MMô C in m ớhii Ctúa &rúótằi aiioc Miil M iato Mttttnnj H s ỹ k Pin tm k PjỷtkSuKh Phgjfii
PmwmI lỷt Book Mftm My Yõhool PộyDitkI FôM flĩẫjl m Mont! Mttfic Ê|fe Xù
ùỹliaoisbglwtuil 5 *yằ Uft nniil CHnsIm*!
Depôtni*ntô Storô9
HoMav Qram Avon
Ton LõPtow Hofdilwra
cflgwiia HElEkon 0*2
CkctiPMio Boob õớKilkili*
Yd* 0 u m t k m ỡ IT C tttch S i M l l l ử
mon dtpjj. m an iio m 1fm M .tt
Tw httiWLQD^lmgtf Cumin
Ait* &ttiihWậtở
l^nfury Ptiotocr*phr
Biirttm ft EtQiKWY
P 2 P. F a m i c t . S h opping, k h i
Collinôôằ
IrJuiHl WWW. Solfrrw. Sim u
E'luulkm
U ớớtlA tiớỹ L l
Full COTIIICT. H fW IPM n. T V .
RMitattHi ft Suam
Srtit lir a i Asdaa, fiMẫM
falmiK*

Liviu. lixlniwm, OMớtittpni
Bớfrfwuằ
C o un lm i. ĩMKOt, U iJ l iO t
In til* Itaw*
ItnttijM M tl tt t i t a la cwii
Paiud m d fei WTC lỏỏekiin
It Haw AannlioLiiaatl
Whli Uwn tớtlan Inilal ằf
'mncỡtt T ittw' tu lm
M kK !>*<ô
For ốKmr WfoTằ Chntlnu), oriii
Gap by noon CT 12/31
800 com 3pm CT 12/23
M h a ln i rrofbM^! ET 12/21
ttỳBMKèhKM ằằ trr \2f2i
EiMmBằMt 1 Itmrr iMi
Karurt noon r r 1 /21
Circuit City 1 f m ET 12/31
lioxknt (ôMUô
Spiht-Mô morte Swk pMk
///ô /; /: G ia o d in c a c h ng Irỡnh Y ahoo.
on Sn - Luõn vn Thc s- K/ỡoa Cng ngh, HQGH Ni 2002
10
1.1.2. Một số khái niêm cơ bàn
Trước hết chúng ta tìm hiểu một cách sơ lược các thuật ngữ và khái niệm cơ
bản đợc đề cập trong luận vãn này:
Khai phá dữ liệu và khai phá trí thức trong cơ sở dữ liệu
Khai phá dữ liệu, hay data mining, được định nghĩa như là quá trình phát hiện
các tri thức đáng chú ý tìr các dữ liệu lớn được lưu trữ trong cơ sở dữ liệu, data
warehouse hay các kho chứa thông tin khác [13].

Khai phá dữ liệu liên quan tới quá trình chắt lọc hay khai phá tri thức từ
những lượng lớn dữ liệu Một ví dụ hay đtrợc nêu ra là việc khai thác vàng từ đá và
cát, khai phá dữ liệu được ví như công việc “dãi cát tìm vàng” trong một tập hợp lớn
các dữ liêu cho trước. Thuật ngữ khai phá dữ liộu(data mining) ám chỉ viộc tìm kiếm
một tập hợp nhỏ có giá trị từ mội số lượng lớn các dữ liệu thô. Có nhiểu thuật ngữ
hiện dược dùng cũng có nghĩa iưưiig lự với từ data milling như knowledge milling
(khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis
(Phân tích dữ liệu/mẫu), data archaeology (khảo cổ dữ liệu), data dredging (nạo vét
dữ liệu)[13|.
Hiện nay, thuật ngữ khai phá dữ liệu(data mining) được dùng quá quen thuộc
và người ta thường đồng nhất với một thuật ngữ khác là phát hiện tri thức trong cơ
sờ dữ liệu — Knowledge Discovery in Databases (KDD). Thực ra, khai phá dữ liệu
chỉ là một bước trong quá trình KDD và KDD dược xem như 7 quá trình khác nhau
theo thứ tự như sau:
1. Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu không cần thiết.
2. Tích hợp dữ liệu: Các nguồn dữ liệu khác nhau tích hợp lại.
3. Lựa chọn dữ liộu: Các dữ liộu có liên quan tới quá trình phân tích được lựa
chọn từ cơ sờ dữ liộu.
4. Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp
cho quá trình xử lý.
Đoàn Sơn - Luận vin Thạc s ĩ- Khoa Công nghệ, ĐHỌGHắ Nội 2002
11
5. Khai phá dữ liệu: Là một trong nhưng bước quan trong nhất, trong đó sử
dụng những phương pháp thông minh đổ chắt lọc ra những inẫu dữ liộu.
6. uòc lượng mẫu: Quá trình đánh giá các kết quả tìm dược thông qua các độ
đo nào đó.
7. Biểu diễn tri thức: Quá trình này sử dụng các kĩ thuật biểu diễn và thể hiện
trực quan các tri thức cho người dùng.
Hình 2: Data Mining như là một quá trình trong khai phá tri thức [11].
Đoàn Sơn - Luận vãn Thạc sĩ- Khoa Công nghệ, ĐHỌGHà Nội2002

12
H ình 2 là sơ đồ cá c quá trình trong K D D , ch ún g ta c ó th ể thấy rằng khai phá
dữ liệu là m ộ t quá trình tron g K D D , các quá trình c ó sự tương tá c, bổ su ng ch o nhau
để rút ra tri thức, những qui luật từ tẠp c ơ sử dữ liệu rất lớn. K hai phá dữ liệu là quá
trình đư ợc c o i là quan trọng nhất vì quá trình này sử d ụ ng cá c p h ương pháp họ c m áy
vào x ử lý d ữ liệu .
C ó n hiểu cách tổ ch ức dữ liệu kh ác nhau, c á ch phổ biến và truyền th ố ng là c ơ
sờ dữ liệu q uan h ệ, ngoài ra còn có c ơ sở dữ liệu hướng đ ối tượ n g, c ơ sở dữ liệu
k hôn g g ian , c ơ sở dữ liệu fu lltex t Đ ối với m ỗi dạng c ơ s ờ dữ liệu lại c ó nhữ n g kí
thuật xử lý kh ác nhau và m ục đích để khai phá dữ liệu kh ác nhau tuỳ th eo đ ặ c thù và
tích chất củ a dữ liệu . C hú n g ta sẽ xcm x ét c ác bài toán vé xử lý văn bản ở phán sau.
Tìm kiếm văn bản(Information Retrieval, Text Retrieval)
T hu ật n gữ Inform ation R etrieval xuất hiện khá sớ m , c ó lliổ tạm dịch là tìm
k iếm th ô ng tin, cá c thô n g tiu ở day c ó thổ là d ạn g vãn bàn, d ạ n g hình ảnh ho ặ c Am
thanh, N h ư ng ngư ời ta th ư ờng d ùn g và hiểu thuật ngữ này như là tìm kiếm văn
bản (B a o g ồ m việ c tìm k iếm và sắp thứ tự văn bản), đ ặ c biệt là trong cá c cô n g cụ tìm
kiếm (Sea rch E n gin e). Đ ô i khi, thuật ngữ này được d ùn g như là toàn bộ quá trình từ
việc xử lý văn bản tới phân lớp và tìm kiếm văn bản [1 4][22 Ị.
T ro ng luận vãn n ày c hú n g tôi sử dụ ng thuật ngữ tìm kiếm văn bản the o nghĩa
ba o g ổm c à tìm k iếm và sắp xếp th eo thứ tự cá c văn bản tìm k iếm đư ợ c th eo câu hỏi
ngư ời d ùn g đư a vào.
Phân lớp văn bàn (Text Categorization, Text Classification)
T ron g hai thuật ngữ Irên thì T ext C ategorization dược d ù ng phổ biến hơn, nó
được định n gh ĩa như là qu á trình gán cá c văn bản vào m ột hay n hiều lớp đ ược định
ngh ĩa trước dự a trên nội d un g củ a c ác văn bàn đ ó [8 )1 1 2II 13 II 1 4 ||2X |.
Công cụ tìm kiếm (Search Engine)
C ô n g cụ tìm kiếm là m ột hộ phục vụ c h o viộc lìm kiếm Ihổn g tin, c hẳ ng hạn
như A lta vista , G o og le , Y a h oo, M ột cá ch ch ính xá c hơn, cô n g cụ tìm k iếm là thố
Đoàn Sơtì - Luận văn Thạc s ĩ- Khoa Công nghệ, ĐHQ G Hà N ộ i2002
13

hiện cụ thể của quá trình tìm kiếm vãn bản Một công cụ tìm kiếm chuẩn được
V.Rijsbergcn [22] mô tả gồm các thành phần sau: Đầu vào, quá trình xử lý và đílu
ra. Sư dổ mội hç
tìm tin chuẩn được
mô tả trên hình 3.
Đầu vào là
các câu hỏi vẻ văn
bản cần tìm kiếm.
Như vậy, nảy sinh
ngay vấn đề là làm
thế nào đổ các cAu
hỏi này phàn ánh
được đúng nội
dung của vãn bàn
cần yêu cáu. Dễ dàng thấy rằng công đoạn này là giai đoạn hết sức quan trọng,
quyết định phần lớn nội dung tìm kiếm sau này. Trong đa sô' các công cụ tìm kiếm
hiện nay, các câu hỏi mới ở dạng là các từ khoá.
Sau đó, các câu hỏi được xử lý bời bộ xử lý. Quá trình xử lý này có thể là tập
Irung trên một máy hoặc phân tán trên mạng.
Trong quá trình tìm kiếm, sau khi cho ra kết quả, một hệ tìm tin chuẩn còn có
quá trình phàn hồi với người dùng. Hệ phải cập nhạt đirợc các yêu cầu khác nhau
của người dùng trong quá trình tìm kiếm để cho ra các kết quả mong đợi. Điểu này
có nghĩa là các kô't quà sau khi dược tìm kiếm sẽ dirợc người dùng xử lý, cung cốp
thêm các yêu cầu mới (nếu có) và hệ có nhiệm vụ câp nhật các yêu câu này đổ phục
vụ cho các quá trình tìm kiếm tiếp theo.
Đoìm Sơỉi - Luận văn Tỉụic sĩ- KỈÌOIÌ Công nghệ, DHỌGHà Nội 2002
14
1.2. Gíc bài toán trong xử lý văn bản
Lewis trong [14] đã nêu ra một số bài toán trong xử lý văn bản, gồm có các
bài toán tìm kiếm văn bàn, phân lớp, phân cụm văn bản, dAn đường văn bản, Sau

đay chúng ta sẽ xem xét lừng bái toán cụ thổ.
1.2.1. Tìm kiếm văn bản
Tìm kiếm văn bản là quá trình tìm kiêm các văn bản theo yêu cầu của người
dùng. Các yêu cầu được thể hiện dưới dạng các câu hỏi, dạng câu hỏi đơn giản nhấl
là các từ khoá. Các hệ thống thực tế hiện nay thường đưa ra các danh sách văn bản
theo dộ quan trọng của văn bản tuỳ theo các câu hỏi dưa vào. Các công cụ tìm kiếm
như Google, Altavista, là những hộ tìm kiếm vãn bản như vây.
Quá trình tìm tin được chia làm bôn quá trình chính sau:
Điínlĩ chỉ số: Các vãn bản ờ dạng thỏ cẩn được chuyển sang một dạng biổu
diễn nào đó để xử lý. Ọuá trình này còn được gọi là quá trình biểu diễn văn bản,
dạng biổu diễn phải có cấu trúc và dẻ dàng khi xử lý.
Định dụng câu hỏi: Người dùng phải mô tả những yôu cầu vể lấy thông tin
cần thiết dưới dạng các câu hỏi. Các câu hỏi này phải được biểu diễn dưới dạng phổ
biến cho các hộ tìm kiếm như nhập vào các từ khoá cần tìm (trong đa số các hệ hiện
nay). Ngoài ra còn có các phương pháp định dạng câu hỏi dưới dạng ngôn ngữ tự
nhiên hoặc dưới dạng các ví dụ, đôi với các (lạng này thì cần có những kĩ thuật xử
lý phức tạp hơn. Trong các hệ hiện nay thì đại đa sô' là dùng cau hỏi dưới dạng các
từ khoá.
So sánh. Hệ thống so sánh các câu hỏi của người dùng với các vãn bản được
lưu trữ trong cơ sờ dữ liệu và cuối cùng đưa ra một quyết định phân lớp các văn bản
có độ liên quan gần với câu hòi dira vào và thứ tự của nó. Hộ sẽ hiển thị toàn bộ văn
bản hoặc chỉ một phần của vản bàn.
Phản hồr. Nhiều khi kết quả được trả lại ban đẩu không thoả mãn yêu cđu của
người dùng. Do đó cần có quá trình phản hồi để người dùng có thể thay đổi lại hoặc
nhập mới các câu hỏi của mình. Mặt khác, người dùng có thể lương tác với hô vổ các
Đoàn Sơn - Luận ván Thạc sĩ- Khôn Còng nghệ, DHQG Hà Nội 2002
15
văn bản tlioả mãn yêu cầu của mình và hệ có chức năng câp nhật các vãn bản đó,
quá trình này được gọi là phàn hổi liên quan (relevance feeback).
Các công cụ tìm kiếm hiện nay chủ yếu tập trung nhiẻu vào ba quá trình đầu,

còn phần lớn chưa thấy có quá trình phản hổi, hay xử lý tương tác người dùng và
máy. Quá trình phản hồi hiện nay đang được nghiên cứu rộng rãi và riêng trong quá
trình tương tác giao diện người máy đã xuất hiện một lĩnh vực hẹp là interface agent.
1.2.2. Phân lớp văn bản
Phân lớp văn bản được xem như là quá trình gán các văn bản vào một hay
nhiều lớp văn bản đã được xác định trước. Người ta có thể phân lớp các văn bản một
cách thủ cỏng, tức là đọc từng văn bàn một và gán nó vào một lớp nào đó, cách này
sẽ tốn rất nhiều thời gian và công sức đối với nhiều vãn bản và do đó là không khá
thi. Do vây mà cần phải có các phương pháp phân lớp tự động, để phân lớp tự động
người ta sử dụng các phương pháp học máy trong trí tuệ nhân tạo.
Một trong nhữ ng ứng d ụn g quan trọng nhất của phan lớp văn bản là ứng d ụn g
trong tìm kiếm văn bản. Từ một tập dữ liệu đã được phân lớp, các văn bản sẽ được
đánh chỉ sô' đối với từng lớp tương ứng. Người dùng có thể xác định chủ đề hoặc lớp
vãn bản mà mình mong muốn tìm kiếm thông qua các CÍUI hỏi.
Một ứng dụng khác của phùn lớp vãn bản là trong lĩnh vực hiểu văn bản.
Phân lớp văn bản có thể được sử dụng để lọc các văn bản hoặc một phần các văn bản
chứa các dữ liệu cần tìm mà không làm mất đi tính phong phú của ngôn ngữ tự
nhiên.
Trong phân lớp văn bản, văn bản có thể được gán vào một lớp các giá trị
đúng sai (True hoặc Fal.sc, hay vãn bán thuộc hay không thuộc lớp dỏ) hoặc độ phụ
thuộc của văn bản dược lính bởi mội giá trị nào đó. T ru ng trưỉmg hựp có Iihiổu lớp,
thì phân lớp đúng sai sẽ là VIÔC xcm một văn bàn có thuộc vào một lớp duy nhất nào
đó hay không.
Quá trình phân lớp văn bản bao gồm:
Đoàn Sơn - Luận văn Thạc sĩ- Khoa Công nghệ, ĐHỌG Hà Nội 2002
16
Điinh chỉ sớ. Kĩ thuât đánh chí số vãn bàn cũng giống như trong quá trình
đánh chỉ sô' của tìm kiếm văn bản. Trong phẩn này thì tốc đổ đánh chỉ số đóng vai
trò quan trọng vì một số các văn bản mới có thổ cẩn dược xử lý trong thời gian thực.
Xác định bộ phần lớp: Cũng giống nlnr trong tìm kiếm văn bản, phân lớp văn

bản ycu cẩu quá trình diễn tả viộc xác định văn bản thuộc lớp nào đó như thế nào,
dựa trên cấu trúc biểu diễn của nó. Đối với hộ phân lớp vãn bàn, chúng ta gọi các
quá trình này là bộ phân lớp (categorizer hoặc classifier). Nó đóng vai trò như những
câu hỏi trong hệ tìm kiếm. Nhưng trong khi các câu hỏi mang tính chất nhất thời thì
bộ phân lớp lại được sử dụng một cách ổn định và lâu dài cho quá trình phân lớp.
So sánh: Trong hầu hết các bộ phân lớp, mỗi văn bàn đểu được yêu cầu gán
đúng sai vào một lớp nào đó. Sự khác nhau lớn nhất so với quá trình so sánh trong
hộ tìm kiếm vãn bản là ở đây mỗi văn bản chỉ được so sánh với một số lượng các lớp
một lần và viộc chọn quyết định phù hợp còn phụ thuộc vào mỏi quan hộ của các lớp
văn bản.
Phản hồi (huy thích nghi): Ọuá trình phản hồi đóng hai vai trò trong hộ phân
lớp văn bản. Thứ nhất là khi phân lớp thì phải có một số lượng lớn các văn bản dã
được xếp loại bằng tay trước đó, các vãn bản này được sử dụng làm mẫu huấn luyện
để hỏ trợ xây dựng bộ phân lớp. Thứ hai là đối với việc phân lớp văn bản này không
dễ dàng thay dổi các yêu cầu như trong quá trình phản hổi cùa tìm kiếm vãn bản,
người dùng có thể thông tin cho người bảo trì hệ thống về việc xoá bỏ, thêm vào
hoặc thay đổi các lớp vãn bản nào dó mình yêu cẩu.
1.2.3. Phân cụm văn bản (Text Clustering)
Phân cụm văn bản là việc tự động sinh ra các lớp văn bản dựa vào sự tương tự
vổ nổi dung cùa các văn bàn. Số lưựng các lớp văn bản liỉiy cụm văn bàn ờ ilAy là
chưa biết trước, chẳng hạn sổ' cụm có thể là 2,3 5, Người dùng có thổ chỉ ra số
lượng các lớp cán phân cụm hoặc hộ (hống SC tự phân cụm.
Đoàn Sơn - Luân vãn Thạc sĩ - Khoa Công nghệ, ĐHQG Hà N ội2002
17
1.2.4. Dẫn đường vãn bàn (Text Routing)
Dẫn đường văn bản là sự tổ hợp của công việc tìm kiếm văn bản và phân lớp
văn bản. Giống như phan lớp văn bàn, hệ dẫn dường văn bàn xử lý các văn bản trong
thời gian thực và gán chúng vào một hay nhiéu lớp khác nhau. Tuy nhiên, nó giống
như tìm kiếm văn bản, mỗi lớp văn bàn được gán với các thông tin cần thiết của một
hay nhiều nhóm người dùng. Mỗi người dùng có thể thay đổi hay thêm bớt các yêu

cầu của mình. Quá trình phản hổi có thể được sử dụng trong dản đường văn bản để
nâng cao khả năng tìm kiếm thông tin trong văn bản.
1.2.5. Các bài toán khác
Phân lớp từ khoíí: Tương tự như phân lớp vãn bàn, chỉ có diéu khác là trong
phân lớp văn bàn thì làm viộc Irôn một số lượng lớn các lừ khoá, còn ờ đay là việc
xác định trước các từ khoá vào một hay nhiểu lớp. Một ứng dụng của phân lớp từ
khoá là việc đánh chỉ số khoá cho các từ (tagging) để phục vụ cho việc phân tích
ngữ nghĩa trong quá trình xử lý ngôn ngữ tự nhiên.
Phân cụm từkhoắ: Việc này cũng giông như phân cụm văn bản, các từ khoá
gần nhau được nhóm lại trong các lớp giống nhau. Công việc này cũng hỗ trợ cho
việc xử lý ngôn ngũ tự nhiên.
1.3. Một số vấn để về biểu diẽn trong xử lý vãn bàn
Trong các bài toán xừ lý văn bản đã nêu ở trên, chúng ta thấy rằng vai trò của
biểu diễn văn bản rất lớn, đặc biệt trong các bài toán tìm kiếm, phân lớp, phân cụm,
dẫn đường, Văn bàn thông thường được biểu diễn thành một tâp các thuộc tính
đặc trưng cho văn bàn đó, các quá trình xử lý và làm viộc liếp theo đểu làm trên các
thuộc tính này.
Trong phân lớp văn bản, việc áp dụng các phương pháp học máy là quá trình
cơ bản để hình thành bộ phân lớp. Việc học ờ đây là học quy nạp, chúng ta cho một
tập các dữ liộu mẫu và biết trước chúng thuộc vào lớp nào, do đó tâp mâu đóng vai
Đoàn Sơiì - Luận văn ĩlìạ c s ĩ - Khoa Công nghệ, Đ HQ G H i) N ộ i 2002
18
trò quan trọng và phải có những yêu cầu nhất định, chúng ta có thể dễ đàng nhận
thấy một số vấn để khi hình thành bộ phân lớp có liên quan tới các thuộc tính biểu
diễn văn bản như sau:
- TẠp các thuộc tính không đù để phân lớp loàn bộ các lớp cho trước: Có thể
là các thuộc tính (rong các ví dụ huấn luyộn chưa đặc tr ư n g hoặc quá ít để đại diện
cho lớp đó.
- Tập các thuộc tính vượt thừa ra ngoài không gian giả thuyết: Các thuộc tính
của văn bản khác với các thuộc tính huấn luyộn trong bộ phân lớp.

- Tạp các thuộc tính có thể chứa các giá trị nhiễu, đay có thể là các giá trị sai
dẫn tới quá trình học máy có thể phân lớp sai.
- Tập các thuộc tính chứa những giá trị bị vi phạm trong thuật toán hình thành
bộ phân lớp: Có thể có những giá trị đặc biệt làm thuật toán không xử lý được hoặc
bị lặp, do dó không tho’ hình thành dược bô phan lớp hoặc sẽ tlAn tới vòng lặp vố
hạn.
Từ đó dẫn tỏi việc chọn lựa các thuộc tính dể biểu diễn văn bản, có rất nhiều
tiêu chuẩn chọn lựa [29|. Tuy nhiên các tiêu chuẩn này đều dựa trên việc xử lý các
từ khoá một cách tự động. Trong cách tiếp cận hướng người dùng cùa chúng tôi,
người dùng có thể tự xây dựng cho mình một tạp các khái niệm, và mối quan hệ từ
các khái niệm đó tới từ khoá. Như vậy các tiêu chuẩn chọn lựa ở đây là do người
dùng quyết định và bộ phân lớp sẽ phân lớp hệ thông dựa trên những khái niệm mà
người dùng đưa ra.
Trong tìm kiếm văn bản, Lewis dã nêu ra nghịch lý sau liên quan tới hiệu quà
cùa các hệ tìm kiêtn. Mặc dù các hệ này là tốt cho viộc sử dụng nhưng nó còn rất xa
mới đạt đến độ hoàn hào, tức là thoà mãn hoàn toàn với câu hỏi đưa vào của người
sử dụng. Nghịch lý này được gọi là nghịch lý cẩu hòi hoàn hảo. Điều này không có
gì ngạc nhiên bời người dùng không thể nhâp được một câu hỏi hoàn hảo bời điều
đó đòi hỏi những Iri thức đặc biôl và phái hiổu biết rõ vẻ cả cấu trúc của hô thống.
Đoàn Sơn - Luận văn Thạc sĩ - Khoa Công nghệ, ĐHQG Hà Nội 20U2
19
Trong các hệ tìm kiếm hiện nay, nếu chúng ta đưa vào một tập từ khoá thì hệ
sẽ tìm các văn bản có xuất hiên tất cả các từ khoá đó nhưng nếu người dùng muốn
tìm kiếm ờ mức độ cao hơn chẳng hạn Hong cụm từ ‘software computer’, người
dùng muốn tìm những văn bản có từ ‘software’ xuất hiện nhiểu hơn ià từ ‘computer’
thì nhiều khi kết quả trả lại chưa thoả mãn người dùng.
Do đó đòi hỏi có những nghiên cứu về xử lý các câu hỏi của người dùng.
Trong phần tìm kiếm văn bản của luận văn này, chúng tôi tạp trung xử lý trường hợp
khi câu hỏi đưa vào có nhiều từ khoá, mỗi từ có trọng sô' khác nhau.
Đoàn Sơn - Luận văn Thạc sĩ- Khoa Công nghệ, ĐHỌGHà Nội 2002

20
CHUƠNG 2. CÁC PHUƠNG ÍM1ÁP BlỂU DlỄN v ă n b ả n
Trong chương này cluing tỏi trình bày những phương pháp biểu diỗn văn bàn
thông dụng thông qua mô hình không gian vector khi biểu diễn văn bản và một số
khái niệm cơ bản về tập mờ. Trên cơ sờ đó, chúng tôi xây dựng khái niệm mờ và xác
định một số tính chất của các khái niộm mờ thông qua việc tích hợp các từ khoá và
mối quan hệ giữa chúng với nhau. Cuối cùng chúng tôi trình bày phương pháp biểu
diễn văn bản và chủ đề theo lập mờ thông qua các khái niệm mờ.
2.1. Mô hình không quan vcctor
Chúng ta sử dụng không gian vector để biểu diễn các vãn bản. Trong cách
biểu diễn này, mỗi văn bản được biểu diễn bằng một vector. Mỗi thành phần của
vcctor là một từ khoá riêng biệt trong
(Ạp văn bản gốc (corpus) và được gán một giá
trị là hàm f chỉ mật độ của từ khoá trong văn bản. Có nhiẻu tiôu chuẩn để chọn hàm
f, do đó mà chúng ta có thể sinh ra nhiều giá trị trọng số khác nhau. Chúng ta SC
xem xct cụ thể trong từng phàn sau.
2.1.1. Từ khoá
Như đã xét ờ trên, không gian vector ở đây là một tập bao gồm các vector từ
khoá (terms/keywords). Sau dây chúng ta sẽ xem xét khái niộm từ khoá.
Từ khoá theo định nghĩa chung nhất (Đối với tiếng Anhvà cũng tương tự như
đối với bảng chữ cái Latin nói chung) là một chuôi các kí tự — số, ngoại trừ các
khoảng trống (space, tab hoặc các kí tự xuống dòng) hoặc là các dấu chấm câu (như
dấu chấm, chấm phẩy ). Hơn nữa, tất cả các chữ hoa trong văn bản đều được
chuyển hết về chữ thường, do vẠy chúng ta có thể bỏ qua việc xét các chữ hoa 123 ị.
Gìúng ta xcin xct các ví dụ sau.
Vãn bản 1:
Computing is not about computers any more. It is about living.
Văn bản 2:
Đoàn Sơn - Luận văn Thạc sĩ- Khoa Công nghệ, ĐHỌGHà Nội 2002
21

[To live is to compute.
Chúng ta có thể biểu diễn chúng dưới dạng với từ khoá là các từ đơn và hàm f
biểu diễn tần sô' xuất hiện của chúng, cách biểu diễn này còn được gọi là biểu diễn
theo túi các từ (bag of words).
Tir khoa Vector cho văn bản 1
Vector cho văn bản 2
about
2 0
any 1
0
compute
0 1
computers 1
0
computing 1
0
live
0
1
living
1
0
more 1 0
B àn g /: Vector biểu d iẻn vãn bàn I và vãn bản 2 theo tán sô' xuất hiên củ a các từ (Hay theo
túi các từ).
Văn bản 3:
Subject: Scheduling problem
I am a student and I want to create an employee
timetabling system that uses AI. I know that
there are many types of AI concepts that I can

apply it However, I donot know which one is
suitable. The employees are scheduled to different
shifts and system is supposed to identify the pick
hours and schedule the employees accordingly
Fmm Jaist-imws. comp oi. 10 Dec 2001
Đoàn Sơn - Luận văn Thạc sĩ - Khoa Công nghệ, ĐHQG Hà Nội 2002
22
Khi dö cö thé biê’u diên duôi dang nhi phân nhir sau.
Subject: Scheduling problem
I am a student and I w a nt1
timetabling systerrfTfiituses ArTjJ«nC>w that
there are m^nyWpes of Al'Conceptstftar I can
apply it. However, HteoQtkpovrvvhich one is
suitable. The employeeS^resCheiJuled to different
shifts and system is supposed to identTfy^tie pick
hours and schedule the employees accordingly.
1
AI
1
System
0
Os
0 D atabase
0
Parallel
0
Relation
0
Process
1 Timetable

Liroc bo iù (Words stemming)
Trong tiéng Anh hay trong nhiéu ngôn ngù khâc, nhiêu tir cö chung mot tù
gô'c hoâc là biên thê sang tir môt tù gô'c nào do. Châng han chüng ta cö tù
“computer”, “computers” hoâc “computing” dêu cö thê’ cô chung môt gô'c là
“comput”, do vây, môt tù khoâ cô thé là là môt tù không mang môt nghîa xâc dinh.
Trcf lai vi du trên chüng ta cô thé cö dang biéu diên van bân khâc nhir sau
Vân ban 1:
Comput i not about comput ani more. It i about live.
va van ban 2:
To live i to comput.
Doàn Soli - Luân vàn Thac si - Khou Công nghê, DHQG Hà Nôi 2002
23
Khi đó, hai văn bản trên được biổu diễn thành dạng sau:
Từ khoá Vector cho văn bản 1
Vector cho văn bản 2
about 2
0
any 1
0
coinput
2
1
live 1
1
more
1 0
Bảng 2. V ector biểu diễn vãn bàn 1 và văn bản 2 theo tần sô' các từ được lược bỏ
Chúng ta thấy rằng việc sử dụng từ gốc làm giảm đi số lượng của các từ khoá
trong vãn bản. Tuy nhiên, việc cắt bỏ các từ lại rất khó cho viộc hiổu vãn bản.
Từ k h o ắ là cụm lừ (m ulti-w o rd s term s)

Một sô' nhà nghiên cứu đã dịnh nghĩa ihôni chiéu cho vector biểu diễn là một
cụm từ, chẳng hạn như cụm từ “personal computer”, “information retrieval”,
“computer science”, Những cụm từ như vậy có thể dược xác định bằng cách xem
xét tẩn xuất xuất hiện của cả cụm lír dó trong văn bản. Đây là một bài toán khó
trong xử lý văn bản
2.1.2. Mô hình Boolean
Giả sử có một cơ sở dữ liệu gồm m văn bản D=|d|, d2, Mỗi văn bản
được biểu diễn dưới dạng một vector gồm 11 từ khoá T=jt|, t2, Gọi W = ( W j j ) là
ma irẠn trọng số, trong dó W,J là gi;í Ilị cùa lìr khoií I; trong vãn bản dj.
Mô hình Boolean là mô hình đơn giản nhất, dược xác định như sau:
I nếulị cómặt trong clj.
0 nếungượclại.
w, =
Đoàn Sơn - Luận văn Thạc sĩ- Khoa Công nghệ, ĐHQG Hà Nội 2002
24
Ví dụ trong hai vãn bản trên, chúng ta có thể biểu diễn thành hai vector như
sau:
Từ khoá
Vector cho ván bản 1 Vector cho văn bản 2
about 1
0
any
1
0
comput 1
1
i
I
1
it

1
0
live
I
1
more
1 0
not 1
0
to
0 1
Bảng 3: Vector biổu diẻn văn hàn 1 và văn bàn 2 theo biổn diỗn Boolean.
2.1.3. Mô hình tẩn sô'
Mô hình tần sô' xác định giá trị các số trong ma trận W=(Wjj) dựa vào tần sô'
xuất hiện cùa các từ khoá trong văn bản hoặc tần số xuất hiện của văn bản trong cơ
sở dữ liệu. Có ba phương pháp phổ biến sau:
Phương pháp dựa trên tần số từ khoií (TF-Term Frequency)
Các giá trị của các từ khoá được tính dựa trên sô' lần xuất hiện của các lừ
khoá trong văn bản. Gọi tfjj là sô' lần xuất hiện của từ khoá t; trong vãn bản dj, khi đó
Wjj được tính bởi công thức:
w 0 = ho*c w ũ = 1 + loê (tf,j) hoặc w ij = ^ j
Phưoiìg phấp dựa trên nghịch dùo tẩn sô' vẩn bắn (IDF - Inverse Document
Frequency)
Giá trị từ khoá dược tính bởi công thức sau:
Đoàn Sơn - Luận văn Thạc sĩ- Khoa Công lìglìệ, ĐHQGHà Nội 2002
25
W jj = lo g ^ r = lo g (m ) - log(df,)
Phương pháp TFxlDF
Phương pháp này là tổng hợp của hai phương pháp TF và IDF, giá trị cùa ma
trận trọng số được tính như sau:

W y =
[l + l o g (t f y )] l o g ( n ế u tf Ị j > I.
Ulị
nếu tfg = 0.
2.2. Loại bỏ các từ Irong biểu diỗn văn bản
Bằng phương pháp biểu diển không gian vector, chúng ta có thể thấy một
điểu rõ ràng là chiểu của một vector sẽ rất lớn bời chiều của nó được xác định bời số
lượng các từ khác nhau trong tẠp từ khoá. Chầng hạn sô' lượng các từ có thể từ I01
đến 105 đối với một tập hợp các văn bản nhỏ. Vấn để đặt ra là làm sao để giảm bớt
số chiểu của vector xuống mà vẫn đảm bảo việc xử lý văn bản đúng và chính xác,
đặc biệt là trong môi trường phAn tán như World Wide Web. Ở đây, chúng ta sẽ đé
cập tới một sô' phương pháp để làm giảm số chiều vector.
2.2.1. Loại bỏ các từ dừng
Trước hết chúng ta có thể quán sát thấy rằng trong tiếng Anh có nhiều từ chỉ
dùng để phục vụ cho biểu diễn cấu trúc câu chứ không biểu đạt nội dung cùa nó,
chẳng hạn như các giới lừ, lừ nối, Những lìr Iihir vây xnAÌ hiộn nhiéu trong văn bản
mà không có liôn quan gì tới chủ đé hoặc nội dung nào dó của văn bản. Do đó chúng
ta có thể loại bỏ những tír như vậy (cũng có nghĩa là giảm số chiểu của vãn bản),
những từ đó được xem như là những lừ dừng (stop words), ví dụ chúng ta có bảng
các từ dừng sau:
Đoàn Sơn - Luận văn Tĩiạc sĩ - Khoa Công nghẹ, ĐHỌG Hà Nội 2002
26
a
been do
able before
does
about
lie low
during
after best each

again but else
all
by enough
almost came
ever
also can except
am cannot few
and
clearly for
are
come
former
as
consider
from
at could
get
be despite
goes
because did
going
Bảng 4\ Ví dụ bảng các từ dâng 123].
2.2.2. Định luật Zipf
Để giảm sô' chiểu của các vector biểu diễn văn bản hơn nữa thì chúng ta dựa
vào một quan sát dơn giàn sau: Nhiều từ trong tập văn bàn gốc xuất hiện rất ít lần.
Nếu mục tiêu của chúng ta là xác định sự giống và khác nhau giữa các từ trong toàn
bộ tập văn bản gốc thì các từ xuất hiện với tần số ít như một hoặc hai lẩn, hay nói
cách khác là xuất hiộn l Ai ít lân (rong vãn bản tilt sc có những ảnh hưừng rất ít (rong
các văn bàn dó.
Tiền đề cho lý luân loại bỏ những iừ có tán xuất nhỏ dựa vào sự quan sát tán

xuất xuất hiện của các từ Irong tập văn bản gốc dược đưa ra bời Zipf nãm 1949.
Zipf phát biểu dưới dạng một hiện tượng nhưng ngay ờ thời điểm đó, hiộn tượng <JÓ
Đoàn Sơn - Luận vân Thạc sĩ - Khoa Công nghệ, ĐHỌG Hà Nội 2002
27
đã đư ợc g ọ i là “đ ịnh luật Z ip f ’, m ặc dù d ó k hôn g thực sự là m ột đ ịnh luật m à đú n g
hơn là m ột h iện tượng xấ p xỉ toán họ c.
Đ ể m ô tả định luật Z ip f, cliún g ta g ọi tổ ng s ố tần sô' xuất hiộn củ a từ khoá t
trong tập hợp D là f,. Sau đ ó c hú n g ta sắp x ế p tất cả cá c từ khoá tron g tập hợp th e o
ch iể u g iảm dần củ a tần s ố xuất hiện f và gọ i thứ hạn g của m ỗi từ khoá t là r,. Đ ịnh
luật Z ip f đượ c phát biể u dư ới d ạ ng c ô n g thức như sau:
T ron g đ ó K là m ột hằn g số . Q u an hệ nà y c ó thể đư ợc m in h h oạ b ằ n g đ ồ thị
trong hình 1, trong tiến g A n h , ngư ờ i ta thấy rằng s ố K » N /1 0 trong đ ó N là tổ ng s ố
cá c từ trong tập hợp.
BAy g iờ viết lại đ ịnh luật
Z ip f như sau:
K
r, « —
f.
Oíc lừ theo thú lự xốp hụn/Ị

Hình 4.
Lược đổ các từ theo luẠt Zipf.
G iả sử từ kh o á a là từ được
sắp ở vị trí thấp nhất với m ột tần s ố
xuất h iện là ß n ào đ ấy và từ k hoá b
c ũ n g đượ c sắp ờ vị trí th ấp nhất với
m ột tẩn s ố xuất hiện là ß + 1. C h úng ta c ó thể thu đ ư ợc thứ hạn g x ấp xỉ c ù a cá c từ
K K
khoá này là ra « — và rb «

, trừ hai b iểu thức này c h o nhau ta c ó m ột xấp xỉ
ß ß + i
đố i với cá c từ riên g biệt c ó tẩn sô' xuất h iện là ß.
K K K
r" l,,Ä ß ■ ß + r ß(ß + I)
Bay g iờ ch ún g la xấp xỉ giá trị của từ trong tẠp hợp c ó thứ hạ ng ca o nhất.
T ổ ng q u át hơn , đ ó là m ột từ ch ỉ xuất hiộn m ột lẩn trong tập hợ p, ch ú n g ta có :
~Ũ=K
I m a * ^
Đoàn Scm - Luân văn Thạc sĩ- Khoa Công nghệ, ĐHQGHà Nội 2002
28
Bủy giờ chúng ta xem xét phàn bố của các từ đơn xuất hiện ß lần trong tập
một sự phân bố dáng chú ý của các lừ riêng biệt trong một tâp hợp được hình thành
bởi các từ khoá xuất hiện ít nhất trong tập hợp. Trong một số hệ thực tế như SONIA
[23], người ta đưa ra các ngưỡng chỉ liin sò' xuất liiộn của các tìr rồi loại bỏ các tìr có
tần số xuất hiện ít hơn ngưỡng, giá trị của ngưỡng ở đây có thể là 10.
2.3. Phương pháp biểu diễn dựa trên các khái niệm mờ
2.3.1. Tạp mờ và các phép toán cư sở
Trong lý thuyết lập hợp cổ điển, khi cho trước một tạp E và A là tập con của
E thì với I11ỘI pliÀn tử xeE, chúng la chí có một (rong hai khả năng: Hoặc xe A, hoặc
xểA. Như vẠy viộc xác định tập con AcH lương dương với viộc xác định hàm dác
trưng /A tlioả mãn:
Hàm đặc trưng có miển giá trị là 0 và 1, bầng cách mở rộng miền giá trị từ
hai điểm rời rạc 0 và 1 cùa hàm IA{\) thành đoạn [0, 1] của hàm /¿¿(x), L.A Zadeh
đã xây dựng khái niệm tập mờ là nền tảng của toàn bộ lý thuyết tập mờ.
Định nghĩa 2.1: Tập mờ.
Cho E là một tập hợp. A được gọi là một tập mờ trong E nếu: A = {(x, (iA(x))l
xeEỊ trong đó nA(x) là hàm, ị.iA: E -» |0,1]. Hàm ị.iA được gọi là hàm thuộc
(membership function) của A, H a (x) là một giá trị trong doạn Ị0,l I được gọi lí\ mức
độ thuộc của X trong A.

Nếu X là tâpcác điểm rời rạc X|, x2, x„ llù A dược kí hiệu là:
A = Ha( x ,)/x , + Ha(x2)/x2 + - M x„)/xn = X M x.)/xì
hợp, chia 2 vế cho nhau ta có được
ÍKIi+l)
. Do đó, định luẠt Zipf cho chúng ta thiíy
X e A
xểA
Đoàn Sơn - Luận vãn Thạc sĩ- Khoa Công nghệ, ĐHQG Hà Nội 2002
29
Nếu X liên tục thì A được kí hiệu là:
A = L M x) / x
V í dụ:
Xét một tập hợp các số thực từ 0 đến 10 và ta coi đó là tập vũ trụ đang xét
(Tức E = [0, 10]). Chúng ta muốn xem xét các giá trị được gọi là “gần với đoạn (5,
8)”, gọi A là tập các điểm thực nằm trong đoạn (5, 8). Theo nghĩa thông thường hàm
đạc t r ư n g /^(x) được xác định như sau:
1 n ế u 5 < X < 8
[ o n ế u n g ư ợ c lạ i
Hàm dặc trưng của tập A Hàm thuộc của tạp mờ A
Hình 5:
Hàm đặc trưng của tập rõ A và hàm thuộc của tập mờ A.
Điều này thể hiện chỉ các phán tử nào nằm trong đoạn |5, 8] thì có giá trị 1,
tức là nằm trong A, ngược lại thì cho giá trị 0, tức không nằm trong A. Điều này
chưa phản ánh hết khái niệm những số nằm gÀn với đoạn ị5, 8 Ị.
Tập mờ A là những s ô ' thực gán đoạn 15, 8|, theo định nghĩa tập mờ được
biểu diễn như hình vẽ. Chúng ta có thể dễ dàng thấy, nếu mức độ thuộc của phần tử
X ( x e [ 0 , 10]) càng lớn thì X càng gần với đoạn 5 và 8 , chẳng hạn 4 . 8 gần đoạn trên
hơn là 4 . 7 hởi hàm thuộc của nó IỚI1 hơn. Mỗi s ố thực c lé u được xác định một mức
độ thuộc vào tập A thông qua hàm thuộc. Chẳng hạn 6, 6.5 thì có độ thuộc 1 tức là
hoàn toàn nàm trong tập A. Còn 4.8 có độ thuộc chẳng hạn là 0.95, 4 . 7 có độ thuộc

là 0.90, chứng tỏ mức độ gần của 4.8 với đoạn [ 5 , 8] là 95% hay là 0.95, mức độ
Đoàn Sơti - Luận vàn Thạc sĩ - Khoa Công nghệ, ĐHỌG Hà N ội2002

Trích đoạn

Phân lớp vănbản

Phương pháp biểu diễn văn bản sử dụng tập mờ và ứng dụng trong khai phá dữ liệu văn bản

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về