Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 79 trang )

..

bộ giáo dục và đào tạo
Trường đại học bách khoa hà nội
----------------------------------------

luận văn thạc sĩ khoa học

Phân loại thư điện tử
bằng kỹ thuật khai phá dựa trên đồ thị

ngành: công nghệ thông tin
hoàng trọng vinh

Người hướng dẫn khoa học: PGS. TS. Ngun Thanh Thủ

hµ néi 2005

- Trang 1 -

Mục lục
Danh mục các chữ viết tắt .............................................................................. 3
Danh mục các hình vẽ, đồ thị ......................................................................... 4
Mở đầu .......................................................................................................... 5
Chương I - tổng quan .......................................................................... 7
I.1. Khai phá dữ liệu dạng văn bản:........................................................... 8
I.2. Một số khái niệm cơ bản trong xử lý văn bản: ................................... 9
I.2.1. Từ khoá, thuật ngữ và khái niệm:...................................................... 9
I.2.2. Từ dừng (Stop words): ..................................................................... 10
I.2.3. Träng sè cđa tht ng÷:................................................................... 10

I.2.4. Độ liên quan giữa các văn bản: ....................................................... 11
I.3. Các bài toán cơ bản trong xử lý văn bản: ......................................... 11
I.3.1. Tìm kiếm văn bản (Text Retrieval): ................................................ 11
I.3.2. Phân loại văn bản (Text Classification): ........................................ 12
I.3.3. Phân nhóm văn bản (Text Clustering): ........................................... 13
I.3.4. Tóm tắt văn bản (Text Summarization)........................................... 13
I.3.5. Dẫn đường văn bản (Text Routing): ............................................... 14
I.4. Phương pháp biểu diễn văn bản theo mô hình không gian vector: 15
I.4.1. Mô hình Boolean: ............................................................................ 16
I.4.2. Mô hình Tần số: .............................................................................. 17
I.4.3. Phương pháp xử lý vector thưa: ....................................................... 18
I.5. Phân loại Văn bản: .............................................................................. 19
I.6. Phân loại thư điện tử:.......................................................................... 20
I.6.1. Các khó khăn, thách thức đặt ra: ..................................................... 21
I.6.2. Trình bày quan điểm và phương pháp tiếp cận: .............................. 23
Chương II - các kỹ thuật phân loại truyền thống ....... 25
2.1. Kỹ thuật Phân loại Văn bản: ............................................................. 25
2.1.1. Thuật toán Support Vector Machines (SVMs): .............................. 25
2.1.2. Thuật toán cây quyết định (Decision Tree): ................................... 27
2.1.3. Thuật toán k-NN (k - Nearest neighbor): ....................................... 31
2.1.4. Phương pháp Bayes đơn giản hoá:.................................................. 34
2.2. Kỹ thuật Phân loại thư điện tử: ......................................................... 35
2.2.1. Sự phân loại dựa trên các qui tắc: ................................................... 35
2.2.2. Sự phân loại dựa trên cơ sở sự phục hồi thông tin: ......................... 36
2.2.3. Phân loại theo kỹ thuật học máy: ................................................... 36
Chương III - kỹ thuật khai phá dựa trên đồ thị .............. 38
3.1. Tỉng quan: .......................................................................................... 39
3.2. HƯ thèng ph¸t hiƯn cÊu tróc con SUBDUE: ..................................... 42
3.2.1 Ph¸t hiƯn cÊu tróc con: .................................................................... 44

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 2 -

3.2.2. Nén đồ thị: ...................................................................................... 47
3.2.3. Đối sánh đồ thị tương đối: .............................................................. 48
3.2.4. Tham số cho luồng điều khiển: ...................................................... 48
Chương 4 - Hệ thống phân loại thư điện tử........................ 52
4.1. Tổng quan: .......................................................................................... 52
4.1.1. Tiền xử lý (Folder Pre-processing):................................................ 53
4.1.2. Biểu diễn Đồ thị (Graph Representation): ...................................... 54
4.1.3. TrÝch xuÊt cÊu tróc con (substructure extraction): ......................... 54
4.1.4. Lược bỏ cấu trúc con đại diện (Representative Substructure
Pruning): ................................................................................................... 54
4.1.5. Xếp loại cấu trúc con đại diện (Representative Substructure
Ranking): .................................................................................................. 55
4.1.6. Xử lý thư điện tử đầu vào (Processing Input Email): ..................... 55
4.1.7. Sự Phân loại (Classification): ......................................................... 55
4.2. Quá trình tiền xử lý (Pre-processing): .............................................. 55
4.2.1. Các đặc trưng của tiếng Việt: ......................................................... 56
4.2.2. Phân tách từ trong tiếng Việt dựa vào từ điển: ............................... 59
4.2.3. Lựa chọn mẫu cho đồ thị đầu vào: ................................................. 60
4.3. Biểu diễn Đồ thị (Graph Representation): ....................................... 62
4.4. Tác động của đặc trưng lớp (Impact of Folder Characteristics): .. 64
4.4.1. Kích thước trung bình thư điện tử và giá trị ngìng (Average email
Size and Threshold) .................................................................................. 65
4.4.2. KÝch thíc trung bình của thư điện tử và folder so với số cÊu tróc

con (Average email Size & Folder Size Vs Number of Substructures) .... 66
4.4.3. KÝch thíc chïm tia (Beam Size) ................................................... 67
4.4.4. KÝch thíc cÊu tróc con tèi thiĨu (Substructure Size VsMinsize) .. 67
4.4.5. Lược bỏ cấu trúc con và xếp hạng (Substructure Pruning and
Ranking) ................................................................................................... 67
4.5. Phân loại (Classification) ................................................................... 68
4.6. Kết quả cài đặt và thử nghiệm: ......................................................... 69
kết luận và hướng phát triển tiếp theo ............................ 75
5.1. Kết luận: .............................................................................................. 75
5.2. Hướng phát triển của luận văn:......................................................... 75
Tài liệu tham khảo ............................................................................ 77

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thÞ

- Trang 3 -

Danh mục các chữ viết tắt
STT

Chữ viết tắt

Viết đầy đủ

1

HTML

Hyper Text Markup Language

2

IDF

Inverse Document frequency

3

k-NN

k - Nearest neighbor

4

MDL

Minimum Description Length Principle

5

SVMs

Support Vector Machines

6

TF

Term Frequency

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên ®å thÞ

- Trang 4 -

Danh mục các hình vẽ, đồ thị
Hình 1. 1. Chức năng truy vấn của trang web www.google.com.vn
Hình 1. 2. Chức năng dẫn đường văn bản trong trang web www.vnn.vn
Hình 2.1. Siêu phẳng phân chia các mẫu
Hình 2.2. Minh hoạ việc khoanh vùng k văn bản gần nhất với k = 5.
Hình 3.1. Cấu trúc đồ thị ban đầu
Hình 3.2. Mở rộng các cấu trúc con theo tất cả các cách có thể
Hình 3.3. Nén đồ thị bằng các cấu trúc con tìm được
Hình 3.4. Các cấu trúc con tìm được bằng cách mở rộng cấu trúc con (a)
Hình 3.5. Sử dụng đồ thị con Gc để nén đồ thị đầu vào G
Hình 3.6. Tệp đầu vào có nội dung là danh sách các đỉnh và các cạnh tương
ứng giữa chúng.
Hình 3.7. Biểu diễn đồ thị đầu vào trong hệ thống SubDue
Hình 3.8. Đồ thị con tốt nhất nhận được ở đầu ra của hệ thống
Hình 3.9. Tham số ở đầu ra của hệ thống SubDue
Hình 3.10. Cấu trúc con tốt nhất nhận được ở đầu ra của hệ thống SubDue
Hình 3.11. Biểu diễn đồ thị con tốt nhất ở đầu ra hệ thống SubDue
Hình 4.1. Hệ thống phân loại thư điện tử
Hình 4.2. Các biểu diễn đồ thị
Hình 4.3. Tệp đồ thị đầu vào
Hình 4.4. Một thư ®iƯn tư tiÕng ViƯt

H×nh 4.5. Ngn tõ ®iĨn tiÕng ViƯt sử dụng trong chương trình
Hình 4.6. Tệp các đồ thị đầu vào
Hình 4.7. Kết quả đầu ra của hệ thống phát hiện cấu trúc đồ thị con
Hình 4.8. Một thư điện tử tiếng Việt không dấu

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thÞ

- Trang 5 -

Mở đầu
Sự phát triển vượt bậc của công nghệ thông tin truyền thông nói
chung và Internet nói riêng dẫn đến khả năng chia sẻ, trao đổi thông tin một
cách nhanh chóng, chính xác. Với lượng thông tin, tri thức khổng lồ nhận
được từ Internet nói chung và thư điện tử (Email) nói riêng, con người ta
không thể xử lý chúng bằng phương pháp thủ công một cách có hiệu quả. Từ
đó nảy sinh nhu cầu về xử lý thông tin văn bản một cách tự động.
Trên thế giới đÃ có rất nhiều thành công trong lĩnh vực nghiên cứu xử lý
văn bản nói chung và trong thư điện tử nói riêng trong các phòng thí nghiệm
hay trong các viện nghiên cứu của các trường đại học ở Mỹ, Pháp, Nhật Bản,
Canada, ... Tuy nhiên các thành công đó chủ yếu tập trung vào vấn đề nghiên
cứu văn bản, thư điện tử tiếng Anh, tiếng Pháp là những ngôn ngữ tương đối
đơn giản khi xử lý. Trong khi đó, rất ít công cụ đÃ được xây dựng thực sự
thành công trong lĩnh vực xử lý văn bản, thư điện tử tiếng Việt. Ngày nay, việc
trao đổi thông tin, tri thøc tiÕng ViƯt qua Web, th ®iƯn tư là một nhu cầu tất
yếu không thể thiếu được, nhu cầu nghiên cứu và xây dựng các công cụ khai
phá văn bản tiếng Việt nói chung và thư điện tử nói riêng đang được hết sức
coi trọng.

Phân loại văn bản là một lĩnh vực nghiên cứu nhằm phân loại các tài
liệu theo các lớp được định nghĩa trước. Các lớp được định nghĩa dựa vào một
tập các tài liệu mẫu đÃ được phân loại, được sử dụng để huấn luyện. Các kỹ
thuật được sử dụng có thể là các phương pháp truyền thống như học máy
(Machine Learning), thống kê (Statistics), ... Các phương pháp này cũng có
thể ứng dụng để phân loại thư điện tử và các trang web. Hầu hết các phương
pháp này đều rút ra các từ khoá hoặc những từ thường xuyên xuất hiện mà
không để ý đến sự liên quan giữa các từ. Sự liên quan gi÷a chóng rÊt quan
träng, nã cã thĨ chØ ra sù liên quan giữa các tài liệu bên trong một lớp. Các hệ

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 6 -

thống phân loại xác định các mẫu khác nhau nhằm phân loại các tài liệu tương
tự.
Luận văn này đề cập đến một phương pháp phân loại mới dựa trên kỹ
thuật đồ thị. Cách tiếp cận của chúng ta dựa trên cơ sở các cấu trúc đại diện
hoặc các mẫu được rút ra từ các thư điện tử mẫu đÃ được phân loại và sau đó
có thể sử dụng để phân loại các thư điện tử nhận được sau này. Trong cách
tiếp cận này, khái niệm đối sánh đồ thị tương đối có tác dụng đưa ra các cấu
trúc có khả năng mô tả đặc điểm nội dung của một lớp thư điện tử. Khả năng
phân loại dựa trên sự tương tự và không hoàn toàn chính xác là rất quan trọng
trong sự phân loại, giống như không bao giê cã hai mÉu hoµn toµn gièng
nhau. ý tëng mới này có thể áp dụng để phân loại không những văn bản mà
còn rộng rÃi hơn nữa.
Dưới sự định hướng và hướng dẫn tận tình của thầy PGS. TS. Nguyễn

Thanh Thuỷ, tôi chọn bài toán xử lý cụ thể đặt ra trong luận văn này là Phân
loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị.

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 7 -

Chương I - tổng quan
Việc quản lý dữ liệu và thông tin đÃ được quan tâm với nhu cầu nhằm
rút những yếu tố thiết yếu và quan trọng của một tài liệu và lưu giữ nó để có
thể sự dụng một cách có hiệu quả sau này. Sự cần thiết này giống như danh
mục của các quyển sách trong thư viện, nó giúp ta nhanh chóng tìm ra quyển
sách mà ta đang quan tâm. Trong một quyển sách, mục lục để ta dễ dàng xác
định được mục ta cần. Internet chứa đựng một lượng thông tin khổng lồ. Việc
xác định cái gì là cần thiết cho ta là rất quan trọng, nó giúp ta quản lý các
thông tin một cách có hiệu quả và lưu trữ chúng để có thể sử dụng sau này.
Quản lý thông tin ngµy nay cã mét ý nghÜa to lín gièng nh công nghệ thông
tin đÃ làm một cuộc cách mạng trong dữ liệu và tri thức là chia sẻ thông tin
giữa mọi người trên phạm vi toàn cầu. Một khối lượng thông tin khổng lồ
ngay lập tức có thể nhận được thông qua việc truy cập Internet. Cần có một cơ
chế nhằm xác định thông tin nào là thích hợp cần phải truy cập. Một cách đơn
giản nhất là ta có thể lọc thông tin dựa vào sự có mặt hoặc không có mặt của
một số từ khoá nhất định. Trong những trường hợp khác có thể xác định thêm
ngữ cảnh, thời điểm xuất hiện để có thể lọc ra những thông tin phù hợp với
thời điểm. Ví dụ, nếu cần rút ra tất cả các thông tin về ngôn ngữ Java mà chỉ
cung cấp từ khoá Java thì rất có thể trong kết quả đưa ra có nhiều thông tin
không thích hợp. Vấn đề là ta phải tìm cách cung cấp thông tin bổ sung để xác

định cái nào là thích hợp. Trong một trường hợp khác, quản lý thông tin có thể
phức tạp như việc tóm tắt thông tin. Một cơ chế khác cho quản lý thông tin là
sự phân loại, điều này cho phép ta phân loại thông tin thành các phạm trù khác
nhau tuỳ thuộc vào sự quan tâm của người dùng.

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 8 -

I.1. khai phá dữ liệu dạng văn bản:
Khai phá dữ liệu văn bản là một lĩnh vực nghiên cứu về các phương
thức xử lý, tìm kiếm thông tin trong những kho thông tin được lưu trữ bằng
văn bản. Trong các dạng dữ liệu thường xuyên được sử dụng thì văn bản là
một trong những dạng được dùng phổ biến nhất. Văn bản có mặt ở mọi nơi và
thường xuyên hàng ngày. Văn bản có thể là các bài báo cáo, các tài liệu kinh
doanh, các thông tin kinh tế, các bài nghiên cứu khoa học, ... Dù việc áp dụng
cơ sở dữ liệu vào hoạt động quản lý của các tổ chức là rất phổ biến và mang
lại nhiều lợi ích trong lưu trữ cũng như trong xử lý, nhưng trên thực tế còn rất
nhiều thông tin khác được lưu trữ dưới dạng văn bản. Do đó, các bài toán xử lý
văn bản đÃ được đặt ra từ khá lâu và cho đến nay vẫn là một bài toán quan
trọng trong khai phá dữ liệu.
Dữ liệu văn bản thường được chia thành hai loại:
- Dạng phi cấu trúc (unstructured): là loại văn bản chúng ta sử dụng hàng
ngày được thể hiện dưới dạng ngôn ngữ tự nhiên của con người và
không có một cấu trúc định dạng cụ thể nào. Ví dụ: các văn bản lưu
dưới dạng tệp tin của Microsoft Word.
- Dạng bán cấu trúc (semi - structured): là loại văn bản không được lưu

trữ dưới dạng các bản ghi chặt chẽ mà được tổ chức qua các thẻ đánh
dấu để thể hiện nội dung chính của văn bản. Ví dụ: Thư điện tử, dạng
tệp tin HTML, ...
Tuỳ từng mục đích sử dụng cụ thể mà việc xử lý văn bản được thực hiện
trên dạng cấu trúc nào. Ví dụ, với bài toán phân loại nội dung trang web thì
dạng văn bản cần xử lý là HTML.
Khai phá dữ liệu văn bản (text mining) được định nghĩa là quá trình tìm
kiếm tri thức trong những tập hợp bao gồm rất nhiều văn bản có nội dung đa
dạng và được thu thập từ nhiều nguồn khác nhau. Khai phá dữ liệu văn bản là
một lĩnh vực nghiên cøu rÊt réng vµ bao hµm nhiỊu lÜnh vùc con.

Hoµng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 9 -

I.2. Một số khái niệm cơ bản trong xử lý văn bản:
Trong xử lý văn bản nói chung và thư điện tử nói riêng có sử dụng một
số thuật ngữ cần được làm rõ để tiện cho việc sử dụng sau này.
I.2.1. Từ khoá, thuật ngữ và khái niệm:
* Từ khoá (keyword): là các từ xuất hiện trong một văn bản ở dạng nguyên
thể, có nghĩa trong từ điển. Ví dụ với câu sau: Chng trỡnh khuyn mại tặng
miễn phí modem ADSL tổ chức song song đồng thời với chương trình khuyến
mại tặng 30% cước hồ mạng + 20% giá thiết bị modem đầu cuối”, c¸c tõ
kho¸ có thể được tách ra là Chng trỡnh, khuyn mi, “miễn phí”
“modem”, “ADSL”, “tổ chức”, “song song”, “đồng thời”, “30%”, “cước hồ
mạng”, “20%”, “giá”, “thiết bị”, “đầu cuối”.
* Tht ng÷ (term): là các từ khoá có nghĩa liên quan đến một lĩnh vực nào

đó, ví dụ: "chuyển tiền nhanh", "tem thư", "điện thoại". Các thuật ngữ này
thuộc về lĩnh vực "Bưu điện".
* Khái niệm (concept): Là các thuật ngữ nhưng nó là sự khái quát hoá, tổng
quát hoá của nhiều thuật ngữ khác. Ví dụ: khái niệm "máy tính" có thể chứa
đựng các thuật ngữ khác "bàn phím", "chuột", "phần cứng", "phần mềm",
"CPU", "ổ cứng", "Internet", "màn hình", "số hoá",... các từ này có một phần
liên quan đến khái niệm "máy tính".
Một khái niệm thường liên quan đến một dÃy các thuật ngữ với mức độ
khác nhau. Ví dụ: thuật ngữ "phần mềm" có mức độ liên quan đến khái niệm
"tin học" nhiều hơn so với thuật ngữ "số hoá". Một tiêu chuẩn để xem xét mức
độ liên quan là xác xuất đồng xuất hiện của cặp khái niệm - thuật ngữ trong
các văn bản. Khi thuật ngữ "máy tính" xuất hiện nhiều trong các văn bản chứa
thuật ngữ "tin học" thì có nghĩa là độ liên quan giữa cặp "tin học" - "máy tính"
càng cao. Một lý do để giải thích suy luận này là mức độ thay thế. ở đây,
không chỉ hiểu đơn thuần giống như sự thay thế 1 - 1 giữa hai từ (ví dụ: "loài

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 10 -

người" - "nhân loại") mà có thể xem như giữa cặp khái niệm - thuật ngữ có sự
thay thế bộ phận (ví dụ: "máy tính" - "bàn phÝm").
I.2.2. Tõ dõng (Stop words):
Cã thĨ quan s¸t thÊy r»ng trong các ngôn ngữ tự nhiên, rất nhiều từ
được dùng để biểu diễn cấu trúc câu nhưng hầu như không mang ý nghĩa về
mặt nội dung, chẳng hạn các loại từ: giới từ, liên từ,... Các loại từ này xuất
hiện thường xuyên trong các văn bản nhưng không hề mang bất cứ một thông

tin nào về nội dung hay chủ đề của văn bản. Những từ đó dược gọi là từ dừng
(Stop words). Việc loại bỏ các từ như vậy cũng đồng nghĩa với việc giảm số
chiều của văn bản.
Khái niệm Từ dừng (Stop word) là các từ mang ít ý nghĩa trong xử lý
văn bản vì nó xuất hiện trong hầu hết các văn bản. Ví dụ: có thể, nếu, vì vậy,
sau khi, thì, một số, với lại, quả thật, hầu như,
Có một số phương pháp để xác định các từ dừng:
- Xây dựng một thuật toán phát hiện các từ dừng. Trong thuật toán này
cần đưa ra một ngưỡng để phát hiện từ dừng. Ví dụ, nếu phát hiƯn thÊy
mét tõ 1 xt hiƯn trong qu¸ 50% sè văn bản, có thể coi đó là từ dừng.
- Sử dụng so sánh với một từ điển từ dừng đÃ được xây dựng trước.
I.2.3. Trọng số của thuật ngữ:
Trọng số của thuật ngữ là độ quan trọng hay hàm lượng không tin mà
thuật ngữ đó mang lại cho văn bản. Nó là đại lượng dùng để đo sự khác biệt
giữa văn bản chứa nó với các văn bản khác. Đại lượng này thường được xác
định bằng tay hoặc đánh giá bằng số lần xuất hiện của thuật ngữ trong văn bản
và số lần xuất hiện của thuật ngữ đó trong các văn bản khác. Khi số lần xuất
hiện của thuật ngữ trong văn bản càng nhiều, thông tin nó mang lại càng lớn.
Khi số lần xuất hiện của nó trong các văn bản khác càng nhiều, thông tin nó
mang lại càng ít.

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 11 -

I.2.4. Độ liên quan giữa các văn bản:
Độ liên quan giữa hai văn bản là một đại lượng đo mức độ giống nhau

về một nội dung giữa hai văn bản đó. Các phương pháp đánh giá độ liên quan
chia thành hai loại:
- Đánh giá theo tần suất xuất hiện thuật ngữ
- Đánh giá theo ngữ nghĩa.
Cách đánh giá độ liên quan theo tần suất xuất hiện thuật ngữ thì không
quan tâm đến thứ tự sắp xếp của các thuật ngữ trong văn bản mà chỉ quan tâm
đến số lần nó xuất hiện trong văn bản đó. Ví dụ: Phương pháp sử dụng hệ số
Dice, hệ số Jaccard, hệ số consine,...
Cách đánh giá theo ngữ nghĩa không chỉ chú ý đến số lần xuất hiện
thuật ngữ trong văn bản mà còn chú ý cả đến sự kết cấu giữa các từ trong từng
câu văn. Phương pháp đánh giá thuộc loại này thường phức tạp hơn, yêu cầu
có các giải thuật phù hợp với từng ngôn ngữ cụ thể.
I.3. Các bài toán cơ bản trong xử lý văn bản:
Lewis đÃ chia ra một số bài toán cơ bản trong xử lý văn bản, bao gồm:
bài toán tìm kiếm văn bản (Text Retrieval), bài toán phân loại văn bản (Text
Classification), bài toán phân nhóm văn bản (Text Clustering), bài toán định
tuyến văn bản (Text Routing), bài toán tóm tắt văn bản (Text
Summarization)...
I.3.1. Tìm kiếm văn bản (Text Retrieval):
Tìm kiếm văn bản là quá trình tìm các văn bản trong một kho lưu trữ
theo các yêu cầu của người dùng. ở đây, các yêu cầu là các truy vấn và
thường được biểu diễn dưới dạng thuật ngữ hay biểu thức logic giữa các thuật
ngữ.
Ví dụ: truy vấn: thư điện tử AND (rác OR spam). ứng với
truy vấn này search engine của hệ thống sẽ tìm tất cả các tài liệu về thư

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 12 -

điện tử có liên quan đến rác hoặc spam. Trên thực tế thì hầu hết các
hệ thống chỉ được thiết kế để hiểu các truy vấn tương tự như thư điện tử OR
rác OR spam. Với câu truy vấn này hệ thống sẽ tìm kiếm các tài liệu theo
mức phù hợp với cả ba thuật ngữ thư điện tử, rác, spam. Kết quả
đầu ra của một phép truy vấn là danh sách các tài liệu được sắp xếp giảm dần
theo mức độ phù hợp với câu truy vấn đầu vào.

Hình 1. 1. Chức năng truy vấn của trang web www.google.com.vn
I.3.2. Phân loại văn bản (Text Classification):
Phân loại văn bản được coi như quá trình gán các văn bản vào một hay
nhiều lớp văn bản đÃ được xác định trước dựa trên nội dung của văn bản đó.
Người ta có thể phân loại các văn bản một cách thủ công, tức là đọc tìm văn
bản và gán nó vào một lớp nào đó, cách này sẽ tốn rất nhiều thời gian và công
sức khi số lượng văn bản lớn nên không khả thi. Do vậy cần phải có các
phương pháp phân loại tự động. Để phân loại tự động người ta thường sử dụng
các phương pháp học máy trong trí tuệ nhân tạo. Khi phân loại, văn bản được

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 13 -

gán vào một lớp theo một giá trị ngưỡng nào đó. Ngưỡng đặt ra tùy thuộc vào
thuật toán và yêu cầu người dùng.
I.3.3. Phân nhóm văn bản (Text Clustering):

Phân nhóm văn bản là việc tự động sinh ra các nhóm văn bản dựa vào
sự tương tự về nội dung của các văn bản. Số lượng các nhóm văn bản ở đây là
chưa biết trước, chẳng hạn số nhãm cã thĨ lµ 2, 3, 5, ... Ngêi dïng có thể chỉ
ra số lượng các nhóm cần phân nhóm hoặc hệ thống sẽ tự phân nhóm.
Đối với bài toán này, không bao giờ có một kết quả thỏa mÃn hoàn toàn
theo ý người dùng. Một lý do đơn giản để giải thích là máy không được học
trước. Chúng ta ph¶i thõa nhËn r»ng ngay c¶ con ngêi cịng gi¶i quyết bài
toán này không giống nhau. Ví dụ: lập nhóm các từ "thầy giáo", "diễn viên",
"phấn viết", "vở kịch"; một người sẽ lập thành 2 nhóm là: con người ("thầy
giáo", "diễn viên" và sự vật ("phấn viết", "vở kịch", trong khi đó người khác
lại phân chúng thành 2 nhóm khác: giáo dục(thầy giáo, phấn viết) và văn
hóa ("diễn viên", "vở kịch"). Do đó, việc đòi hỏi hệ thống tự động lập nhóm
làm việc đúng tuyệt đối là điều không tưởng.
I.3.4. Tóm tắt văn bản (Text Summarization)
Tóm tắt văn bản là bài toán tìm ra thể hiện nội dung của một văn bản
thông qua một vài đoạn văn. ứng dụng điển hình của bài toán này là trong tìm
kiếm văn bản. Các kho lưu trữ bao gồm rất nhiều tài liệu và kích thước mỗi tài
liệu có thể lên đến vài trăm trang. Giả sử khi bạn đọc muốn tìm một tài liệu về
"Text Mining" và nhờ hệ thống tìm kiếm văn bản tìm giúp, hệ thống tìm kiếm
sẽ đưa ra một danh sách các tài liệu với nội dung tương ®èi phï hỵp víi "Text
Mining". Nhng ®Ĩ viÕt thùc sù tài liệu đó có phù hợp với mình hay không,
bạn đọc đành phải đọc toàn bộ hoặc đọc một phần trong tài liệu. Hệ thống tóm
tắt văn bản sẽ làm cho việc tìm kiếm giảm nhẹ đi rất nhiều bằng cách tự động
tóm lược nội dung của toàn bộ văn bản bởi một vài đoạn văn bản. Sau khi đọc
qua đoạn tóm lược này, bạn đọc có thể biết được đây có phải là tài liệu chứa

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên ®å thÞ

- Trang 14 -

thông tin mà họ đang cần hay không.
I.3.5. Dẫn đường văn bản (Text Routing):
Dẫn đường văn bản là sự tổ hợp giữa bài toán tìm kiếm văn bản và phân
lớp, nhóm văn bản. Giống như phân loại, nhóm văn bản, bài toán dẫn đường
cũng đưa các văn bản về các lớp, nhóm khác nhau và việc xử lý này yêu cầu
trong thời gian thực. Tuy nhiên, nó cũng giống như bài toán tìm kiếm ở chỗ
mỗi lớp, nhóm văn bản được gán với các thông tin cần thiết của một hay nhiều
nhóm: người dùng. Mỗi người dùng có thể thay đổi thêm bớt các yêu cầu của
mình. Quá trình phản hồi có thể được sử dụng để nâng cao chất lượng tìm
kiếm văn bản.
Một ứng dụng điển hình của bài toán dẫn đường văn bản là trong các
trang tin điện tử. Khi đọc một tin mới, hệ thống sẽ đưa ra danh sách các tin
khác có liên quan đến nội dung đoạn tin đang đọc (hình 1.2).

Hình 1. 2. Chức năng dẫn đường văn bản trong trang web www.vnn.vn
Người dùng có thể theo các thông tin dẫn ®êng nµy ®Ĩ theo dâi toµn
bé diƠn biÕn cđa sù kiện.

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 15 -

I.4. Phương pháp biểu diễn văn bản theo mô hình không
gian vector:

Phần này sẽ trình bày về một số phương pháp biểu diễn văn bản thông
dụng, trong đó đặc biệt chú ý đến phương pháp biểu diễn văn bản theo mô
hình không gian vector tần suất TF x IDF, đây là mô hình thường được sử
dụng trong phân loại thư điện tử.
Phương pháp biểu diễn văn bản theo mô hình không gian vector là cách
biểu diễn văn bản thông dụng nhất. Đây là một cách biểu diễn tương đối đơn
giản. Trước đây có một số nghiên cứu nhận thấy phương pháp này gây tốn
kém chi phí lưu giữ và công sức xử lý, nhưng khi các phương pháp xử lý
vector thưa được áp dụng thì các nhược điểm trên giảm đi rất nhiều và mang
lại hiệu quả cho bài toán đặt ra.
Bản chất của mô hình không gian vector:
Mỗi văn bản được biểu diễn thành một vector.
Mỗi thành phần của vector là một từ khóa riêng biệt trong tập văn bản
gốc và được gán một giá trị là hàm f của từng từ khóa trong văn bản.
Ta hÃy xét ví dụ: "Mạng máy tính là một lập hợp các máy tính được nối
với nhau bởi các đường truyền vật lý theo một kiến trúc nào đó". Có thể biểu
diễn văn bản trên dưới dạng các từ khóa và hàm f biểu diễn số lần xuất hiện
của từ khoá trong văn bản (bảng 1. l). Cách biểu diễn này gọi là biểu diễn văn
bản theo tần số xuất hiện.

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 16 -

Bảng 1.1. Văn bản biểu diễn theo từ khoá và tần số xuất hiện
Từ khoá

Tần số xuất hiện

mạng

1

máy tính

2

nối

1

đường truyền

1

vật lý

1

cấu trúc

1

I.4.1. Mô hình Boolean:
Một mô hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy
nhất hai giá trị đúng và sai (true và fale, hoặc 0 và l) gọi là mô hình Boolean.
Hàm f tương ứng với thuật ngữ ti sẽ cho ra giá trị đúng nếu và chỉ nếu thuật

ngữ ti xuất hiện trong văn bản đó.
Mô hình Boolean được định nghĩa như sau:
Giả sử có một cơ sở dữ liệu gồm m văn bản, D = {d1, d2, .. dm}. Mỗi văn
bản được biểu diễn dạng một vector gồm n thuËt ng÷ T = {t1, t2, … tn}. Gäi W
= {wij} là ma trận trọng số, trong đó wij là giá trị trọng số của thuật ngữ ti
trong văn bản dj, Mô hình Boolean là mô hình đơn giản nhất được xác định
như sau:
wij =

Hoàng Trọng Vinh

1 nếu ti có mặt trong di
0 nếu ngược lại

(1.1)

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 17 -

I.4.2. Mô hình Tần số:
Trong mô hình tần số, ma trận W = {wij} được xác định dựa trên tần số
xuất hiện của thuật ngữ ti trong văn bản dj hoặc tần số xuất hiện của thuật ngữ
ti trong toàn bộ cơ sở dữ liệu.
Có ba phương pháp:
- Phương pháp dựa trên tần số thuật ngữ TF (Term Frequency)
- Phương pháp dựa trên nghịch đảo tần số văn bản IDF (Inverse
Document Frequency)
- Phương pháp TF x LDF: kết hợp của phương pháp TF và IDF

* Phương pháp dựa trên tần số thuật ngữ TF (Term Frequency)
Các giá trị wij được tính dựa trên tần số xuất hiện của thuật ngữ trong
văn bản. Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj khi đó wij
được tính bởi một trong ba công thức sau:
wij = fij

(1.2)

wij =1 + log( fij)

(1.3)

wij = f ij

(1.4)

Trong phương pháp này, trọng số wij tỷ lệ thuận với số lần xuất hiện của
thuật ngữ ti trong văn bản dj. Khi số lần xuất hiện thuật ngữ ti trong văn bản dj
càng lớn, điều đó có nghĩa là văn bản dj càng phụ thuộc vào thuật ngữ ti, hay
nói cách khác thuật ngữ ti mang nhiều thông tin trong văn bản dj.
Ví dụ: khi văn bản xuất hiện nhiều thuật ngữ máy tính, điều đó có nghĩa
là văn bản ®ang xÐt chđ yªu liªn quan ®Õn lÜnh vùc tin học.
* Phương pháp dựa trên nghịch đảo tần số văn bản IDF (Inverse
Document frequency)
Trong phương pháp này, giá trị wij được tính theo công thức sau:

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thÞ

- Trang 18 -

wij =

log

m
= log(m) − log(hi ) nÕu thuật ngữ ti xuất hiện trong tài liệu d
hi

(1.5)

0 nếu ngược lại
trong đó

m là số lượng văn bản
hi là số văn bản mà thuật ngữ ti xuất hiện.

Trọng số wij trong công thức này được tính dựa trên độ quan trọng của
thuật ngữ trong văn bản dj. Nếu ti xuất hiện trong càng ít văn bản, điều đó có
nghĩa là nÕu nã xt hiƯn trong dj träng sè cđa nã đối với văn bản dj càng lớn
hay nó là điểm quan trọng để phân biệt văn bản dj với các văn bản khác và
hàm lượng thông tin trong nó càng lớn. Ví dụ: các thuật ngữ "tiền đạo", "hậu
vệ ", "thủ môn" chỉ xuất hiện trong các bài báo nói về lĩnh vực bóng đá. Như
vậy, hàm lượng thông tin về bóng đá chứa đựng trong các thuật ngữ trên là rất
lớn.
* Phương pháp TF x IDF:
Phương pháp này là tổng hợp của hai phương pháp TF và IDF, giá trị
của ma trận trọng số được tính như sau:

wij =

[1 + log( f )]log mh 
ij



i



nÕu hij ≥ 1

(1.6)

0 nÕu ngược lại
Phương pháp này kết hợp được ưu điểm của cả hai phương pháp trên.
Trọng số wij được tính bằng tần số xuất hiện của thuật ngữ ti trong văn bản dj
và độ hiếm của thuật ngữ ti trong toàn bộ cơ sở dữ liệu.
I.4.3. Phương pháp xử lý vector thưa:
Theo mô hình vector chuẩn, việc xử lý các phép toán trên vector sẽ phụ
thuộc vào độ lớn của ma trận Wnm. ở đây n là số lượng thuật ngữ hay số chiều
của vector và m là số lượng văn bản có trong cơ sở dữ liệu. Trên thực tế, số
lượng thuật ngữ và số văn bản có thể lên tới vài chục nghìn. Khi đó số lượng

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 19 -

phÇn tư trong ma trËn Wnm sÏ lên đến con số hàng trăm triệu và việc lưu trữ
ma trận Wnm sẽ tốn quá nhiều tài nguyên bộ nhớ đồng thời các phép toán trên
vector sẽ rất phức tạp. Để khắc phục vấn đề này có thể sử dụng kỹ thuật xử lý
trên vector thưa thay vì việc lưu trữ và xử lý trên vector chuẩn.
I.5. Phân loại Văn bản:
Vấn đề phân loại bao gồm quá trình của sự học những đặc trưng liên
quan hoặc các thuộc tính của một lớp và sử dụng chúng để xác định một mẫu
mới thuộc về lớp đó. Các mẫu đÃ được phân loại trước đó được sử dụng nhằm
xây dựng một bộ mô tả lớp đó. Để xác định vị trí của một mẫu mới, nó được
so sánh với các bộ mô tả của tất cả các lớp đÃ được phân loại để chọn ra bộ
giống nhất.
Một tình huống thiết thực đưa ra là một công ty tìm cách làm thế nào
để có thể bán được nhiều nhất một sản phẩm mới. Họ dựa vào hành vi của
người dùng tương ứng với các lớp khách hàng quen thuộc, phân tích các yếu
tố cần quan tâm. Sau đó, việc tiêu thụ các sản phẩm mới của khách hàng sẽ
được đem so sánh với những gì đÃ biết để xác định khách hàng tiềm năng. Tất
nhiên là sự phân loại này có thể dùng cho các ứng dụng khác.
Nhiệm vụ trước mắt của ta là lm cách nào để có thể phân các thông
tin ra các lớp khác nhau. Với sự sắp đặt này, cái nào ở đâu cho thích hợp nhất
sẽ cho phép ta tìm được các đối tượng tương tự một cách dễ dàng. Nó cũng
cho phép chúng ta tìm kiếm một cách có hiệu quả nhất. Luận văn này tập
trung vào áp dụng một cách tiếp cận mới dựa vào kỹ thuật khai phá dựa đồ thị
để giải quyết vấn đề của sự phân loại. Trong phạm vi luận văn này chúng ta đề
cập đến sự phân loại văn bản mà cụ thể hơn là phân loại thư điện tử.
Phân loại văn bản là một lĩnh vực nghiên cứu nhằm phân loại tài liệu
theo các lớp được định nghĩa trước. Các lớp được định nghĩa dựa vào một tập
các tài liệu mẫu đÃ được phân loại, được sử dụng trong quá trình huấn luyện.
Các kỹ thuật học máy nhằm mục đích phân loại văn bản một cách tự động đÃ

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 20 -

được đưa ra như:
-

Support Vector Machines (SVM)

-

Decision Trees

-

k-Nearest-Neighbor

-

Phương pháp Bayesian

-

Neural networks

-

Fuzzy Set Approach

-

Rough Set Approach
Tất cả các cách tiếp cận phân loại văn bản đều rút những đặc tính đặc

trưng nhất từ những tài liệu mẫu để hình thành tập hợp huấn luyện cho lớp.
Các kỹ thuật này sẽ được trình bày chi tiết ở chương tiếp theo.
I.6. Phân loại thư điện tử:
Trong thời đại Internet, việc phân phối nhanh chóng các dữ liệu và
thông báo tin tức một cách nhanh chóng đến với mọi người có thể thực hiện
được bằng cách dùng thư điện tử. Thư điện tử có thể xem như một dạng tài
liệu đặc biệt và một vài thông tin liên quan tới nó như từ đâu tới (from), tới
đâu (to), chủ đề (subject), đồng kính gửi (cc), các tệp đính kèm
(attachments)... nhằm tạo điều kiện thuận lợi cho việc trao đổi thông tin giữa
các cá nhân cũng như giữa các nhóm. Nó là được xem như là một phương
pháp nhanh, hiệu quả với chi phÝ thÊp ®Ĩ cã thĨ trao ®ỉi víi nhiỊu người một
lúc. Chính điều này cũng là nguyên nhân gây khó khăn cho việc trao đổi bằng
thư điện tử. Đa số người dùng bị ngập chìm trong khối lượng thư điện tử
khổng lồ gửi đi và nhận được. Người dùng phải bỏ ra rất nhiều thời gian và
công sức để phân loại thư điện tử vào các thư mục tương ứng với chúng.
Các công cụ đưa ra dùng để quản lý thư điện tử, phân loại chúng để có
thể sử dụng sau này. Việc phân loại sai sẽ gây khó khăn rất nhiều cho việc sử
dụng sau này. Một khía cạnh trong việc quản lý thư điện tử là sẽ phân loại
chúng vào những thư mục thích hợp một cách tự động với mức độ chính xác

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên ®å thÞ

- Trang 21 -

có thể chấp nhận được.
Chắc chắn sự có mặt của một hệ thống tự động hoá phân loại sẽ làm
giảm bớt thời gian phân loại, tìm kiếm và phục hồi các thư điện tử khi cần
dùng tới chúng.
Nhìn chung, bất kỳ hệ thống quản lý thư điện tử nào đều cần có tính
năng phân loại để có thể quản lý các thư điện tử một cách có hiệu quả. Việc
chỉ số hoá (tương tự như trong thư viện) được sử dụng để phân loại thư điện tử.
Một từ hoặc một chỉ số sẽ được tạo ra để định vị các thư mục và các thư điện
tử. Từ đây người ta có thể quản lý một cách có hiệu quả các thư điện tử trong
thời đại internet. Phân loại thư điện tử có thể mang so sánh việc lËp danh mơc
c¸c qun s¸ch trong mét th viƯn. Mét quyển sách (thư điện tử) sẽ được đưa
vào một giá sách (thư mục) thích hợp. Nếu quyển sách (thư điện tử ) bị để
nhầm chỗ trong một giá sách sẽ gây khó khăn rất nhiều cho việc tìm kiếm nó
khi cần, thậm chí có thể không tìm được.
I.6.1. Các khó khăn, thách thức đặt ra:
Mặc dù phân loại thư điện tử có thể được xem như một trường đặc biệt
của phân loại văn bản, nhưng những đặc trưng của tài liệu thông thường và thư
điện tử khác nhau một cách đáng kể. Phân loại thư điện tử khó khăn hơn phân
loại văn bản thông thường bởi nó phải chú ý đến sự ưu tiên cá nhân. Các tiêu
chuẩn để sắp xếp các thư điện tử vào các lớp rất khác nhau. Hơn nữa, các tài
liệu thông thường có nội dung nhiều hơn so với thư điện tử. Chính vì những lý
do trên các phương pháp tiếp cận truyền thống nhằm phân loại văn bản không
thể thoả mÃn nhu cầu phân loại thư điện tử. Đó là chưa kể đến tập mẫu dùng
để học trong môi trường thư điện tử thì thay đổi liên tục nhằm thích ứng với
nhu cầu người dùng. Một vài sự khác nhau cơ bản sẽ được trình bày một cách

cụ thể hơn dưới đây:
- Phân loại thư điện tử thủ công dựa vào sự ưu tiên cá nhân nên các tiêu
chuẩn phân loại ở đây không đơn giản như phân loại văn bản thông thường.

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 22 -

Ví dụ, với những người dùng khác nhau có thể phân loại cùng một thư điện
tử vào các thư mục khác nhau dựa chính vào sự ưu tiên cá nhân của bản
thân họ. Với bất kỳ kỹ thuật phân loại nào cũng phải lưu ý đến sự khác biệt
này trong khi phân loại thư điện tử.
- Mỗi người dùng có ít nhất một hòm thư riêng biệt và nó luôn luôn biến đổi.
Trong khi các thư điện tử mới liên tục được thêm vào thì các thư cũ cũng bị
xoá đi. Lược đồ phân loại có khả năng thích ứng với sự thay đổi trên rất
quan trọng.
- Nội dung thông tin của các thư điện tử thay đổi một cách đáng kể và vài
yếu tố khác như người gửi, nhóm địa chỉ người nhận, chủ đề thư đóng một
vai trò quan trọng trong sự phân loại. Điều này trái ngược với tài liệu thông
thường có nội dung phong phú nên dễ nhận ra chủ đề hoặc lĩnh vực. Với thư
điện tử, chỉ riêng nội dung thư có thể không đủ để cung cấp thông tin phân
loại. Đó là chưa kể đến việc đa số các thư điện tử không sử dụng các từ
vựng cố định, tiêu chuẩn dẫn đến sự phân loại sẽ rất khó khăn.
- Các ®Ỉc trng cđa tõng líp cã thĨ thay ®ỉi rÊt nhiều hoặc rất ít một cách
tương đối. Một hệ thống phân loại cần thực hiện việc phân loại một cách
tương đối để người dùng có thể chấp nhận được mà lại không cần phải huấn
luyện nhiều.

- Các thư điện tử trong một lớp có thể không đồng nhất. Chúng có nội dung
khác nhau và không có nhiều từ chung hoặc cùng một đề tài. Chúng ta mô
tả đặc điểm của các lớp này trên một phạm vi từ đồng nhất cho đến hỗn tạp.
Một lớp có thể mất tính đồng nhất khi số lượng thư của nó quá nhiều làm
cho nó khó có một chủ đề trọng tâm.
- Các thư điện tử đặc trưng đại diện được phân loại vào trong những lớp con
bên trong một lớp. Sự khác nhau giữa các thư điện tử được phân ra các lớp
có thể thuần tuý theo ngữ nghĩa hoặc hướng theo chủ đề. Các lớp có thể
được tách ra để giữ được những đặc trưng đại diện của lớp hoặc khi số

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

- Trang 23 -

lượng thư trong lớp đó quá nhiều dẫn đến khó kiểm soát. Đôi khi các lớp
cũng được sát nhập lại.
Bất kỳ phương pháp tiếp cận phân loại thư điện tử nào cũng đều phải xử
lý các sắc thái này mà trong phân loại văn bản thông thường không có. Các kỹ
thuật phân loại văn bản có thể ứng dụng để phân loại thư điện tử nhưng cần
phải ®iỊu chØnh sao cho phï hỵp ®Ĩ thÝch nghi víi những sự khác nhau liệt kê
ở trên.
I.6.2. Trình bày quan điểm và phương pháp tiếp cận:
Hầu hết các kỹ thuật phân loại trước kia đều dựa trên các từ khoá hoặc
các từ thường xuyên xuất hiện mà không để ý đến tầm quan trọng của sự liên
quan giữa các từ.
Trong luận văn này chúng ta đưa ra một phương pháp tiếp cận mới sử
dụng kỹ thuật khai phá dựa đồ thị để phân loại thư điện tử. Phương pháp tiếp

cận dựa trên cơ sở các đại diện đặc trưng, đại diện. Các cấu trúc/các mẫu được
rút ra từ các thư điện tử đÃ được phân loại trước đó và sau đó có thể sử dụng để
phân loại một cách có hiệu quả các thư điện tử mới nhận được. Phương pháp
học có giám sát nhằm xác định các đặc trưng được sử dụng để phân loại các
thư mới. Các thư trong cïng mét líp cã mét sù phï hỵp víi nhau và sự giống
nhau giữa chúng cung cấp khả năng để có thể phân biệt giữa lớp này với lớp.
Đồng thêi, ngêi dïng tù tỉ chøc c¸c th mơc (líp) chứa thư điện tử dựa vào
nội dung theo yêu cầu của bản thân họ, thể hiện sự ưu tiên cá nhân (để tạo ra
các thư mục và các thư mục con trong các thư mục đó).
Phương pháp tiếp cận của chúng ta là căn cứ vào các thư trong các thư
mục để phân loại dựa kỹ thuật khai phá dựa đồ thị. Khái niệm đồ thị tương đối
cũng được đưa ra (hoặc sự so sánh đồ thị đồng hình) để có thể nhóm lại các
các thư điện tử có cấu trúc tương tự thay vì so sánh một cách chính xác tuyệt
đối.
Tóm tại, phương pháp tiếp cận của chúng ta sử dụng một lớp thư điện tử

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên ®å thÞ

- Trang 24 -

để xác định mẫu đại diện và thường xuyên xuất hiện nhằm xây dựng đồ thị
tương đối với một ngưỡng giá trị xác định. Khi ta nhận được một thư điện tử
mới nó sẽ được đưa vào folder có các thư mẫu phù hợp nhất với nó.
Trong cách tiếp cận của chúng ta, khái niệm phù hợp của đồ thị tương
đối được sử dụng để đưa ra những cấu trúc mô tả đặc điểm của lớp thư điện tử.
Một vài các tham số khác cũng được xác định như tần xuất xuất hiện mẫu đại
diện, kích thước trung bình của thư điện tử ...

Điểm quan tâm chính của luận văn này là cách tiếp cận mới trong kỹ
thuật khai phá dữ liệu. Mặc dù kỹ thuật khai phá dữ liệu đÃ được biết đến từ
lâu nhưng việc áp dụng phương pháp đồ thị trong khai phá dữ liệu thì khá là
mới mẻ. Phương pháp tiếp cận mới này sẽ được áp dụng để phân loại thư điện
tử.

Hoàng Trọng Vinh

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

Phân loại thư điện tử bằng kỹ thuật khai phá dựa trên đồ thị

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về