tiếp cận đô thị biểu diễn, khai thác văn bản và ứng dụng bản tóm tắt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.15 MB, 28 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN


NGUYỄN HOÀNG TÚ ANH

TIẾP CẬN ĐỒ THỊ
BIỂU DIỄN, KHAI THÁC VĂN BẢN VÀ ỨNG DỤNG

Chuyên ngành: Đảm bảo toán học cho máy tính và hệ
thống tính tốn
Mã số chun ngành: 1.01.10

TĨM TẮT LUẬN ÁN TIẾN SĨ TỐN HỌC

Tp. Hồ Chí Minh, năm 2011

Cơng trình được hồn thành tại: Khoa Cơng Nghệ Thơng Tin, Trường Đại Học
Khoa Học Tự Nhiên.

Người hướng dẫn khoa học: GS.TSKH. Hoàng Văn Kiếm

Phản biện 1: GS.TS. Nguyễn Thanh Thủy
Phản biện 2: PGS.TS. Đinh Điền
Phản biện 3: TS. Nguyễn Đức Cường
Phản biện độc lập 1: PGS.TSKH. Nguyễn Xuân Huy
Phản biện độc lập 2: TS. Quản Thành Thơ
Phản biện độc lập 3: PGS.TS. Nguyễn Kim Anh

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại

Trường Đại Học Khoa Học Tự Nhiên
vào hồi ……… giờ………ngày………tháng………năm 2011

Có thể tìm hiểu luận án tại thư viện:
-

Thư viện Khoa học Tổng hợp Tp.HCM

-

Thư viện Trường Đại học Khoa học Tự Nhiên

1. Mở đầu
Dẫn nhập
Trong những năm gần đây, lĩnh vực Khám phá tri thức trong cơ sở dữ liệu (Knowledge
Discovery in Databases – KDD) hay còn được gọi là Khai thác dữ liệu (Data mining) đã ra
1.1

đời và phát triển nhanh chóng.
Theo đánh giá của cơng ty Oracle [28], hiện có đến 80% dữ liệu trên thế giới là dữ liệu
văn bản, vì vậy khai thác dữ liệu văn bản là vấn đề quan trọng, đầy thử thách và cần được đầu
tư nghiên cứu. Đặc điểm của dữ liệu văn bản là thường khơng có cấu trúc hoặc bán cấu trúc,
cơ sở dữ liệu rất lớn, đa chiều và hay bị nhiễu. Ngoài ra đối với dữ liệu văn bản chúng ta còn
phải đối mặt với vấn đề nhập nhằng ở nhiều cấp độ (cấp độ về từ, ngữ, câu), ở nhiều khía
cạnh (hình thái, ngữ pháp, ngữ nghĩa).
Luận án này nghiên cứu khai thác dữ liệu văn bản, hay còn gọi là khai thác văn bản. Khai
thác văn bản là “sự tìm kiếm thơng tin mới, chưa biết bằng cách dùng máy tính rút trích tự
động tri thức từ nhiều nguồn văn bản khác nhau”[18]. Các bài tốn chính của khai thác văn
bản là phân loại, gom cụm văn bản, rút trích thơng tin và tóm tắt tài liệu. Mặc dù đã có nhiều

tiến bộ trong nghiên cứu khai thác văn bản nhưng vẫn còn khoảng cách khá xa giữa nhu cầu
ứng dụng và các kết quả đạt được. Luận án tập trung nghiên cứu, phát triển các kỹ thuật khai
thác dữ liệu hiện có, cũng như những kỹ thuật phân tích dữ liệu văn bản nhằm tích hợp chúng
và tăng cường hiệu quả giải quyết bài toán khai thác dữ liệu văn bản.
Mục tiêu và đóng góp của luận án
Mơ hình khơng gian vectơ [29] là một phương pháp biểu diễn văn bản phổ biến. Mơ hình
khơng gian vectơ biểu diễn văn bản như một vectơ đặc trưng của các thuật ngữ (từ) xuất hiện
trong toàn bộ tập văn bản. Tuy nhiên, phương pháp này không lưu trữ được các thông tin cấu
trúc quan trọng như trật tự xuất hiện của các từ, vùng lân cận, vị trí xuất hiện của từ trong văn
bản. Những năm gần đây, mơ hình biểu diễn văn bản bằng đồ thị (trong luận án này gọi tắt là
mơ hình đồ thị) được đề xuất và sử dụng riêng lẻ trong các bài toán khác nhau của khai thác
văn bản và cho kết quả tốt vì tận dụng được các thơng tin quan trọng về cấu trúc mà biểu diễn
vectơ đã bỏ qua.
Bên cạnh đó, mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng có đặc
tính chung với các ngôn ngữ châu Á đơn lập khác (tiếng Hoa, Lào, Thái) như khó xác định
ranh giới giữa các từ và có các điểm khác biệt về ngữ âm, ngữ pháp so với tiếng Anh. Việc
xác định ranh giới từ trong tiếng Việt là bài tốn khó [12]. Do đó, khó có thể áp dụng các kỹ
thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên tiếng Anh cho
tiếng Việt nếu không xây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt
hoặc sử dụng mơ hình biểu diễn có thể hạn chế được ảnh hưởng của bài toán tách từ.
1.2

Phần lớn các nghiên cứu về khai thác văn bản tiếng Việt [1], [2], [3], [4], [5], [6], [11],
[12], [19], [27] sử dụng mơ hình khơng gian vectơ biểu diễn văn bản và địi hỏi cơng cụ tách
1

từ tốt. Ngồi ra, mơ hình khơng gian vectơ khơng quan tâm đến trật tự của từ trong câu trong
khi đối với tiếng Việt, trật từ của từ rất quan trọng.
Mục tiêu của luận án là nghiên cứu, hệ thống hóa và phân tích khả năng ứng dụng của mơ

hình đồ thị vào biểu diễn và khai thác văn bản. Luận án nghiên cứu, phát triển các kỹ thuật
khai thác dữ liệu đã có để áp dụng hiệu quả trên đồ thị biểu diễn văn bản. Luận án nghiên cứu,
phát triển qui trình khai thác văn bản sử dụng tiếp cận đồ thị nhằm giải quyết một số bài toán:
phân loại, gom cụm tập văn bản có biến động và tóm tắt văn bản.
1.3

Các đóng góp chính của luận án
1. Hệ thống hóa, phân tích khả năng ứng dụng của từng loại mơ hình đồ thị và lựa chọn
mơ hình biểu diễn đồ thị phù hợp cho các nhiệm vụ khai thác văn bản.
2. Cải tiến thuật toán gSpan khai thác đồ thị con phổ biến cho tập đồ thị có hướng.
3. Cải tiến kỹ thuật trộn cụm của thuật tốn gom cụm động Incremental DBSCAN.
4. Đề xuất qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ thuật khai thác đồ
thị con phổ biến cải tiến.
5. Đề xuất qui trình gom cụm tập văn bản có biến động sử dụng đồ thị biểu diễn văn bản
kết hợp kỹ thuật chọn lựa động đặc trưng và thuật tốn Incremental DBSCAN cải tiến.
6. Đề xuất mơ hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ thị kết hợp kỹ thuật
xếp hạng đỉnh.
7. Tiến hành thử nghiệm khai thác văn bản tiếng Việt dựa trên tiếp cận đồ thị theo mơ
hình đề xuất.

2. Mơ hình biểu diễn văn bản bằng đồ thị
Giới thiệu
Mơ hình đồ thị biểu diễn văn bản, cụ thể là mơ hình đồ thị khái niệm, được John F. Sowa
trình bày vào năm 1976 [33]. Hiện nay, mơ hình đồ thị khơng ngừng phát triển và ứng dụng
vào dãy rộng các bài toán liên quan đến xử lý văn bản và trở nên khá phong phú. Luận án
trình bày những đặc tính khái qt của mơ hình đồ thị biểu diễn văn bản.
Mỗi đồ thị là một văn bản hoặc biểu diễn cho tập văn bản. Đỉnh của đồ thị có thể là câu,
2.1

hoặc từ, hoặc kết hợp các thành phần khác nhau của văn bản (ví dụ như câu và từ). Cạnh nối

giữa các đỉnh là vơ hướng hoặc có hướng, thể hiện mối quan hệ trong đồ thị. Nhãn đỉnh
thường là tần suất xuất hiện của đỉnh. Còn nhãn cạnh là tên mối liên kết khái niệm giữa hai
đỉnh, hay tần suất xuất hiện chung của hai đỉnh trong một phạm vi nào đó, hay tên vùng mà
đỉnh xuất hiện. Do thông tin cấu trúc quan trọng của văn bản thể hiện ở trật tự xuất hiện của
từ, vùng lân cận của từ, cũng như vị trí xuất hiện của từ trong văn bản nên mơ hình đồ thị sử
dụng đỉnh là từ được nghiên cứu sâu hơn và có nhiều biến thể nhất. Mơ hình đồ thị đơn giản
Phân loại các mơ hình đồ thị [CT4]
Luận án đã hệ thống các mơ hình đồ thị chính và phân loại dựa trên loại đỉnh mà đồ thị sử
dụng thành các nhóm: nhóm mơ hình sử dụng đỉnh là từ, nhóm sử dụng đỉnh là câu, nhóm sử
2.2

2

dụng đỉnh là các thành phần khác nhau trong văn bản. Bảng 2.1 so sánh những đặc trưng
chính và lĩnh vực ứng dụng cơ bản của các mơ hình đồ thị.
 Nhóm mơ hình đồ thị sử dụng đỉnh là từ trong văn bản (gồm các đồ thị ký hiệu từ số 1
→ 10 trong Bảng 2.1).
 Mơ hình đồ thị sử dụng mạng ngữ nghĩa (mơ hình số 1, 2, 3). Ưu điểm của nhóm
mơ hình này là mơ hình hố văn bản một cách trực quan, logic, thể hiện được quan
hệ ngữ nghĩa giữa các khái niệm và cho kết quả truy vấn thơng tin chính xác hơn.
 Mơ hình đồ thị khơng sử dụng mạng ngữ nghĩa (mơ hình số 4 → 10). Nhóm mơ
hình này khai thác được các thông tin cấu trúc của văn bản (thứ tự xuất hiện, vị trí,
vùng lận cận của từ trong văn bản) nhanh chóng, đơn giản và khơng phụ thuộc vào
mạng ngữ nghĩa nên dễ dàng cài đặt các ứng dụng phân lớp, gom cụm.
 Nhóm mơ hình đồ thị sử dụng đỉnh là câu (mơ hình số 11 trong Bảng 2.1). Thế mạnh
của mơ hình này là khả năng lưu trữ mối liên kết giữa các câu, thứ tự xuất hiện câu và
hỗ trợ tốt cho quá trình trích chọn câu quan trọng của văn bản và tạo bản tóm tắt bằng
tiếp cận khơng giám sát.
 Mơ hình đồ thị sử dụng đỉnh là các thành phần khác nhau trong văn bản (mơ hình

lưỡng phần trong Bảng 2.1). Mơ hình này tận dụng được mối liên quan giữa từ với
câu, cũng như sự đồng hiện của từ trong câu nhằm tăng hiệu quả của bài tốn rút trích
thơng tin văn bản. Mơ hình lưỡng phần với đỉnh là câu và từ có thể thay đổi đỉnh là
đoạn trong văn bản hay văn bản trong tập văn bản và nhóm từ thay cho từ. Trong mơ
hình đồ thị lưỡng phần, trật tự xuất hiện của các thành phần trong văn bản không được
quan tâm.
Bảng 2.1. So sánh các mô hình biểu diễn văn bản bằng đồ thị [CT4]
Mơ Tên riêng của
hình
mơ hình

Đỉnh

Cạnh

Ý Số loại
Nhãn
nghĩa đỉnh

1

Đồ thị khái
Từ
niệm _ CGs

2

2

Đồ thị CGs cải

Từ
tiến vô hướng

3

Đồ thị khái
Từ
niệm cải tiến

4

Từ /
Đồ thị hình sao cấu
trúc

5

Đồ thị tần số
Từ
vơ hướng

Ý nghĩa

Hướng

Nhãn

Lĩnh vực
ứng dụng
Truy vấn

thơng tin,
thiết kế
CSDL
Tìm kiếm
thơng tin
trên Web
Gom cụm
văn bản

Khơng

Liên kết khái
niệm

Có

Khơng

1

Khơng

Liên kết khái
niệm

Khơng

Khơng

1

Khơng

Liên kết khái
niệm

Có

Có (cấu trúc
ngữ pháp)

Liên kết từ và
đỉnh cấu trúc
trung tâm

Khơng

Có (vị trí từ
trong cấu trúc
văn bản)

Phân loại
email

Khơng

Có (tần suất
xuất hiện
chung)

Tìm kiếm
thơng tin
trên Web

1

1

Có (tần
suất
xuất
hiện)
Có (tần
suất
xuất
hiện)

Liên kết từ
xuất
hiện
chung trong
cấu trúc
3

Mơ Tên riêng của
hình
mơ hình
6

Đồ thị
giản

7

đơn

Đỉnh

Cạnh

Ý Số loại
Nhãn
nghĩa đỉnh
Từ

1

Có
(tên từ)

Đồ thị khoảng
cách n đơn
giản

Từ

1

Khơng

8

Đồ thị khoảng
cách n

Từ

1

Khơng

9

Đồ thị dạng
Từ
chuẩn

1

Có
(tên từ)

10

Đồ thị tần số

11

Đồ thị đỉnh là

Câu
câu

1

12

Đồ thị lưỡng
Câu, từ
phần

2

Từ

1

Có (tần
suất
xuất
hiện )
Có
(trọng
số đỉnh)
Khơng

Ý nghĩa

Lĩnh vực
ứng dụng

Hướng

Nhãn

Có

Khơng

Phân lớp,
gom cụm

Có

Khơng

Phân lớp
văn bản

Có

Có (số từ giữa a
và b + 1)

Phân lớp
văn bản

Có

Có (vị trí từ

trong cấu trúc
văn bản)

Phân lớp,
gom cụm
văn bản

Từ a xuất hiện
ngay trước từ
b

Có

Có (tần suất 2
từ xuất hiện
liên tiếp)

Phân lớp
văn bản

Liên kết hai
câu có từ
chung

Có/
Khơng

Từ xuất hiện
trong câu

Khơng

Từ a xuất hiện
ngay trước từ
b
Giữa từ a
trước từ b có
ít hơn n từ
Giữa từ a
trước từ b có
ít hơn n từ
Từ a xuất hiện
ngay trước từ
b

Có (Độ tương Tóm tắt văn
tự giữa 2 câu)
bản
Có (tần suất
xuất hiện của từ
trong câu)

Rút trích
thơng tin,
gom cụm

3. Phân loại văn bản dựa trên tiếp cận đồ thị
Phân loại văn bản là quá trình gán văn bản vào một hoặc nhiều chủ đề đã xác định trước.
Rất nhiều phương pháp phân loại như Naïve Bayes, cây quyết định, k-láng giềng gần nhất (kNN), mạng nơron, máy vectơ hỗ trợ (SVM) đã áp dụng vào bài toán loại văn bản [32]. Trong
số đó thì cả hai phương pháp SVM và k-NN đều cho kết quả tốt khi phân loại văn bản tiếng

Anh [37]. Các phương pháp này đều sử dụng mơ hình khơng gian vectơ [29] khi biểu diễn
văn bản.
Luận án đề xuất qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ thuật khai thác
đồ thị. Các văn bản được biểu diễn dưới dạng đồ thị đơn giản. Kỹ thuật khai thác đồ thị con
phổ biến gSpan cải tiến khai thác những đồ thị có hướng biểu diễn văn bản thuộc cùng một
lớp đề nhằm phát hiện các mẫu đại diện. Sau đó, xây dựng vectơ lớp dựa trên tập mẫu phổ
biến hay tập đồ thị con phổ biến. Văn bản mới sẽ được biểu diễn bằng đồ thị và chuyển thành
vectơ nhị phân với các chiều của vectơ là đồ thị con phổ biến của chủ đề. Độ đo tương tự
Dice xác định khoảng cách gần nhất giữa văn bản mới và các vectơ chủ đề. Qui trình phân
loại này có thể áp dụng cho một số ngơn ngữ.
3.1

Qui trình phân loại văn bản dựa trên kỹ thuật khai thác đồ thị
Hình 3.1 là sơ đồ giai đoạn huấn luyện hệ thống và Hình 3.2 là giai đoạn phân loại văn

bản nói chung và email nói riêng.

4

Tập văn
bản
huấn
luyện

Tiền xử lý văn
bản

Mơ hình hóa
văn bản thành

đồ thị

Rút trích đặc
trưng đồ thị từ
các lớp

Tập vectơ đại diện lớp
R1=(1,0,1,…1)
R2=(1,1,0,…0)
…
Rm=(0,0,1,…1)

Xây dựng tập
vectơ đại diện
lớp

Tổng hợp tập
đặc trưng - đồ
thị con phổ biến

Văn bản
mới

Lớp của văn
bản mới

Hình 3.1. Sơ đồ giai đoạn huấn luyện

Mơ hình hóa
văn bản thành

đồ thị

Bộ phân loại

Tập vectơ đại diện lớp
R1=(1,0,1,…1)
R2=(1,1,0,…0)
…
Rm=(0,0,1,…1)

Hình 3.2. Sơ đồ giai đoạn phân loại

3.1.1 Tiền xử lý văn bản
Trước khi loại bỏ các hư từ, ta cần thực hiện tách câu. Sau đó, hệ thống tính tần suất xuất
hiện của các “thuật ngữ” trong tập văn bản („thuật ngữ” có thể là từ, tiếng, hay cụm từ tùy
theo kiểu đồ thị biểu diễn văn bản). Để giảm kích thước của đồ thị và thời gian tính tốn đồ
thị con phổ biến, chỉ f% số “thuật ngữ” có tần suất xuất hiện cao nhất được giữ lại. Luận án
thống kê tần suất xuất hiện và tính trọng số của “thuật ngữ” theo phương pháp TF×IDF [29].
3.1.2 Mơ hình hóa văn bản thành đồ thị
Các kết quả nghiên cứu trong [31] cho thấy mơ hình đồ thị đơn giản và mơ hình đồ thị
dạng chuẩn là hai loại mơ hình cho độ chính xác phân lớp tốt nhất trên các bộ dữ liệu văn bản
web. Sự khác biệt giữa hai mơ hình này là mơ hình dạng chuẩn đưa thêm giá trị nhãn cạnh là
vị trí của từ trong văn bản (như “nhan đề”, “liên kết”, “nội dung”, ...) vào đồ thị so với đồ thị
đơn giản. Khi áp dụng cho văn bản nói chung thì khơng phải lúc nào ta cũng xác định được
nhãn “nhan đề”, “liên kết”, hay “nội dung” như trên văn bản web nên luận án sử dụng mơ
hình đồ thị đơn giản để biểu diễn văn bản. Trong mơ hình này, mỗi văn bản là một đồ thị.
Đỉnh biểu diễn “thuật ngữ” trong văn bản. Các đỉnh được gán nhãn duy nhất là tên của “thuật
ngữ”. Sau bước tiền xử lý văn bản, nếu thuật ngữ a đứng ngay trước thuật ngữ b thì sẽ tồn tại
cạnh có hướng nối từ đỉnh a đến đỉnh b (không kể các trường hợp phân cách bởi dấu câu).
3.1.3 Rút trích đặc trưng đồ thị

Mục đích của q trình này là xác định các đặc trưng (đồ thị con) liên quan đến việc phân
loại để giảm độ phức tạp tính tốn và cũng là nội dung chính của bài tốn khai thác đồ thị con
phổ biến - một bài toán quan trọng trong lĩnh vực khai thác đồ thị. Đồ thị con phổ biến là đồ
thị có tần suất xuất hiện trong tập đồ thị nhiều hơn một ngưỡng cho trước. Chỉ có những đồ
thị con xuất hiện ít nhất minSup% trong các đồ thị mới được dùng để xác định đặc trưng.
Trong các phương pháp tìm đồ thị con phổ biến trên tập dữ liệu đồ thị, gSpan là thuật toán
nhanh, cho kết quả ổn định [35]. Bên cạnh đó, trong khi phần lớn các thuật tốn tìm đồ thị con
phổ biến khác khó có thể cải tiến cho tập đồ thị có hướng thì gSpan có thể cải tiến để áp dụng
cho tập đồ thị có hướng. Chính vì vậy luận án lựa chọn gSpan và thực hiện một số cải tiến để
có thể áp dụng gSpan lên tập đồ thị có hướng.
5

Thuật toán gSpan (graph-based Substructure pattern) [36] là thuật toán khai thác đồ thị
con phổ biến theo chiều sâu. Thuật tốn ánh xạ mỗi mẫu vào nhãn chính tắc duy nhất và gán
mỗi đồ thị một mã DFS (Depth-first search) tối tiểu. Mã DFS là thứ tự duyệt các cạnh của đồ
thị theo chiều sâu hay là chuỗi các cạnh DFS. Dựa trên các nhãn này, quan hệ thứ tự đầy đủ
giữa các mẫu được tạo lập. Thứ tự từ điển này cũng được dùng trong việc thiết lập cây tìm
kiếm phân cấp (gọi là cây DFS). Trong quá trình duyệt cây theo chiều sâu, thuật toán gSpan
chỉ mở rộng ứng viên trên các đỉnh hay nhánh nằm bên phải nhất của cây DFS.
Cải tiến gSpan cho đồ thị có hướng
Do đồ thị biểu diễn văn bản là đồ thị có hướng, luận án thực hiện một số cải tiến để có thể
áp dụng gSpan lên tập đồ thị có hướng. Đầu tiên, luận án thêm giá trị hướng vào trong mã
DFS. Nhờ vào thứ tự của các đỉnh trong biểu diễn mã DFS mà ta có thể mã hóa thêm hướng
của cạnh một cách chính xác, khơng bị nhập nhằng.
Bên cạnh đó, đồ thị biểu diễn văn bản khơng có
nhãn cạnh nên mã DFS sẽ biểu diễn cạnh DFS
dưới dạng: (i, j, li, lj, d(i,j)) với li, lj là nhãn đỉnh vi và
vj tương ứng, d(i,j) xác định hướng cạnh giữa hai

v0
A

v4

v1

B
v2

đỉnh. Luận án gán d(i,j) = nếu cạnh có hướng từ
vi sang vj và d(i,j) =  nếu ngược lại. Chẳng hạn ta
có đồ thị s có hướng như trong Hình 3.4, khi đó
một mã DFS cho đồ thị này được mô tả bên cạnh.

Mã DFS:
(0, 1, A, B, )
(1, 2, B, D, )
(2, 3, D, E, )
(2, 4, D, C, )

C

D
v3
E

Hình 3.4. Ví dụ mã DFS cho đồ thị có
hướng s

Khi thêm giá trị hướng vào trong mã DFS, ngoài thứ tự từ điển  L giữa các nhãn đỉnh,
luận án bổ sung thứ tự từ điển  D cho mã DFS để có thể xác định thứ tự giữa các mã DFS và
từ đó tìm mã DFS tối tiểu. Luận án định nghĩa thứ tự từ điển  D giữa các hướng cạnh d(i j)
như sau: d(i j) =  có thứ tự tự điển nhỏ hơn d(i j) = . Dưới đây là định nghĩa mới của thứ tự
từ điển trên mã DFS.
Định nghĩa 3.1. Thứ tự từ điển trên mã DFS
Nếu α = (a0, a1, …, am) và β = (b0, b1, …, bn) là hai mã DFS. Giả sử tập cạnh tiến và tập
cạnh lùi của α và β tương ứng là Eα,f, Eα,b, Eβ,f và Eβ,b. Đặt at  (i , j , li , l j , d (i , j ) ) và
bt  (i , j , li , l j , d (i , j ) ) là cạnh DFS thứ t trong mã DFS α và β tương ứng. Khi đó    khi










và chỉ khi một trong những điều kiện sau là chính xác.
(i)  t, 0  t  min(m, n), sao cho ak = bk với k < t và at  e bt
(at  e bt khi một trong những điều kiện dưới đây xảy ra:
1) at  E ,b và bt  E , f
2) at  E ,b , bt  E ,b và j  j
3) at  E ,b , bt  E ,b , j  j và d (i , j )  D d (i , j )
4) at  E , f , bt  E , f và i  i
5) at  E , f , bt  E , f , i  i và

li  li

6







6)

at  E , f , bt  E , f , i  i , li  li và l j  L l j

7) at  E , f , bt  E , f , i  i , li  li , l j  l j và d (i , j )  D d (i , j ) )
(ii)
ak  bk với 0  t  m và n ≥ m.
Với định nghĩa thứ tự từ điển này, luận án có thể điều chỉnh chính xác bước kiểm tra mã
DFS tối tiểu. Một điều cần lưu ý nữa khi tạo đồ thị con của s bằng việc phát triển thêm một
đỉnh hay một nhánh bên phải nhất từ s (s là một mã DFS hoặc là một đỉnh trong cây DFS).
Việc thêm giá trị hướng cạnh sẽ tạo nên ít nhất hai cạnh giữa hai đỉnh: mỗi cạnh cho một
hướng. Như vậy, luận án cần kiểm tra các cạnh này giữa hai đỉnh thay vì chỉ kiểm tra một
cạnh như trước đây khi tìm đồ thị con phù hợp. Các phần còn lại của thuật tốn gSpan ngun
thủy khơng thay đổi khi cải tiến cho tập đồ thị có hướng. Do gSpan sử dụng phương pháp tìm
kiếm theo chiều sâu và khơng sử dụng danh sách lưu trữ đồ thị con phổ biến nên không cần
dùng nhiều bộ nhớ. Độ phức tạp về thời gian của gSpan cải tiến là O(FS + rF) với F là số đồ
thị con phổ biến, S là kích thước tập dữ liệu và r là số mã trùng lắp tối đa của một đồ thị con
phổ biến được phát triển từ mã tối tiểu.
Với tiếp cận biểu diễn văn bản thành đồ thị mà mỗi đỉnh được gán nhãn duy nhất và cạnh
có hướng thì độ phức tạp của bài toán xác đỉnh đẳng cấu đồ thị con giảm xuống còn O(n2) (n số cạnh của đồ thị). Từ tập các đồ thị con phổ biến thu được từ tất cả các lớp, xây dựng tập
các đặc trưng – tập đồ thị con phổ biến. Đây là đầu vào cho bước xây dựng vectơ đại diện lớp

tiếp theo.
3.1.4 Xây dựng vectơ đại diện lớp
Với mục tiêu thực hiện giai đoạn phân loại thuận tiện, các vectơ nhị phân đại diện cho
từng lớp được xây dựng. Mỗi lớp cho trước được biểu diễn thành một vectơ đặc trưng có số
chiều bằng kích thước tập đồ thị con phổ biến. Đặc trưng nhận giá trị 1 nếu đồ thị con phổ
biến tương ứng xuất hiện trong tập đồ thị con phổ biến của lớp và ngược lại sẽ nhận giá trị 0.
Để tiện cho việc trình bày các cơng thức, luận án sử dụng các ký hiệu sau.
Tập văn bản huấn luyện ký hiệu là D = {d1, d2, …, dn} có gán nhãn lớp và tập các lớp C =
{ C1, C2, …, Cm}. Tập đồ thị G = {G1, G2, …, Gn} tương ứng với các văn bản thuộc tập D sau
bước mơ hình hố văn bản. Tập đồ thị con phổ biến (đặc trưng) ký hiệu là F = {f1, f2, …, fk}.
Vectơ đại diện cho mỗi lớp Ci; 1 ≤ i ≤ m ký hiệu là Ri = (Ri1, Ri2, …, Rik). Khi đó, vectơ Ri đại
diện cho mỗi lớp Ci; 1 ≤ i ≤ m có k chiều (ứng với số đặc trưng trong tập F) được tính với giá
trị Rij =1 nếu đặc trưng fj  F là một trong các đồ thị con phổ biến tìm được từ tập đồ thị biểu
diễn văn bản thuộc lớp Ci và ngược lại.
3.1.5 Bộ phân loại
Lớp của văn bản mới X được xác định như sau. Đầu tiên, luận án sử dụng tập các “thuật
ngữ” đã lựa chọn trong quá trình huấn luyện để xây dựng đồ thị g biểu diễn cho X. Sau đó xây
dựng vectơ nhị phân v0 có số chiều tương ứng với k đặc trưng của tập F. Giá trị của từng
thành phần trong vectơ v0 thể hiện sự tồn tại hay không của các đặc trưng fi  F trong đồ thị g.
7

Tiếp theo, luận án tính tốn sự tương tự giữa vectơ v0 với tất cả m vectơ đại diện cho các lớp.
Luận án sử dụng độ đo Dice – độ đo sử dụng phổ biến, hiệu quả trong việc xác định độ tương
tự giữa các vectơ nhị phân. Độ đo Manhattan được cài đặt để so sánh kết quả phân loại với độ
đo Dice. Cuối cùng, dựa trên các độ tương tự Dice ta gán văn bản mới vào lớp cho giá trị Dice
lớn nhất. Còn nếu sử dụng độ đo Manhattan thì lớp có giá trị Manhattan nhỏ nhất được chọn
làm lớp cho văn bản mới.
3.2

Kết quả thử nghiệm
3.2.1 Thử nghiệm trên tập dữ liệu email tiếng Anh
Tập dữ liệu Enron gồm 619.446 email của 158 người và trung bình mỗi người dùng có

khoảng 0.5 MB dữ liệu email. Luận án thực hiện các bước làm sạch, tiền xử lý và tổ chức lại
dữ liệu trước khi đưa vào quá trình huấn luyện. Khi thử nghiệm, luận án dùng phương pháp
đánh giá chéo để xác định độ chính xác phân loại trung bình.
Đánh giá độ chính xác phân loại theo thư mục
Luận án thống kê thư mục có cùng một kích thước. Với từng loại thư mục, độ chính xác
phân loại bằng tổng số email phân loại đúng chia cho tổng số email phân loại. Luận án chia
các thư mục của Enron thành 6 loại với kích thước: nhỏ hơn 35 email, từ 36 đến 75 email, từ
76 đến 165 email, từ 166 đến 255 email, từ 255 đến 475 email và trên 476 email. Trong Bảng
3.2 là mô tả các hệ thống phân loại email đã được cài đặt và thử nghiệm. Hệ thống eClass là


cải tiến của eMailSift [8] với việc xây dựng vectơ đại diện thư mục (tương tự qui trình đã mơ
tả trong mục 3.1.4) và thực hiện phân loại email với độ đo tương tự Dice. Hệ thống eTCG là
ký hiệu cho hệ thống triển khai qui trình phân loại dựa trên kỹ thuật khai thác đồ thị mà luận
án đã đề xuất trong mục 3.1.
Bảng 3.2. Mô tả các hệ thống thử nghiệm
Hệ thống

Mơ hình biểu diễn văn bản

eMailSift

Mơ hình đồ thị hình sao

eClass

Mơ hình đồ thị hình sao

eTCG

Mơ hình đồ thị đơn giản

Mơ tả phương pháp

Dùng Subdue tìm đồ thị con đại diện, phân loại bằng cách so
khớp với đồ thị con đại diện có thứ hạng cao nhất.
Dùng Subdue tìm đồ thị con phổ biến, xây dựng vectơ nhị
phân đại diện thư mục, phân loại bằng độ đo tương tự Dice.
gSpan cải tiến khai thác đồ thị có hướng, độ đo tương tự
Dice, đỉnh đồ thị tạo từ đơn vị “từ”

Biểu đồ trong hình 3.7 cho thấy kết quả phân loại theo thư mục của eClass nhỉnh hơn
phương pháp so khớp theo thứ hạng của eMailSift. Đó là do thay vì chỉ xác định sự trùng
khớp với đồ thị con đại diện có thứ hạng cao nhất (trong eMailSift) thì eClass tính độ phủ của
thư mục theo độ đo Dice so với email mới nên khắc phục được nhược điểm khó xác định
chính xác thư mục đích khi email mới trùng khớp với nhiều đồ thị con đại diện của các thư
mục. Như vậy với việc cải tiến eMailsft bằng độ đo tương tự Dice (trong eClass), chất lượng
phân loại đã tăng lên.
Trong Hình 3.8 là biểu đồ so sánh kết quả phân loại theo thư mục giữa eClass và eTCG.
Hệ thống eTCG cho kết quả phân loại tốt hơn eClass ở phần lớn các loại kích thước thư mục,
8

đặc biệt khi kích thước thư mục tăng lên. Điều này chứng tỏ mơ hình biểu diễn đồ thị đơn
giản phù hợp cho việc biểu diễn văn bản trong bài tốn phân loại văn bản.
So sánh eClass với eMailSift

90
80

Độ chính xác

70
60
50

eMailSift

40

eClass

30
20
10
0

Kích thước thư mục

Hình 3.8. Kết quả phân loại theo thư mục của
eTCG và eClass

Hình 3.7. Kết quả phân loại theo thư mục của
eClass và eMailSift [CT10]

So sánh độ chính xác phân loại theo người dùng với Naïve Bayes
Phương pháp phân loại Nạve Bayes dự đốn thư mục cho email mới dựa trên biểu diễn

vectơ. Kết quả trên biểu đồ hình 3.9 cho thấy độ chính xác phân loại khá khác biệt tùy theo
người dùng trong cả ba hệ thống. Dựa trên kết quả phân loại, chúng ta thấy eClass và eTCG
phân loại tương đối tốt với người dùng có nhiều thư mục và nội dung thư mục không đồng
nhất, cũng như khá tốt đối với các thư mục thưa.


gấp rưỡi so với thuật toán
Sudue nên hiệu quả phân loại
của eTCG tốt hơn nhiều.

Naive Bayes

eClass

eTCG

Người dùng

Nói chung, eTCG cho kết
quả phân loại tốt hơn cả. Điều
này càng chứng minh phương
pháp biểu diễn bằng đồ thị đơn
giản cho kết quả phân loại tốt
hơn biểu diễn theo đồ thị hình
sao. Bên cạnh đó, tốc độ xử lý
của gSpan cải tiến nhanh hơn

0

20

40

60

80

100

Độ chính xác

Hình 3.9. Độ chính xác phân loại theo người dùng [CT10]

Thời gian huấn luyện trung bình của eTCG là 3.5 x 10-3 giây/ email và thời gian thực hiện
phân lớp tính từ thời điểm tiền xử lý email mới cho đến khi phân lớp hồn tất trung bình là 2.9
x 10-3 giây/email (trên máy tính Intel Core Duo 2.56Ghz, 2GB RAM). Từ các kết quả thử
nghiệm, có thể nhận thấy qui trình phân loại đề xuất dựa trên biểu diễn bằng đồ thị đơn giản
và kỹ thuật khai thác đồ thị phổ biến có thể áp dụng hiệu quả trên dữ liệu email.
3.2.1 Thử nghiệm trên tập dữ liệu tiếng Việt
Những nghiên cứu gần đây trong lĩnh vực phân loại văn bản tiếng Việt thường sử dụng
mơ hình biểu diễn văn bản là mơ hình túi từ hoặc mơ hình khơng gian vectơ [2], [19], [27]. Độ
9

chính xác phân lớp văn bản tiếng Việt phụ thuộc vào bộ dữ liệu, cơng cụ tách từ và có thể đạt
từ 48% cho đến 98% tùy theo phương pháp và bộ dữ liệu thử nghiệm.
Luận án xây dựng bộ dữ liệu thử nghiệm gồm các bài báo lấy từ các tờ báo điện tử lớn.
Tập dữ liệu thử nghiệm (gọi là TC1) bao gồm 3900 tập tin văn bản được chia thành 7 chủ đề.
Khi áp dụng qui trình phân loại đã đề xuất lên tiếng Việt, luận án chọn lựa đơn vị „tiếng”
biểu diễn đỉnh trong đồ thị. Sau khi tiền xử lý, đồ thị có kích thước trung bình 45 đỉnh/đồ thị.

Luận án thử nghiệm bằng phương pháp đánh giá chéo.
Bảng 3.4. Kết quả thử nghiệm phân loại [CT3]
Tên chủ đề
Khoa học
Kinh doanh
Sức khỏe
Thể thao
Văn hóa
Vi tính
Xã hội
Trung bình

Độ đo tương tự Dice
Độ phủ
Độ chính xác
0.887
0.722
0.931
0.787
0.639
0.875
0.873
0.968
0.798
0.941
0.717
0.865
0.792
0.933
0.805

0.87

F1
0.796
0.853
0.739
0.918
0.864
0.784
0.857
0.83

Độ đo tương tự Manhattan
Độ phủ
Độ chính xác
F1
0.6
0.515
0.544
0.866
0.813
0.839
0.62
0.721
0.667
0.86
0.896
0.878
0.8
0.909

0.851
0.615
0.767
0.683
0.65
0.915
0.76
0.716
0.791
0.746

Kết quả thử nghiệm tương ứng với độ đo Dice và độ đo Manhattan được trình bày trong
Bảng 3.4. Bộ phân lớp dùng độ đo tương tự Dice cho kết quả tốt hơn bộ phân lớp dùng độ đo
Manhattan.
Bảng 3.5. So sánh kết quả phân loại theo giá trị F1 trung bình [CT6]
Hệ
thống
VSM
Hybrid
TCG

Mơ hình biểu diễn
văn bản
Mơ hình khơng
gian vectơ

Mơ tả phương pháp

Giá trị F1
trung bình

Khoảng tin
cậy 95%
[0.6937,
0.7223]

k-NN, độ đo tương tự Cosine

0.708

Mơ hình lai giữa
đồ thị và vectơ

k-NN, độ đo tương tự Manhattan,
“từ” tạo thành đỉnh của đồ thị

0.716

[0.7018,
0.7302]

Mơ hình đồ thị đơn
giản

Độ đo tương tự Dice, đỉnh đồ thị
tạo từ đơn vị “tiếng”

0.831

[0.8192,

0.8428]

Bảng 3.5 trình bày kết quả phân loại tốt nhất của các hệ thống cài đặt theo phương pháp:
k-NN trên biểu diễn vectơ (VSM), phương pháp lai của tác giả [23] với thuật toán k-NN và độ
đo tương tự Manhattan (Hybrid) và hệ thống dựa trên qui trình phân loại mà luận án đề xuất
(TCG) theo độ đo F1. Thời gian huấn luyện trung bình của TCG là 4.8 x 10-3 giây/ văn bản và
thời gian thực hiện phân lớp trung bình là 2.55 x 10-3 giây/văn bản (trên Intel Core Duo
2.56Ghz, 2GB RAM). Thời gian huấn luyện của TCG là nhỏ nhất mặc dù tốn thời gian vào
quá trình xây dựng đồ thị biểu diễn văn bản nhiều hơn VSM, nhưng tập đặc trưng rút ra từ đồ
thị có kích thước nhỏ hơn rất nhiều so với tập đặc trưng của mơ hình vectơ VSM (931 đặc
trưng của TCG so với 20608 đăc trưng của VSM). Nhờ các cải tiến của gSpan cũng như đặc
điểm của đồ thị biểu diễn văn bản mà thời gian rút trích đặc trưng từ đồ thị rất nhỏ. Vì vậy

10

thời gian của các bước xác định đặc trưng, cũng như xây dựng vectơ biểu diễn văn bản của
VSM lớn hơn nhiều so với thời gian thực hiện công việc tương ứng của TCG.
Hình 3.11 là đồ thị so
sánh kết quả phân loại của

VSM

đo F1. Kết quả của hệ thống
TCG dựa trên qui trình phân
loại đã đề xuất dùng độ đo
Dice trên tập dữ liệu tiếng
Việt này cho kết quả tốt
nhất.

Độ đo F1

các hệ thống TCG, Hybrid
và VSM trên chủ đề theo độ

Hybrid

TCG

1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Khoa học Kinh doanh Sức khoẻ Thể thao

Văn hóa

Vi tính

Xã hội

Hình 3.11. So sánh kết quả phân loại theo chủ đề [CT3]

4. Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị
Gom cụm là quá trình phân chia tập văn bản thành những cụm chủ đề khác nhau. Khi có
sự thay đổi trong tập dữ liệu, chẳng hạn thêm vào các văn bản mới, chúng ta cần một phương
pháp có khả năng xử lý trên văn bản ngay khi nó xuất hiện, thay vì tái gom cụm trên toàn bộ
tập văn bản. Đây cũng chính là mục tiêu của các phương pháp gom cụm trên tập văn bản có
biến động [34].
Luận án tập trung vào gom cụm tập
văn bản có biến động (gọi tắt là gom
cụm văn bản động) và đề xuất tiếp cận

Văn bản

kết hợp biểu diễn đồ thị và thuật toán
gom cụm động Incremental DBSCAN
cải tiến. Các thông tin cấu trúc của văn
bản được rút trích từ đồ thị thơng qua
các đồ thị con hay các cụm từ chung.

Rút trích đặc
trưng đồ thị

Chọn lựa
động đặc
trưng

Incremental
DBSCAN
cải tiến

Mơ hình hóa

văn bản bằng
đồ thị

Xác định độ
tương tự giữa
các văn bản

Độ tương tự giữa hai văn bản là sự kết
hợp giữa độ tương tự của các vectơ đặc
Các nhóm văn bản
trưng và thơng tin về cụm từ chung
Hình 4.1. Qui trình gom cụm văn bản động [CT2]
giữa chúng.
Luận án đã thực hiện việc cải tiến Incremental DBSCAN để hạn chế nhược điểm trộn cụm
của thuật toán. Luận án đề xuất kỹ thuật chọn lựa động đặc trưng nhằm nâng cao kết quả gom
cụm.
Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị
Hình 4.1 là sơ đồ qui trình gom cụm văn bản động. Đầu tiên, ta thực hiện tiền xử lý tập
văn bản. Sau đó, mơ hình của dữ liệu được xây dựng sử dụng biểu diễn đồ thị đơn giản. Khi
xây dựng đồ thị động chúng ta có thể rút trích các đặc trưng đồ thị ở dạng các cụm từ chung.
4.1

11

Tiếp theo, độ tương tự giữa các văn bản được tính dựa trên các cụm từ chung và vectơ văn
bản đã tinh chỉnh. Cuối cùng, hệ thống gom cụm văn bản và tạo các cụm chỉ gồm những văn
bản liên quan đến cùng chủ đề. Luận án sử dụng thuật toán Incremental DBSCAN cải tiến để
gom cụm động văn bản dựa trên độ tương tự giữa các cặp văn bản.
4.1.1 Rút trích đặc trưng đồ thị

Luận án sử dụng cùng mơ hình đồ thị đơn giản biểu diễn văn bản như trong bài toán phân
loại văn bản và dựa trên các kết quả nghiên cứu [30], [31]. Khi xử lý việc văn bản cập nhật
động, luận án sử dụng thuật toán xây dựng đồ thị DIG [17] để đánh chỉ mục văn bản trong khi
vẫn giữ nguyên được cấu trúc của văn bản gốc. Đồ thị biểu diễn văn bản được xây dựng động,
xử lý từng văn bản tại mỗi thời điểm. Khi xác định sự tương tự giữa các văn bản, chúng ta cần
rút trích đặc trưng từ đồ thị biểu diễn văn bản. Thuật tốn DIG có thể xác định động các đồ thị
con đại diện hay các cụm từ chung từ các văn bản trước đó trong khi xây dựng đồ thị. Các
cụm từ chung này là những đặc trưng quan trọng được rút trích từ đồ thị biểu diễn văn bản và
có thể tính tốn độ tương tự giữa các văn bản.
4.1.2 Xác định độ tương tự giữa các văn bản
Dựa trên khảo sát về việc sử dụng kết hợp cụm từ và từ đơn có thể tăng kết quả gom cụm,
luận án sử dụng độ đo lai là sự kết hợp hai độ đo tương tự: độ tương tự dựa trên cụm từ chung
(simsp) và độ đo cosine giữa vectơ văn bản (simdf) để gom cụm văn bản.
Định nghĩa 4.1: Độ đo lai xác định sự tương tự giữa cặp văn bản
Cho hai văn bản d1 và d2, độ đo lai được định nghĩa như sau [CT5]:

sim (d1 , d 2 )    simdf (d1 , d 2 )  (1   )  simsp (d1 , d 2 )

(4.1)

Với   [0, 1] – hệ số pha trộn độ tương tự1, simdf(d1, d2): độ tương tự dựa trên từ riêng
biệt giữa văn bản d1 và d2, simsp(d1, d2): độ tương tự dựa trên cụm từ chung giữa văn bản d1 và
d2.
Định nghĩa 4.2: Độ đo tương tự dựa trên cụm từ chung giữa hai văn bản
Độ đo tương tự simsp(d1, d2) dựa trên cụm từ chung giữa hai văn bản d1 và d2 được tính
như sau [CT5]:



P

i 1

sim sp (d 1 , d 2 ) 

(

li
) . ( f 1i  f 2i ) 2
avg( s i )



j

(4.2)

s1 j  k s 2 k

Trong đó, P: số cụm từ chung giữa hai văn bản, f1i, f2i: lần lượt là tần suất xuất hiện của
cụm từ chung thứ i trong văn bản d1 và d2, li: chiều dài của cụm từ chung i, |sij|: chiều dài của
câu thứ j trong văn bản di, avg (si): chiều dài trung bình của các câu chứa cụm từ chung i.
Độ tương tự dựa trên từ riêng biệt chính là độ tương tự giữa hai vectơ đặc trưng của hai
văn bản. Độ đo Cosine dùng để tính tốn độ tương tự giữa các vectơ đặc trưng.

1

λ=0.2 qua thực nghiệm cho kết quả gom nhóm tốt nhất.

12

Do phương pháp trọng số TF×IDF khơng phù hợp với thuật toán gom cụm động (theo
[34]) cho nên luận án sử dụng hàm TF×IG (Term Frequency – Information Gain) nhằm xác
định chất lượng của từ không chỉ trong văn bản mà còn trong tất cả các cụm và dùng trong
quá trình lựa chọn đặc trưng động. Trọng số của vectơ văn bản được tính như sau [CT5]:
wij 

IG( j )
 tf ij
MinIG

(4.3)

Với wij là trọng số từ tj trong văn bản di, tfij: tần suất xuất hiện của từ tj trong văn bản di,
MinIG: độ lợi thông tin của từ có giá trị nhỏ nhất và IG(j): độ lợi thơng tin của từ tj trong toàn
bộ tập văn bản. Độ lợi thông tin của từ t trong tập văn bản được tính theo cơng thức [38]:
IG(t )  i 1 p(ci ) log 2 p(ci )  p(t )i 1 p(ci | t ) log 2 p(c i | t )
m

m

 p(t )i 1 p(ci | t ) log 2 p(c i | t ) .
m

(4.4)

Trong đó, p(ci): xác suất một văn bản thuộc về nhóm ci, p(t): xác suất một văn bản chứa
từ t, p(ci | t) xác suất một văn bản thuộc nhóm ci trong điều kiện có chứa t, p(t ) : xác suất một
văn bản không chứa từ t, p(ci | t ) : xác suất một văn bản thuộc nhóm ci trong điều kiện khơng

chứa từ t.
4.1.3 Kỹ thuật chọn lựa động đặc trưng
Các phương pháp chọn lựa đặc trưng đã áp dụng thành công cho bài toán phân loại văn
bản trong nhiều năm qua [38]. Tuy nhiên chúng ít được dùng trong bài tốn gom cụm do sự
thiếu thông tin về nhãn lớp. Bên cạnh đó, phần lớn những phương pháp chọn lựa đặc trưng
đều áp dụng cho tập dữ liệu tĩnh, khơng có biến động và việc rút trích đặc trưng chỉ thực hiện
một lần duy nhất trước khi bắt tay vào gom cụm. Từ ý tưởng của Liu [21] về mối tương hỗ
giữa đặc trưng và gom cụm văn bản, luận án đề xuất kỹ thuật chọn lựa động đặc trưng có
giám sát dựa trên độ lợi thơng tin. Trong đó, độ lợi thơng tin được dùng để tính tốn sự liên
quan của từ mỗi khi có văn bản mới được gom cụm và có sự thay đổi trong cấu trúc cụm. Sự
thay đổi về cụm là sự hình thành một cụm hoàn toàn mới hoặc khi gộp chung hai cụm thành
một. Đây là những trường hợp có khả năng làm thay đổi độ lợi thông tin của các từ trong tập
dữ liệu. Quá trình lựa chọn động đặc trưng thể hiện trong Hình 4.4.
X là tập đặc trưng của các văn bản đã gom cụm
1. Khi có văn bản mới d xuất hiện, thực hiện:
2.
Gom cụm động cho d dựa trên X. //sử dụng thuật tốn gom cụm động
3.
if có sự thay đổi về cụm
4.
Tính lại trọng số cho tất cả các từ theo công thức IG (4.4)
5.
Giữ lại N từ có trọng số cao nhất làm tập đặc trưng mới, được tập đặc trưng
mới Y
6.
X=Y
Hình 4.4. Quá trình chọn lựa động đặc trưng [CT7]

13

4.1.4 Thuật toán gom cụm động Incremental DBSCAN cải tiến
Thuật toán Incremental DBSCAN [15], thuật toán xử lý các đối tượng dữ liệu tuần tự, gán
động các đối tượng dữ liệu vào các cụm tương ứng trong khi xử lý. Thuật tốn này ít chịu ảnh
hưởng bởi các đối tượng nhiễu (hay cá biệt), trong khi nhiễu là đặc điểm phổ biến của văn bản.
Ngoài ra, chất lượng gom cụm không phụ thuộc vào thứ tự thêm vào các đối tượng. Tuy
nhiên, thuật tốn có khuynh hướng gộp các cụm ít kết nối với nhau thành một cụm lớn. Luận
án cải tiến kỹ thuật trộn cụm của thuật toán Incremental DBSCAN bằng cách kiểm tra mật độ
của các cụm này trước khi gộp lại.
Định nghĩa 4.3: Tập đối tượng bị ảnh hưởng khi chèn thêm đối tượng
Gọi D là một tập các đối tượng và p là một đối tượng được chèn thêm. Tập đối tượng bị
ảnh hưởng khi chèn p vào (ký hiệu là UpdSeedIns) được định nghĩa như sau [15]:
UpdSeedIns = {q | q là đối tượng nòng cốt trong D∪{p}, ∃q’: q’ là đối tượng nòng cốt trong
D∪{p} nhưng không phải trong D và q ∈NEps(q’)}
Cải tiến Incremental DBSCAN:
Thuật tốn Incremental DBSCAN có khuynh hướng gộp các cụm ít kết nối với nhau thành
một cụm lớn. Theo kỹ thuật trộn cụm của thuật toán, khi thêm mới một đối tượng p, nếu tập
UpdSeedins chứa các phần tử nòng cốt là thành viên của nhiều cụm trước khi chèn thì trộn các
cụm này và phần tử p thành một cụm duy nhất. Điều này có thể tạo ra các cụm khơng chính
xác. Do văn bản có tính nhập nhằng về khía cạnh ngữ nghĩa, nên một số văn bản có nội dung
giao thoa giữa các chủ đề. Với nguyên tắc bắc cầu của kỹ thuật trộn cụm, những văn bản có
nội dung giao thoa này có thể trở thành các đối tượng nòng cốt và tiến tới trộn các cụm văn
bản có chủ đề khác nhau thành một cụm duy nhất.
Luận án cải tiến kỹ thuật trộn cụm của thuật toán bằng cách kiểm tra mật độ của các cụm
này trước khi gộp. Khi đó, kỹ thuật trộn cụm của thuật toán Incremental DBSCAN cải tiến
được phát biểu như sau:
“Nếu tập UpdSeedins chứa các đối tượng nòng cốt là thành viên của nhiều cụm khác nhau
thì chỉ trộn p và các cụm có số đối tượng nịng cốt đóng góp vào tập UpdSeedins lớn hơn
ngưỡng M cho trước. Nếu khơng có cụm nào như vậy thì p là đối tượng lạc lồi.”
Trong hình 4.6 là mã giả cho trường hợp trộn nhóm của Incremental DBSCAN cải tiến.

Độ phức tạp về thời gian của Incremental DBSCAN cải tiến không khác biệt so với
Incremental DBSCAN nguyên thủy và là O(mrlog(n+m)) với m là số đối tượng mới được
chèn vào cơ sở dữ liệu, r là số vùng đối tượng bị ảnh hưởng trung bình, n là số đối tượng của
cơ sở dữ liệu trước khi chèn thêm đối tượng mới.
Gọi Clusters là tập các cụm có đối tượng nịng cốt thuộc tập UpdSeedins
Gọi DocumentInClusters là tập chỉ số đối tượng nịng cốt của từng cụm đóng góp vào
UpdSeedins
1. for mọi cụm Ci  Clusters do
14

2.
if DocumentInClusters[Ci] < M
3.
Loại các đối tượng nòng cốt của Ci ra khỏi UpdSeedins
4.
end if
5. end for
6. if UpdSeedin s  > 0
7.
Trộn đối tượng p và các cụm có đối tượng nòng cốt thuộc UpdSeedins thành một
cụm duy nhất
7.
else
8.
p là phần tử lạc lồi
9. end if
Hình 4.6. Mã giả cho kỹ thuật trộn cụm của Incremental DBSCAN cải tiến
4.2

Kết quả thử nghiệm
Tập dữ liệu thử nghiệm (gọi là TC2) gồm 6700 văn bản với 10 chủ đề: âm nhạc, chứng

khốn, điện ảnh, quần vợt, vi tính, thời trang, du lịch, ẩm thực, hình sự và du học. Từ tập dữ
liệu thử nghiệm này, 6 bộ dữ liệu khác nhau được xây dựng với số lớp từ 3 đến 10 để quan sát
chất lượng gom cụm. Nhằm mục đích kiểm tra tác động của quá trình cập nhật dữ liệu động,
các bộ dữ liệu này có kích thước tăng dần và thứ tự gom cụm là ngẫu nhiên.
Luận án tiến hành so sánh mơ hình đồ thị sử dụng độ đo tương tự lai dựa trên cụm từ
chung và vectơ văn bản (ký hiệu là ICG) với mơ hình vectơ sử dụng độ đo cosine, trọng số
TF×IDF (ký hiệu là VSM-TF×IDF) và biểu diễn vectơ sử dụng độ đo cosine và trọng số
TF×IG do luận án đề xuất (ký hiệu là VSM-TF×IG). ICG là chính là hệ thống xây dựng dựa
trên qui trình gom cụm văn bản động mà luận án đề xuất. Cả ba hệ thống đều dùng thuật toán
Incremental DBSCAN và kỹ thuật lựa chọn đặc trưng động. Bảng 4.3, bảng 4.4 trình bày các
kết quả tốt nhất của từng hệ thống theo độ đo F và Entropy. Sự cải thiện chất lượng gom cụm
của TCG khá rõ rệt, so với hệ thống VSM-TF×IDF, theo độ đo F tăng gần 20% và giảm đến
9% theo độ đo Entropy. Cịn so với hệ thống VSM-TF×IG, sự cải thiện của TCG theo độ đo F
là 15% và độ đo Entropy giảm khoảng 7%. Theo phương pháp kiểm định giả thiết thống kê có
thể kết luận: ở mức ý nghĩa 1%, chất lượng gom cụm của ICG tốt hơn các hệ thống còn lại.
Bảng 4.3. So sánh chất lượng gom cụm theo độ đo F [CT5]
Mã bộ
DL
DS31
DS32
DS51
DS71
DS91
DS10

VSM TF×IDF
0.976

0.847
0.815
0.791
0.775
0.761

Khoảng tin cậy
95%
[0.9688,0.9852]
[0.8342,0.8598]
[0.8031,0.8269]
[0.7801,0.8019]
[0.7647,0.7853]
[0.7508,0.7712]

VSMTF×IG
0.986
0.858
0.834
0.812
0.809
0.802

Khoảng tin cậy
95%
[0.9789,0.9931]
[0.8456,0.8704]
[0.8226,0.8454]
[0.8225,0.8015]
[0.8187,0.7993]

[0.7925,0.8115]

ICG
0.997
0.995
0.969
0.966
0.957
0.950

Khoảng tin cậy
95%
[0.9937, 1.0]
[0.9925,0.9975]
[0.9637, 0.9743]
[0.9611,0.9709]
[0.9620,0.9520]
[0.9448,0.9552]

Kết quả trong bảng 4.3, 4.4 cho thấy khi sử dụng mơ hình khơng gian vectơ, phương pháp
trọng số TF×IG cải thiện chất lượng gom cụm so với TF×IDF: theo độ đo F tăng hơn 4% và
giảm theo độ đo Entropy khoảng 1%. Điều này khẳng định nhận xét của [34] về việc trọng số
15

TF×IDF khơng phù hợp cho bài tốn gom cụm văn bản động. Bên cạnh đó, qui trình gom
cụm động dựa trên biểu diễn đồ thị đã đề xuất cho kết quả gom cụm tốt hơn trên các tập dữ
liệu thử nghiệm. Kỹ thuật lựa chọn đặc trưng động không những làm giảm đáng kể số lượng
đặc trưng cần sử dụng (tăng tốc độ xử lý) mà còn làm tăng độ chính xác gom cụm.
Bảng 4.4. So sánh chất lượng gom cụm theo độ đo Entropy [CT5]

Mã bộ
DL
DS31
DS32
DS51
DS71
DS91
DS10

VSM TF×IDF
0.089
0.058
0.396
0.485
0.491
0.502

Khoảng tin cậy
95%
[0.0671,0.1109]
[0.0474,0.0686]
[0.3738,0.4182]
[0.4565,0.5135]
[0.4627,0.5193]
[0.4735,0.5305]

VSMTF×IG
0.088
0.052
0.336

0.454
0.461
0.475

Khoảng tin cậy
95%
[0.0662,0.1098]
[0.0419,0.0621]
[0.3151,0.3569]
[0.4262,0.4818]
[0.4334,0.4886]
[0.4472,0.5028]

ICG
0.035
0.047
0.141
0.214
0.225
0.237

Khoảng tin cậy
95%
[0.0210,0.0490]
[0.0374,0.0566]
[0.1256,0.1555]
[0.1940,0.2340]
[0.2049,0.2451]
[0.2165,0.2575]

Thời gian gom cụm của ICG gần tương đương với VSM-TF×IDF và VSM-TF×IG mặc dù
ICG tốn nhiều chi phí cho việc xây dựng đồ thị và xác định đặc trưng từ đồ thị nhưng VSMTF×IDF và VSM-TF×IG lại tốn chi phí cho việc cập nhật trọng số cho khơng gian vectơ khi
tập dữ liệu thay đổi.
Trong Hình 4.9 là đồ thị so sánh
ICG-noFS

kết quả gom cụm theo độ đo F của hệ
thống ICG có sử dụng kỹ thuật chọn

lên, kỹ thuật chọn lựa động đặc trưng
đã giúp tăng chất lượng gom cụm: trên
bộ dữ liệu DS10 theo độ đo F tăng hơn
16%.

1
0.8

F-Measure

lựa đặc trưng và cũng hệ thống này
nhưng không sử dụng kỹ thuật chọn
lựa đặc trưng mà sử dụng toàn bộ tập
đặc trưng (ký hiệu là ICG-noFS). Rõ
ràng khi kích thước tập dữ liệu tăng

ICG

0.6

0.4

0.2
0

DS31

DS32

DS51

DS71

DS91

DS10

Tập dữ liệu

Hình 4.9. So sánh kết quả gom cụm khi sử dụng và
không sử dụng kỹ thuật chọn lựa động đặc trưng

Luận án cài đặt thuật toán SHC [16] – thuật toán gom cụm văn bản động dựa trên độ đo sự
kết dính cụm bằng biểu đồ tương tự và so sánh với hệ thống ICG.
Thuật toán SHC được các các tác
giả [17] đánh giá tốt hơn thuật toán gom
cụm động khác như gom cụm động
phân cấp HAC, Single-Pass, hoặc gom
cụm k-NN. Luận án sử dụng chung mơ
hình đồ thị và độ đo lai giữa các văn
bản cho cả thuật toán SHC và hệ thống
ICG (dùng Incremental DBSCAN).

Bảng 4.5. Sự cải thiện chất lượng gom cụm của
ICG [CT2]
SHC
ICG
Tập
DL
Độ đo F Entropy Độ đo F Entropy
DS31
0.956
0.019
0.997
0.035
DS32
0.958
0.021
0.995
0.047
DS51
0.899
0.122
0.969
0.141
DS71
0.856
0.196
0.966
0.214
DS91
0.821

0.202
0.957
0.225
DS10
0.802
0.209
0.950
0.237
16

Bảng 4.6. So sánh số lượng cụm thu được giữa ICG và
SHC [CT2]

Bảng 4.4 so sánh độ đo F
cũng như độ đo Entropy giữa hệ Phương pháp
Mã tập DL
gom cụm
DS31 DS32 DS51 DS71 DS91 DS10
thống ICG và SHC trên các tập
SHC
7
12
45
85
92
116
dữ liệu. Chất lượng gom cụm
theo độ đo F tăng trung bình 9%.
ICG

3
3
6
8
10
12
Mặc dù độ đo Entropy của SHC giảm trung bình 1%, nhưng thuật tốn này có xu hướng
phân rã tập dữ liệu thành các cụm nhỏ hơn và tạo số cụm cao hơn số chủ đề thực tế. Vì vậy
có sự chênh lệch khá lớn giữa số lớp thực sự và số cụm do SHC tạo ra như trong Bảng 4.5.
Trong khi đó số lượng cụm do ICG tạo ra nằm trong giới hạn kiểm sốt. Hình 4.10 so sánh
kết quả gom cụm giữa thuật toán Incremental DBSCAN nguyên thủy với Incremental
DBSCAN cải tiến trong quá trình trộn cụm.
Nguyên thủy

Cải tiến

1.2

1

Độ đo F

Đây là những kết quả chạy với
tham số Eps = 0.09 và Minpts = 5.
Kết quả thực nghiệm cho thấy thuật
toán Incremental DBSCAN cải tiến
hoạt động tốt hơn so với thuật tốn
ngun thuỷ trên cùng mơ hình biểu
diễn là đồ thị, đặc biệt khi số lượng
văn bản và số lượng chủ đề tăng lên:

0.8
0.6

0.4
0.2
0

DS31
DS32
DS51
DS71
DS91
DS10
trên bộ dữ liệu DS10 theo độ đo F
tăng hơn 45% và Entropy giảm gần Hình 4.10. Đánh giá thuật tốn Incremental DBSCAN
cải tiến theo độ đo F [CT7]
38%.
Do văn bản có đặc điểm mang tính nhập nhằng về nội dung nên Incremental DBSCAN cải
tiến đã giải quyết tốt hơn cho trường hợp trộn cụm và phù hợp cho việc gom cụm động văn
bản.
Để nghiên cứu ảnh hưởng của việc cập nhật động kết quả gom cụm, luận án chèn thêm

2500 văn bản vào đồ thị hiện tại của tập dữ liệu DS10 và quan sát sự thay đổi chất lượng gom
cụm. Quá trình chèn thêm văn bản mới vào tập dữ liệu DS10 được thực hiện 3 lần với thứ tự
chèn văn bản khác nhau. Bảng 4.6 cho thấy sự thay đổi của chất lượng gom cụm (lấy trung
bình qua 3 lần thực nghiệm) với mỗi 500 văn bản mới thêm vào.
Bảng 4.7. Kết quả cập nhật dữ liệu động [CT2]

So với kết quả gom cụm hiện hữu, từ

bảng 4.6 này chúng ta thấy độ đo F giảm từ
0.950 xuống còn 0.901. Chất lượng gom
cụm chỉ giảm khoảng 5% theo độ đo F,

Số văn bản

7200

0.935

[0.9318, 0.9382]

8200

0.922

[0.9254, 0.9186]

8700

0.910

[0.9065, 0.9135]

9200
17

0.943

Khoảng tin cậy 95%

[0.9399, 0.9461]

7700

trong khi chèn thêm số lượng văn bản gần
bằng 40% số văn bản hiện có.

Độ đo F

0.901

[0.8975, 0.9045]

5.Tóm tắt văn bản dựa trên biểu diễn đồ thị
Mục đích của tóm tắt văn bản là xác định, rút trích các thơng tin quan trọng nhất từ văn
bản và hiển thị ở dạng cô đọng, đáp ứng yêu cầu của người dùng hoặc của ứng dụng [22].
Tóm tắt văn bản dạng trích lược tạo ra bản tóm tắt gồm các câu được trích nguyên văn từ văn
bản gốc. Luận án tập trung vào việc nghiên cứu, ứng dụng tiếp cận đồ thị vào hệ thống trích
lược văn bản tiếng Việt. Theo như hiểu biết của tác giả thì chưa có một hệ thống tóm tắt văn
bản tiếng Việt nào phát triển theo hướng này. Luận án kết hợp mô hình đồ thị vơ hướng có
gán nhãn với đỉnh là câu và kỹ thuật xếp hạng đỉnh nhằm xác định các câu quan trọng của văn
bản. Hướng tiếp cận này khơng địi hỏi phải có sẵn những bản tóm tắt chuẩn do con người
thực hiện để học hay huấn luyện và ít phụ thuộc vào bộ dữ liệu thử nghiệm cũng như lĩnh vực.
Tiếp cận này cũng giải quyết vấn đề trùng lắp thơng tin trong bản tóm tắt và có khả năng thực
hiện tóm tắt trên văn bản đơn cũng như trên tập văn bản.
5.1

Mơ hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ thị và kỹ thuật

xếp hạng
Hình 5.1 là sơ đồ mơ hình tóm tắt văn bản dùng cho từng văn bản (gọi là văn bản đơn) lẫn
tập văn bản.
Độ quan trọng của câu xác định
...
Văn bản 1
Văn bản 2
Văn bản n
bằng thuật toán xếp hạng đỉnh trên
đồ thị. Sau khi sắp xếp các câu theo

Bộ tóm tắt

độ quan trọng, để hạn chế sự trùng
lắp thông tin, một phiên bản của độ
đo MMR[10] được dùng để lọc lại
câu có độ quan trọng cao khi đưa
vào bản tóm tắt. Khi tóm tắt tập văn
bản, các bản tóm tắt của từng văn
bản sẽ tổng hợp lại thành một văn
bản mới. Qui trình tóm tắt trong bộ
lõi tóm tắt được áp dụng tiếp lên
văn bản mới này và tạo ra bản tóm
tắt hồn chỉnh cho tập văn bản.

Tiền xử lý
Xây dựng đồ thị
Xếp hạng câu
Phát sinh bản tóm tắt
Tóm tắt 1

Tóm tắt 2

...

Tóm tắt n

Tổng hợp
Văn bản tổng hợp
Bộ tóm tắt
Tóm tắt hồn chỉnh

Hình 5.1. Mơ hình tóm tắt văn bản tiếng Việt [CT1]

Trước khi chuyển đổi văn bản thành đồ thị, ta cần thực hiện bước tiền xử lý. Trong mơ
hình tóm tắt văn bản dựa trên đồ thị thì tách câu đóng vai trị chính yếu vì câu là yếu tố cơ bản
cấu thành đồ thị. Việc tách câu được thực hiện bằng phương pháp thống kê sử dụng
Maximum Entropy. Luận án áp dụng luật loại bỏ câu có độ dài thấp hơn một ngưỡng cho
trước nhằm giảm không gian lưu trữ và tăng tốc độ xử lý.

18

5.1.1 Mơ hình hóa văn bản thành đồ thị
Luận án sử dụng mơ hình đồ thị có gán nhãn biểu diễn văn bản. Văn bản được mơ hình
hóa thành đồ thị với đỉnh biểu diễn câu trong văn bản. Cạnh nối giữa hai đỉnh thể hiện mối
quan hệ giữa các câu. Khi độ tương tự giữa các câu lớn hơn một ngưỡng α cho trước thì giữa
hai đỉnh mới thiết lập cạnh nối. Độ tương tự này cũng chính là giá trị nhãn (hay trọng số) của
cạnh nối giữa hai đỉnh. Luận án sử dụng phương pháp xác định sự trùng lắp giữa các câu
nhằm xác định độ tương tự theo độ đo Word-overlap [25] vì đây là tiếp cận đơn giản nhưng

hiệu quả (qua thử nghiệm với các độ đo tương tự khác) và có độ phức tạp tính tốn thấp. Bên
cạnh đó, luận án sử dụng thêm heuristic về câu nhan đề. Cụ thể là bổ sung thêm thông tin cho
các từ nằm trong câu nhan đề bằng tham số ưu tiên. Khi đó cơng thức tính độ tương tự giữa
các câu và cũng là trọng số cho cạnh của đồ thị giữa hai đỉnh tương ứng với hai câu Si và Sj
trong văn bản như sau.
Định nghĩa 5.1: Độ đo tương tự giữa hai câu
Cho hai câu Si và Sj, độ đo tương tự giữa hai câu được định nghĩa như sau [CT8]:

a

wij  Sim ( S i , S j ) 

k
Wk Si  S j

(5.1)

log 2 ( S i )  log 2 ( S j )

Với Wk là từ chung giữa hai câu Si, Sj và
 , if Wk Title
ak  
 1, if Wk  Title

(5.2)

5.1.2 Xếp hạng câu
Nếu muốn tạo ra bản tóm tắt dạng trích lược, ta cần chọn các câu quan trọng, mang những
thơng tin chính nhất của văn bản. Độ quan trọng của câu được xác định thông qua trọng số
của đỉnh tương ứng trên đồ thị bằng thuật toán xếp hạng đỉnh trên đồ thị. Luận án sử dụng

thuật toán tương tự PageRank kết hợp trọng số cạnh nhằm xếp hạng câu trong văn bản hay
đỉnh trên đồ thị. Cơng thức tính độ quan trọng đỉnh hay xếp hạng câu trong văn bản như sau
[CT8]:
PR W (Vi ) 

PR W (V j )
(1  d )
 d  w ji
N
V j In (Vi )
 wki

(5.3)

Vk Out (Vi )

Trong đó: PRW là trọng số của đỉnh, In(Vi) là tập các cạnh nối đi vào đỉnh thứ i, Out(Vi) là
tập các cạnh nối đi ra từ đỉnh thứ i, wji là trọng số của cạnh nối từ đỉnh j đến i và N là tổng số
đỉnh của đồ thị. Hằng số d được gán giá trị 0.85.
Trong Hình 5.4 là thuật tốn xếp hạng câu hay tính độ quan trọng đỉnh trên đồ thị mà luận
án đề xuất. Kết quả quá trình này là độ quan trọng của tất cả các câu với giá trị PRW tương
ứng. Tất cả các câu đều sắp xếp theo thứ tự giảm dần của độ quan trọng. Độ phức tạp tính
tốn của thuật tốn xếp hạng câu là O(N3) với N là số câu trong văn bản (trong trường hợp xấu
19

nhất khi mọi đỉnh đều có liên kết với nhau). Tuy nhiên, trong thực tế cạnh chỉ được nối giữa
các đỉnh khi độ tương tự giữa hai câu tương ứng với đỉnh đạt ngưỡng cho trước nên độ phức
tạp tính toán của thuật toán xếp hạng câu thấp hơn rất nhiều. Ví dụ với 10 000 câu, thời gian
xử lý của thuật toán xếp hạng câu chỉ mất 90.88 giây trên máy tính Intel P8400, RAM 2GB.

Thuật tốn tính độ quan trọng đỉnh
1. Khởi tạo giá trị PRW = 1 ban đầu cho mọi đỉnh
2. for mọi đỉnh Vi do
3.

Tìm tập In và Out tương ứng của đỉnh Vi.

4.

while độ chênh lệch của PRW(Vi) ≥ 0.0001 do // độ chênh lệch giữa hai vịng

lặp liên tiếp
5.
Tính giá trị độ quan trọng PRW(Vi) // bằng công thức (5.3)
6.

end while

7. end for
8. Sắp xếp các giá trị PRW theo thứ tự
Hình 5.4. Thuật tốn xếp hạng câu

5.1.3 Tạo bản tóm tắt
Sau bước xếp hạng câu, mỗi câu Si có độ quan trọng PRW(Si) tương ứng. Dựa trên công
thức MMR[10], luận án sử dụng phiên bản của MMR để tái xếp hạng và chọn lựa câu đưa
vào bản tóm tắt. Phiên bản cơng thức MMR trong (5.4) có thể giúp xác định các câu có độ
quan trọng cao và ít thơng tin trùng lắp.
MMR  argmax .PRW ( Si )  (1   ). max sim( Si , S j )



S j S
Si R \ S 


(5.4)

Với R là tập tất cả các câu của văn bản, S là tập các câu trong bản tóm tắt, PRW(Si) là độ
quan trọng của câu Si, λ  [0, 1] là hệ số pha trộn giữa độ quan trọng của câu và mối quan hệ
của câu với các câu đã được chọn trước. Giá trị λ tốt nhất theo thực nghiệm là 0.6.
Kết quả thử nghiệm
Luận án xây dựng bộ dữ liệu thử nghiệm gồm các bài báo lấy từ những tờ báo điện tử lớn
và từ tạp chí Bưu chính viễn thơng, tạp chí Phát triển Khoa học & Công nghệ - ĐHQG
Tp.HCM. Bộ dữ liệu thử nghiệm T1 (200 tập tin) dành cho việc đánh giá kết quả tóm tắt trên
văn bản đơn. Bộ dữ liệu T2 (207 tập tin) bao gồm các tập tin tức liên quan đến 6 chủ đề dành
cho việc đánh giá chất lượng tóm tắt tập văn bản. Với mỗi văn bản, hoặc tập văn bản, các
chuyên gia tạo ra bản tóm tắt gồm các câu quan trọng và đây là bản tóm tắt chuẩn dùng để
đánh giá. Luận án đánh giá bản tóm tắt dạng trích lược của hệ thống với bản tóm tắt chuẩn
theo phương pháp ROUGE[20] - phương pháp đánh giá dựa trên số lượng n-gram trùng nhau.
5.2

20

5.2.1 Kết quả tóm tắt văn bản đơn
Luận án chọn phương pháp cơ sở là phương pháp dựa vào câu tiêu đề (heading) [13].
Trong phương pháp cơ sở, bản tóm tắt dạng trích lược được xây dựng từ các câu đầu đoạn.
Ngồi ra, chương trình Auto
Summarize của MSWord cũng
được dùng để tạo ra bản trích lược
thứ ba. Trong Bảng 5.4 là thống kê

kết quả đánh giá chất lượng tóm tắt
văn bản của phương pháp cơ sở, kết
quả chương trình Auto Summarise
và mơ hình đề xuất của luận án (ký
hiệu là TSGVi) theo từng chủ đề.

Bảng 5.4. Kết quả đánh giá bản tóm tắt văn bản đơn
[CT8]
Độ rút gọn =
20%

Chủ đề

Khoa học
PP cơ sở
Sức khỏe
Thể thao
Khoa học
Auto
Summarise của Sức khỏe
MSWord
Thể thao
Khoa học
TSGVi
Sức khỏe
Thể thao

ROUGE -1

ROUGE-2

0.6012
0.6529
0.5906
0.6449
0.6115
0.5989
0.6663
0.6812
0.6481

0.3194
0.3767
0.2384
0.3548
0.3778
0.3125
0.3905
0.3754
0.3637

Luận án thử nghiệm q trình tóm tắt văn bản dùng độ rút gọn = 20% với ngưỡng tạo cạnh
giữa hai đỉnh là α = 0.05 và tham số ưu tiên cho từ thuộc tiêu đề β= 1.5. Trên bộ dữ liệu thử
nghiệm này, mơ hình TSGVi cho kết quả tốt hơn phương pháp cơ sở và AutoSummarise của
MsWord.
5.2.2 Kết quả tóm tắt tập văn bản
Luận án so sánh mơ hình TSGVi đề xuất với hai hệ thống tóm tắt: TextRank [26],
LexRank [14] và phương pháp cơ sở LEAD (phương pháp lấy các câu đầu tiên tuần tự từ văn
bản thứ nhất đến văn bản cuối cùng đưa vào bản tóm tắt). Với mỗi tập văn bản, các hệ thống
sẽ tạo ra bản tóm tắt gồm 100 từ (giống bản tóm tắt chuẩn do chuyên gia tạo ra). Bảng 5.5 cho

biết giá trị của độ đo ROUGE trên toàn bộ tập văn bản T2 theo từng hệ thống và cho thấy
TSGVi có kết quả đánh giá tốt hơn TextRank, LexRank và LEAD trên tập dữ liệu này.
Bảng 5.5. So sánh các hệ thống tóm tắt trên tập T2 [CT1]
STT
1
2
3
4

Hệ thống
LEAD
LexRank
TextRank
TSGVi

ROUGE-1
0.5917
0.5816
0.6348
0.6438

Khoảng tin cậy 95%
[0.5541,0.6393]
[0.5487,0.6293]
[0.5888,0.6804]
[0.5976,0.6908]

Trong Bảng 5.6 là thống kê kết
quả tóm tắt cho từng chủ đề theo độ
đo ROUGE. Phương pháp đề xuất

TSGVi vượt trội hơn các hệ thống
khác trên hầu hết các chủ đề ngoại
trừ tập văn bản liên quan đến chủ đề
xã hội và thời tiết. Đó là do tác giả
bản tin tức thường tóm tắt tin ở đầu

ROUGE-2
0.2036
0.2084
0.2869
0.3096

Khoảng tin cậy 95%
[0.1728,0.2356]
[0.1758,0.2397]
[0.2433,0.3316]
[0.2575,0.3592]

Bảng 5.6. So sánh kết quả tóm tắt theo độ đo
ROUGE trên từng chủ đề [CT1]
STT Chủ đề

1

2

Kinh tế

Xã hội

21

Hệ thống

ROUGE-1

ROUGE-2

LEAD
LexRank
TextRank
TSGVi
LEAD
LexRank
TexRank
TSGVi

0.54
0.535
0.561
0.601
0.61
0.596
0.691
0.655

0.149
0.167
0.195
0.234

0.231
0.221
0.321
0.303

bài, nhưng khơng phải lúc nào điều
này cũng chính xác. Vì vậy phương
pháp TextRank sử dụng đồ thị
hướng lùi và phuơng pháp cơ sở
LEAD thỉnh thoảng cho cho kết quả
tốt hơn. Tuy nhiên, TSGVi cho kết
quả đánh giá tốt hơn trên tồn bộ
tập dữ liệu. Thời gian tóm tắt tập

3

4

5

văn bản trung bình của TSGVi là
0.107 giây (trên máy Intel P8400,
RAM 2GB).

6

LEAD
Chính trị LexRank
TextRank

TSGVi
LEAD
LexRank
Sức
khỏe
TextRank
TSGVi
LEAD
Thời tiết LexRank
TextRank
TSGVi
LEAD
LexRank
Thể thao
TextRank
TSGVi

0.629
0.627
0.659
0.75
0.62
0.631
0.679
0.705
0.685
0.63
0.631
0.593
0.629

0.635
0.698
0.786

0.206
0.276
0.348
0.545
0.219
0.233
0.224
0.272
0.322
0.254
0.292
0.297
0.285
0.348
0.399
0.57

6. Kết luận
Các kết quả đạt được
Mơ hình khơng gian vectơ là phương pháp biểu diễn văn bản phổ biến, nhưng mơ hình
này chỉ tập trung vào tần suất xuất hiện của từ và không nắm bắt được các thông tin cấu trúc
văn bản. Tiếp cận đồ thị hạn chế được nhược điểm của biểu diễn vectơ truyền thống, khi lưu
trữ thông tin cấu trúc của văn bản như thứ tự xuất hiện, vị trí, vùng lân cận và sự đồng hiện
của từ.
Luận án thu được một số kết quả có ý nghĩa khoa học sau đây:
 Luận án đã phân tích và lựa chọn mơ hình đồ thị biểu diễn văn bản phù hợp cho các

nhiệm vụ khai thác dữ liệu văn bản: phân lớp, gom cụm động và tóm tắt văn bản.
o Luận án đề xuất qui trình phân loại văn bản sử dụng mơ hình đồ thị đơn giản để
biểu diễn văn bản kết hợp kỹ thuật khai thác đồ thị. Kỹ thuật khai thác đồ thị con
phổ biến dùng để rút trích các đặc trưng đồ thị nhằm tăng tốc độ xử lý. Sau đó các
đặc trưng này tham gia vào bước xây dựng tập vectơ đại diện lớp và bộ phân loại.
o Với mục tiêu đáp ứng tính cập nhật liên tục của dữ liệu văn bản, luận án đề xuất qui
trình gom cụm văn bản động dựa trên biểu diễn đồ thị và thuật toán Incremental
DBSCAN cải tiến. Qui trình gom cụm đề xuất dễ dàng cập nhật thơng tin cụm khi
có sự thay đổi trong dữ liệu. Nhằm nâng cao chất lượng gom cụm, luận án đề xuất
kỹ thuật chọn lựa động đặc trưng dựa trên phương pháp học có giám sát.
o Luận án đề xuất mơ hình tóm tắt văn bản tiếng Việt với biểu diễn đồ thị có đỉnh là
câu và kỹ thuật xếp hạng đỉnh để rút ra các câu quan trọng đưa vào bản tóm tắt. Mơ
hình tóm tắt này áp dụng được cho cả văn bản đơn lẫn tập văn bản.
 Luận án đã cải tiến một số thuật toán.
o Luận án cải tiến gSpan để tìm đồ thị con phổ biến trên tập đồ thị có hướng biểu
diễn văn bản. Luận án đề xuất biểu diễn mới cho mã DFS, định nghĩa lại thứ tự từ
22

điển trên mã DFS tương ứng với biểu diễn mới và đưa ra các lưu ý khi phát triển đồ
thị con. Độ phức tạp thời gian của gSpan cải tiến tốt hơn gSpan nguyên thủy.
o Luận án cải tiến thuật tốn Incremental DBSCAN, một thuật tốn gom cụm động
có khả năng xử lý nhiễu, ít phụ thuộc vào thứ tự dữ liệu đưa vào nhằm áp dụng
hiệu quả lên tập văn bản. Luận án cải tiến kỹ thuật trộn cụm của thuật toán
Incremental DBSCAN nhằm hạn chế việc trộn các cụm ít tương tự lại với nhau. Độ
phức tạp thời gian của Incremental DBSCAN cải tiến giống như thuật toán nguyên
thủy nhưng làm tăng chất lượng gom cụm.
Đồng thời kết quả luận án có ý nghĩa thực tiễn sau:
 Luận án đã tiến hành thử nghiệm khai thác văn bản tiếng Việt. Lần đầu tiên tiếp cận
đồ thị biểu diễn, khai thác văn bản được áp dụng vào văn bản tiếng Việt. Tiếp cận đồ thị

không chỉ khắc phục các nhược điểm của biểu diễn vectơ mà còn làm giảm bớt sự ảnh
hưởng của cơng cụ tách từ (bài tốn khó trên tiếng Việt) và đồng thời quan tâm đến thứ
tự xuất hiện của từ trong văn bản (một đặc điểm quan trọng của tiếng Việt).
 Các kết quả thử nghiệm cho thấy tiếp cận đồ thị là phương pháp hiệu quả và có khả
năng mở rộng với những thuật toán cải tiến để cải thiện, nâng cao chất lượng phân loại,
gom cụm và tóm tắt văn bản. Thời gian xử lý văn bản khi sử dụng tiếp cận đồ thị kết
hợp với các kỹ thuật rút trích đặc trưng phù hợp gần như tương đương với phương pháp
sử dụng mơ hình biểu diễn vectơ nhưng kết quả khai thác tốt hơn.
Hướng phát triển
Bên cạnh rất nhiều ưu điểm của tiếp cận đồ thị biểu diễn, khai thác văn bản, nhược điểm
chính của tiếp cận này là độ phức tạp tính tốn trên đồ thị. Chính vì vậy việc nghiên cứu và
nâng cao tốc độ xử lý trên đồ thị với những kỹ thuật khác nhau là vần đề cần đặc biệt quan
tâm trong thời gian tới. Dưới đây là tóm tắt các vấn đề chính trong hướng phát triển của luận
án:
 Với mục tiêu tăng tốc độ xử lý, cũng như chất lượng các qui trình khai thác văn bản dựa
trên biểu diễn đồ thị, việc phát triển, áp dụng các phương pháp rút trích và chọn lựa đặc
trưng từ đồ thị là vấn đề cần quan tâm.
 Việc tích hợp thêm các đặc trưng ngữ nghĩa, đặc thù ngôn ngữ là hướng mở để nâng cao
chất lượng của các qui trình khai thác văn bản đã đề xuất nhằm giải quyết vấn đề đồng
nghĩa.
 Tiếp tục cải tiến các qui trình về chất lượng, tốc độ xử lý và áp dụng kết quả vào lĩnh
vực rút trích thơng tin và hệ thống tư vấn là hướng nghiên cứu trong tương lai của luận
án.

23

tiếp cận đô thị biểu diễn, khai thác văn bản và ứng dụng bản tóm tắt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về