Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.13 MB, 26 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Lê Mạnh Hùng

Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm

Chuyên Ngàng: Truyền Dữ Liệu Và Mạng Máy Tính
Mã số: 10B60.48.15-0079

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2012
Luậnvănđượchoànthànhtại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Ngườihướngdẫnkhoahọc: TS Nguyễn Hữu Quỳnh

Phảnbiện 1: ………………………………………………………………

Phảnbiện 2: ………………………………………………………………

LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưu
chínhViễnthông
Vàolúc: giờ ngày tháng năm

Cóthểtìmhiểuluậnvăntại:
- ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông
1
MỞ ĐẦU

Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên
mọi lĩnh vực. Hằng ngày có hàng triệu văn bản, trang web được đưa lên hệ thống
máy chủ, làm phong phú hệ thống tài nguyên khổng lồ này. Tuy nhiên, chúng ta
không thể sử dụng thông tin trong hệ thống thông tin khổng lồ này nếu không tổ chức
và khai thác nguồn tài nguyên này hiệu quả.
Kỹ thuật tra cứu thông tin đã và đang được nghiên cứu, phát triển trong nhiều
lĩnh vực khác nhau như y tế, giáo dục, kinh tế Những kiến thức liên quan đến tra
cứu thông tin là rất rộng và tổng hợp, bao gồm thuật toán, cấu trúc dữ liệu, cơ sở dữ
liệu, các hệ thống phân tán, tính toán song song, tổ chức tệp (file), khai phá dữ liệu
(data mining). Do đó, việc nghiên cứu về tra cứu thông tin sẽ rất hữu ích.
Các nghiên cứu đối với tiếng Anh đã có một số công trình công bố và một số
hệ thống được đưa vào ứng dụng []. Tuy nhiên đối với tiếng Việt, hiên nay chỉ có một
số các công trình được công bố [9,10,19] mà chưa có ứng dụng cụ thể đối với tra cứu

tiếng Việt. Vấn đề này chính là động lực để luận văn chọn đề tài “Tra cứu văn bản
tiếng Việt dựa trên kỹ thuật phân cụm”. Các đóng góp của luận văn
- Nghiên cứu, cải tiến một số phương pháp tra cứu đối với văn bản tiếng
Anh áp dụng cho tiếng Việt.
- Sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên nhằm nâng cao hiệu năng của
hệ thống tra cứu văn bản tiếng Việt.
- Trên cơ sở phương pháp đã được nghiên cứu, luận văn tiến hành xây
dựng hệ thống tra cứu thông tin và ứng dụng trong tra cứu thông tin tiếng Việt.
Cấu trúc luận văn gồm có ba chương:
Chương 1: Giới thiệu tổng quan về tra cứu văn bản.
Chương 2: Trình bày kỹ thuật tra cứu thông tin sử dụng kỹ thuật phân cụm.
Chương 3: Trình bày hệ thống tra cứu thông tin và ứng dụng vào tra cứu thông
tin tiếng Việt.
2
Chương 1. TỔNG QUAN VỀ TRA CỨU VĂN BẢN
1.1 Tra cứu thông tin
1.1.1 Giới thiệu
Tra cứu thông tin là một nhánh của khoa học máy tính nhằm mục tiêu lưu trữ và cho
phép truy cập nhanh một lượng thông tin lớn. Thông tin này có thể là văn bản, đa phương
tiện hoặc âm thanh [14, 16]. Lược đồ một hệ thống tra cứu thông tin được thể hiện như Hình
1. 1.

Hinh 1.1 Tổng quan hệ thống tra cứu thông tin.

1.1.2 Các mô hình tra cứu thông tin
Mô hình Boole vẫn là một mô hình được sử dụng phổ biến nhất trong các hệ thống
tra cứu thông tin thương mại. Mô hình này dựa trên lý thuyết tập hợp. Các tài liệu được biểu
diễn bởi các tập các thuật ngữ và chiến lược tìm kiếm Boole tra cứu các tài liệu khối với
truy vấn (có giá trị true).

Mô hình không gian véc tơ dựa trên giải thích không gian của cả các truy vấn và các
tài liệu. Một cải tiến của biểu diễn tài liệu trên mô hình Boole thu được bởi việc kết hợp mỗi
thuật ngữ chỉ số với một giá trị số, gọi là trọng số thuật ngữ chỉ số, biểu thị độ quan trọng
mà thuật ngữ tổng hợp nội dung thông tin của tài liệu.
3
Mô hình xác suất [21] phân hạng các tài liệu theo thứ tự giảm dần của xác suất liên
quan của các tài liệu với nhu cầu thông tin của người sử dụng. 1.1.3 Một số phương pháp
tra cứu thông tin văn bản
1.1.3.1 Quét toàn bộ văn bản
Cách đơn giản nhất để định vị các tài liệu chứa xâu (thuật ngữ) tìm kiếm nào đó là
tìm kiếm tất cả các tài liệu với xâu được chỉ ra (kiểm tra xâu con). “Xâu” là một chuỗi các
ký tự. Nếu truy vấn là một biểu diễn Boole phức hợp bao gồm nhiều xâu tìm kiếm, chúng ta
cần thêm một bước để xác định các đối sánh thuật ngữ có được tìm thấy bởi các kiểmtra
chuỗi con thỏa mãn biểu diễn Boole hay không.
1.1.3.2 Các tệp dấu hiệu
Cách tiếp cận tệp dấu hiệu đã thu hút nhiều sự quan tâm. Trong phương pháp này,
mỗi tài liệu sinh ra một xâu bít (‘dấu hiệu’), sử dụng bảng băm trên các từ. Các dấu hiệu tài
liệu sinh ra được lưu trữ tuần tự trong một tệp rời rạc - tệp dấu hiệu (nhỏ hơn tệp gốc rất
nhiều) và có thể được tìm kiếm nhanh hơn nhiều.
1.1.3.3 Phép đảo
Mỗi tài liệu có thể được biểu diễn bởi một danh sách các từ (các từ khóa), mô tả các
nội dung tài liệu cho mục tiêu tra cứu. Tra cứu nhanh có thể thu được nếu chúng ta đảo các
từ khóa đó. Các từ khóa được lưu trữ, theo thứ tự alphabet, trong tệp chỉ số; với mỗi từ khóa
chúng ta duy trì một danh sách các con trỏ đến các tài liệu đủ điều kiện. Phương pháp này
có trong hầu hết tất cả các hệ thống thương mại [21].
1.2 Các hệ thống tra cứu thông tin dựa vào phân cụm
1.2.1 Các hệ thống tra cứu thông tin dựa vào phân cụm
Tìm kiếm dựa vào phân cụm cần thỏa mãn một truy vấn hiệu quả bởi nhận biết và chỉ
tra cứu các cụm đó. Phân cụm cải tiến độ chính xác của tra cứu như sinh ra kết quả tra cứu
có số tài liệu liên quan cao [14,16].

1.2.2 Các phương pháp phân cụm
Phương pháp phân cụm phân cấp
Một thuật toán phân cấp có thể bắt đầu bởi xem xét tất cả các tài liệu như một cụm và
sau đó tách nó thành các cụm nhỏ hơn (phân cụm chia nhỏ). Thuật toán có thể bắt đầu với
các tài liệu riêng lẻ và nhóm chúng lại với nhau thành các cụm lớn hơn (phân cụm gộp).
4
Phân cụm Heuristic
Thuật ngữ “Heuristic” được sử dụng bởi các tác giả như Rijsbergen [22] đối với các
phương pháp mô tả nhận các phím tắt để thu được hiệu quả lớn hơn về mặt đòi hỏi không
gian và thời gian.
Phân cụm gia tăng
Các phương pháp gia tăng sử dụng một độ đo tương tự nhưng các phương pháp
không đòi hỏi các độ tương tự tính toán trước cho tất cả các cặp tài liệu. Tất cả các cặp tài
liệu chưa sẵn có khi khởi tạo, bởi theo xác định, các phương pháp phân cụm một dòng các
tài liệu đến. Các độ tương tự được tính toán bằng các tài liệu trong hệ thống phân cụm gia
tăng [22].
1.3 Đánh giá tra cứu thông tin
1.3.1 Đánh giá hệ thống tra cứu thông tin
Để đo độ chính xác tra cứu thông tin theo cách chuẩn, chúng ta cần một tập kiểm tra
gồm ba thứ:
1. Một tập tài liệu
2. Một bộ kiểm tra nhu cầu thông tin, có thể biểu diễn như các truy vấn.
3. Một tập các đánh giá liên quan, một đánh giá nhị phân hoặc liên quan hoặc không
liên quan cho mỗi cặp tài liệu truy vấn.
Một tài liệu là liên quan nếu nó nói đến nhu cầu thông tin đã được nêu, không phải vì
nó vừa xảy ra để chứa tất cả các từ trong truy vấn. Điều khác biệt này thường bị hiểu lầm
trong thực hành, bởi vì nhu cầu thông tin không được công khai.
1.3.2 Các tập kiểm tra chuẩn
Đây là một danh sách các tập kiểm tra và các chuỗi đánh giá chuẩn. Chúng tôi tập
trung vào các tập kiểm tra cho đánh giá hệ thống tra cứu thông tin đặc biệt, những cũng đề

cập đến một cặp tập kiểm tra tương tự cho phân lớp văn bản.
1.3.3 Đánh giá các tập tra cứu không được phân hạng
Những thành phần này được cho trước, độ chính xác hệ thống đo như thế nào? Hai
độ đo cơ sở và thường được sử dụng nhất cho độ chính xác tra cứu là triệu hồi và chính xác.
Đây là lần đầu tiên được xác định cho trường hợp đơn giản nơi một hệ thống tra cứu trả về
một tập các tài liệu cho một truy vấn.
5
Độ chính xác của P - Precision (P) là phần của các tài liệu được tra cứu có liên quan

cuu tra duoc muc cac sotong
cuu tra duoc quan lien muc cac so
Precision 
(1-4)
Triệu hồi của R - Recall(R) là phần của các tài liệu liên quan được tra cứu

cuu tra muc cac sotong
cuu tra duoc quan lien muc cac so
ecallR 
(1-5)
Một độ đo mà khác dựa trên độ chính xác và triệu hồi là F measure, đó là trung bình
điều hòa có trọng số của chính xác và triệu hồi:














1)1(
1
)1(
1
1
2
2
2
do trong
RP
PR
Rp
F (1-8)

Hình 1.2 Biểu đồ so sánh trung bình điều hòa của các trung bình khác nhau
1.4 Đặc điểm của văn bản tiếng Việt
Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời
nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ
âm, từ vựng, ngữ pháp.
1.4.1 Đặc điểm ngữ âm
Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng". Về mặt ngữ âm, mỗi tiếng là
một âm tiết.
6
1.4.2 Đặc điểm từ vựng
Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn
vị có nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự

vật, hiện tượng , chủ yếu nhờ phương thức ghép và phương thức láy.
1.4.3 Đặc điểm ngữ pháp
Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi phối các đặc điểm ngữ
pháp khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương
thức trật tự từ và hư từ.
1.5 Kết luận chương 1
Trong chương này, luận văn đã trình bày về tổng quan về khai phá dữ liệu văn bản,
các phương pháp khai phá văn bản và các phương pháp, các kỹ thuật và quy trình tra cứu
văn bản tiếng việt. Ngoài ra ở chương 1 luận văn cũng trình bày về các đặc điểm của văn
bản tiếng việt. Từ những kiến thức tổng quan này chương hai luận văn sẽ lựa trình bày chi
tiết về trích rút văn bản tiếng việt với một phương pháp cụ thể.

Chương 2. TRA CỨU VĂN BẢN TIẾNG VIỆT DỰA TRÊN KỸ
THUẬT PHÂN CỤM.
Trong chương này, luận văn giới thiệu các phương pháp biểu diễn văn bản, đồng thời
trình bày chi tiết một phương pháp biểu diễn văn bản tiếng Việt có sử dụng giảm chiều
vector. Dựa trên phương pháp biểu diễn này, luận văn sử dụng phương pháp phân cụm tiếng
Việt dựa trên thuật toán cây phân cấp và hệ thống tra cứu văn bản tiếng Việt dựa trên tập dữ
liệu văn bản tiếng Việt đã được phân cụm.
2.1 Phương pháp biểu diễn văn bản
2.1.1 Khái niệm
Biểu diễn văn bản là phương pháp mô tả nội dung hoặc đặc trưng của văn bản [1].
Khi biểu diễn văn bản dưới dạng véc tơ, người ta thường sử dụng thành phần véc tơ biểu
diễn tương ứng với các đặc trưng là các từ (thuật ngữ). Với giá trị của mỗi đặc trưng này gọi
là trọng số của từ (thuật ngữ), mô tả tần suất của từ (thuật ngữ) xuất hiện trong văn bản [1].
7
2.1.1.1 Một số phương pháp biểu diễn văn bản
Mô hình không gian vector
Cách biểu diễn văn bản thông dụng nhất là thông qua vector biểu diễn theo mô hình
không gian vector (Vector Space Model). Đây là một cách biểu diễn tương đối đơn giản và

hiệu quả. Trong các cơ sở dữ liệu văn bản, mô hình vector là mô hình biểu diễn văn bản
được sử dụng phổ biến nhất hiện nay. Mối quan hệ giữa các trang văn bản được thực hiện
thông qua việc tính toán trên các vector biểu diễn vì vậy được thi hành khá hiệu quả.

Hình 2.1 Mô hình không gian vector.

Mô hình Boolean
Một mô hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy nhất hai giá trị
đúng và sai (true và false, hoặc 0 và 1) gọi là mô hình Boolean. Hàm f tương ứng với từ
khóa t
i
sẽ cho ra giá trị đúng nếu và chỉ nếu từ khóa t
i
xuất hiện trong văn bản đó.
Mô hình phân tích cú pháp
Trong mô hình này, mỗi văn bản đều phải được phân tích cú pháp và trả lại thông tin
chi tiết về chủ đề của văn bản đó. Sau đó, người ta tiến hành đánh chỉ số các chủ đề của
từng văn bản. Cách đánh chỉ số trên chủ đề cũng giống như khi đánh chỉ số trên văn bản
nhưng chỉ đánh chỉ số trên các từ xuất hiện trong chủ đề.
Mô hình tần suất
Trong mô hình tần suất, ma trận W = {w
ij
} được xác định dựa trên tần số xuất hiện
của từ khóa t
i
trong văn bản d
j
hoặc tần số xuất hiện của từ khóa t
i
trong toàn bộ cơ sở dữ

liệu. Sau đây là một số phương pháp phổ biến:
- Phương pháp dựa trên tần số từ khóa (TF – Term Frequency)
8
- Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document
Frequency)
2.1.1.2 Phương pháp tính trọng số của từ
Trong các cách tiếp cận tính toán trọng số của từ để biểu diễn văn bản hiện nay.
Phương pháp tính trọng số dựa trên tần suất xuất hiện của từ (thuật ngữ) được sử dụng phổ
biến hiện nay.
2.1.2 Kỹ thuật giảm chiều vector biểu diễn trong văn bản tiếng Việt
2.1.2.1 Kỹ thuật giảm chiều véc tơ
Xem xét một số ứng dụng ví dụ như trong một hệ thống xử lý dữ liệu (tín hiệu tiếng
nói, ảnh hoặc nhận dạng mẫu nói chung) tập các đặc trưng nếu coi là tập hợp các vec tơ giá
trị thực. Giả thiết rằng, hệ thống chỉ hiệu quả nếu số chiều của mỗi véc tơ riêng lẻ không
quá lớn. Vấn đề của giảm chiều xuất hiện khi dữ liệu có số chiều lớn hơn khả năng xử lý
của hệ thống [17

Hình 2.5 .Mô hình giảm chiều véc tơ.
2.1.2.2 Kỹ thuật giảm chiều véc tơ trong biểu diễn văn bản tiếng Việt
Khái niệm giảm chiều lần đầu được công bố bởi Bellman (1961). Bellman cho rằng
sẽ rất khó khăn khi tính toán số các đặc trưng khi số lượng từ quá nhiều.
9

Hình 2.7. Một mô hình rút gọn đặc trưng văn bản
2.2 Kỹ thuật phân cụm văn bản tiếng Việt dựa trên thuật toán phân cấp
2.2.1 Phân cụm văn bản
2.2.1.1 Khái niệm phân cụm văn bản
Định nghĩa: Thuật toán phân cụm nhóm tập các văn bản vào các tập con hoặc các
cụm. Mục đích của thuật toán là tạo ra các nhóm có sự liên kết bên trong, nhưng khác biệt
rõ ràng với các nhóm khác. Một cách khác các văn bản trong một cụm có thể có độ tương tự

nhau và các văn bản trong một cụm có sự khác biệt với các văn bản khác ở các cụm khác.
[16]

Hình 2.8. Một ví dụ về tập dữ liệu với cấu trúc phân cụm.
10
2.2.1.2 Độ tương tự giữa hai văn bản
Có một số độ đo được sử dụng như: độ tương tự cosine (cosine similarity), hệ số
Jaccard (Jaccard coeficient), khoảng cách Euclidean (Euclidean distance), hệ số Pearson
Correlation (Pearson Correlation coeficient) [18],
Độ đo Cosine
Độ đo cosine được sử dụng nhiều trong phân cụm văn bản để tính toán tương tự khác
nhau giữa các văn bản.







n
i
i
n
i
i
n
i
ii
BA
BA

BA
BA
similarity
1
2
1
2
1
)()(
.
)cos(


(2-8)
Hệ số Jaccard
Hệ số Jaccard đôi khi còn được gọi là hệ số Tanimoto. Đối với văn bản, hệ số Jaccard so
sánh tổng trọng số của các thuật ngữ chung với tổng trọng của số của các thuật ngữ được
biểu diễn trong cả hai văn bản nhưng không chứa các thuật ngữ chung [18].
 



i i
ii
i
ii
i
ii
BABA
BA

BACoffJacard
*
),(_
22

Độ đo Euclide
Trong độ đo Euclide thường sử dụng tập dữ liệu để tính toán độ tương tự.



i
ii
BABAceDisEuclidean
2
)(),(tan_

Trong luận văn này, sử dụng độ đo Euclide để tính toán độ tương tự giữa các cặp văn bản
trong tập hợp dữ liệu.
2.2.2 Kỹ thuật phân cấp
2.2.2.1 Kỹ thuật phân cấp
Thuật toán phân cụm phân cấp có hai kiểu là từ trên xuống (top-down) và từ dưới lên
(bottom-up). Bottom-up tại thời điểm ban đầu coi mỗi văn bản như một cụm đơn lẻ và hợp
(2-9)
(2-10)
11
liên tục các cặp của các cụm tới khi tất cả các cụm được hợp thành một cụm duy nhất chứa
tất cả các văn bản. Phân cụm top-down đề cập một phương pháp phân chia một cụm.
Một thuật toán HAC đơn giản được đưa ra trong hình 2.10.

HAC(d
1
, , d
N
)
1 for n ← 1 to N
2 do for i ← 1 to N
3 do C
(n)(i)
← SIM(d
n
,d
i)

4 I
[n]
← ( keeps track of active clusters)
5 A ← [] ( asembles clustering as a sequence of merges)
6 for k ← 1 do N -1
7 do (i,m) ← arg max
{ (i,m) : i ≠m  I[i] = 1  I[m] =1}
C
[i][m]

8 A.APPEND((i,m)) (store merger)
9 for j ← 1 to N
10 do C
[i][j]
← SIM(i,m,j)
11 C

[j][i]
← SIM(i,m,j)
12 I
[m]
← 0 (deactivate cluster)
13 Return A

Hình 2.10. Thuật toán HAC
Thuật toán trên được mô tả bởi ví dụ sau:
Ví dụ 2.3: Xét tập D gồm 6 văn bản d
1
, d
2
, d
3
, d
4
, d
5
, d
6
.
Bước 1: Khởi tạo. Mỗi cụm văn bản c
i
được gán tương ứng là một văn bản d
i
(xem Hình
2.11).

Hình 2.11. Khởi tạo các cụm.

Bước N: Bước cuối ta sẽ nhận được kết quả cây phân cấp tương ứng được chỉ ra trong
Hình 2.14.
12

Hình 2.14. Cây phân cấp thu được sau quá trình phân cụm.
2.2.2.2 Phân cụm văn bản tiếng Việt dựa trên thuật toán phân cấp
Dựa trên thuật toán phân cấp đã được trình bày ở mục 2.2.2.1, luận văn trình bày
phương pháp phân cụm văn bản tiếng Việt ứng dụng thuật toán phân cấp thành các bước
như sơ đồ sau:

Hình 2.15 Hệ thống phân cụm văn bản.
13
2.3 Tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm phân cấp
Một hệ thống tra cứu văn bản thông thường cần liên quan tới các yếu tố sau
- Câu truy vấn
- Kho dữ liệu văn bản
- Quy trình xử lý và phản hồi kết quả
Hình 2.16 dưới đây mô tả qui trình hoạt động của một hệ thống tra cứu văn bản dựa
trên kỹ thuật phân cụm.

Hình 2.16 Hệ thống tra cứu ứng dụng phân cụm văn bản.
Thuật toán trong hình 2.17 dưới đây tính toán trọng số của một danh từ thuộc tập văn
bản D.

Hình 2.17. Thuật toán tính trọng số của từ phụ thuộc tập văn bản.
14
Hình 2.18 dưới đây mô tả thuật toán biểu diễn văn bản. Mỗi văn bản được biểu diễn
bởi tập các danh từ và trọng số của nó.

Hình 2.18. Thuật toán biểu diễn văn bản

Hình 2.19 dưới đây mô tả thuật toán tính độ tương tự giữa từng cặp văn bản trong cả
tập văn bản đầu vào D.

Hình 2.19 Thuật toán tính độ tương đồng giữa các văn bản trong tập D.
Sau khi mỗi văn bản được gom thành các cụm, luận văn sử dụng phương pháp
tính trọng tâm để tính biểu diễn đại diện cho các cụm. Đối với mỗi cụm, việc tìm đại diện
biểu diễn được mô tả như sau:
15

Hình 2.20. Thuật toán tìm đại diện biểu diễn từng cụm.
Trong hình 2.20 là thuật toán mô tả việc tìm đại diện biểu diễn cho mỗi cụm dựa
trên phương pháp tính tâm cụm.
Hình 2.21 dưới đây mô tả thuật toán biểu diễn câu truy vấn.

Hình 2.21. Thuật toán biểu diễn câu truy vấn.
16
Trong thuật toán trên có các tham số: V là tập từ điển danh từ, N là tập danh từ được
tách từ câu truy vấn s, d là tổng số các danh từ trong tập N, các O[i] biểu diễn số lần xuất
hiện của mỗi N[i] trong câu s, W[i] là trọng số của mỗi danh từ trong câu truy vấn S.
Khi ta đã biểu diễn được câu truy vấn và biểu diễn được đại diện cho mỗi cụm, việc
thực hiện đối sánh giữa câu truy vấn với cơ sở dữ liệu để tìm ra độ tương đồng nhất giữa câu
truy vấn và cụm văn bản.
2.4 Kết luận chương 2
Trong chương này, luận văn đã trình bày được phương pháp tra cứu văn bản tiếng
Việt dựa trên phân cụm phân cấp, đồng thời cũng mô tả chi tiết các thuật toán dùng trong
phân cụm và phương pháp thể hiện biểu diễn câu truy vấn và cách tính độ tương đồng để
truy xuất dữ liệu. Từ phương pháp đã được thể hiện chi tiết ở chương 2, luận văn sẽ thực
hiện quá trình cài đặt được mô tả ở chương tiếp theo
Chương 3. XÂY DỰNG ỨNG DỤNG TRA CỨU VĂN BẢN
TIẾNG VIỆT DỰA TRÊN KỸ THUẬT PHÂN CỤM

Trong chương này, luận văn trình bày phương pháp lựa chọn dữ liệu, lưu trữ và xây
dựng hệ thống ứng dụng tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm, đồng thời
luận văn cũng có các thử nghiệm, đánh giá phương pháp được cài đặt với tập dữ liệu văn
bản tiếng Việt
3.1 Kiến trúc tổng quát của hệ thống
Hệ thống tra cứu văn bản tiếng Việt dựa trên kỹ thuật phân cụm được chia thành hai pha
chính: Pha phân cụm và pha tra cứu.
- Pha phân cụm: Pha thực hiện phân cụm văn bản thành các cụm riêng biệt. Đồng
thời từ đó có thể dựa trên đại diện biểu diễn của từng cụm để gán chủ đề cho cụm đó.
- Pha tra cứu: Pha thực hiện tra cứu trực tuyến trên nền web. Có lựa chọn sử dụng
câu truy vấn hoặc sử dụng văn bản truy vấn để tra cứu các văn bản tương tự.
Chức năng chính của hệ thống được mô tả như hình vẽ 3.1 dưới đây
17

Hình 3.1 Sơ đồ chức năng hệ thống tra cứu văn bản tiếng Việt
Hình 3.2 dưới đây mô tả biểu đồ ca sử dụng tổng quát của hệ thống tra cứu
Quan tri
Nguoi dung
Them du lieu
Sua du lieu
xoa du lieu
huan luyen phan cum
tra cuu
xem thong tin

Hình 3.2 Biểu đồ Use case tổng quát

Chức năng tra cứu văn bản
Trong chức năng tra cứu văn bản có bao gồm hai tính năng tra cứu chính là tính năng

tra cứu theo câu hỏi (query) và tính năng tra cứu theo văn bản (file). Hình 3.3 dưới đây mô
tả biểu đồ use case trường hợp tra cứu với hai tính năng đã được mô tả.
18
System
Quan tri
Nguoi dung
tra cuu
cau hoi truy van
van ban
<<include>>
<<include>>

Hình 3.3 . Biểu đồ ca sử dụng tra cứu
Hình 3.4 dưới đây mô tả chức năng tra cứu thông tin của người dùng.
: Nguoi dung
giao dien
co so du lieu
1 : vao he thong()
2 : hien thi giao dien he thong()
3 : gui tra cuu()
4 : tra ket qua tra cuu()
5 : Ket qua tra cuu()

Hình 3.4 Biểu đồ tuần tự tra cứu và phản hồi thông tin tra cứu.
19

Hình 3.5 dưới đây mô tả một biểu đồ hoạt động của hệ thống.
Giao dien he thong
Chon tinh nang tra cuu
Tra cuu theo query

Tra cuu theo file
Chon file
Nhap query
Nhan nut tim kiem
Tra ve danh sach ket qua

Hình 3.5 Biểu đồ hoạt động của hệ thống tra cứu văn bản.
3.2 Xây dựng tập dữ liệu và tập từ điển danh từ
3.2.1 Xây dựng tập dữ liệu
Tập dữ liệu sử dụng trong phân cụm được sử dụng trong luận văn này đồng thời cũng
là tập dữ liệu sử dụng để phân cụm. Cho đến thời điểm này, kho ngữ liệu chuẩn phục vụ cho
phân cụm văn bản tiếng Việt vẫn chưa có. Do đó, luận văn đã xây dựng kho dữ liệu phục vụ
cho phân cụm văn bản một cách thủ công [luận án].
20
3.2.2 Tiền xử lý và chuẩn hóa dữ liệu
Để có được xâu chuẩn, chuẩn bị cho việc tách từ, ta thực hiện qua các bước sau:
1. Chuyển hết các ký tự chữ hoa thành chữ thường.
2. Dùng các dấu câu (bao gồm dấu “.” “,” “:”…) để tách văn bản thành một tâp hợp
các câu.
3. Tiến hành chuẩn hoá với mỗi câu:
3.2.3 Xây dựng bộ từ điển danh từ
Từ tập dữ liệu huấn luyện ban đầu sau quá trình chuẩn hóa văn bản ta xây dựng bộ từ
điển bao gồm các danh từ. Để xây dựng được bộ từ điển danh từ này, phải xây dựng một
cách thủ công dựa trên hệ thống gán nhãn từ loại và lưu vào cơ sở dữ liệu của hệ thống.
3.3 Môi trường cài đặt
3.3.1 Môi trường cài đặt của hệ thống
Hệ thống được xây dựng trên nền web để thuận tiện cho việc tra cứu trực tuyến. Hệ
thống sử dụng ngôn ngữ C# trong bộ visual studio 2010 .
3.3.2 Cơ sở dữ liệu của hệ thống
Hình 3.8 dưới đây mô tả cơ sở dữ liệu của hệ thống tra cứu văn bản tiếng Việt.

Hình 3.8 Cơ sở dữ liệu của hệ thống.
21
3.3.3 Một số giao diện chính của hệ thống
3.3.3.1 Giao diện tra cứu
Hệ thống tra cứu văn bản tiếng Việt có một số giao diện chính sau, do hệ thống chạy
trên nền web, bởi vậy hệ thống được cài đặt để chạy trên localhost của máy tính cá nhân.
Hình 3.9 dưới đây là giao diện chính của hệ thống.

Hình 3.9. Giao diện trang chủ của hệ thống.
Hình 3.10 dưới đây mô tả giao diện khi người dùng nhập câu hỏi tra cứu

Hình 3.10 Kết quả tra cứu với câu truy vấn.
Hình 3.12 dưới đây mô tả kết quả tra cứu của hệ thống
22

Hình 3.12 Kết quả tra cứu với văn bản.
3.3.3.2 Quản lý phân cụm
Phần này mô tả một số giao diện trong phần xử lý phân cụm văn bản. Hình 3.14 dưới
đây mô tả chức năng quản lý lấy dữ liệu từ trong máy tính để tiến hành phân cụm dữ liệu.

Hình 3.14 Tính độ tương tự giữa các cặp văn bản trong tập dữ liệu.
Sau khi tính được độ tương tự giữa các cặp văn bản trong tập dữ liệu. Phần ngưỡng là lựa
chọn số cụm để phân chia.
23

Hình 3.16 Kết quả phân cụm với ngưỡng bằng 0.9
Tiếp theo, sau khi phân cụm, người quản trị có thể di chuyển các cụm đã được
phân vào các folder khác nhau khi thực hiện nhấn nút di chuyển

3.4 Kết quả thực nghiệm
Trong đánh giá và so sánh các phương pháp và các hệ thống TR, một số các phương
pháp chuẩn đã được đưa ra. Tuy nhiên, các hệ thống TR hiện nay vẫn sử dụng TRECs như
một tiêu chuẩn để đánh giá [20]. Các văn bản được thử nghiệm lấy trong tập dữ liệu TREC
(~1Gb) trong
Đối với việc đánh giá hệ thống tra cứu tiếng Việt, hiện nay, kho dữ liệu chưa được
xây dựng, các hệ thống đánh giá cũng chưa có. Do đó, để đánh giá hệ thống tra cứu văn bản
tiếng Việt. Trong luận văn này sử dụng phương pháp thủ công, có nghĩa là tự xây dựng kho
dữ liệu phục vụ cho hệ thống tra cứu, đồng thời sử dụng các độ đo trong đánh giá để đánh
giá hệ thống mà luận văn đã xây dựng. Trong luận văn này, sử dụng độ đo triệu hồi để đánh
giá kết quả tra cứu của hệ thống.
Kho dữ liệu sử dụng trong luận văn được xây dựng bằng cách thủ công, các văn bản
được download từ các trang web, với 6 chủ đề khác nhau được lưu trữ dưới dạng file .txt
(mục 3.2.1).

Tra cứu văn bản tiếng việt dựa trên kỹ thuật phân cụm

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về