Phân cụm văn bản tiếng việt bằng phương pháp k means

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (728.72 KB, 40 trang )

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN

BÀI TẬP LỚN
MÔN: MÁY HỌC
Đề tài:
PHÂN CỤM VĂN BẢN TIẾNG VIỆT
BẰNG PHƯƠNG PHÁP K-MEANS

Giáo viên hướng dẫn: Nguyễn Thị Thu Hà
Nhóm 2

LỜI MỞ ĐẦU
Internet được phát triển nhanh chóng và sinh ra một khối lượng khổng lồ
các dữ liệu dạng siêu văn bản (dữliệu Web), đã trở thành một kênh quan
trọng về mọi thông tin của đời sống. Chính vì vậy, lĩnh vực khai phá Web có
tốc độ phát triển vượt bậc, nhận được nhiều sự quan tâm của các nhà khoa
học và các nhóm nghiên cứu. Một trong những bài toán quan trọng trong lĩnh
vực khai phá Web chính là phân cụm Web . Số lượng các trang Web là rất
Page 1

lớn và luôn luôn thay đổi, mỗi tài liệu không chỉ liên quan đến một khía cạnh
mà còn đề cập đến nhiều khía cạnh khác nhau dẫn đến sự trùng lặp thông tin
giữa các tài liệu. Xuất phát từ những đặc điểm này mà phân cụm Web chỉ
nên thực hiện trên các tài liệu Web của một truy vấn trả về từ máy tìm kiếm.
Sau đó kết quả sẽ được tổ chức lại cho người dùng theo các cụm.

PHẦN 1
TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
1. Phân cụm dữ liệu

1.1 Định nghĩa phân cụm dữ liệu
Page 2

Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự
nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một
cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không
tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không có
thầy. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi
phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân
cụm dữ liệu là một cách học bằng quan sát, trong khi phân

lớp dữ liệu là

học bằng ví dụ… Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như
một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại
và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm.
1.2 Một số ví dụ về phân cụm dữ liệu
1.2.1 Phân cụm dữ liệu phục vụ cho biểu diễn dữ liệu gene
Phân cụm là một trong những phân tích được sử dụng thường xuyên
nhất trong biểu diễn dữ liệu gene (Yeung et al, 2003; Eisen at al, 1998). Dữ
liệu biểu diễn gene là một tập hợp các phép đo được lấy từ DNA microarray
(còn gọi là DNA chip hay gene chip) là một tấm thủy tinh hoặc nhựa trên đó
có gắn các đoạn DNA thành các hàng siêu nhỏ. Các nhà nghiên cứu sử dụng
các con chip như vậy để sàng lọc các mẫu sinh học nhằm kiểm tra sự có mặt
hàng loạt trình tự cùng một lúc. Các đoạn DNA gắn trên chip được gọi là
probe (mẫu dò).

1.2.2 Phân cụm dữ liệu phục trong sức khỏe tâm lý
Phân cụm dữ liệu áp dụng trong nhiều lĩnh vực sức khỏe tâm lý, bao

gồm cả việc thúc đẩy và duy trì sức khỏe, cải thiện cho hệ thống chăm sóc
Page 3

sức khỏe và công tác phòng chống bệnh tật và người khuyết tật. Trong sự
phát triển hệ thống chăm sóc sức khỏe, phân cụm dữ liệu được sử dụng để
xác định các nhóm của người dân mà có thể được hưởng lợi từ các dịch vụ cụ
thể (Hodges và Wotring, 2000). Trong thúc đẩy y tế, nhóm phân tích được sử
dụng để lựa chọn nhắm mục tiêu vào nhóm sẽ có khả năng đem lại lợi ích
cho sức khỏe cụ thể từ các chiến dịch quảng bá và tạo điều kiện thuận lợi cho
sự phát triển của quảng cáo. Ngoài ra, phân cụm dữ liệu được sử dụng để xác
định các nhóm dân cư bị rủi ro do phát triển y tế và các điều kiện những
người có nguy cơ nghèo.
1.2.3 Phân cụm dữ liệu đối với hoạt động nghiên cứu thị trường
Trong nghiên cứu thị trường, phân cụm dữ liệu được sử dụng để phân
đoạn thị trường và xác định mục tiêu thị truowngd (Chrisopper, 1969;
Saunders, 1980; Frank and Green, 1968). Trong phân đoạn thị trường, phân
cụm dữ liệu thường được dùng để phân chia thị trường thành những cụm
mang ý nghĩa, chẳng hạn như chia ra đối tượng nam giới từ 21-30 tuổi và
nam giới ngoài 51 tuổi, đối tượng nam giới ngoài 51 tuổi thường k có khuynh
hướng mua các sản phẩm mới
1.2.4 Phân cụm dữ liệu đối với hoạt động phân đoạn ảnh
Phân đoạn ảnh là việc phân tích mức xám hay mầu của ảnh thành các
lát đồng nhất (Comaniciu and Meer, 2002). Trong phân đoạn ảnh, phân cụm
dữ liệu thường được sử dụng để phát hiện biên của đối tượng trong ảnh.
Phân cụm dữ liệu là một công cụ thiết yếu của khai phá dữ liệu là quá
trình khám phá và phân tích một khối lượng lớn dữ liệu để lấy được các
thông tin hữu ích (Berry and Linoff, 2000). Phân cụm dữ liệu cũng là một
vấn đề cơ bản trong nhận dạng mẫu (pattern recognition).
Page 4

Nhìn chung, thông tin hữu dụng có thể được khám phá từ một khối
lượng lớn dữ liệu thông qua phương tiện tự động hay bán tự động (Berry and
Linoff, 2000). Trong khai phá dữ liệu gián tiếp, không có biến nào được chọn
ra như một biến đích, và mục tiêu là để khám phá ra một vài mối quan hệ
giữa tất cả các biến. Trong khi đó đối với khai phá dữ liệu gián tiếp một vài
biến lại được chọn ra như các biến đích. Phân cụm dữ liệu là khai phá dữ liệu
gián tiếp, bởi vì trong khai phá dữ liệu, ta không đảm bảo chắc chắn chính
xác cụm dữ liệu mà chúng ta đang tìm kiếm, đóng vai trò gì trong việc hình
thành các cụm dữ liệu đó, và nó làm như thế nào.
Vấn đề phân cụm dữ liệu đã được quan tâm một cách rộng rãi, mặc dù
chưa có định nghĩa đồng bộ về phân cụm dữ liệu và có thể sẽ không bao giờ
là một và đi đến thống nhất (Estivill-Castro, 2002; Dubes, 1987; Fraley anh
Raftery,1998). Nói một cách đại khái là: Phâm cụm dữ liệu, có nghĩa là ta
cho một tập dữ liệu và một phương pháp tương tự, chúng ta nhóm dữ liệu lại
chẳng hạn như điểm dữ liệu trong cùng một nhóm giống nhau và điểm dữ
liệu trong các nhóm khác nhau về sự không đồng dạng. Rõ ràng là vấn đề
này được bắt gặp trong nhiều ứng dụng, chẳng hạn như khai phá văn bản,
biểu diễn gen, phân loại khách hàng, xử lý ảnh…
2. Một số kiểu dữ liệu
Thuật toán phân cụm dữ liệu có rất nhiều liên kết với các loại dữ liệu.
Vì vậy, sự hiểu biết về quy mô, bình thường hóa, và gần nhau là rất quan
trọng trong việc giải thích các kết quả của thuật toán phân cụm dữ liệu. Kiểu
dữ liệu nói đến mữ độ lượng tử hóa trong dữ liệu (Jain và Dubes, 1988;
Anderberg, 1973) – một thuộc tính duy nhất có thể được gõ như nhị phân,
rời rạc, hoặc liên tục. Thuộc tính nhị phân có chính xác hai giá trị, như là
đúng hoặc sai. Thuộc tính rời rạc có một số hữu hạn các giá trị có thể, vì thế
các loại nhị phân là một trường hợp đặc biệt của các loại rời rạc
Page 5

Dữ liệu quy mô, mà chỉ ra tầm quan trọng tương đối của các con số,
cũng là một vấn đề quan trọng trong phân cụm dữ liệu. Vậy liệu có thể
được chia thành quy mô quy định lượng và quy mô định tính. Quy mô
định lượng bao gồm quy mô danh nghĩa và quy mô giới hạn. Quy mô định
tính bao gồm quy mô khoảng và quy mô khoảng tỷ lệ. Các kiểu dữ liệu sẽ
được xem xét trong phần này.
2.1 Dữ liệu Categorical
Thuộc tính Categorical cũng được gọi là thuộc tính danh nghĩa, thuộc tính
này đơn giản là sử dụng như tên, chẳng hạn như các thương hiệu xe và tên
của các chi nhánh ngân hàng. Chúng ta xem xét các dữ liệu tập hợp với
một số hữu hạn các điểm dữ liệu, một thuộc tính trên danh nghĩa của các
điểm dữ liệu, một thuộc tính trên danh nghĩa của các điểm dữ liệu trong
tập dữ liệu có thể chỉ có một số hữu hạn các giá trị; như vậy, các loại danh
nghĩa cũng là một trường hợp đặc biệt của kiểu rời rạc

Page 6

Hình: Biểu đồ quy mô dữ liệu

Page 7

Page 8

Page 9

3. Phép biến đổi và chuẩn hóa dữ liệu
Trong nhiều ứng dụng của phân cụm dữ liệu, dữ liệu thô, hoặc đo đạc thực
tế, không được sử dụng trực tiếp, trừ khi mọt mô hình xác suất cho các thế
hệ khuôn mẫu có sẵn (Jain và Dubes, 1988). Việc chuẩn bị cho việc phân
cụm dữ liệu yêu cầu một só loại chuyển đổi, chẳng hạn như biến đổi và
chuẩn hóa dữ liệu
Page 10

3.1 Chuẩn hóa dữ liệu
Chuẩn hóa làm cho dữ liệu giảm kích thước đi. Nó có ích để xác
định tiêu chuẩn hóa chỉ số. Sau chuẩn hóa, tất cả các kiến thức về vị trí và
quy mô của các dữ liệu gốc có thể bị mất. Nó là cần thiết để chuẩn hóa
các biến trong trường hợp các biện pháp không giống nhau, chẳng hạn
như khoảng cách Euclide, là nhạy cảm với những khác biệt trong độ lớn
hoặc quy mô của các biến đầu vào (Milligan và Cooper, 1988). Các
phương pháp tiếp cận các chuẩn hóa các biến bản chất của hai loại. Chuẩn
hóa toàn cục và chuẩn hóa trong cụm
Chuẩn hóa toàn cục làm chuẩn các biến trên tất cả các yếu tố
trong các tập dữ liệu. Trong vòng-cụm tiêu chuẩn hóa dùng để chỉ tiêu
chuẩn hóa xảy ra trong các cụm biến mỗi ngày. Một số hình thức tiêu
chuẩn hóa có thể được sủ dụng trong các chuẩn hóa toàn cục và chuẩn hóa
trong phạm vi rất tốt, nhưng một số hình thức chuẩn hóa chỉ có thể được
sử dụng trong chuẩn hóa toàn cục.
Không thể trực tiếp chuẩn hóa các biến trong các cụm trong
phân cụm, bởi vì các cụm không được biết trước khi chuẩn hóa. Để khắc
phục khó khăn này, các phương pháp phải được thực hiện. Tổng thể và
Klett (1972) đề xuất một cách tiếp cận lặp rằng các cụm thu được đầu tiên
dựa trên số ước lượng tổng thể và sau đó được sử dụng các cụm để giúp

xác định các biến bên trong nhóm chênh lệch đối với chuẩn hóa trong một
phân cụm thứ hai

Page 11

3.2 Biến đổi dữ liệu
Biến đổi dữ liệu có gì đó để làm gì với dữ liệu chuẩn hóa,
nhưng nó là phức tạp hơn so với chuẩn hóa dữ liệu. Chuẩn hóa dữ liệu tập
trung vào các biến, nhưng biến đổi dữ liệu tập trung vào các dữ liệu toàn
bộ thiết lập. Theo chuẩn hóa dữ liệu như vậy, có thể được xem như là một
trường hợp đặc biệt của biến đổi dữ liệu i.

Page 12

PHẦN 2
PHÂN CỤM VĂN BẢN TIẾNG VIỆT
2.1 Đặc trưng của tiếng Việt và tách từ trong tiếng việt
Có thể nói, khai phá web là giao thoa của khai phá dữ liệu, xử lý ngôn
ngữ tự nhiên và Word- Wide- Web. Vì vậy để có thể làm việc được với các
tài liệu web tiếng Việt cần phải tìm hiểu vềcác đặc trưng của tiếng Việt và
việc tách từ tiếng Việt.
2.1.1 Đặc trưng của tiếng Việt
Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được
phát âm tách rời nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể
hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữpháp. Dưới đây trình bày
một số đặc điểm của tiếng Việt theo các tác giả ởTrung tâm ngôn ngữ học
Việt Nam đã trình bày Error! Reference source not found..
a. Đặc điểm ngữ âm

Tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng", về mặt ngữ âm, mỗi
tiếng là một âm tiết. Hệ thống âm vị tiếng Việt phong phú và có tính cân đối,
tạo ra tiềm năng của ngữ âm tiếng Việt trong việc thể hiện các đơn vị có
nghĩa. Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặc sắc. Khi tạo câu,
Page 13

tạo lời, người Việt rất chú ý đến sựhài hoà về ngữ âm, đến nhạc điệu của câu
văn.
b. Đặc điểm từ vựng:
Mỗi tiếng nói chung là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ
thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị
từ vựng khác để định danh sự vật, hiện tượng..., chủ yếu nhờ phương thức
ghép và phương thức láy.
Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối
của quy luật kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà
tan cửa nát...
Hiện nay, đây là phương thức chủ yếu để sản sinh ra các đơn vị từ vựng.
Theo phương thức này, tiếng Việt triệt để sử dụng các yếu tố cấu tạo từ thuần
Việt hay vay mượn từcác ngôn ngữ khác để tạo ra các từ, ngữ mới, ví dụ như
tiếp thị, karaoke, thư điện tử (e-mail), thư thoại(voice mail), phiên
bản(version), xa lộ thông tin, siêu liên kết văn bản, truy cập ngẫu nhiên, v.v.
Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp
ngữ âm chi phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng hạn như chôm
chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơthẩn, lúng lá lúng liếng, v.v.
Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm
tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một
cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong
phú về số lượng, vừa đa dạng trong hoạt động. Cùng một sự vật, hiện tượng,
một hoạt động hay một đặc trưng, có thể có nhiều từ ngữ khác nhau biểu thị.

Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong
cách chức năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật.
Page 14

Hiện nay, do sự phát triển vượt bậc của khoa học- kĩ thuật, đặc biệt là công
nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn.
c. Đặc điểm ngữ pháp
Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi phối các
đặc điểm ngữ pháp khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu,
tiếng Việt rất coi trọng phương thức trật tự từ và hư từ.
Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị
các quan hệ cú pháp. Trong tiếng Việt khi nói “Anh ta lại đến” là khác với
“Lại đến anh ta”. Khi các từ cùng loại kết hợp với nhau theo quan hệ chính
phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ. Nhờ trật
tựkết hợp của từ mà "củcải" khác với "cải củ", "tình cảm" khác với "cảm
tình". Trật tự chủ ngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết
cấu câu tiếng Việt.
Phương thức hư từcũng là phương thức ngữ pháp chủ yếu của tiếng Việt.
Nhờ Hư từ mà tổhợp “anh của em” khác với tổ hợp “anh và em”, “anh vì
em”. Hư từ cùng với trật tự từ cho phép tiếng Việt tạo ra nhiều câu cùng có
nội dung thông báo cơ bản như nhau nhưng khác nhau về sắc thái biểu cảm.
Ví dụ, so sánh các câu sau đây:
- Ông ấy không hút thuốc.
- Thuốc, ông ấy không hút.
- Thuốc, ông ấy cũng không hút.
Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu.
Ngữ điệu giữ vai trò trong việc biểu hiện quan hệ cú pháp của các yếu tố
trong câu, nhờ đó nhằm đưa ra nội dung muốn thông báo. Trên văn bản,
Page 15

ngữ điệu thường được biểu hiện bằngdấu câu. Sự khác nhau trong nội
dung thông báo được nhận biệt khi so sánh hai câu sau:
- Đêm hôm qua, cầu gãy.
- Đêm hôm, qua cầu gãy.
Qua một số đặc điểm nổi bật vừa nêu trên đây, chúng ta có thể hình dung
được phần nào bản sắc và tiềm năng của tiếng Việt
2.1.2. Tách từ tiếng Việt
Một số đặc điểm của từ tiếng Việt:
- Là đơn vị có ranh giới trùng với hình vị và âm tiết
- Không có sự biến đổi hình thái trong quá trình sửdụng
- Là đơn vị có sẵn, được tái hiện trong khi nói
- Có tính định hình hoàn chỉnh
- Có thể chia từ tiếng việt thành hai loại: từ đơn và từ phức
Chính từ những đặc điểm này mà tách từ là một khó khăn chính
trong việc xử lý các văn bản tiếng Việt. Mặc dù được viết bằng các ký tự
La tinh mở rộng, tiếng Việt cũng có những đặc tính chung với các ngôn
ngữ Đông Nam Á khác như khó xác định ranh giới giữa các từ và có các
điểm khác biệt về phonetic, văn phạm và ngữnghĩa so với tiếng Anh. Do
đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên
cứu và thử nghiệm thành công trên tiếng Anh cho tiếng Việt nếu không
xây dựng thành công giải pháp cho việc tách từ trong văn bản tiếng Việt.
Dưới đây là một số điểm khác biệt chính giữa tiếng Việt và tiếng Anh:

Page 16

Đặc điểm

Tiếng Việt

Tiếng Anh

Đơn vị cơ bản

Tiếng

Từ

Tiền tố/ Hậu tố

Không có

Có

Từ loai

Not unanimous

Được định nghĩa rõ

Ranh giới từ

Tổhợp có nghĩa dựa vào

Khoảng trắng hoặc

ngữcảnh của các tiếng

dấu câu

Bảng : So sánh một số đặc điểm của tiếng Việt và tiếng Anh
Các hướng tiếp cận dựa trên “từ”: được chia thành 3 nhóm: dựa vào
thống kê, dựa vào từ điển và nhóm lai, nhằm tách từ trọn vẹn trong câu.
Các giải pháp dựa theo hướng tiếp cận vào thống kê cần phải dựa vào
thông tin thống kê như term, từ hay tần số ký tự. hay xác suất cùng xuất
hiện trong một tập dữ liệu cơ sở. Do đó, tính hiệu quả của các giải pháp
này chủ yếu dựa vào dữ liệu huấn luyện cụ thể được sử dụng. Trong
hướng tiếp cận dựa vào từ điển, các đoạn văn bản được đối sánh dựa vào
từ điển. Việc xây dựng từ điển các từ và ngữ pháp tiếng việt hoàn chỉnh là
không khả thi. Hướng tiếp cận lai áp dụng nhiều cách khác nhau để tận
dụng ưu điểm của các giải pháp. Các hướng tiếp cận để phân loại văn bản
tiếng việt dựa vào từ chỉ khả thi khi có một bộ từ vựng tốt.
Hướng tiếp cận dựa trên ký tự: có thể chia làm hai nhóm uni-gram
và n-gram. Các phương pháp này tuy đơn giản nhưng đã đem lại kết quả
khả thi.
2.2 Một số nghiên cứu về phân cụm tiếng Việt
Cho đến nay đã có khá nhiều công trình nghiên cứu về phân cụm
trong tiếng Việt và đều đạt được những kết quả khả quan. Dưới đây, sẽ là
Page 17

ba nghiên cứu về phân cụm trong tiếng Việt là phân cụm từ tiếng Việt
bằng phương pháp học máy cấu trúc, đánh giá chất lượng phân cụm trong
máy tìm kiếm tiếng Việt, gom cụm đồ thị và ứng dụng vào việc trích rút
nội dung chính của khối thông điệp trên diễn đàn thảo luận.
2.2.1 Phân cụm từ tiếng Việt bằng phương pháp học máy cấu
trúc
Nghiên cứu về phân cụm từ tiếng Việt là khá mới mẻ đối với bài

toán tiếng Việt. Bài toán phân cụm từ tiếng Việt được phát biểu như sau:
gọi X là câu đầu vào tiếng Việt bao gồm một dãy các từ tố ký hiệu
X=(X1, X2,…, Xn). Cần xác định Y=(Y1, Y2,..., Yn) là một dãy các
nhãn cụm từ (cụm danh từ, cụm động từ). Bài toán được quy về học đoán
nhận dãy (có thể được thực hiện qua việc sử dụng các mô hình học máy
…). Quy trình học được thực hiện bằng cách gán nhãn câu mới (không
thuộc tập huấn luyện). Để thực hiện việc gán nhãn cụm cho câu tiếng
Việt, tác giả sử dụng hai mô hình học khá thong dụng bao gồm:
Conditional Random Fields (CRFS) và Online Learing. Cả hai phương
pháp đối với bài toán này đều dựa trên giả thuyết các từ tố trong câu
X=(X1, X2, …, Xn) tuân theo quan hệ của chuỗi Markov.
2.2.2 Đánh gía chất lượng phân cụm trong máy tìm kiếm tiếng
Việt
Nhóm tác giả nghiên cứu về các phương pháp đánh giá chất lượng
phân cụm và áp dụng đánh giá chất lượng kết quả phân cụm của máy tính
tìm kiếm VNSEN. VNSEN là máy tìm kiếm dựa trên mã nguồn mở có
tích hợp phân cụm do nhóm tác giả phát triển. Có nhiều phương pháp
phân cụm khác nhau như K- Means, STC, HAC có thể áp dụng vào phân
cụm các trang Web trả về của máy tìm kiếm. Và việc đánh giá thường dựa
Page 18

vào chất lượng kết quả phân cụm . Để người dùng có thể tìm được tài liệu
mong muốn một cách nhanh chóng thì cần phải gán nhãn các cụm tốt.
Tồn tại một số phương pháp đánh giá như sau:
- Đánh giá phân cụm dựa vào kinh nghiệm của người dùng: nhãn
cụm cần ngắn gọn súc tích và không trùng lặp quá nhiều, số lượng cụm
tạo ra vừa đủ để người dùng không bị quá tải bởi các chủ đề quá cụ thể,
nhãn cụm cần tránh chứa các từ truy vấn. Thuật toán phân cụm phải đủ
nhanh để có thể phân cụm với lượng thời gian phù hợp. Xử lý ngôn ngữ

cũng rất quan trọng để tránh các từ gần nghĩa, đồng nghĩa.
- Các tiêu chí đánh giá độ kết dính và cô lập của các cụm: độ cô
đọng súc tích là độ dính kết hoặc đơn nhất của mỗi cặp đối tượng trong
từng cụm riêng rẽ. Độ co lập đo sự tách biệt giữa hai cụm. Nguyễn Thị
Thu Chung và cộng sự giới thiệu 4 tiêu chuẩn đánh giá chất lượng cho
phân cụm để đảm bảo tính kết dính và độc lập là: giảm tối thiểu tổng
khoảng cách (tổn khoảng cách giữa trọng tâm các cụm với trọng tâm toàn
cục và tổng khoảng cách giữa đối tượng với trọng tâm của cụm chứa đối
tượng), phân cụm sao cho độ tách biệt giữa các cụm là lớn nhất, vị trí cụm
của đối tượng và số lượng có vị trí cụm đúng.
- Phương pháp đanh giá dựa vào tập dữ liệu mẫu: chọn một chuẩn
cơ sở để so sánh khả năng phân cụm: độ đo chất lượng phân cụm, đo chất
lượng của một hệ thống phân cụm bởi các mức. Một số độ đo được sử
dụng là MNI (normalized mutual information), độ hồi tưởng, độ chính
xác, F, Purity (chỉ ra độ tinh khiết, rõ ràng của cụm i ).
Từ các phương pháp trên tác giả đã tiến hành đánh giá chất lượng
phân cụm của máy tìm kiếm VNSEN dựa trên cây phân cấp chủ đề và so
sánh với kết quả phân cụm của máy tìm kiếm vivisimo.
Page 19

-

Dựa vào cây phân cấp chủ đề: cây phân cấp chủ đề là một cấu
trúc thư mục Web lớn được xây dựng. Tác giả tiến hành thu thập
tài liệu trên Wikipedia tiếng Việt và tạo cây phân cấp thô ban
đầu. Sau đó lọc ra các chủ đề chưa có tài liệu, các tài liệu chưa
có nội dung hoặc chưa được dịch. Thực hiện tách các thẻ html.
Hiện tại, đã xây dựng được cây phân cấp với 10 gốc chủ đề và
500 chủ đề các cấp. Thử nghiệm và thông qua hai độ đo là F và

Purity cho thấy modul phân cụm có chất lượng tốt.

-

So sánh kết quả phân cụm với máy tìm kiếm vivisimo: lựa chọn
các truy vấn tiếng Việt mang nghĩa tổng quát để phân cụm được
rõ ràng. Tác giả lấy kết quả trả về của google và tiến hành phân
cụm với VNSEN. Sau đó so sánh kết quả phân cụm của VNSEN
và vivisimo.
Nguyễn Thị Thu Chung và cộng sự đã trình bày các phương
pháp đánh giá chất lượng phân cụm và xây dựng cây phân cấp
chủ đề dựa trên Wikipedia tiếng Việt để phục vụ đánh giá. Qua
đó đánh giá chất lượng phân cụm của VNSEN và đưa ra kết quả
khả quan.

2.2.3 Gom cụm đồ thị và ứng dụng vào việc rút trích nội dung chính
của khối thông điệp trên diễn đàn thảo luận
Trong các hệ thống trực tuyến, diễn đàn thảo luận là phương tiện hữu hiệu
để trao đổi và khối lượng thông tin trên diễn đàn là rất lớn. Để người quản
lý có thể nắm bắt các nội dung chính của thông tin trao đổi trên diễn đàn
trong một giai đoạn, cần xây dựng một hệ thống gom cụm các thông điệp,
hỗ trợ trích rút nội dung chính trong khối thông điệp. Đỗ Phúc và cộng sự
trình bày cách sử dụng mạng Kohonen để gom cụm các đồ thị đặc trưng
Page 20

văn bản và rút trích các ý chính từ khối văn bản hỗ trợ tạo trích lược thông
tin chính trong khối văn bản. Mạng Kohonen có thể gom cụm dữ liệu mà
không cần định trước số cụm . Các bước thực hiện của phương pháp này
như sau:

-

Biểu diễn văn bản bằng đồ thị: trích rút các từ phổ biến trong

văn bản, tính các thành phần có ý nghĩa dựa trên tần suất hiện đồng thời
của hai từ trong một câu, đoạn văn bản. Nếu tần suất xuất hiện đồng thời
của hai từ lớn hơn một ngưỡng cho trước thì sẽ xuất hiện một cung nối hai
từ này. Ở đây, các từ tiếng Việt cũng được tách đúng các từ đơn và từ ghép
nhằm tạo chính xác các đỉnh trong đồ thị.
-

Dữ liệu nhập vào mạng Kohonen là tập các đồ thị đặc trưng

văn bản. Sau khi huấn luyện, các đồ thị nhập sẽ được gom vào các nút
trên lớp ra của mạng Kohonen.
-

Qua thử nghiệm cho thấy hệ thống gom cụm văn bản biểu

diễn bằng đồ thị có độ chính xác cao hơn so với gom cụm văn bản được
biểu diễn bằng vector. Trên đây là một số những nghiên cứu về phân cụm
văn bản trong tiếng Việt. Các nghiên cứu đều cho những kết quả rất khả
quan.

PHẦN 3
Page 21

PHÂN CỤM VĂN BẢN BẰNG THUẬT TOÁN K-MEANS
1. Phương pháp phân cụm phân hoạch

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành
k nhóm cho đến khi xác định số các cụm được thiết lập. Số các cụm được
thiết lập là các đặc trưng được lựa chọn trước. Phương pháp này là tốt cho
việc tìm các cụm hình cầu trong không gian Euclidean. Ngoài ra, phương
pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa
chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và
các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với
mỗi điểm khác. Tuy nhiên, phương pháp này không thể xử lí các cụm có
hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc. Các thuật
toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu
toàn cục cho vấn đề PCDL, do nó phải tìm kiếm tất cả các cách phân
hoạch có thể được. Chính vì vậy, trên thực tế thường đi tìm giải pháp tối
ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh
giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm
phân hoạch dữ liệu. Như vậy, ý tưởng chính của thuật toán phân cụm
phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm
kiếm nghiệm.
2. Thuật toán K-means
K- means là thuật toán phân cụm mà định nghĩa bởi trung tâm của
các phương tử. Phương pháp này dựa trên độ đo khoảng cách của các đối
tượng dữ liệu trong cụm. Trong thực tế, nó đo khoảng cách tới giá trị
trung bình của các đối tượng dữ liệu trong cụm. Nó được xem như là
trung tâm của cụm. Như vậy, nó cần khởi tạo một tập trung tâm các trung
tâm cụm ban đầu, và thông qua đó nó lặp lại các bước gồm gán mỗi đối
Page 22

tượng tới cụm mà trung tâm gần, và tính toán tại tung tâm của mỗi cụm
trên cơ sở gán mới cho các đối tượng. Quá trình lặp này dừng khi các
trung tâm hội tụ

.
Hình: Các thiết lập để xác định ranh giới các cụm ban
đầu
Trong phương pháp K-means, chọn một giá trị k và sau đó chọn
ngẫu nhiên k trung tâm của các đối tượng dữ liệu. Tính toán khoảng cách
giữa đối tượng dữ liệu trung bình mỗi cụm để tìm kiếm phần tử nào là
tương tụ và thêm vào cụm đó. Từ khoảng cách này có thể tính toán trung
bình mới của cụm và lặp lại quá trình cho đến khi mỗi các đối tượng dữ
liệu là một bộ phận của các cụm k.
Mục đích của thuật toán k-means là sinh k cụm dữ liệu {C1, C2,...,
Ck} từ một tập dữ liệu chứa n đối tượng trong không gian d chiều Xi=
{xi1, xi2,..., xid}, i = 1 ÷ n, sao cho hàm tiêu chuẩn:
đạt giá trị tối thiểu.
Page 23

trong đó: mi là trọng tâm của cụm Ci, D là khoảng cách giữa hai đối
tượng
Trọng tâm của cụm là một vecto, trong đó giá trị của mỗi phần tử
của nó là trung cộng của các thành phần tương ứng của các đối tượng vecto
dữ liệu trong cụm đang xét. Tham số đầu vào của thuật toán là cụm số k, và
tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu. Độ đo
khoảng cách D giữa các đối tượng dữ liệu thường sử dụng là khoảng cách
Euclide vì đây là mô hình khoảng cách nên dễ lấy đạo hàm và xác định các
cực trị tối thiểu. Hàm tiêu chuẩn và độ đo khoảng cách có thể được xác
định cụ thể tùy ý vào ứng dụng hoặc quan điểm của người dùng

Hình: Tính toán trọng tâm của các cụm mới

Thuật toán k-means bao gồm các bước cơ bản sau:

Page 24

Thuật toán k-means trên được chứng minh là hội tụ và có độ phức
tạp tính toán là

. Trong đó, n là số đối tượng dữ liệu, k là số

cụm dữ liệu, d là số chiều, ‫ ז‬là số vòng lặp,

là thời gian để thực hiện

một phép tính cơ sở như phép tính nhân, chia,... Như vậy, do k -means
phân tích phân cụm đơn giản nên có thể áp dụng đối với tập dữ liệu
lớn.Tuy nhiên, nhược điểm của k-means là chỉ áp dụng với dữ liệu có
thuộc tính số và khám phá ra các cụm có dạng hình cầu, k-means còn rất
nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu. Hơn nữa, chất
lượng PCDL của thuật toán k-means phụ thuộc nhiều vào các tham số đầu
vào như: số cụm k và k trọng tâm khởi tạo ban đầu. Trong trường hợp các
trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiên

Page 25

Phân cụm văn bản tiếng việt bằng phương pháp k means

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về