Tải bản đầy đủ (.pdf) (56 trang)

Phân loại thông điệp trên mạng xã hội tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.61 MB, 56 trang )




MỤC LỤC

MỞ ĐẦU 6
Chương 1: TỔNG QUAN VỀ PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI 4
1.1 Tổng quan về phân loại văn bản 4
1.1.1 Định nghĩa 4
1.1.2 Một số hướng phân loại văn bản 5
1.2 Tổng quan về mạng xã hội ở Việt Nam 6
1.3 Bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt 9
1.3.1 Thông điệp trên mạng xã hội Việt Nam 9
1.3.2 Bài toán phân loại thông điệp 10
Chương 2: PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI TIẾNG VIỆT 11
2.1 Bài toán phân loại thông điệp trên mạng xã hội 11
2.2 Các chủ đề trên mạng xã hội Tiếng Việt 12
2.2.1 Các chủ đề chung 12
2.2.2 Các chủ đề hướng sự kiện (chủ đề nóng) 13
2.3 Mô hình phân loại 14
2.3.1 Mô hình chức năng 14
2.3.2 Mô hình logic 15
2.4 Phân tích thông điệp trên mạng xã hội ZingLive 16
2.4.1. Cấu trúc thông điệp ZingLive 16
2.4.2 Đặc điểm của thông điệp ZingLive 17
Chương 3: PHÂN TÍCH CHỦ ĐỀ PHỤC VỤ CHO PHÂN LOẠI 19
3.1 Chủ đề chung 19
3.2 Chủ đề nóng 21
3.3 Đại diện thông điệp 27
Chương 4: ĐỐI SÁNH VÀ PHÂN LOẠI 29




4.1 Biểu diễn chủ đề và thông điệp 29
4.2 Một số phương pháp đối sánh đơn giản 30
4.2.1 Số từ khóa chung lớn nhất 30
4.2.2 Tính tổng trọng số từ khóa chung trong tập chủ đề 30
4.2.3 Tính tổng trọng số từ khóa chung trong thông điệp 30
4.3 Phương pháp so khớp đề xuất 30
4.3.1 Chủ đề chung 30
4.3.2 Chủ đề nóng 31
Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 35
5.1 Môi trường thực nghiệm, dữ liệu, và các tham số 38
5.2. Phát hiện chủ đề nóng 38
5.3 Chủ đề chung 42
5.4. Đối sánh chủ đề 35
KẾT LUẬN 49
TÀI LIỆU THAM KHẢO 51






DANH MỤC HÌNH VẼ
Hình 1.1 - Mô hình phân loại văn bản 4
Hình 1.2 – Mô hình liên kết trên mạng xã hội 7
Hình 1.3 – Một số mạng xã hội ở Việt Nam 8
Hình 2.1 - Mô hình chức năng phân loại thông điệp 14
Hình 2.2 – Logic phân loại thông điệp 15
Hình 2.3 – Thông điệp ZingLive: Có nội dung, không có mô tả liên kết 16

Hình 2.4 - Không có liên kết và mô tả liên kết 16
Hình 2.5 – Thông điệp ZingLive: Có liên kết, mô tả liên kết, không có nội dung 17
Hình 3.1 – Chủ đề chung 19
Hình 3.2- Trích lọc chủ đề chung 20
Hình 3.3 – Lựa chọn từ khóa cho chủ đề chung 21
Hình 3.4 – Tiền xử lý và tách từ 22
Hình 3.5 – Phân loại tập văn bản vào các chủ đề chung 22
Hình 3.6 – Chọn lọc từ khóa sự kiện 23
Hình 3.7 – Xây dựng tập từ khóa cho chủ đề nóng 26
Hình 3.8 – Tạo tập từ đại diện cho thông điệp 27
Hình 4.1 – Chênh lệch trọng số từ khóa đầu tiên giữa các topic chung 32
Hình 4.2 – Trọng số từ khóa trong topic The-thao 33
Hình 4.3 – Trọng số từ khóa trong chủ đề Khoa-học_Công-nghe 33
Hình 4.4 – Trọng số từ khóa đầu tiên của mỗi topic 34
Hình 4.5 – Phân bổ trọng số từ khóa trong mỗi tập chủ đề sau khi chuẩn hóa 35
Hình 5.1 – Số văn bản tương ứng với mỗi chủ đề nóng 39
Hình 5.2 – Tỉ lệ số văn bản thuộc về các chủ đề 38
Hình 5.3 – Tỉ lệ phát hiện chủ đề nóng thành công 39
Hình 5.4 – Số văn bản tương ứng mỗi chủ đề nóng 40
Hình 5.5 - Tỉ lệ các chủ đề trong tập từ khóa xây dựng được 40
Hình 5.6 – Tỉ lệ chủ đề phát hiện được trong tập từ khóa 41
Hình 5.7 – Tỉ lệ so khớp thành công chủ đề nóng 43
Hình 5.8 – Tỉ lệ phân loại chính xác theo các công thức (1), (2), (3), (4), (6) 44
Hình 5.11 – Tỉ lệ phân loại chính xác-không chính xác theo số lượng 45
Hình 5.12 – Tỉ lệ chính xác phân loại theo chủ đề chung theo phần trăm 46






DANH MỤC BẢNG

Bảng 2.0.1- 50 chủ đề chung 13
Bảng 3.1 – Minh họa phân loại văn bản vào các chủ đề chung 23
Bảng 3.2 – Minh họa các từ khóa sự kiện theo từng chủ đề chung 24
Bảng 3.3- Minh họa tập từ khóa của chủ đề nóng 26
Bảng 4.1 – Thông điệp thuộc chủ đề giáo dục 36
Bảng 4.2 – Thông điệp thuộc chủ đề giải trí 36
Bảng 4.3 – Thông điệp thuộc chủ đề Thị trường – Tiêu dùng 36
Bảng 4.4 – Thông điệp thuộc chủ đề nóng Mưa-lũ-miền-Trung 36
Bảng 4.5 – Thông điệp thuộc chủ đề nóng Huy-Hoàng-phê-thuốc 37
Bảng 4.6 – Thông điệp thuộc chủ đề nóng Động-đất-thủy-điện-Sông-Tranh 37
Bảng 5.1- Chủ đề nóng và tập từ khóa 42
Bảng 5.2 – Tập từ khóa chủ đề chung 43

1

MỞ ĐẦU
Bắt đầu vào Việt Nam vào khoảng năm 1997, từ một mô hình thử nghiệm trong phạm vi
hẹp, và được kết nối với toàn cầu ba năm sau đó, internet Việt Nam đã đạt được những
bước tiến dài, nhanh chóng hòa nhập được với cộng đồng quốc tế. Internet Việt Nam trở
thành một thị trường tiềm năng với những con số tăng trưởng ấn tượng (từ hơn 800 nghìn
người dùng năm 2003 lên tới hơn 32 triệu người dùng năm 2012
[3]
) kèm theo sự tăng
trưởng về số lượng người dùng, lĩnh vực hoạt động của Internet Việt Nam cũng không
ngừng mở rộng, từ chỉ có các dịch vụ căn bản như trang tin điện tử, tán gẫu trên mạng,
hay thư điện tử. Đến nay, Internet Việt Nam đã lan rộng ra các lĩnh vực thương mại điện
tử, truyền thông, đa phương tiện, các ứng dụng tương tác trực tuyến, và gần đây nhất,
mạng xã hội là một xu hướng đang được khai thác mạnh mẽ ở thị trường Internet Việt.

Như cái tên của nó, mạng xã hội được định nghĩa như là một xã hội ảo thu nhỏ trên
Internet, ở đó, mỗi người dùng có một trang cá nhân của mình, họ có thể tùy ý đưa ra ý
kiến cá nhân về các vấn đề xã hội, hay chia sẻ với bạn bè về cuộc sống… Chính sự thoải
mái và tính cá nhân hóa này đã tạo nên những cộng đồng mạng với khối lượng dữ liệu
chia sẻ khổng lồ. Với lượng chia sẻ lên tới hàng triệu thông điệp mỗi ngày về tất cả các
lĩnh vực xã hội, các sự kiện nóng hổi và cả những thông tin mang tính cá nhân của người
dùng, một yêu cầu đặt ra với mạng xã hội là cần phân loại các thông điệp chia sẻ, để tiện
cho sự theo dõi của người dùng, và cũng tiện cho việc phân tích xu hướng cộng đồng hay
các ứng dụng quảng cáo trực tuyến hướng ngữ cảnh, v.v Chính vì thực tế này, em đã lựa
chọn bài toán “Phân loại thông điệp trên mạng xã hội Tiếng Việt” làm đề tài luận văn
thạc sỹ của mình.
Bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt có một vài vấn đề sau đây (1)
Những thông điệp chia sẻ trên mạng xã hội thường là những thông điệp ngắn (dưới 500
ký tự), khó có thể áp dụng thành công các phương pháp phân loại văn bản thông thường
cho bài toán phân loại thông điệp. (2) Cũng do đặc trưng ngắn của thông điệp, số lượng từ
đặc trưng không đủ nhiều, nên khó phát hiện chủ đề tương ứng với từng thông điệp một
cách chính xác. (3) Thông tin trên mạng xã hội có tính thay đổi liên tục theo thời gian, sự
kiện tại thời điểm chia sẻ thông điệp, do đó ngoài các chủ đề chung về các lĩnh vực trong
đời sống, cần có thêm các chủ đề thường xuyên được cập nhật theo thời gian. (4) Ứng
dụng phân loại thông điệp trên mạng xã hội trong thực tế yêu cầu gần như thời gian thực,
do đó cần một phương pháp có thể xử lý nhanh, đáp ứng nhu cầu sử dụng ngay lập tức

2

của hàng triệu người dùng trong cùng một thời điểm nhưng vẫn đạt được độ chính xác
cao.
Từ những vấn đề trên của bài toán phân loại thông điệp trên mạng xã hội Việt Nam, trên
cơ sở các kiến thức đã tìm hiểu được, em đã xây dựng mô hình phân loại thông điệp bằng
cách so sánh sự tương đồng về mặt nội dung giữa thông điệp và các chủ đề theo các công
thức đề xuất. Một cách tổng quan, mô hình này được xây dựng từ các thành phần sau đây:

(1) Tập dữ liệu chủ đề/từ khóa được thu thập từ nguồn baomoi.com của các tác giả ở
[7,17]. (2) Tập chủ đề nóng được thu thập thường xuyên từ internet (trong khoảng 3-7
ngày trở lại) (3) Bộ công cụ so sánh tương quan giữa chủ đề và thông điệp sử dụng các
công thức so sánh được trích rút từ thực tế dữ liệu.
Kết quả đạt được của luận văn này có thể được sử dụng trong việc phân loại các thông
điệp trên mạng xã hội ZingLive hiện nay, ngoài ra còn có thể được dùng như là dữ liệu
đầu vào cho các bài toán phân tích xu hướng, khai phá cộng đồng trên mạng xã hội, v.v
Cấu trúc luận văn sẽ được trình bày như sau:
Chương 1: Đưa ra một số khái niệm cơ bản về bài toán phân loại văn bản, một số thông
tin về sự phát triển mạng xã hội ở Việt Nam và áp dụng bài toán phân loại văn bản trong
trường hợp phân loại thông điệp trên mạng xã hội Việt Nam.
Chương 2: Mô tả tổng quan về toàn bộ bài toán phân loại thông điệp trên mạng xã hội.
Trong đó đi sâu vào phân tích các đặc trưng của thông điệp trên mạng xã hội về nội dung,
chủ đề chung, chủ đề nóng – là những chủ đề mà thông điệp sẽ được hoặc không được
phân loại vào.
Chương 3: Trình bày kỹ hơn về các chủ đề trong bài toán phân loại thông điệp trên mạng
xã hội Việt Nam. Chương này giới thiệu chi tiết các bước xây dựng tập chủ đề dùng cho
trên mạng xã hội, bao gồm việc chọn lọc từ khóa cho chủ đề chung, và việc phát hiện,
trích rút tập từ khóa cho chủ đề nóng.
Chương 4: Đề cập đến một số phương pháp để phân loại thông điệp trên mạng xã hội,
trong đó giải thích chi tiết về các công thức so khớp mà tác giả đề xuất sử dụng cho việc
phân loại thông điệp vào chủ đề chung, chủ đề nóng.
Chương 5: Là phần trình bày về mô hình thực nghiệm và các kết quả thực nghiệm đạt
được. Chương này cũng phân tích các kết quả đạt được trong hai trường hợp: Phân loại

3

thông điệp vào các chủ đề chung (sử dụng lại tập từ khóa của các tác giả [23]) và Phân
loại thông điệp theo chủ đề nóng (theo thời gian) được tác giả phát triển.
Phần KẾT LUẬN đưa ra các nhận xét tổng quan về các kết quả đạt được của đề tài. Phân

tích các vấn đề còn tồn tại và hướng cải tiến trong tương lai.

4

Chương 1: TỔNG QUAN VỀ PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI

Chương một giới thiệu cái nhìn tổng quan nhất về những khái niệm, dữ liệu liên quan đến
bài toán phân loại thông điệp trên mạng xã hội, cụ thể gồm có: phân loại văn bản, mạng
xã hội, mạng xã hội ở Việt Nam và bài toán phân loại thông điệp trên mạng xã hội.
1.1 Tổng quan về phân loại văn bản
1.1.1 Định nghĩa
Phân loại văn bản (hay còn gọi là phân lớp văn bản - text classification) là quá trình
gán nhãn lớp/tên lớp các văn bản ngôn ngữ tự nhiên vào một hay nhiều lớp cho trước.


Định nghĩa phân loại (lớp) văn bản
[1]
: Phân loại văn bản là nhiệm vụ đặt một giá trị
nhị phân cho mỗi cặp
( , )
ji
d c D C
, trong đó D là tập các văn bản,
 
12
, , ,
c
C c c c

tập các lớp cho trước.

Giá trị T (true) được gán cho cặp
 
,
ji
dc
có nghĩa là tài liệu
j
d
thuộc lớp
i
c
.
Giá trị F (false) được gán cho cặp
 
,
ji
dc
có nghĩa là tài liệu
j
d
không thuộc lớp
i
c
.
Bộ phân loại
văn bản
Văn bản
đầu vào
Chủ đề 1
Chủ đề n

Văn bản
Hình 1.1 - Mô hình phân loại văn bản

(*) 5

Hay nói cách khác, phân loại văn bản là bài toán tìm một hàm
 
:,D C T F  
trong
đó D là tập các văn bản,
 
12
, , ,
c
C c c c
là tập các lớp cho trước, hàm
 
:,D C T F  

được gọi là bộ phân loại.
1.1.2 Một số hướng phân loại văn bản
Cách đơn giản nhất để phân loại văn bản là dùng phương pháp thủ công, duyệt qua
toàn bộ nội dung văn bản và quyết định xem văn bản đó thuộc lớp nào. Tuy nhiên,
phương pháp này gặp phải một số khó khăn sau
[3]
:
- Đối với các lĩnh vực đặc biệt, phân loại các đối tượng mới (như cơ sở dữ liệu về y
tế, pháp luật) vào các lớp cho trước cần có hiểu biết về các lĩnh vực đó.
- Phân lớp bằng tay đôi khi không chính xác vì quyết định phụ thuộc vào sự hiểu
biết và động cơ của người thực hiện.

- Quyết định của hai chuyên gia khác nhau có thể nảy sinh bất đồng ý kiến.
Vì vậy những công cụ để tự động phân lớp văn bản vào các lớp sẽ rất hữu ích với công
việc này nhất là khi thông tin tràn ngập như ngày nay. Có rất nhiều phương pháp được
đưa ra để giải quyết bài toán này, trong đó có một số phương pháp căn bản như Naïve
Bayes, K láng giềng gần nhất (K-NN), máy vector hỗ trợ (Support Vector Machines),
cây quyết định (Decision tree), mạng nơron nhân tạo (ANN) Trong khuân khổ luận
văn, tác giả xin trình bày tóm tắt ba phương pháp đơn giản và phổ biến là Naïve Bayes,
K láng giềng gần nhất, và máy vector hỗ trợ.
Phương pháp Naïve Bayes là phương pháp nhận dạng dựa trên công thức Bayes P(C |x)
=




(|)
()
trong đó x là vector đặc trưng của mẫu cần phân lớp và C là một trong các
lớp. Phương pháp này có ưu điểm là đơn giản, tuy nhiên nhược điểm của phương pháp
này đó là giả thiết về sự độc lập giữa các đặc trưng của dữ liệu phải được thoả mãn.
Một cách toán học thì P(x
1
, x
2
) = P(x
1
) P(x
2
) với x
1
và x

2
là hai đặc trưng bất kì của dữ
liệu.
Phương pháp học máy phổ biến thứ hai có thể giải quyết bài toán phân loại văn bản là
phuơng pháp K láng giềng gần nhất. Ý tưởng của phương pháp này là việc phân loại
văn bản dựa vào số đông nhãn của K văn bản “gần” nó nhất. K thường có giá trị
nguyên dương và thường có giá trị nhỏ. Với K = 1 thì văn bản đang xét sẽ đuợc gán

(*) 6
vào lớp chứa văn bản gần nhất so với văn bản đang xét. Nhược điểm chính của thuật
toán này đó là các lớp mà có chứa nhiều phần tử dữ liệu thì có xu huớng chi phối kết
quả phân lớp của một văn bản mới. Một nhược điểm khác của kNN đó là nó yêu cầu
khối lượng tính toán lớn, đặc biệt là khi kích thước dữ liệu tăng nhanh.
Phương pháp thứ ba là phương pháp máy vector hỗ trợ (SVM), đây là một phương
pháp phân loại văn bản phổ biến và cho kết quả phân lớp tốt. SVM dạng chuẩn là
phương pháp học có giám sát (supervised learning) dùng cho việc phân lớp nhị phân,
có nghĩa là nó có thể phân loại dữ liệu vào một trong hai lớp khác nhau. Trong mô
hình SVM thì trước tiên dữ liệu luyện tập sẽ được biểu diễn bởi các điểm trong không
gian, tiếp đến mô hình SVM sẽ xây dựng một siêu phẳng trong không gian sao cho
khoảng cách từ các ví dụ luyện tập tới siêu phẳng là xa nhất có thể. Dữ liệu kiểm tra
(testing data) cũng sẽ được biểu diễn trong cùng một không gian và được SVM dự
đoán thuộc một trong hai lớp tùy vào mẫu dữ liệu đó nằm ở phía nào của siêu phẳng.
Phương pháp này có ưu điểm là kết quả phân lớp có độ chính xác cao, tuy nhiên
nhược điểm của SVM đó là tốc độ phân lớp chậm và pha huấn luyện đòi hỏi không
gian bộ nhớ lớn.
1.2 Mạng xã hội
(*)

Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nối kết
các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau

không phân biệt không gian và thời gian.
Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file,
blog và xã luận. Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở
thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới.
Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa
theo group (ví dụ như tên trường hoặc tên thành phố), dựa trên thông tin cá nhân (như
địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích cá nhân (như thể thao, phim
ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán

(*) 7
 Nút (node): Là một thực thể trong mạng. Thực thể này có thể là một cá nhân, một
doanh nghiệp hoặc một tổ chức bất kỳ nào đó
 Liên kết (tie): là mối quan hệ giữa các thực thể đó. Trong mạng có thể có nhiều
kiểu liên kết. Ở dạng đơn giản nhất, mạng xã hội là một đơn đồ thị vô hướng các
mối liên kết phù hợp giữa các nút. Ta có thể biểu diễn mạng liên kết này bằng một
biểu đồ mà các nút được biểu diễn bởi các điểm còn các liên kết được biểu diễn
bởi các đoạn thẳng.

Hình 1.2 – Mô hình liên kết trên mạng xã hội
(*)



(*) 8
1.3 Mạng xã hội ở Việt Nam


Trong những năm gần đây, xu hướng mạng xã hội thực sự bùng nổ trong thị trường
Internet nói chung, và thị trường internet ở Việt Nam nói riêng. Sự tham gia đông đảo của
các doanh nghiệp internet trong và ngoài nước vào lĩnh vực mạng xã hội đã khiến lĩnh

vực này trở thành một trong những lĩnh vực sôi động nhất trên internet. Theo một số
thống kê vào tháng 2/2012 của DoubleClick Ad Planner
(*)
, ZingMe đang đứng đầu thị
trường mạng xã hội ở Việt Nam với số lượng người dùng là 7.4 triệu, tiếp đến là
Facebook với 4.2 triệu và thứ ba là Yume với 2.4 triệu… Một công ty phân tích thị trường
internet khác là Vinalink Media lại cho rằng đứng đầu mạng xã hội ở Việt Nam là
Facebook, tiếp đến là ZingMe, tiếp đến là ZingMe, Googleplus …. Tuy các phân tích có
phần khác nhau đôi, nhưng vẫn cho thấy được sự phát triển đáng kinh ngạc của mạng xã
hội ở Việt Nam ngày nay. Ngoài các trang mạng xã hội đầy đủ như Facebook, ZingMe,
hay Go.vn… thì thị trường mạng xã hội Việt Nam còn chia nhỏ theo từng lĩnh vực, như
mạng chia sẻ tin tức (Linkhay, ZingLive…), mạng chia sẻ video (Youtube, Clip.vn…),
mạng xã hội doanh nhân (hoclamgiau…)… những trang mạng xã hội theo từng lĩnh vực
nhỏ này cũng đã thu hút được lượng người dùng đáng kể.
Sự phát triển mạnh mẽ này của mạng xã hội ở Việt Nam, với lượng thông tin chia sẻ
không lồ, đã đưa ra rất nhiều bài toán cần giải quyết đối với mạng xã hội ở Việt Nam, một
trong số đó, là bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt.
Hình 1.3 – Một số mạng xã hội ở Việt Nam

9
1.4 Bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt
1.4.1 Thông điệp trên mạng xã hội Tiếng Việt
Mạng xã hội nói chung, đều có một số đặc điểm sau đây về thông điệp chia sẻ
- Do cộng đồng (những người sở hữu tài khoản trên mạng xã hội) đưa lên
- Số lượng lớn và thường được cập nhật liên tục.
- Đa dạng, phong phú về nội dung (video, hình ảnh, âm nhạc, bài viết giải trí, bài
viết học thuật, chia sẻ tâm sự, tình cảm…)
- Thông điệp được viết bằng Tiếng Việt, đôi khi là Tiếng Việt không dấu, hoặc viết
tắt, không được chuẩn và đúng ngữ pháp.
1.4.2 Một số đặc trưng tiếng Việt

Tiếng Việt cũng như các ngôn ngữ khác luôn có các đặc trưng riêng mà chúng ta cần phải
nắm được trước khi thực hiện xử lý nó. Tiếng Việt có những đặc trưng rất riêng về mặt từ
vựng, cũng như mặt ngữ pháp cụ thể như sau
[4]
:
- Về mặt ngữ âm: Trong tiế ng Việ t có mộ t loại đơn vị đặc biệt gọi là " tiế ng " . Về mặ t
ngữ âm, mỗ i tiế ng là mộ t âm tiế t. Hệ thố ng âm vị tiế ng Việ t phong phú và có tính cân
đố i, tạo ra tiềm năng của ngữ âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa.
- Về mặt từ vựng
o Mỗ i tiế ng, nói chung , là một yếu tố có nghĩa . Tiế ng là đơn vị cơ sở củ a hệ
thố ng cá c đơn vị có nghĩa củ a tiế ng Việ t. Từ tiế ng, ngườ i ta tạ o ra cá c đơn vị từ
vự ng khá c để định danh sự vậ t, hiệ n tượ ng , chủ yế u nhờ phương thứ c ghé p và
phương thức lá y.
o Quy luậ t kế t hợ p ngữ nghĩa là qui luật chi phối chủ yếu việc tạo ra cá c đơn vị từ
vự ng ở phương thứ c ghé p . Hiệ n nay, phương thức ghép là phương pháp chủ
yế u để sả n sinh ra cá c đơn vị từ vự ng.
o Quy luậ t phố i hợ p ngữ âm là qui lu ật chi phố i chủ yế u việ c tạ o ra cá c đơn vị từ
vự ng ở phương thứ c lá y.
o Vố n từ vựng tố i thiể u củ a tiế ng Việ t phầ n l ớn là cá c t ừ đơn tiế t (mộ t âm tiế t ,
mộ t tiế ng). Sự linh hoạ t trong sử dụng, việ c tạ o ra cá c t ừ ngữ mới mộ t cá ch dễ
dàng đã tạo điều kiện thuận l ợi cho sự phát triển vốn t ừ, vừa phong phú về số

10
lượng, vừa đa dạ ng trong hoạ t độ ng . Cùng một s ự vậ t, hiệ n tượng, mộ t hoạ t
độ ng hay mộ t đặ c trưng, có thể có nhiều từ ngữ khác nhau biểu thị.
- Về mặt ngữ pháp
o Từ củ a tiế ng Việ t không biế n đổ i hình thá i . Đặc điểm này sẽ chi phối các đặc
điể m ngữ phá p khá c . Khi từ kế t hợ p từ thà nh cá c kế t cấ u như ngữ , câu, tiế ng
Việ t rấ t coi trọ ng phương thứ c trậ t tự từ và hư từ .
o Trật tự từ:

 Việ c sắ p xế p cá c từ theo mộ t trậ t tự nhấ t đị nh là cá ch chủ yế u để biể u thị
các quan hệ cú pháp.
 Khi cá c từ cù ng loạ i kế t hợ p vớ i nhau theo qua n hệ chính phụ thì từ đứ ng
trướ c giữ vai trò chính, từ đứ ng sau giữ vai trò phụ .
 Trậ t tự chủ ngữ đứ ng trướ c, vị ngữ đứng sau là trật tự phổ biến của kết cấu
câu tiế ng Việ t.
o Hư từ: Hư từ cù ng vớ i trậ t tự từ cho phé p tiế ng Việ t tạ o ra nhiề u câu cù ng có
nộ i dung thông bá o cơ bả n như nhau nhưng khá c nhau về sắ c thá i biể u cả m.
Ngoài trật tự từ và hư từ , tiế ng Việ t cò n sử dụ ng phương thứ c ngữ điệ u . Ngữ điệ u giữ vai
trò trong việc biểu hiện quan hệ cú pháp của các yếu tố trong câu, nhờ đó nhằ m đưa ra nộ i
dung muố n thông bá o. Ví dụ: “Đêm hôm qua, cầ u gã y” và “Đêm hôm, qua cầ u gã y”.
1.4.3 Bài toán phân loại thông điệp
Thực tế, bài toán phân loại thông điệp là một bài toán con của phân loại văn bản. Tuy
nhiên, với trường hợp là thông điệp chia sẻ trên mạng xã hội Tiếng Việt, bài toán phân
loại thông điệp có những đặc tính riêng như sau:
- Xử lý được đối với cả trường hợp thông điệp là ngắn, những thông điệp này
thường không có ngữ cảnh, không có nhiều từ đặc trưng để dễ dàng nhận ra nó đề
cập tới chủ đề nào.
- Số lượng thông điệp xử lý lớn (có thể lên tới hàng triệu – ví dụ mạng xã hội
ZingMe, mỗi ngày có khoảng 14.000 bài blog và 383.000 trạng thái (status) được
chia sẻ)
- Xử lý được với Tiếng Việt theo những đặc trưng về ngữ âm, cấu tạo từ, ngữ pháp
như được nêu ở phần 1.4.2


11

Chương 2: PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI TIẾNG VIỆT

Chương hai giới thiệu chi tiết hơn về bài toán phân loại thông điệp trên mạng xã hội

Tiếng Việt, đồng thời, chú trọng giới thiệu về các tập chủ đề và đặc trưng tương ứng của
chúng trên mạng xã hội. Chương này cũng đưa ra mô hình xử lý tổng quan và mô hình
lôgic của bài toán phân loại thông điệp trên mạng xã hội Việt Nam mà tác giả xây dựng.
2.1 Phân loại thông điệp trên mạng xã hội Tiếng Việt
 Dữ liệu: Thông điệp m với các đặc trưng:
o Ngắn - Thông điệp đưa trên mạng xã hôi phần lớn là những thông điệp
ngắn vài từ đến vài câu – vẫn có trường hợp là những thông điệp dài hàng
nghìn chữ nhưng đó là số ít. Do đặc trưng ngắn này, nên thông điệp trên
mạng xã hội thường thiếu thông tin ngữ cảnh để nhờ đó có thể phát hiện ra
chủ đề chủa thông điệp.
o Được viết bằng Tiếng Việt – với những đặc trưng rất riêng về ngữ âm, về tổ
chức từ, câu, đoạn, v.v… Một số trường hợp có thể là tiếng Việt không
chuẩn (viết tắt, viết theo ngôn ngữ tuổi teen, hoặc tiếng Việt không dấu…)
o Có thể chứa các liên kết web – Trong một số trường hợp, thông điệp được
đăng lên đi kèm với một liên kết web trỏ đến một bài viết, trang web khác.
 Yêu cầu: Thiết kế một hệ thống phân loại thông điệp, đáp ứng được các yêu cầu
sau đây:
o Số lượng thông điệp lớn, có thể lên tới hàng triệu thông điệp được đăng
trong 1 ngày.
o Tốc độ xử lý nhanh – gần với thời gian thực
o Tính thay đổi chủ đề cao, chủ đề trên mạng xã hội thường không ổn định
theo các lớp sẵn có, mà có thể thay đổi theo thời gian, các sự kiện nổi bật
được báo chí, truyền hình đưa tin…

(*) 12

2.2 Các chủ đề trên mạng xã hội Tiếng Việt
2.2.1 Các chủ đề chung
Với đặc trưng của mạng xã hội, các nội dung được đưa lên phần lớn bởi người dùng,
thông tin chia sẻ trên mạng xã hội thường là những thông tin được cập nhật hàng ngày.

Tập chủ đề được thu thập từ dữ liệu trên trang Baomoi của các tác giả [18], em xây dựng
tập gồm 49 chủ đề chung như: Ẩm thực-Dinh dưỡng, Kinh-tế_Tài-chính_Ngân-hàng,
Xã-hội_Giáo dục, Giải-trí, Công-nghệ-thông-tin_Truyền-thông, Tâm-sự_Tình-yêu,
Pháp-luật… Chi tiết về tất cả các chủ đề có thể xem tại (*). Mỗi chủ đề sẽ được biểu
diễn bởi một tập các từ khóa và trọng số thể hiện xác suất xuất hiện của từ khóa đó trong
chủ đề. Ví dụ:
Ẩm-thực_Dinh-dưỡng = {(món, 0.045062), (dinh_dưỡng, 0.021539), (chất_béo,
0.007114), (giết_mổ, 0.006983), (gia_vị, 0.006689), (canxi, 0.005317)…}
Kinh-tế_Tài-chính_Ngân-hàng = { (chi_phí, 0.049717), (chứng_khoán, 0.040978), (atm ,
0.015507), (chỉ_số, 0.008572), (bán_đấu_giá, 0.005913)….}
Xã-hội_Giáo-dục = {(nghiên_cứu, 0.187267), (giáo_sư, 0.032416), (học_viên,
0.014198), (giảng_viên, 0.013315), (học_tập, 0.013167), (học_bổng, 0.012955) …}
Giải-trí = { (clip, 0.044855), (ca_khúc, 0.032808), (album, 0.026206), (diễn_viên,
0.020861), (fan, 0.008321), (giải_trí, 0.007213), (ca_sĩ, 0.006985)…}
Công-nghệ-thông-tin_Truyền-thông = { (facebook, 0.032061), (cntt, 0.022171), (fpt ,
0.020377), (android, 0.018498), (công_nghệ_thông_tin, 0.01658)….}
v v
Khi phân loại thông điệp, những thông điệp quá ngắn, hoặc nội dung hỗn tạp, không rõ
thuộc chủ đề nào sẽ được đặt vào nhóm Khác. Nhóm này không có tập từ khóa và trọng
số như những nhóm được đề cập ở trên.
Các chủ đề này không hoàn toàn tách biệt mà đôi khi có thể trùng khớp một phần của
nhau, mỗi thông điệp có thể có nhiều hơn một lớp chủ đề.

13

Ẩm-thực_Dinh-dưỡng
Bất-động-sản
Biển-đảo
Chính-phủ_Chính_sách
Chính-phủ_Hợp-tác-quốc-tế

Chính-trị_Việt-Nam
Chính-trị_Thế-giới
Chứng-khoán
Công-nghệ-thông-tin_Truyền-thông
Công-nghiệp_Sản-xuất
Dịch-vụ_Mobile
Doanh-nghiệp_Doanh-nhân
Du-lịch_Văn-hóa
Giải-trí
Games
Giao-thông_Tai-nạn
Hôn-nhân_Gia-đình

Lễ-hội_Quà-tặng
Kiến-trúc_Thiết-kế
Khoa-học_Công-nghệ
Khác
Kinh-tế_Tài-chính_Ngân-hàng
Kinh-doanh_Tiêu-dùng
Năng-lượng
Nhiếp-ảnh
Nông-ngư-nghiệp
Pháp-luật
Phương-tiện_Giao-thông
Quân-sự_An-ninh_Vũ-khí
Quốc-tế
Smartphone
Văn-hóa_Nghệ-thuật
Xã-hội_Dân-sinh
Xã-hội_Giáo-dục


Xã-hội_Tệ-nạn
Xã-hội_Tham-nhũng
Xã-hội_Tự-nhiên
Xã-hội_Vệ-sinh-an-toàn
Xây-dựng_Quy-hoạch
Xuất-nhập-khẩu
Y-tế_Sức-khỏe
Việc-làm_Tuyển-dụng_Nhân-sự
Tài-nguyên_Môi Trường
Tài-nguyên_Khoáng-sảnTâm-sự_Tình-
yêu
Thảm-họa
Thời-tiết_Khí-hậu
Thời-trang_Làm-đẹp
Thể-thao
Truyền-hình_Báo-chí

Bảng 2.0.1- 50 chủ đề chung
2.2.2 Các chủ đề hướng sự kiện (chủ đề nóng)
Đây là tập các chủ đề thay đổi theo sự kiện diễn ra hàng ngày trong cuộc sống. Do đó,
không cố định về số lượng và tên chủ đề. Ví dụ, sự kiện mới xảy ra, được nhiều quan tâm
tại một thời điểm gần đây như “Cầu-thủ-Huy-Hoàng-phê-thuốc”, “Động-đất-thủy-điện-
Sông-Tranh”… Các chủ đề này được phát hiện dựa trên tập dữ liệu thu thập từ các trang
tin tức trong thời điểm ba ngày đến một tuần gần với thời điểm hiện tại nhất. Mỗi chủ đề
này cũng được biểu diễn bởi tập các từ khóa và trọng số tương ứng, tuy nhiên, trọng số là
số lần xuất hiện của từ đó trong tập văn bản, trong đó các từ Viết Hoa là các chủ thể của
sự kiện, được đánh trọng số cao hơn các từ khác. Ví dụ:
Cầu-thủ-Huy-Hoàng-phê-thuốc = { (Huy_Hoàng, 100), (Nghệ_An, 100),(Thanh_Hoá ,
100), ( xe, 16.0), (giao_thông, 12.0), (công_an, 10.0)….}

Động-đất-thủy-điện-Sông-Tranh = { (Sông_Tranh, 100), (Bắc_Trà_My, 100), (Viện,
100), (Quảng_Nam, 100), (động_đất, 57.0), (thủy_điện, 44.0), (nước, 30.0)….}
v v
Đặc trưng của các chủ đề tiềm năng hướng sự kiện là sự thay đổi theo thời gian. Một
thông điệp thuộc về lớp tiềm năng hướng sự kiện vẫn có thể thuộc về các chủ đề chung
được đề cập ở phần 2.1.1. Ví dụ, một thông điệp được phân loại vào chủ đề “Cầu-thủ-
Huy-Hoàng-phê-thuốc”có thể cũng thuộc về chủ đề “Xã-hội_Tệ-nạn”, hoặc “Thể-thao”

14

được đề cập phía trên, hoặc một thông điệp thuộc về chủ đề “Động-đất-thủy-điện-Sông-
Tranh” cũng có thể thuộc chủ đề “Thảm họa”, v.v…
2.3 Mô hình phân loại
2.3.1 Mô hình chức năng
Ở mức tổng quan, mô hình phân loại thông điệp trên mạng xã hội Tiếng Việt được biểu
diễn như hình 2.1:

Bộ xử lý
phân loại thông điệp
Chủ đề 1
Chủ đề n
Tập các chủ đề
Thông điệp
Tập dữ liệu mới
Thông điệp
Hình 2.1 - Mô hình chức năng phân loại thông điệp


15


2.3.2 Mô hình logic
Về mặt logic, mô hình phân loại thông điệp trên mạng xã hội có thể được mô tả chi tiết như hình 2.2 dưới đây:
Hình 2.2 – Logic phân loại thông điệp
T = {
1
, 
2
, … 

}
- 

là chủ đề nóng tại thời
điểm thông điệp được đăng
(1  )
- q là tổng số chủ đề nóng tại
thời điểm thông điệp đươc
đăng
C = {
1
, 
2
, , 

}
-
c
i
là một chủ đề chung
(1  )


-
p là tổng số chủ đề chung

M = {
1
, 
2
, , 

}
- m
j
là một thông điệp
được đăng bởi người
dùng (1  )
- n là tổng số thông điệp

1


2


3


4






1


2






1


2


3




Bộ đối sánh chủ đề chung
Bộ đối sánh chủ đề nóng

16

2.4 Phân tích thông điệp trên mạng xã hội ZingLive

2.4.1. Cấu trúc thông điệp ZingLive
2 Về cấu tạo, một thông điệp chia sẻ trên ZingLive có nhiều nhất bốn phần sau đây:
o Nội dung thông điệp: Do chính người dùng tạo ra, có thể là một thông điệp chia
sẻ ảnh, liên kết đến trang web khác, hoặc chỉ là một thông điệp đơn chứa ý kiến,
tâm sự, lời chúc tụng…. của tác giả. Nội dung này không được dài quá 500 ký
tự.
o Liên kết chia sẻ: Chứa liên kết đến trang gốc của bài viết chia sẻ
o Tiêu đề của liên kết chia sẻ (nếu có): Là tiêu đề của liên kết chia sẻ được lấy từ
liên kết gốc.
o Mô tả ngắn của liên kết chia sẻ(nếu có): Là mô tả ngắn gọn về nội dung bên
trong văn bản thường được trích xuất từ phần mô tả ở đầu trang trong bài viết
được trỏ liên kết tới. Phần mô tả này không được phép quá 500 ký tự.
Các hình 2.3, 2.4, 2.5 dưới đây là một số ví dụ về thông điệp chia sẻ trên mạng
xã hội ZingLive:

Hình 2.3 – Thông điệp ZingLive: Có nội dung, không có mô tả liên kết

Hình 2.4 - Không có liên kết và mô tả liên kết


17


Hình 2.5 – Thông điệp ZingLive: Có liên kết, mô tả liên kết, không có nội dung
2.4.2 Đặc điểm của thông điệp ZingLive
- Về độ dài, như trình bày ở trên, mỗi thông điệp sẽ không dài quá 1000 ký tự, bao
gồm tất cả phần: nội dung, liên kết chia sẻ, tiêu đề và mô tả ngắn, tuy nhiên thông
thường, một thông điệp đăng trên ZingLive có độ dài không quá 500 ký tự.
- Về tổng số lượng thông điệp, mỗi ngày gần 500.000 thông điệp được đăng
(*)


- Về nguồn tin, thông tin đăng trên mạng xã hội được lấy từ nhiều nguồn tin khác
nhau:
o Trích dẫn trực tiếp từ các trang tin, vnexpress, dân trí, vietnamnet, thanhnien,
tuoitre…
o Đăng bởi các admin đại diện cho một trang cộng đồng chia sẻ về một vài
lĩnh vực cụ thể, trang thương hiệu của các công ty lập ra để quảng bá thương
hiệu, hoặc fanpage được dùng như cộng đồng giao lưu giữa fan hâm mộ và
các sao. Những trang này thường có đặc điểm là thông điệp có độ dài vừa
phải, câu chữ được viết theo chuẩn tiếng Việt, nếu là các trang tin thường có
các title và thông điệp ngắn kèm theo.
o Đăng bởi các người sử dụng thông thường: Chiếm phần đa, thường chia sẻ
về tâm trạng, thơ văn, truyện cười, hoặc cũng có thể là chia sẻ các liên kết
đến một mục tin nào đó mà họ quan tâm.
- Có tính đa dạng cao, các thông tin liên quan đến những chuyện xảy ra trong đời
sống hàng ngày – bóng đá, chứng khoán, pháp luật, thời trang, ẩm thực, du lịch,
âm nhạc, giải trí… các thông tin nóng hổi mang tính sự kiện tại thời điểm đăng tin
“Việt Nam Nexttop Model”, “The Voice”…., các thông tin xoay quanh cuộc sống,
tâm tư tình cảm của người đăng đối với cuộc sống, con người xung quanh họ. Các

18

chia sẻ kinh nghiệm liên quan đến du lịch, ẩm thực, thời trang, v.v… Hoặc các
trích đoạn thơ, các câu truyện ngắn v.v.
- Có tính chủ quan, được đăng bởi người dùng, nên những thông điệp trên mạng xã
hội được chia sẻ phụ thuộc vào sở thích, thói quen chủ quan của người đăng. Nội
dung thông điệp cũng thường mang tâm tư, tình cảm hoặc ý kiến chủ quan của
người đăng về một vấn đề nào đó (nếu có).
- Cập nhật liên tục, với số lượng khoảng hai triệu lượt người dùng hoạt động trong
một ngày, lượng thông tin đưa lên hàng ngày không chỉ lớn về số lượng mà còn

liên tục về mặt thời gian.
- Có xu hướng thay đổi chủ đề theo thời gian, sự kiện, do được đăng từ những
thông tin user quan tâm nhất, nên những thông điệp trên mạng xã hội thường có
xu hướng gắn liền với các sự kiện xảy ra trong khoảng thời gian gần với thời điểm
thông điệp được đăng.
- Về tính chuẩn hóa của tiếng Việt trong thông điệp, thông điệp được đưa lên bởi
người dùng, và cho tới thời điểm hiện nay, chưa có qui định nào về việc phải sử
dụng ngôn ngữ như thế nào. Hơn nữa, do đặc điểm người dùng của ZingLive hầu
hết là giới trẻ, nên có một số thông điệp được viết bằng tiếng Việt không dấu,
Tiếng Việt xen lẫn Tiếng Anh, tiếng Anh, hoặc tiếng Việt được viết theo ngôn ngữ
tuổi teen, chữ viết tắt, v.v…


19

Chương 3: PHÂN TÍCH CHỦ ĐỀ PHỤC VỤ CHO PHÂN LOẠI

Chương này giới thiệu các bước cần thiết đề chuẩn bị dữ liệu cho việc phân loại thông điệp –
sẽ được nêu chi tiết ở chương 4. Chương 3 đặc biệt nhấn mạnh vào phần phát hiện và xây
dựng tập từ khóa cho các chủ đề nóng dựa trên tập các bài báo được đăng trong vòng ba
ngày đến một tuần quanh thời điểm thu thập dữ liệu. Ngoài ra, chương cũng mô tả chi tiết các
bước thực hiện cần thiết để xây dựng tập chủ đề chung, tập đại diện thông điệp từ dữ liệu thô.
3.1 Chủ đề chung
Như đã đề cập ở Chương 2, tập các chủ đề chung trên mạng xã hội Tiếng Việt được
chọn lọc dựa trên phân tích dữ liệu thực tế từ tập từ khóa thu được từ Baomoi.com
Mỗi chủ đề được tạo thành bởi
 Tên chủ đề
 Tập các từ khóa đặc trưng của chủ đề
o Từ khóa đặc trưng cố định: Được trích xuất từ tập từ khóa của các chủ
đề được trích rút từ tập dữ liệu baomoi.com

[7,17]
)
o Từ khóa đặc trưng mở rộng: Được thêm vào bằng tay dựa trên phân tích
dữ liệu

Tập từ khóa được trích rút từ một tập dữ liệu lớn (trong trường hợp này là tập văn bản
được lấy từ baomoi.com) được thực hiện như hình dưới đây (tóm tắt mô hình được đề
xuất trong [7]):
Tập từ khóa đặc trưng cố
định của c


Tập từ khóa đặc trưng mở
rộng của c
Chủ đề c
Hình 3.1 – Chủ đề chung

20


Trong [7, 17] các tác giả đã đưa ra một tập dữ liệu gồm 300 chủ đề, được đánh số từ 0
đến 299. Mỗi chủ đề bao gồm một tập các từ khóa, được sắp xếp theo độ quan trọng
giảm dần từ trên xuống dưới. Từ tập chủ đề này, tập chủ đề chung sẽ được lựa chọn
tập từ khóa, bằng cách lựa chọn những chủ đề chung cùng đề cập đến chủ đề lớn hơn,
sau đó trộn các từ khóa trong từng chủ đề con phù hợp với một trong các chủ đề chung
được đề cập ở chương 2, sắp xếp chúng lại theo thứ tự giảm dần của độ quan trọng.
Việc lựa chọn tập từ khóa cho từng chủ đề chung gồm những bước sau:
Bước 1: Lựa chọn các tập chủ đề trong tập dữ liệu 300 chủ đề, chọn lấy những chủ đề
con các từ khóa có tiềm năng là liên quan nhất về một trong các chủ đề chung. Ví dụ,
chủ đề chung là Thể thao thì sẽ lựa chọn những tập chủ đề có các từ khóa như:

vòng_đấu, bóng_bàn, cầu_ lông, bóng_đá, hạng, chủ_nhà, cầu_thủ, tuyển_thủ, v.v…
Bước 2: Loại bỏ bớt các từ khóa không có ý nghĩa nhiều trong việc phân loại trong các
chủ đề. Ví dụ: chiều_qua, tối_qua, lúc_nào, sáng_mai, chẳng_hạn, mặt_khác, v.v…
Bước 3: Từ các tập chủ đề đã chọn, tiến hành chọn lấy những tập từ khóa quan trọng
nhất ở mỗi chủ đề con để làm từ khóa cho chủ đề chung. Nguyên tắc chọn dựa vào
trọng số của các từ khóa, từ nào có trọng số cao thì được chọn trước. Lựa chọn khoảng
500 từ khóa cho mỗi chủ đề chung từ các chủ đề được lấy từ tập dữ liệu Baomoi.com.
Sau khi lựa chọn tập từ khóa cho chủ đề, lưu trữ tập từ khóa theo thứ tự giảm dần
trọng số từ trên xuống.


Dữ liệu từ
baomoi.com

LDA
Tập các từ đặc
trưng được phân
loại theo chủ đề
Hình 3.2- Trích lọc chủ đề chung

21


3.2 Chủ đề nóng
Tập chủ đề nóng là tập hợp những chủ đề biến đổi theo thời gian, chủ đề này được
trích rút từ các bài báo được đăng trong vòng 3-7 ngày trở lại tới thời điểm thông điệp
mới được đăng lên. Có thể ví dụ một số chủ đề nóng gần đây như : bầu Kiên bị bắt,
Giá xăng tăng, .v.v… Để xây dựng tập chủ đề này, cần thực hiện năm bước sau:
Bước 0 - Thu thập dữ liệu: Lấy tự động hoặc bằng tay k (k=100, 200, 300, …) văn bản,
bài báo từ nguồn Vnexpress (vnexpress.net) hoặc Báo Mới (baomoi.com). Các văn bản

này được lấy ngẫu nhiên trong các chủ đề (do trang tin tức đặt) khác nhau. Chỉ lấy
những bài viết được đăng trong khoảng 3-5 ngày gần đây.
Bước 1 - Tiền xử lý và tách từ: Từ tập văn bản thu thập được ta thực hiện các bước sau
 Loại bỏ thẻ html, các nội dung không cần thiết, chỉ lấy phần tiêu đề, mô tả, nội
dung, của văn bản.
 Xử lý tách câu, tách biệt dấu câu, tách từ.
 Thu được kết quả là tập văn bản thô
= {
1
, 
2
, , 

}

Tập các từ đặc
trưng được phân
loại theo chủ đề







….





………
………
………
………
……

.
Chủ đề và tập từ khóa
Chủ đề chung và
tập từ khóa
Hình 3.3 – Lựa chọn từ khóa cho chủ đề chung

×