Tải bản đầy đủ (.pdf) (68 trang)

Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.92 MB, 68 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ
HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội - 2016


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI
ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN
Ngành: Hệ thống Thông Tin
Chuyên ngành: Hệ thống Thông Tin
Mã số chuyên ngành: 60480104

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Trần Thị Oanh

Hà Nội – 2016



i
LỜI CAM ĐOAN
Tôi xin cam đoan:
1. Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của
TS. Trần Thị Oanh.
2. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, thời
gian, địa điểm công bố.
3. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn
trách nhiệm.
Hà Nội, ngày

tháng

năm 2016

HỌC VIÊN

Nguyễn Văn Thành


ii
LỜI CẢM ƠN
Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc và chân thành đến giáo viên hướng
dẫn TS. Trần Thị Oanh, người đã tận tình chỉ bảo tôi trong định hướng nghiên cứu, đề
xuất các ý tưởng và giúp đỡ về mặt phương pháp luận cũng như việc kiểm tra cuối cùng
đối với luận văn này.
Tôi xin chân thành cảm ơn các thày cô trong khoa Công nghệ Thông tin – Đại học
Công nghệ - Đại học Quốc gia Hà Nội, khoa Công nghệ Thông tin - Viện Đại học Mở Hà
Nội đã giúp đỡ tôi rất nhiều trong quá trình học tập, nghiên cứu và tạo điều kiện giúp tôi
trong công tác để tôi có thời gian thực hiện việc học tập và hoàn thành luận văn.

Cuối cùng, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới bố mẹ những người
động viên tôi về mặt tinh thần và hỗ trợ nhiều về mọi mặt.
HỌC VIÊN

Nguyễn Văn Thành


iii
MỤC LỤC

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT ...................................................................vi
DANH MỤC CÁC BẢNG............................................................................................... vii
DANH MỤC HÌNH VẼ, ĐỒ THỊ ................................................................................. viii
MỞ ĐẦU .............................................................................................................................. 1
Chương 1: Tổng quan về vấn đề nghiên cứu ................................................................... 3
Khai phá dữ liệu ...................................................................................................... 3
1.1.1 Khái niệm ......................................................................................................... 3
1.1.2 Quy trình khai phá dữ liệu................................................................................ 4
Bài toán khai phá quan điểm trên mạng truyền thông ............................................ 5
1.2.1 Khái quát khai phá quan điểm .......................................................................... 6
1.2.2 Khai phá quan điểm với mạng truyền thông .................................................... 7
Khai phá quan điểm sinh viên trên phương tiện truyền thông xã hội ..................... 8
1.3.1 Giới thiệu bài toán ............................................................................................ 8
1.3.2 Tình hình nghiên cứu trên thế giới ................................................................... 9
1.3.3 Tình hình nghiên cứu tại Việt Nam................................................................ 10
1.3.4 Ý nghĩa và mục tiêu của bài toán ................................................................... 11
Kết luận chương 1 ................................................................................................. 12
Chương 2: Các kiến thức nền tảng ................................................................................. 13
Giới thiệu .............................................................................................................. 13
2.1.1 Tổng quan về bài toán phân loại .................................................................... 13

2.1.2 Các bước giải quyết bài toán phân loại .......................................................... 13
2.1.3 Bài toán phân lớp văn bản .............................................................................. 14
Bài toán phân lớp đa nhãn..................................................................................... 14
Một số phương pháp phân lớp đa nhãn ................................................................. 15
2.3.1 Phương pháp chuyển đổi bài toán .................................................................. 16
2.3.2 Phương pháp thích nghi thuật toán ................................................................ 18
Một số mô hình học máy được sử dụng cho bài toán ........................................... 20


iv
2.4.1 Phân lớp Bayes ............................................................................................... 20
2.4.2 Cây quyết định ............................................................................................... 22
Kết luận chương 2 ................................................................................................. 26
Chương 3: Một mô hình giải quyết bài toán khai phá dữ liệu mạng truyền thông để
hiểu kinh nghiệm học tập sinh viên................................................................................. 27
Mô hình hoá bài toán ............................................................................................ 27
3.1.1 Xác định vấn đề và không gian dữ liệu .......................................................... 27
3.1.2 Phát biểu bài toán theo góc độ toán học ......................................................... 27
Một mô hình giải quyết bài toán ........................................................................... 28
3.2.1 Mô hình tổng thể ............................................................................................ 28
3.2.2 Môi trường thực nghiệm ................................................................................ 31
Kết luận chương 3 ................................................................................................. 32
Chương 4: Kết quả thực nghiệm ..................................................................................... 33
Thu thập và tiền xử lý dữ liệu ............................................................................... 33
4.1.1 Thu thập dữ liệu ............................................................................................. 33
4.1.2 Tiền xử lý dữ liệu ........................................................................................... 34
4.1.3 Lựa chọn tập nhãn và gán nhãn dữ liệu ......................................................... 36
4.1.4 Một số thống kê về bộ dữ liệu ........................................................................ 38
Các công cụ phân tích được sử dụng trong luận văn ............................................ 42
4.2.1 MEKA ............................................................................................................ 42

4.2.2 vnTokenizer .................................................................................................... 42
Thiết lập thực nghiệm ........................................................................................... 43
4.3.1 Chuyển đổi dữ liệu ......................................................................................... 43
4.3.2 Chia tách dữ liệu cho mục đích tập huấn và thử nghiệm ............................... 44
4.3.3 Các độ đo đánh giá thực nghiệm .................................................................... 45
Huấn luyện mô hình và kiểm tra ........................................................................... 46
4.4.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp ........................... 46
4.4.2 Thực nghiệm với Binary Relevance ............................................................... 46
4.4.3 Thực nghiệm với Label Combination ............................................................ 47


v
Kết quả thực nghiệm ............................................................................................. 47
4.5.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp ........................... 47
4.5.2 Thực nghiệm với Binary Relevance ............................................................... 48
4.5.3 Thực nghiệm với Label Combination ............................................................ 50
Phân tích lỗi .......................................................................................................... 52
Kết luận chương 4 ................................................................................................. 53
Chương 5: Kết luận và hướng phát triển tiếp theo ....................................................... 54
TÀI LIỆU THAM KHẢO................................................................................................ 56


vi

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT
Chữ viết tắt

Ý nghĩa

1. Tiếng Việt


2. Tiếng Anh
MLC

Multi Label Classification

BR

Binary Relevance

LP

Label Power-Set

LC

Label Combination

BP-MLL

Backpropagation for Multi-Label Learning


vii

DANH MỤC CÁC BẢNG
Bảng 1.1. So sánh phân lớp đa lớp và phân lớp đa nhãn ...................................................... 9
Bảng 2.1. Mẫu bộ dữ liệu đa nhãn ...................................................................................... 16
Bảng 2.2. Dữ liệu được chuyển đổi bẳng phương pháp Select Transformation ................ 16
Bảng 2.3. Dữ liệu được chuyển đổi bẳng phương pháp Ignore Transformation................ 17

Bảng 2.4. So sánh kết quả đầu ra của AdaBoost.MH và AdaBoost.MR ........................... 19
Bảng 3.1 Thông số phần cứng môi trường thực nghiệm .................................................... 32


viii

DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Quá trình khám phá tri thức.................................................................................. 4
Hình 1.2: Quy trình khai phá dữ liệu .................................................................................... 4
Hình 2.1: Phương pháp chuyển đổi với Binary Relevance ................................................ 17
Hình 2.2: Phân phối xác suất bởi LP .................................................................................. 18
Hình 3.1: Mô hình khai phá dữ liệu trao đổi, thảo luận của sinh viên trên diễn đàn ......... 28
Hình 3.2 Mô hình xử lý của chương trình Crawler ............................................................ 29
Hình 3.3 Mô tả quá trình chuyển đổi dữ liệu sang định dạng ARFF ................................. 30
Hình 4.1: Dữ liệu sau khi tách từ........................................................................................ 35
Hình 4.2: Cấu trúc tệp tin CSV chứa dữ liệu đã gán nhãn ................................................. 37
Hình 4.3: Biểu đồ thống kê các nhãn trong bộ dữ liệu ....................................................... 39
Hình 4.4: Giao diện công cụ MEKA .................................................................................. 42
Hình 4.5: Cấu trúc tệp tin ARFF của bộ dữ liệu ................................................................ 43
Hình 4.6: Cấu trúc tệp tin ARFF đã được chuyển sang dạng vector .................................. 44
Hình 4.7: Minh hoạ cross-validation với k=5 .................................................................... 45
Hình 4.8: Giao diện chức năng phân lớp văn bản của công cụ MEKA với phương pháp kfold và Zero Rule ................................................................................................................ 46
Hình 4.9: Giao diện chức năng phân lớp văn bản của công cụ MEKA với phương pháp kfold ...................................................................................................................................... 47
Hình 4.10: Giao diện chức năng phân lớp văn bản của công cụ MEKA với phương pháp
k-fold .................................................................................................................................. 47
Hình 4.11: Thống kê kết quả phương pháp k-fold với Label Combination và Zero Rule . 48
Hình 4.12: Thống kê kết quả phương pháp k-fold với Binary Relevance và Multinomial
Naïve Bayes ........................................................................................................................ 48
Hình 4.13 Thống kê độ đo của từng nhãn (Threshold=0.9) với Binary Relevance và
Multinomial Naïve Bayes ................................................................................................... 49

Hình 4.14: Thống kê kết quả phương pháp k-fold với Binary Relevance và J48 .............. 49
Hình 4.15 Thống kê độ đo của từng nhãn (Threshold=0.1) với Binary Relevance và J48 50
Hình 4.16: Thống kê kết quả phương pháp k-fold với Label Combination và Multinomial
Naïve Bayes ........................................................................................................................ 50
Hình 4.17 Thống kê độ đo từng nhãn với Label Combination và Multinomial Naïve Bayes
............................................................................................................................................ 51
Hình 4.18: Thống kê kết quả phương pháp k-fold với Label Combination và J48............ 51
Hình 4.19 Thống kê độ đo từng nhãn với Label Combination và J48 ............................... 52


1

MỞ ĐẦU
Trong việc ứng dụng khai phá dữ liệu vào nhiều lĩnh vực khác nhau của đời sống,
khai phá dữ liệu trong lĩnh vực giáo dục đang dần có được sự quan tâm đúng mức. Cần
phải nhìn nhận thẳng rằng giáo dục là nhân tố quyết định sự phát triển của đất nước về
nhiều mặt. Mục tiêu phát triển xã hội một cách bền vững đang đặt ra cho giáo dục những
yêu cầu mới. Giáo dục đào tạo có nhiệm vụ định hướng và hoạch định chính sách cho đối
tượng chính của giáo dục là thế hệ trẻ, là lực lượng kế thừa của việc xây dựng, bảo vệ và
phát triển đất nước trong tương lai một cách đúng đắn và kịp thời.
Sự phát triển bùng nổ của Internet trong thế kỷ 21 mang tới sự đa dạng về các
phương tiện trao đổi, thảo luận và chia sẻ các hoạt động xã hội trên toàn thế giới. Các
trang web truyền thông xã hội như Twitter, Facebook, YouTube và các diễn đàn cung cấp
địa điểm tuyệt vời cho sinh viên để chia sẻ niềm vui, nỗi buồn cũng như giải toả cảm xúc
và tìm kiếm sự trợ giúp từ mọi người. Trên nhiều trang web truyền thông xã hội, sinh viên
thảo luận và chia sẻ các vấn đề học tập hàng ngày của họ một cách không gò bó và rất
chân thực. Các dấu chân kỹ thuật số của sinh viên cung cấp một số lượng lớn các kiến
thức tiềm ẩn và một quan điểm hoàn toàn mới cho các nhà nghiên cứu giáo dục để hiểu
được kinh nghiệm của sinh viên bên ngoài môi trường lớp học có kiểm soát. Sự phong
phú của dữ liệu truyền thông xã hội cung cấp cơ hội để hiểu kinh nghiệm của sinh viên,

nhưng cũng đặt ra những khó khăn về phương pháp luận trong việc đưa ra ý nghĩa của dữ
liệu truyền thông xã hội cho mục đích giáo dục. Việc phân tích bằng tay thuần tuý không
thể đối phó với quy mô ngày càng tăng của dữ liệu, trong khi các thuật toán tự động thuần
tuý thường không thể nắm bắt được ý nghĩa sâu sắc trong dữ liệu. Qua việc quan sát và
đánh giá dữ liệu từ các trang diễn đàn của sinh viên, chúng tôi nhận thấy các vấn đề mà
sinh viên gặp phải trong học tập rơi vào một số loại nhất định như các vấn đề về áp lực thi
cử học hành, thiếu nguồn tài liệu tham khảo, lo lắng về định hướng nghề nghiệp, các cảm
xúc tiêu cực và tâm lý đời sống. Căn cứ vào điều này để thấy được sự cần thiết của việc
áp dụng một thuật toán phân lớp đa nhãn đối với miền dữ liệu đa dạng về ngữ nghĩa trên
các phương tiện truyền thông xã hội.
Việc phân lớp dữ liệu có 3 hướng tiếp cận chính là thông qua quy luật, mô hình
hóa và học máy. Trong phương pháp tiếp cận thì học máy có nhiều ưu điểm như không
mất thời gian đưa ra các luật, học từ dữ liệu huấn luyện, dễ dàng mở rộng và tái cấu trúc.
Các bộ phân loại thường sử dụng trong phương pháp học máy là Support Vector
Machine(SVM), Naive Bayes, Maximum Entropy, Decision Tree, Nearest-Neighbors,
Sparse Network of Winnows(SNoW).
Dựa trên sự hiểu biết về các vấn đề, khó khăn trong cuộc sống và kinh nghiệm học
tập của sinh viên, các nhà hoạch định chính sách và các nhà giáo dục có thể đưa ra quyết
định chính xác hơn về sự can thiệp kịp thời và các dịch vụ thích hợp giúp sinh viên vượt
qua rào cản trong học tập. Do đó, chúng tôi tiến hành nghiên cứu đề tài “Khai phá dữ liệu
phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên”, với mục đích
đề xuất một mô hình khai phá dữ liệu hiệu quả cho phân tích các quan điểm, kinh nghiệm
và vấn đề gặp phải trong học tập, đời sống của sinh viên. Dữ liệu cho bài toán này được


2
lấy từ diễn đàn sinh viên của trường Đại học Bách khoa Hà Nội. Bố cục luận văn gồm 4
chương:
Chương 1: Tổng quan về vấn đề nghiên cứu
Giới thiệu khái quát bài toán khai phá quan điểm và bài toán cụ thể với miền tin

tức từ các phương tiện truyền thông xã hội.
Chương 2: Các kiến thức nền tảng
Giới thiệu về các kiến thức nền tảng của bài toán khai phá quan điểm trên thế giới
và phương pháp phân lớp văn bản dựa trên mô hình học máy.
Chương 3: Một mô hình giải quyết bài toán khai phá dữ liệu mạng truyền
thông để hiểu kinh nghiệm học tập sinh viên
Trên các kiến thức cơ sở đã trình bày ở chương 2, đưa ra mô hình áp dụng cho bài
toán khai phá kinh nghiệm học tập của sinh viên trên phương tiện truyền thông xã hội.
Chương 4: Kết quả thực nghiệm
Trình bày quá trình thực nghiệm với công cụ Meka trong gán nhãn dữ liệu và các
kết quả thực nghiệm thu được. Bên cạnh đó, đưa ra các nhận định về nghiên cứu và các
phân tích ưu nhược cũng như các trường hợp lỗi của kết quả thực nghiệm.
Chương 5: Kết luận và hướng phát triển tiếp theo
Tóm lược những nội dung chính đã đạt được của luận văn , đồng thời chỉ ra những
hướng cần khắc phục và đưa ra định hướng nghiên cứu tiếp theo.


3

Chương 1: Tổng quan về vấn đề nghiên cứu
Trong chương này, chúng tôi giới thiệu về các vấn đề nghiên cứu của đề tài. Với
những khái niệm cơ bản về khai phá dữ liệu, chúng tôi sẽ hướng cụ thể vào tổng quan
lĩnh vực nghiên cứu khai phá quan điểm. Thêm vào đó, quan trọng hơn hơn cả là trình
bày hướng tiếp cận cũng như ý nghĩa và mục tiêu của đề tài với việc khai thác quan điểm
sinh viên trên các phương tiện truyền thông.
Khai phá dữ liệu
1.1.1 Khái niệm
Khai phá dữ liệu là quá trình trích xuất những thông tin tiềm ẩn và có giá trị bên
trong một lượng lớn dữ liệu được lưu trữ trong các kho dữ liệu hoặc cơ sở dữ liệu, … [6]
Dựa trên các thông tin được trích xuất dưới dạng các tri thức đó, các nhà nghiên cứu hoặc

các nhà quản lý chiến lược có thể dễ dàng đưa ra quyết định hoặc đánh giá một vấn đề
nào đó. Ngoài thuật ngữ này, người ta còn dùng một số thuật ngữ khác với ý nghĩa tương
tự: khai phá tri thức từ dữ liệu, trích lọc dữ liệu, phân tích dữ liệu, phân tích mẫu. Bên
cạnh khái niệm về khai phá dữ liệu, còn có một thuật ngữ thông dụng khác là khám phá
tri thức. Xét trên thực tế thì khai phá dữ liệu chỉ là một bước trong quá trình khám phá tri
thức. Dưới đây là các bước lặp của một quá trình khám phá tri thức [6]:
 Bước 1: Làm sạch dữ liệu (Data cleaning): các nhiễu và dữ liệu không thích hợp
sẽ bị loại bỏ.
 Bước 2: Tích hợp dữ liệu (Data intergration): kết hợp dữ liệu từ nhiều nguồn khác
nhau: tệp tin văn bản, cơ sở dữ liệu, kho dữ liệu …
 Bước 3: Chọn dữ liệu (Data selection): dữ liệu liên quan đến nhiệm vụ phân tích
sẽ được truy vấn và thu thập từ nhiều nguồn ban đầu.
 Bước 4: Chuyển đổi dữ liệu (Data transformation): chuyển đổi dữ liệu về các
dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác tập hợp hoặc
nhóm.
 Bước 5: Khai phá dữ liệu (Data mining): áp dụng các phương pháp thông minh để
trích xuất ra các mẫu dữ liệu.
 Bước 6: Đánh giá mẫu (Pattern evaluation): sử dụng một số phép đo để đánh giá
sự hữu ích của các mẫu biển diễn tri thức.
 Bước 7: Trình diễn dữ liệu (Knowledge presentation): sử dụng các công cụ và kỹ
thuật trình diễn, trực quan hoá dữ liệu để biểu diễn tri thức đã được khai phá.


4

Hình 1.1: Quá trình khám phá tri thức
1.1.2 Quy trình khai phá dữ liệu
Khai phá dữ liệu là một quy trình sáng tạo yêu cầu nhiều kỹ năng và tri thức khác
nhau của người nghiên cứu. Để đảm bảo sự thành công và tính độc lập trong cộng tác
nghiên cứu, dự án CRISP-DM (Cross Industry Standard Process for Data Mining) được

thực hiện để thống nhất về mặt định nghĩa của một quy trình khai phá dữ liệu đối với
nhiều lĩnh vực khác nhau [6].

Hình 1.2: Quy trình khai phá dữ liệu
 Business understanding: nắm rõ các mục tiêu của yêu cầu nghiệp vụ và tìm hiểu
chính xác những gì mà bài toán nghiệp vụ đặt ra. Phân tích tình trạng hiện thời của
các tài nguyên, ràng buộc và các yếu tố quan trọng khác cần được xem xét.


5
 Data understanding: thu thập dữ liệu từ các nguồn khác nhau dựa trên các phân
tích ở bước trên. Đồng thời đưa ra một số đánh giá về chất lượng và tính khả dụng
dữ liệu hiện có.
 Data preparation: tiến hành chuyển đổi, làm sạch và kết hợp dữ liệu về một định
dạng chung.
 Modeling: lựa chọn các mô hình phù hợp với bài toán cần giải quyết. Sau đó thực
hiện xây dựng và đánh giá mô hình với tập dữ liệu đã chuẩn bị.
 Evaluation: kết quả của mô hình trên sẽ được phân tích và đánh giá cụ thể. Nếu
bài toán nghiệp vụ có phát sinh ở giai đoạn này thì quá trình khai phá dữ liệu sẽ
được thực hiện lặp lại.
 Deployment: dựa trên kết quả những phân tích và đánh giá trên, bước này sẽ xây
dựng những báo cáo và các bảng dữ liệu cần thiết. Bên cạnh đó, việc bảo trì và
giám sát các đầu ra cũng sẽ được đưa vào giai đoạn này.
Bài toán khai phá quan điểm trên mạng truyền thông
Phân tích tâm lý hay cũng được gọi là khai phá quan điểm, là lĩnh vực nghiên cứu
phân tích ý kiến, đánh giá, thẩm định, thái độ và cảm xúc của con người đối với các thực
thể như các sản phẩm, dịch vụ, các tổ chức, cá nhân, các vấn đề, sự kiện, chủ đề và các
thuộc tính của chúng. Nó đại diện cho một không gian vấn đề lớn hơn. Ngoài ra còn có rất
nhiều tên gọi và nhiệm vụ khác nhau, ví dụ như phân tích tâm lý, khai phá quan điểm,
trích lọc quan điểm, khai phá cảm xúc, khai phá các nhận xét, v.v. Tuy nhiên tất cả những

nhiệm vụ nghiên cứu này được đặt chung dưới khái niệm khai phá quan điểm. Trong các
ngành công nghiệp, thuật ngữ phân tích tâm lý thường được sử dụng nhiều hơn, nhưng
trong các nghiên cứu học thuật cả hai thuật ngữ này cũng thường xuyên được sử dụng. Về
cơ bản chúng đại diện cho cùng một lĩnh vực nghiên cứu [5, tr.7].
Thuật ngữ phân tích tâm lý có lẽ lần đầu tiên xuất hiện trong (Nasukawa và Yi,
2003), và thuật ngữ khai phá quan điểm lần đầu tiên xuất hiện trong (Dave, Laurence và
Pennock, 2003). Tuy nhiên, các nghiên cứu về tâm lý và quan điểm đã được xuất hiện từ
trước đó (Das và Chen, 2001; Pang, Lee và Vaithyanathan, 2002; Tong, 2001; Turney,
2002; Wiebe, 2000).
Quan điểm có vai trò rất quan trọng trong quá trình đưa ra quyết định của con người.
Thông thường, chúng ta sẽ đặt ra những câu hỏi mang chủ đề chính là “Người khác nghĩ
về vấn đề đó như thế nào?”. Ví dụ như khi bạn muốn mua một chiếc xe ô tô bạn sẽ muốn
tham vấn bạn bè và những người có cùng dự định như mình “Có nên mua xe ô tô khi sống
tại Hà Nội không? Dòng xe giá rẻ từ Nga có ổn không? Tuổi thọ và độ hao mòn của xe ô
tô chịu sự ảnh hưởng như thế nào từ thời tiết nhiệt đới tại Việt Nam?..v.v”. Có thể dễ
dàng nhận thấy từ việc nắm được quan điểm của người khác, các cá nhân có thể đưa ra
các quyết định dễ dàng hơn dựa trên những thông tin đã thu thập được. Bên cạnh đó, khai
phá quan điểm giúp các doanh nghiệp, tổ chức biết được các ý kiến, quan điểm của một
bộ phận người quan tâm và sử dụng dịch vụ của doanh nghiệp, tổ chức. Từ đó doanh


6
nghiệp, tổ chức sẽ dễ dàng nhìn ra được các vấn đề còn tồn tại và cải thiện trong chất
lượng dịch vụ của mình.
Ở Việt Nam, con số những người sử dụng Internet ngày càng lớn. Theo thống kê của
VNNIC về thị trường Inernet tại Việt Nam năm 2015, tỉ lệ người dân sử dụng Internet
ngày càng gia tăng chóng mặt. Việt Nam có dân số 90,7 triệu người trong đó: 39,8 triệu
người sử dụng Internet (tương đương với 44%), 28 triệu người sở hữu tài khoản mạng xã
hội (chiếm 31%), 128,3 triệu người có kết nối mạng di động (tương đương với 141%).
Mức tăng trưởng trung bình của người dùng Internet tại Việt nam là 10% kể từ 1/1/2014,

con số này đối với tài khoản mạng xã hội là 40%. Thời gian sử dụng Internet trung bình
một ngày là trên 5 giờ đối với máy tính và trên 2 giờ đối với điện thoại.
Sự bùng nổ mạnh mẽ của Internet và World Wide Web mang tới nguồn dữ liệu
khổng lồ về các thông tin cá nhân, quan điểm cá nhân được đưa lên Internet thông qua các
mạng xã hội, blog. Đây là một lợi thế cho việc tổng hợp và khai phá quan điểm ở nhiều
lĩnh vực của đời sống.
1.2.1 Khái quát khai phá quan điểm
Trong nghiên cứu của mình, Bing Liu [5, tr.17-21] đã trình bày khái quát về các
khái niệm và các loại bài toán được dùng trong khai phá quan điểm:
Một số khái niệm dùng trong khai phá quan điểm:
 Đối tượng: để chỉ các thực thể (người, sự kiện, chủ đề, sản phẩm…) được xét
tới trong đánh giá. Mỗi đối tượng bao gồm một tập các thành phần và các thuộc
tính hay còn gọi là các đặc trưng. Các thành phần hoặc thuộc tính lại có một tập
các thành phần con hoặc thuộc tính con. Do đó, có thể biểu diễu một đối tượng
O bằng một cập {T,A}:
o T: cấu trúc phân cấp thành phần cha – thành phần con
o A: là tập các thuộc tính của đối tượng O
Ví dụ: Máy vi tính có tập các thành phần là: màn hình, bộ nguồn, ổ đĩa cứng,
CPU, chuột, bàn phím… và các thuộc tính: khối lượng, điện áp, tốc độ. Thành
phần màn hình có các thuộc tính con như: độ phân giải, tỉ lệ tương phản…
 Các đặc trưng ẩn và hiện: Mỗi một đánh giá r bao gồm một tập các câu nhận
xét r={s1,s2, …, sm}. Ta gọi f là đặc trưng trong r, nếu đặc trưng f xuất hiện
trong r thì có thể nói f là đặc trưng hiện và ngược lại f là đặc trưng ẩn
Ví dụ:
“Tốc độ của máy vi tính này rất nhanh”: trong đó đặc trưng “tốc độ” là đặc
trưng. “Máy vi tính này quá nặng”: đặc trưng “khối lượng” là đặc trưng ẩn
 Đoạn đánh giá về một đặc trưng: đoạn đánh giá về một đặc trưng f của đối
tượng O trong r là tập các câu liên tiếp trong r mô tả quan điểm tích cực hoặc
tiêu cực về đặc trưng đó. Mỗi đoạn đánh giá bao gồm tối thiểu ít nhất một câu.
Các loại bài toán trong khai phá quan điểm



7
Khai phá quan điểm (hay còn gọi là phân lớp nhận định) thông thường có 3 bài
toán điển hình nhất là [9, tr.44-62]:
 Bài toán phân lớp quan điểm: giống bài toán phân lớp văn bản, trong đó mỗi
văn bản sau khi tiến hành phân lớp sẽ thuộc về một trong các lớp đã được xác
định trước. Trong bài toán phân lớp quan điểm xác định hai lớp tích cực hoặc
tiêu cực. Việc phân loại này thông thường ở mức tài liệu và không quan tâm
đến các vấn đề chi tiết hơn như người đánh giá đối tượng thích hay không thích
đặc trưng nào đó của đối tượng.
 Bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng: bài toán này sẽ
chú trọng đi chi tiết vào mức câu để làm rõ đối tượng mà người đưa ra quan
điểm có thích hay không.
 Bài toán khai phá quan hệ (so sánh): một cách đánh giá khác ngoài cách biểu
diễn các quan điểm bằng việc trực tiếp nhận xét về đối tượng là bằng cách so
sánh đối tượng mà chủ thể muốn nhận xét với một đối tượng tương tự khác. Ví
dụ, thường mỗi khi nói về một cái gì đó là tốt hay xấu, người ta thường đưa ra ý
kiến “so với cái gì ?”.
1.2.2 Khai phá quan điểm với mạng truyền thông
Sự phát triển của Internet và công nghệ Web mới đã mang tới nhiều loại hình và
phương tiện của các mạng truyền thông. Từ những công cụ đầu tiên mang trong mình khả
năng giúp con người truyền tải các thông điệp với nhau như thư điện tử, các trang báo
tĩnh trên mạng, hiện nay các mạng xã hội đã làm thay đổi hoàn toàn bộ mặt của truyền
thông trên mạng. Con người có thể thực hiện rất nhiều hoạt động “ảo” nhưng tham chiếu
tới chuyện xảy ra ngoài đời thực trên mạng xã hội. Thậm chí chỉ với một nút “like” cũng
dễ dàng trở thành trào lưu truyền thông thịnh hành trên các mạng truyền thông ngày nay.
Từ đó, ta có thể thấy rằng các hoạt động trên mạng xã hội phần lớn đều phản ảnh
quan điểm tích cực hoặc tiêu cực của người dùng về một vấn đề nào đó. Xét cụ thể hơn,
các ý kiến đó có thể là quan điểm về chuyện cá nhân, một sản phẩm điện tử đời mới, một

sự kiện nóng hổi như các buổi trình diễn ca nhạc, các cuộc viếng thăm của các nguyên thủ
quốc gia hàng đầu thế giới. Thậm chí gần đây nhất, trong toàn bộ quá trình diễn ra bầu cử
Tổng thống tại Mỹ năm 2016, hai ứng cử viên nặng ký nhất cho chiếc ghế Tổng thống là
Donal Trump và Hillary Clinton đều có một đội ngũ truyền thông khai thác mạnh mẽ các
công cụ mạng xã hội để đưa ra các chiến lược hợp lí tại từng thời điểm. Điều đó cho thấy
sức mạnh và tiềm năng của việc khai phá quan điểm trên mạng truyền thông là rất lớn.
Tuy nhiên, đặc thù của dữ liệu trên các mạng xã hội nói riêng cũng như các mạng
truyền thông nói chung là sự đa dạng về mặt ngôn ngữ diễn đạt cũng như sự thiếu thống
nhất về mặt ngữ nghĩa, quan điểm. Đây là một thách thức đối với bài toán khai phá quan
điểm trên mạng truyền thông, và cũng vừa là một điểm mạnh khi chúng ta có thể khai
thác được nhiều tri thức từ nguồn dữ liệu khổng lồ này.


8
Khai phá quan điểm sinh viên trên phương tiện truyền thông xã hội
1.3.1 Giới thiệu bài toán
Trong thế giới ngày nay, chúng ta chủ yếu sử dụng các trang web cho mạng xã hội,
giáo dục, tiếp thị, giải trí, kinh doanh, mua sắm, và rất nhiều điều khác để làm cho cuộc
sống trở nên dễ dàng và thú vị hơn. Ngày nay, cơn sốt các phương tiện truyền thông xã
hội được gắn lên một tầm cao của sự thành công cho mỗi cá nhân. Thanh niên là những
người sử dụng phổ biến nhất và hầu hết trong số họ là sinh viên. Sinh viên chỉ cần bình
luận, chia sẻ, thích và gửi cảm xúc của mình trên phương tiện truyền thông xã hội như
Twitter, Facebook và Youtube. Sinh viên cảm thấy tự do để thảo luận và chia sẻ kinh
nghiệm của họ trên phương tiện truyền thông xã hội theo những cách không chính thức và
không thường xuyên, mà không xem xét cách viết và ngữ pháp chính xác. Do đó, dữ liệu
truyền thông xã hội đa phần là không có cấu trúc. Những phương tiện truyền thông xã hội
cung cấp rất nhiều kiến thức bổ ích và thông tin về các cảm xúc của sinh viên, kinh
nghiệm và cuộc đấu tranh trong các nghiên cứu của họ bên ngoài lớp học. Vì vậy, theo
dõi các sinh viên trên các phương tiện truyền thông xã hội là một triển vọng thú vị cho
các nhà nghiên cứu để hiểu kinh nghiệm học tập của sinh viên bên ngoài lớp học truyền

thống. Sự hiểu biết này sẽ phát hiện ra rất nhiều kinh nghiệm chưa biết mà không được đề
cập tới trong khi thảo luận trên lớp. Sự hiểu biết này về kinh nghiệm của họ cung cấp dữ
liệu có ích cho sự tiến bộ của sinh viên trong quá trình ra quyết định, tăng cường chất
lượng giáo dục, đào tạo, mở rộng sự khuyến khích và vinh danh thành tích.
Số lượng lớn dữ liệu truyền thông xã hội cung cấp cơ hội để hiểu kinh nghiệm của
học sinh, nhưng cũng có những khó khăn về phương pháp luận để sử dụng dữ liệu truyền
thông xã hội cho mục đích giáo dục. Trong các nghiên cứu về lớp học, để hiểu quan điểm
của sinh viên các cuộc điều tra nhằm xem xét, đánh giá, thảo luận nhóm, phỏng vấn đã
được thực hiện. Các khái niệm sáng tạo của việc sử dụng dữ liệu truyền thông xã hội tập
trung vào các thông tin cần thiết và kiến thức để trích xuất cho mục đích giáo dục bằng sự
hiểu biết kinh nghiệm của sinh viên là một hướng đi mới. Các dữ liệu phương tiện truyền
thông xã hội như các nhận xét sinh viên, bài viết và cảm xúc có thể được sử dụng cho sự
nắm bắt kinh nghiệm học tập của sinh viên với mục tiêu nghiên cứu:
- Để tìm và phân loại sinh viên trong vấn đề học tập của họ.
- Theo dõi kinh nghiệm tốt hay xấu của sinh viên. Khai thác dữ liệu truyền thông xã
hội như những cảm xúc của sinh viên sẽ dẫn đến phân loại các nhóm sinh viên theo kinh
nghiệm của họ và xác định các vấn đề của họ được giải quyết để nâng cao chất lượng giáo
dục.
Khai thác các tập tin văn bản định hướng là kỹ thuật mang tính đột phá cung cấp trí
tuệ tính toán và kỹ thuật này được ứng dụng trong các lĩnh vực đa ngành, chẳng hạn như
giải cứu thông tin, điều tra văn bản, xử lý ngôn ngữ tự nhiên, và trong phân loại trình tự
dựa trên các sự tương đồng hợp lý và không nhỏ từ bộ dữ liệu khổng lồ.
Việc khai thác dữ liệu được thực hiện trên dữ liệu truyền thông xã hội bao gồm các
trang web xã hội như Twitter, Facebook, Youtube, các diễn đàn thảo luận. Khai phá các


9
tập tin có chứa văn bản có thể được sử dụng để khai thác dữ liệu của các phương tiện
truyền thông xã hội. Chủ yếu các dữ liệu truyền thông xã hội là định dạng không có cấu
trúc và việc tìm kiếm thông tin từ đó là phức tạp do bao gồm một lượng dữ liệu khổng lồ.

Vì vậy, nó đòi hỏi các phương pháp xử lý cụ thể và các thuật toán để trích xuất thông tin
hữu ích từ dữ liệu web xã hội. Chúng tôi xin đưa ra sự so sánh của 2 phương tiếp cận chủ
yếu ở lĩnh vực này ở Bảng 1.1 dưới đây.
Bảng 1.1. So sánh phân lớp đa lớp và phân lớp đa nhãn
MỤC ĐÍCH

TÍNH CHẤT

BẢN CHẤT
VÍ DỤ

PHÂN LỚP ĐA LỚP
Điều này có nghĩa là một
nhiệm vụ phân lớp với nhiều
hơn hai lớp những không phải
tại cùng một thời điểm
Nó tạo ra sự giả định rằng mỗi
ví dụ được gán với một và chỉ
một nhãn
Loại trừ lẫn nhau
Một loại quả có thể là quả táo
hoặc quả xoài nhưng không thể
là quả táo hoặc quả xoài tại
cùng một thời điểm

PHÂN LỚP ĐA NHÃN
Điều này có nghĩa là một nhiệm vụ
phân lớp với nhiều hơn hai lớp tại
một thời điểm
Nó sẽ dự đoán thuộc tính của một

điểm dữ liệu
Không loại trừ lẫn nhau
Một văn bản có thể tồn tại trên bất
cứ tài liệu nào tại một thời điểm

1.3.2 Tình hình nghiên cứu trên thế giới
Ở phần này chúng tôi xin trình bày tóm lược một số bài báo nghiên cứu điển hình
trên thế giới về vấn đề tương tự
1.3.2.1 Hiểu khách hàng với việc sử dụng các trang Facebook: Khai phá dữ liệu
người dùng sử dụng phân tich văn bản
Đây là nghiên cứu có tên “Understanding customers using Facebook Pages: Data
mining users feedback using text analysis” của nhóm tác giả Hsin-Ying Wu, KuanLiang
Liu và Charles Trappey, được xuất bản năm 2014 trên tạp chí IEEE. Nghiên cứu này tập
trung vào khai phá dữ liệu văn bản trên các mạng xã hội, cụ thể là các trang quảng cáo
Facebook. Các dịch vụ mạng xã hội cung cấp một giải pháp mang tính kinh tế hơn đối với
các công ty mới thành lập trong việc quảng bá diện rộng. Bằng việc diễn giải và phân tích
các ý kiến của khách hàng trên các trang quảng cáo Facebook, các nhà chiến lược kinh
doanh có thể tạo ra những chiến dịch hoặc yếu tố thu hút khách hàng, cũng như phản ứng
kịp thời với những thay đổi từ phía khách hàng.
Phương pháp của nghiên cứu này tập trung vào việc thu thập các thông tin phản
hồi của người tiêu dùng trên các trang Facebook, sau đó thực hiện các biện pháp mô hình
hoá, phân cụm và phân tích các điểm quan trọng của văn bản. Nhóm tác giả cũng áp dụng
phương pháp CKIP (Chinese Knowledge and Information Processing) để trích xuất các
cụm từ quan trọng từ các cuộc đối thoại tiếng Trung Quốc. Với việc phân tích này, các


10
doanh nhân có thể hiểu rõ hơn cách làm thế nào có thể tăng cương truyền thông tiếp thi và
gia tăng thị phần doanh nghiệp.
1.3.2.2 Khai phá dữ liệu truyền thông xã hội để hiểu kinh nghiệm học tập của sinh

viên
Bài báo với tên “Mining Social Media Data for Understanding Students’ Learning
Experiences” của nhóm tác giả Xin Chen, Mihaela Vorvoreanu, và Krishna Madhavan,
xuất bản năm 2013 trên tạp chí IEEE. Nghiên cứu này tập trung vào việc phân tích các
cuộc đối thoại giữa sinh viên tên các phương tiện truyền thông xã hội về các vấn đề có
liên quan tới kinh nghiệm giáo dục như: quan điểm, cảm xúc và những băn khoăn về quá
trình học tập. Việc khai phá dữ liệu mạng xã hội mang tới những thử thách cả về nội dung
đa dạng và khối lượng dữ liệu khổng lồ. Bài báo mang tới giải pháp giải quyết cả hai vấn
đề đó với mô hình đề xuất phân lớp đa nhãn quy mô lớn, thuật toán được sử dụng là
Naïve Bayes kết hợp với chiến lược “one versus all”. Dữ liệu của bài báo được thu thập từ
Twitter với đa phần là sinh viên của trường Đại học Purdue.
1.3.2.3 Phân lớp xu hướng chủ đề trên Twitter
Đề tài nghiên cứu có tên “Twitter Trending Topic Classification” của nhóm tác giả
Kathy Lee, Diana Palsetia, Ramanathan Narayanan, Md. Mostofa Ali Patwary, Ankit
Agrawal, và Alok Choudhary, xuất bản năm 2011 trên tạp chí IEEE.
Với sự phổ biến ngày càng tăng của các trang blog, tính đến tháng 6 năm 2011 có
khoảng 200 triệu “tweet” được tạo ra mỗi ngày. Mặc dù Twitter cung cấp một danh sách
các chủ đề phổ biến nhất mà người dùng tạo ra hay còn gọi là xu chướng chủ đề thời gian
thực, tuy nhiên nó thường rất khó hiểu để có thể quy về các chủ đề cụ thể. Do đó, điều
quan trọng và cần thiết là phân loại các chủ đề này về các mục chung với độ chính xác
cao hơn. Đề giải quyết vấn đề này, nhóm tác giả phân loại các xu hướng chủ đề trên
Twitter về 18 danh mục chung như thể thao, chính trị, công nghệ, … Nhóm tác giả đã thử
nghiệm với 2 phương pháp để phân loại là Bag-of Words cho phân loại văn bản và phân
loại dựa trên mạng. Bằng việc xây dựng các vector từ với các độ đo trọng số TF-IDF sử
dụng bộ phân lớp đa thức Naïve Bayes. Các chuyên mục của các chủ đề tương tự và số
lượng người dùng có ảnh hưởng chung giữa các chủ dề tương tự đó được phân lớp với
thuật toán C5.0. Các thí nghiệm được thực hiện trên một cơ sở dữ liệu của các lựa chọn
ngẫu nhiên 768 xu hướng chủ đề (hơn 18 lớp) cho thấy độ chính xác phân loại lên dến
65% và có thể đạt tới 70% bằng cách sử dụng dựa trên văn bản và mô hình phân loại dựa
trên mạng tương ứng.

1.3.3 Tình hình nghiên cứu tại Việt Nam
Nghiên cứu giáo dục đã được sử dụng theo cách cũ như khảo sát, phỏng vấn, các
nhóm tập trung, hoạt động lớp học để thu thập dữ liệu liên quan đến kinh nghiệm học tập
của sinh viên. Một số cách khảo sát lấy ý kiến thủ công như:


11
 Qua thư điện tử: phiếu khảo sát dạng bảng hỏi được gửi qua email. Phương pháp
này có nhiều điểm mạnh như chi phí thấp, người tham gia lớn, không phụ thuộc
thời gian, ... Tuy nhiên phương pháp này cũng có một số điểm yếu như tỉ lệ phản
hồi thấp, không thể đưa quá nhiều thông tin chi tiết dưới dạng viết.
 Qua phiếu thăm dò có giám sát: nhóm những người tham gia lại và được yêu cầu
trả lời một bộ câu hỏi. Việc này yêu cầu sự tập trung về mặt thời gian, cần lượng
người tham gia đủ lớn để phản ánh đầy đủ về mặt thông tin phản hồi.
 Phỏng vấn: mang tính chất cá nhân hơn so với 2 hình thức trên khi người phỏng
vấn được làm việc trực tiếp với người được phỏng vấn. Thông thường người phỏng
vấn sẽ có cơ hội được đặt những câu hỏi mở rộng tiếp theo về các vấn đề khảo sát.
Về cơ bản, các phương pháp trên sẽ làm giảm khả năng mở rộng vấn đề. Như sự lạc
quan về kinh nghiệm của họ, sinh viên cần phải suy nghĩ về những gì họ đã nghĩ và làm
đôi khi trong quá khứ, mà có thể đã trở nên lu mờ theo thời gian. Cũng không có nghiên
cứu nào được tìm thấy mà có sự phân tích nội dung của sinh viên đã đăng với việc xem
xét vấn đề từ các không gian không có giới hạn trên các trang web xã hội với mục tiêu rõ
ràng của sự hiểu biết của sinh viên các sinh viên những kinh nghiệm học tập. Công việc
hiện tại đã không đánh giá được hiệu suất học tập của sinh viên để xác định vấn đề của
sinh viên và phân loại chúng một cách chính xác để nâng cao kinh nghiệm E-learning.
Hiện tại cũng chưa có công trình nghiên cứu nào về vấn đề khai phá quan điểm cũng như
tìm hiểu kinh nghiệm học tập của sinh viên thông qua các phương tiện truyền thông xã
hội. Đây cũng vừa là lợi thế vừa là khó khăn của chúng tôi khi thực hiện đề tài này.
1.3.4 Ý nghĩa và mục tiêu của bài toán
Đa phần, các sinh viên nhút nhát hay sợ hãi về vấn đề của họ trong quá trình học tập

và các phương tiện truyền thông xã hội là nơi họ có thể viết bất cứ điều gì họ cảm thấy
vào thời điểm đó về cảm xúc của họ. Các trường học và các phòng ban đã đấu tranh với
sự khó khăn trong tuyển sinh và các vấn đề khấu trừ, miễn giảm học phí. Sinh viên tốt
nghiệp đóng một vai trò quan trọng trong lực lượng lao động trong tương lai của quốc gia
và trực tiếp ảnh hưởng tới tăng trưởng kinh tế của quốc gia và năng lực toàn cầu. Các khái
niệm kết hợp kinh nghiệm học tập của sinh viên để nâng cao kinh nghiệm E-learning là
sáng tạo để cải thiện phong cách huấn luyện hay phong cách giảng dạy cho sinh viên nào
để sửa chữa chúng vào một thời điểm cần thiết mà không cần che giấu hoặc khảo sát. Dựa
trên sự hiểu biết về các vấn đề và các vấn đề trong sinh viên cuộc sống, hoạch định chính
sách và các nhà giáo dục có thể đưa ra quyết định nhiều thông tin hơn về các can thiệp và
dịch vụ thích hợp có thể giúp sinh viên vượt qua những rào cản trong việc học. Sinh viên
có thể được đào tạo hoặc cải thiện chất lượng giáo dục như họ đã được phân loại. Phân
tích kinh nghiệm học tập của sinh viên từ phương tiện truyền thông xã hội sẽ tiết kiệm
thời gian để thu thập các dữ liệu bằng tay.
Mục tiêu của các nghiên cứu về kinh nghiệm sinh viên trên các phương tiện truyền
thông xã hội thường xoay quanh một số điểm sau:
-

Để phân loại sinh viên dựa vào nội dung được chia sẻ trong các phương tiện truyền
thông xã hội.


12
-

Để hiểu rõ vấn đề và các vấn đề sinh viên gặp phải trong kinh nghiệm học tập của
mình.
Phân loại nhãn "Những điều tốt đẹp" mới cho sinh viên kết hợp với các khía cạnh
và hiệu suất của họ.
Cải thiện "Xác suất của các nhãn và từ khóa" cho các nhãn giới thiệu mới.


Nó có thể được sử dụng để thông báo cho các nhà quản lý giáo dục, các học viên và
các nhà ra quyết định khác có liên quan để đạt được hiểu biết thêm về kinh nghiệm học
của sinh viên.
Kết luận chương 1
Như vậy, chương I đã trình bày khái quát về các về khai phá quan điểm, bài toán
khai phá quan điểm sinh viên trên các phương tiện truyền thông xã hội. Từ chương I,
chúng ta bước nào có thể rút ra cách tiếp cận và các nghiên cứu liên quan đối với việc đề
xuất và ứng dụng các mô hình và kỹ thuật khai phá dữ liệu nhằm phân tích thông tin phản
hồi từ sinh viên.
Trong chương tiếp theo, luận văn sẽ giới thiệu một số thuật toán phân lớp đa nhãn văn
bản nhằm xác định phạm vi cho các nhiệm vụ đề xuất mô hình giải quyết, phân tích và
khai phá tiếp theo.


13

Chương 2: Các kiến thức nền tảng
Chúng tôi viết chương này để giới thiệu về các kiến thức nền tảng của bài toán
phân loại, bài toán phân lớp văn bản. Từ đó, chúng tôi sẽ trình bày vấn đề phân lớp đa
nhãn trong phân lớp văn bản, với hai cách tiếp cận phổ biến nhất là chuyển đổi bài toán
và thích nghi thuật toán. Chương này cũng đưa ra giới thiệu về một số mô hình cụ thể của
phương pháp chuyển đổi bài toán như Binary Relevance và Label Power-Set.
Giới thiệu
2.1.1 Tổng quan về bài toán phân loại
Phân loại (hay phân lớp) là một tiến trình xử lý nhằm xếp các mẫu dữ liệu hay các
đối tượng vào một trong các lớp đã được định nghĩa trước. Các mẫu dữ liệu hay các đối
tượng được xếp về các lớp dựa vào giá trị của các thuộc tính (attributes) cho một mẫu dữ
liệu hay đối tượng. Sau khi đã xếp tất cả các đối tượng đã biết trước vào các lớp tương
ứng, lúc này mỗi lớp được đặc trưng bởi tập các thuộc tính của các đối tượng chứa trong

lớp đó. Các thuật toán phân loại tiêu biểu bao gồm như mạng Neural [21, tr.25], cây quyết
định [21, tr.25], suy luận quy nạp [21, tr.25], mạng Beyesian [21, tr.25], Support Vector
Machine [21, tr.25]…. Tất cả các cách tiếp cập này xây dựng những mô hình đều có khả
năng phân loại cho một mẫu mới chưa biết dựa vào những mẫu tương tự đã được học. Bài
toán phân loại có thể xử lý thông tin được thu thập từ mọi lĩnh vực hoạt động của con
người và thế tới tự nhiên được biểu diễn dưới dạng các bảng. Bảng này bao gồm các đối
tượng và các thuộc tính. Các phần tử trong bảng là các giá trị xác định các thuộc tính
(attributes hay features) của các đối tượng. Trong đó số cột chính là số thuộc tính của các
đối tượng, mỗi cột là một thuộc tính và số dòng chính là số đối tượng chứa trong dữ liệu
này. Mọi dữ liệu được biểu diễn dưới các dạng khác có thể được chuyển thành dạng bảng
như trên để thực hiện quá trình phân loại [8].
2.1.2 Các bước giải quyết bài toán phân loại
Một bài toán phân loại bao gồm 2 bước sau [16]:
Bước 1: Huấn luyện
Mục đích của bước này là xây dựng một mô hình xác định một tập các lớp dữ liệu.
Mô hình này được xây dựng bằng cách phân tích các bộ dữ liệu của một cơ sở dữ liệu,
mỗi bộ dữ liệu được xác định bởi giá trị của các thuộc tính. Giả sử mỗi bộ dữ liệu đã
thuộc về một trong các lớp đã đựơc định nghĩa trước, điều này được xác định bởi một
trong các thuộc tính, gọi là thuộc tính phân loại. Trong ngữ cảnh của bài toán phân loại,
mỗi bộ dữ liệu được xem như là một mẫu, một ví dụ, hay một đối tượng. Những bộ dữ
liệu được phân tích để xây dựng mô hình phân loại được lấy từ trong tập dữ liệu học hay
dữ liệu huấn luyện (training data set). Những bộ dữ liệu riêng lẻ tạo thành tập dữ liệu
huấn luyện còn gọi là những mẫu huấn luyện (training samples) và được chọn ngẫu nhiên
từ một kho các mẫu.


14
Bước 2: Kiểm tra và đánh giá, bước này sử dụng mô hình
Phân lớp đã được xây dựng ở bước 1 vào việc phân lớp. Đầu tiên, đánh giá độ
chính xác của mô hình hay bộ phân lớp này, bằng cách sử dụng một tập các mẫu đã được

phân lớp để thử (test) gọi là bộ thử (test set). Những mẫu này được chọn ngẫu nhiên và
độc lập với các m ẫu đã được học ở bước 1 gọi là mẫu thử (test sample). Độ chính xác của
một mô hình phân lớp dựa trên bộ thử là tỷ lệ những mẫu thử được phân lớp đúng bằng
mô hình phân lớp đó. Nghĩa là với mỗi m ẫu thử, so sánh lớp đúng mà mẫu thử đó thuộc
về với lớp mà mô hình phân lớp này dự đoán cho mẫu thử đó.
2.1.3 Bài toán phân lớp văn bản
Phân lớp văn bản là một trong những nhiệm vụ quản lý tài liệu dựa trên nội dung
sao cho thuận tiện và dễ dàng nhất. Đây là một vấn đề quan trọng trong việc gán một tài
liệu vào một hoặc nhiều lớp cho trước [11, tr.809-837].
Ngày này cùng với sự phát triển không ngừng của công nghệ, mạng Internet ngày càng
phát triển vượt bậc, đáp ứng cao nhu cầu sử dụng. Đi cùng với nó là việc sử dụng Internet
trong việc quản lý tập tin, các tài liệu điện tử … vô cùng lớn. Đó là động lực cho sự phát
triển của bài toán phân lớp văn bản tự động. Song song với sự phát triển của phẩn mềm,
sự phát triển của phần cứng máy tính cũng đã tạo ra sức mạnh tính toán, cho phép quá
trình phân lớp văn bản tự động được sử dụng trong các ứng dụng thực tế cao.
Vậy, câu hỏi đặt ra tại sao sử dụng bài toán phân lớp văn bản hay sử dụng nó nhằm
mục đích gì?
Như định nghĩa về phân lớp văn bản, chúng ta cũng nhận thấy được lợi ích của
nó như sau:
 Thứ nhất, sự sắp xếp các đối tượng vào từng lớp riêng biệt sẽ loại bỏ được các
thư rác, thư không cần thiết.
 Thứ hai, phân lớp được các đối tượng và từng lớp, mỗi lớp có những đặc tính
riêng biệt, chủ đề riêng biệt …
 Thứ ba, giúp quản lý tài nguyên, tri thức một cách hiệu quả, sắp xếp hợp lý, tìm
kiếm dễ dàng, thuận tiện chỉ với vài thao tác trên Internet.
Bài toán phân lớp đa nhãn
2.2.1.1 Khái niệm Phân lớp đa nhãn
Phân lớp đa nhãn còn gọi là MLC ( Multiple Label Classification), cho phép gán một
đối tượng (văn bản, giáo trình, tài liệu,…) vào một hoặc nhiều lớp đồng thời
[18].

Điều này có ý nghĩa thực tế lớn, vì như nội dung của một văn bản không chỉ liên
quan tới một chủ đề duy nhất. Chẳng hạn, một bài báo hoặc một bộ phim có thể được
chia vào cả hai nhóm Xã Hội và Nghệ thuật Điện ảnh. Tương tự như vậy, trong chẩn
đoán y tế, một bệnh nhân có thể cùng một lúc làm mẫu cho bệnh tiểu đường và ung
thư tuyến tiền liệt.


15
Với sự phát triển của xã hội ngày càng lớn, tạo nên sự khác biệt giữa phân lớp đa
nhãn và đơn nhãn dẫn đến phân lớp đa nhãn ngày càng đượg các ứng dụng hiện đại đưa
vào áp dụng, chẳng hạn như phân lớp (hoặc phân loại) chức năng các hợp chất hữu cơ,
phân nhóm âm nhạc và phân lớp ngữ nghĩa. Phân lớp đa nhãn được các nhà nghiên cứu
định nghĩa thống nhất như là việc gán tên các chủ đề (tên lớp/nhãn lớp) đã được xác định
trước vào các văn bản dựa trên nội dung của nó.
2.2.1.2 Ý nghĩa và ứng dụng
Chúng ta dễ dàng nhận thấy phân lớp đa nhãn là bài toán có ý nghĩa và ứng dụng
thực tiễn cao, đặc biệt khi sự phát triển của công nghệ thông tin bùng nổ và nhu cầu sử
dụng Internet là không thể thiếu.
Phân lớp đa nhãn văn bản cho phép một văn bản có thể thuộc về một số lớp cùng
một lúc; nghĩa là một văn bản/tài liệu có thể phục vụ cho việc khai thác nội dung thông
tin của nhiều lớp/chủ đề khác nhau.
Ngày nay các phương pháp phân lớp đa nhãn văn bản ngày càng được các ứng dụng
hiện đại có nhu cầu sử dụng, chẳng hạn như phân loại các hợp chất hữu cơ, phân nhóm
âm nhạc và phân lớp ngữ nghĩa. Trong phân lớp ngữ nghĩa, một bức ảnh có thể
thuộc về nhiều hơn một khái n i ệ m chẳng hạn như cảnh hoàng hôn và bãi biển.
Tương tự như vậy trong phân nhóm âm nhạc, một bài hát có thể thuộc về nhiều thể
loại. Ví dụ: Một số ca khúc mới và đứng top đầu của ban nhạc rock nổi tiếng có thể
thuộc về hai thể loại là rock và ballad.
Phân lớp đa nhãn cũng có thể ứng dụng vào các bài toán như: bài toán loại bỏ thư rác,
lọc thông tin trên trang web hoặc quản lý tri thức và tìm kiếm thông tin trên Internet.

Một số phương pháp phân lớp đa nhãn
Phương pháp phân lớp đa nhãn có thể nhóm thành hai loại chính: là phương pháp
chuyển đổi bài toán (Problem Transformation methods) và phương pháp thích nghi thuật
toán (Algorithm Adaptation methods) [14].
Phương pháp chuyển đổi bài toán (Problem Transformation methods): trong phương
pháp này vấn đề phân lớp đa nhãn được chuyển đổi thành một hoặc nhiều vấn đề phân lớp
đơn nhãn và việc phân lớp được thực hiện cùng quá trình như phân lớp đơn nhãn để
chuyển thành các đại diện đa nhãn. Có một số phương pháp chuyển đổi bài toán được sử
dụng như: Binary Relevance, Label Power-Set (hay còn gọi là Label Combination),
Pruned Problem Transformation Method (hay còn gọi là Pruned Set), tập k-label ngẫu
nhiên, … Phương pháp này là phương pháp thông dụng nhất và được tiếp cận phổ biến
nhất
Phương pháp thích nghi thuật toán (Algorithm Adaptation methods): một vài thuật
toán và mô hình phân lớp được thích nghi hoá với nhiệm vụ đa nhãn mà không cần tới sự
chuyển đổi bài toán. Một số ví dụ như:
 Tăng cường: AdaBoost.MH và AdaBoost.MR là những phiên bản nâng cấp của
AdaBoost cho dữ liệu đa nhãn [14].


×