GOM cụm văn bản TƯƠNG ĐỒNG THEO CHỦ đề TRONG KHO văn bản lớn TRÊN nền TÍNH TOÁN PHÂN tán

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (10.28 MB, 85 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


Nguyễn Hồ Duy Trí

GOM CỤM VĂN BẢN TƯƠNG ĐỒNG THEO CHỦ ĐỀ
TRONG KHO VĂN BẢN LỚN
TRÊN NỀN TÍNH TOÁN PHÂN TÁN

LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH

Mã số: 60480101

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. Đỗ Phúc

TP HỒ CHÍ MINH - 2018

Lời cam đoan

LỜI CAM ĐOAN
Tác giả luận văn có lời cam đoan danh dự về công trình khoa học của mình, cụ thể:
Tôi tên: NGUYỄN HỒ DUY TRÍ
Sinh ngày 10 tháng 09 năm 1991 tại tỉnh Đồng Nai
Quê quán: Quảng Nam
Hiện công tác tại: Trường Đại học Công Nghệ Thông Tin – ĐHQG TP.HCM
Là học viên khóa 9 ngành Khoa học Máy tính
Mã số học viên: CH1401039

Tôi cam đoan: “Gom cụm văn bản tương đồng theo chủ đề trong kho văn bản lớn trên
nền tính toán phân tán” là công trình nghiên cứu của riêng tôi, các kết quả nghiên cứu
có tính độc lập riêng, không sao chép bất kỳ tài liệu nào và chưa công bố nội dung
này ở bất kỳ đâu. Các số liệu trong luận văn được sử dụng trung thực, nguồn trích
dẫn có chú thích rõ ràng, minh bạch, có tính kế thừa, phát triển từ các tài liệu, tạp chí,
các công trình nghiên cứu đã được công bố, các website có uy tín.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về lời cam
đoan danh dự của tôi. Trường Đại học Công Nghệ Thông Tin không liên quan đến
những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có).
TP. HCM, ngày … tháng … năm 2018
Tác giả luận văn

Nguyễn Hồ Duy Trí

-1-

Mục lục

MỤC LỤC
LỜI CAM ĐOAN ......................................................................................................1
MỤC LỤC ..................................................................................................................2
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .............................................5
DANH MỤC CÁC BẢNG ........................................................................................6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ..................................................................7
MỞ ĐẦU ....................................................................................................................9
Chương 1. TỔNG QUAN .......................................................................................10
1.1. Lý do chọn đề tài ............................................................................................10
1.2. Mục tiêu, đối tượng và phạm vi nghiên cứu ..................................................11
1.3. Nội dung và phương pháp nghiên cứu ...........................................................12

1.3.1. Tìm hiểu và sử dụng dữ liệu từ mạng trích dẫn .......................................12
1.3.2. Đề xuất phương pháp xây dựng nguồn tri thức tự động ..........................12
1.3.3. Xây dựng mô hình áp dụng nguồn tri thức tự động vào Source-LDA ....13
1.3.4. Đề xuất mô hình xử lý phân tán Source-LDA với nguồn tri thức được
xây dựng tự động ................................................................................................13
1.3.5. Xây dựng hệ thống tìm kiếm những tài liệu khoa học có chủ đề tương
đồng .................................................................................................................14
1.4. Tổng quan về tình hình nghiên cứu ................................................................14
1.4.1. Các công trình nghiên cứu về tìm kiếm văn bản tương đồng theo chủ đề ..
.................................................................................................................14
1.4.2. Các công trình nghiên cứu về mô hình chủ đề LDA ...............................19
1.5. Cấu trúc báo cáo .............................................................................................22
Chương 2. CƠ SỞ LÝ THUYẾT ...........................................................................23
2.1. Mạng trích dẫn ...............................................................................................23
2.2. Mô hình tìm kiếm văn bản tương đồng theo chủ đề ......................................25
2.2.1. Khái niệm văn bản tương đồng theo chủ đề ............................................25
2.2.2. Mô hình đánh giá độ tương đồng của văn bản theo chủ đề .....................25
2.3. Mô hình khám phá chủ đề ..............................................................................27
2.3.1. Mô hình chủ đề (Topic modeling) và các giải thuật tiền thân của LDA .27
2.3.2. Mô hình LDA (Latent Dirichlet Allocation) ...........................................28
2.3.3. Mô hình Source-LDA ..............................................................................34
-2-

Mục lục

2.3.4. Mô hình AD-LDA ...................................................................................36
2.4. Tổng quan về dữ liệu lớn ...............................................................................37
2.4.1. Khái niệm và lịch sử hình thành phát triển ..............................................37
2.4.2. Đặc điểm ..................................................................................................40

2.5. Mô hình xử lý dữ liệu lớn...............................................................................42
2.5.1. Mô hình MapReduce ...............................................................................42
2.5.2. Giới thiệu chung về Hadoop ....................................................................43
2.5.3. Hadoop 1.0 (MRv1) .................................................................................44
2.5.4. Hadoop 2.0 (MRv2, YARN) ...................................................................47
2.5.5. Giới thiệu về Apache Spark .....................................................................51
2.6. Độ hỗn loạn thông tin và khoảng cách Kullback-Leibler ..............................53
Chương 3. PHƯƠNG PHÁP ..................................................................................54
3.1. Trích xuất dữ liệu từ mạng trích dẫn ..............................................................54
3.2. Mô hình xây dựng nguồn tri thức tự động .....................................................55
3.3. Áp dụng mô hình xây dựng nguồn tri thức tự động vào Source-LDA ..........58
3.4. Mô hình xử lý phân tán Source-LDA với nguồn tri thức được xây dựng tự
động .......................................................................................................................61
3.4.1. Mô hình sinh tài liệu và phương thức lấy mẫu ........................................61
3.4.2. Cài đặt thuật toán .....................................................................................62
3.5. Hệ thống tìm kiếm những tài liệu khoa học có chủ đề tương đồng ...............63
3.5.1. Mô hình xử lý của hệ thống .....................................................................63
3.5.2. Yêu cầu và quy trình tìm kiếm của hệ thống ...........................................65
3.5.3. Mô hình hóa xử lý mức quan niệm ..........................................................65
3.5.4. Danh sách màn hình và mô tả các thành phần giao diện .........................66
Chương 4. HIỆN THỰC VÀ THỬ NGHIỆM ......................................................68
4.1. Môi trường hiện thực luận văn .......................................................................68
4.2. Dữ liệu mạng trích dẫn ...................................................................................73
4.3. Hiện thực mô hình xây dựng nguồn tri thức tự động .....................................73
4.4. Hiện thực hệ thống tìm kiếm những tài liệu khoa học có chủ đề tương đồng ...
........................................................................................................................76
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................78
5.1. Kết luận ..........................................................................................................78
5.2. Những đóng góp của đề tài ............................................................................78
-3-

Mục lục

5.3. Khả năng ứng dụng thực tiễn .........................................................................79
5.4. Hướng phát triển ............................................................................................79
DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ .....................................80
TÀI LIỆU THAM KHẢO ......................................................................................81
BÀI BÁO KHOA HỌC
QĐ THÀNH LẬP HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ
QĐ THAY ĐỔI THÀNH VIÊN HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ
NHẬN XÉT LUẬN VĂN THẠC SĨ
PHIẾU YÊU CẦU CHỈNH SỬA LUẬN VĂN THẠC SĨ
BẢN GIẢI TRÌNH CHỈNH SỬA LUẬN VĂN THẠC SĨ

-4-

Danh mục các ký hiệu và chữ viết tắt

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

STT

Từ viết tắt

1

CSS

Cascading Style Sheets

2

DFD

Data Flow Digram

3

FLT

Feature Location

4

HDFS

5

HFT

6

JS

Jenshen-Shannon

7

KL

Kullback-Leibler

8

LDA

Latent Dirichlet allocation

9

LHC

Large Hadron Collider

10

LSI

Latent semantic analysis

11

LTS

Long-term Support

12

MLlib

Machine Learning library

13

PLSI

Probabilistic Latent Sematic Indexing

14

RDD

Resilient Distributed Datasets

15

TART

Temporal – Author – Recipient – Topic

16

UCLA

The University of California, Los Angeles

17

YARN

Yet Another Resource Negotiator

18

Cụm từ gốc

Hadoop Distributed File System
Hidden Factors as Topics

WYSIWYG What You See Is What You Get

-5-

Danh mục các bảng

DANH MỤC CÁC BẢNG
Bảng 3.1 – Danh sách các màn hình của hệ thống .................................................... 66
Bảng 3.2 – Mô tả thành phần giao diện của hệ thống ............................................... 66
Bảng 3.3 – Danh sách các biến cố của hệ thống ....................................................... 67
Bảng 4.1 – So sánh độ hỗn loạn thông tin giữa LDA và mô hình đề xuất (SourceLDA) ......................................................................................................................... 75

-6-

Danh mục các hình vẽ, đồ thị

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 2.1: Biểu diễn trực quan mạng trích dẫn ......................................................... 24
Hình 2.2: Mô hình đánh giá độ tương đồng của văn bản theo chủ đề ...................... 26
Hình 2.3: Khám phá chủ đề dựa trên ý tưởng tính phân bố xác suất của mỗi từ đặc
trưng trong tài liệu .................................................................................................... 27
Hình 2.4: Mô hình sinh tài liệu của thuật toán LDA ................................................ 30
Hình 2.5: Mô hình sinh tài liệu của thuật toán Source-LDA ................................... 35
Hình 2.6: 05 đặc điểm của dữ liệu lớn (mô hình 5V) .............................................. 41
Hình 2.7: Hai quá trình cơ bản trong mô hình MapReduce ..................................... 43
Hình 2.8: Các thành phần của Hadoop 1.0 .............................................................. 45
Hình 2.9: Quy trình MapReduce trong Hadoop ....................................................... 46
Hình 2.10: Cấu trúc cài đặt một cụm tính toán của Hadoop 1.0 .............................. 47
Hình 2.11: Những thay đổi cơ bản của Hadoop 2.0 so với Hadoop 1.0 .................. 48
Hình 2.12: Cấu trúc cài đặt một cụm tính toán mới YARN .................................... 48
Hình 2.13: Các thành phần của framework Apache Spark ...................................... 52
Hình 3.1: Ví dụ về dữ liệu kiểm thử và dữ liệu xây dựng nguồn tri thức trong mạng
trích dẫn .................................................................................................................... 55
Hình 3.2: Minh họa siêu tham số nguồn đại diện cho nguồn tri thức ...................... 56
Hình 3.3: Ma trận từ - chủ đề  ở đầu ra của thuật toán LDA ................................. 56
Hình 3.4: Quá trình sắp xếp ma trận từ - chủ đề thành siêu tham số nguồn đại diện
cho nguồn tri thức .................................................................................................... 57
Hình 3.5: Mô hình thuật toán Source-LDA với nguồn tri thức được xây dựng tự
động .......................................................................................................................... 60
Hình 3.6: Mô hình xử lý hệ thống tìm kiếm những tài liệu khoa học có chủ đề tương
đồng. .......................................................................................................................... 64
Hình 3.7: Mô hình DFD mức đỉnh của hệ thống tìm kiếm văn bản tương đồng theo
chủ đề. ....................................................................................................................... 65
Hình 3.8: Thiết kế màn hình phần mềm.................................................................... 66
Hình 4.1: Môi trường thực hiện luận văn.................................................................. 68
Hình 4.2: Giao diện hệ điều hành Ubuntu ................................................................ 69
-7-

Danh mục các hình vẽ, đồ thị

Hình 4.3: Giao diện môi trường phát triển tích hợp Eclipse ..................................... 70
Hình 4.4: Giao diện công cụ Scene Builder .............................................................. 73
Hình 4.5: Khoảng cách Kullback–Leibler từ mô hình đề xuất (Source-LDA) đến
LDA .......................................................................................................................... 74
Hình 4.6: Độ hỗn loạn thông tin giữa LDA và mô hình đề xuất (Source-LDA) ..... 76
Hình 4.7: Giao diện hệ thống tìm kiếm những văn bản khoa học tương đồng theo
chủ đề ....................................................................................................................... 77

-8-

Mở đầu

MỞ ĐẦU
Mục tiêu nghiên cứu của đề tài là tìm kiếm văn bản tương đồng theo chủ đề trong kho
văn bản lớn. Để giải quyết bài toán này đề tài sẽ nghiên cứu khám phá chủ đề ẩn trong
văn bản thông qua việc đề xuất cải tiến phương pháp khai phá chủ đề ẩn trong tập
ngữ liệu bằng cách áp dụng tri thức biết trước (prior knowledge) thông qua nguồn tri
thức được xây dựng tự động. Nguồn tri thức sẽ được sử dụng để nâng cao độ chính
xác trong việc lựa chọn chủ đề cho từ. Từ đó, đề tài xây dựng một hệ thống tìm kiếm
những văn bản có chủ đề tương đồng với nhau.
Đối tượng nghiên cứu của đề tài bao gồm: nội dung tóm tắt của các văn bản khoa học,
cụ thể là các chủ đề và tập từ khóa tương ứng được trình bày trong phần tóm tắt của
các bài báo, sách, giáo trình khoa học; các mô hình khai phá chủ đề ẩn dựa trên
phương pháp thống kê như Latent Dirichlet Allocation (LDA); mô hình xử lý dữ liệu
lớn...

Phạm vi nghiên cứu của đề tài là các mô hình chủ đề như LDA, Dynamic Topic
Models...; phương pháp xây dựng nguồn tri thức tự động; các mô hình tổ chức dữ
liệu tuần tự; mô hình xử lý dữ liệu lớn MapReduce; framework xử lý dữ liệu lớn
Apache Spark; thư viện máy học MLlib, GraphX, Mahout. Giới hạn của đề tài dự
kiến dừng lại ở mức đề xuất cải tiến và cài đặt mô hình chủ đề theo phương pháp
phân tán, song song hóa.

-9-

Tổng quan

Chương 1. TỔNG QUAN
Ở chương 1, luận văn sẽ trình bày về nhu cầu thực tế dẫn đến lý do chọn đề tài nghiên
cứu, giới hạn mục tiêu, đối tượng và phạm vi nghiên cứu của đề tài. Bên cạnh đó,
chương này còn mô tả nội dung, phương pháp nghiên cứu, tổng quan về tình hình
nghiên cứu và cấu trúc của toàn bộ báo cáo.
1.1. Lý do chọn đề tài
Tận dụng công nghệ thông tin để nâng cao năng suất nghiên cứu khoa học là một
thách thức rất quan trọng có tác động rất lớn đối với xã hội.
Một điểm khó khăn trong năng suất nghiên cứu là khi cộng đồng phát triển sẽ rất khó
để các nhà nghiên cứu có thể xem được bức tranh hoàn chỉnh về cách mà một lĩnh
vực phát triển, vì thực tế là các công trình mới thường được viết dựa trên các tác phẩm
trước đó. Dẫn đến việc, các nhà nghiên cứu trẻ thường bị lạc trong số lượng lớn các
bài báo, công trình nghiên cứu có liên quan. Các nhà nghiên cứu lâu năm khi chuyển
sang một đề tài mới sẽ mất nhiều thời gian để tìm đọc những công trình trong lĩnh
vực. Tất cả những điều này rõ ràng cản trở sự tiến bộ của nghiên cứu khoa học. Và
nếu phát triển được các kỹ thuật khai thác giúp các nhà nghiên cứu dễ dàng và hiệu
quả hơn trong việc tìm hiểu các chủ đề nghiên cứu sẽ rất có lợi. Do đó, như đã nêu ở
trên, tận dụng công nghệ thông tin để nâng cao năng suất nghiên cứu khoa học là một

thách thức rất quan trọng có tác động rất lớn đối với xã hội. Máy tính có thể góp phần
hỗ trợ công việc phân tích các tài liệu trích dẫn từ đó khám phá được chủ đề nghiên
cứu và quá trình tiến hóa của chủ đề trong một cộng đồng. Hiểu rõ được sự phát triển
này rất hữu ích trong việc nhận biết các mốc quan trọng và phát hiện các xu hướng
nghiên cứu chính đang nổi lên. Với lịch sử phát triển được trình bày bên dưới, máy
tính đã có thể hỗ trợ công việc phân tích các tài liệu trích dẫn. Tuy nhiên những công
cụ, mô hình còn nhiều hạn chế, khó khăn.
Những nghiên cứu gần đây trên mạng trích dẫn sử dụng LDA trên dữ liệu tóm tắt
(abstract) để khám phá chủ đề bài báo, tuy nhiên LDA dựa trên mô hình túi từ nên
với những văn bản ngắn như vậy sẽ cho độ chính xác thấp. Khuynh hướng cải tiến là
đưa thêm tri thức bên ngoài vào quá trình phân tích với công trình mới nhất là SourceLDA được Justin Wood và các cộng sự giới thiệu tại UCLA vào năm 2017. Thuật
toán này áp dụng tri thức biết trước thông qua nguồn tri thức vào quá trình lấy mẫu
- 10 -

Tổng quan

chủ đề để cải thiện tính ổn định và chính xác của mô hình. Tuy nhiên, công trình này
chỉ cung cấp một phương pháp để xây dựng các nguồn tri thức theo cách thủ công
trên bộ dữ liệu được đã được gán nhãn. Để giải quyết những hạn chế đó, luận văn đề
xuất cách tiếp cận xây dựng nguồn tri thức tự động với dữ liệu không gán nhãn thông
qua mối quan hệ của các tài liệu khoa học trong mạng trích dẫn.
Bên cạnh đó, với lượng dữ liệu rất lớn và phong phú khi phân tích hoàn chỉnh các
lĩnh vực nghiên cứu, một mô hình xử lý đơn lẻ như Source-LDA không thể thực hiện
nhanh chóng và có hiệu quả. Đòi hỏi phải phân tán hóa dữ liệu và song song hóa các
tác vụ xử lý để nâng cao tốc độ của mô hình, mang lại hiệu quả cao. Do đó đề tài
chọn thực hiện việc cải tiến trên nền tính toán phân tán.
Với sự phổ biến của những công cụ lưu trữ, hỗ trợ thao tác trên dữ liệu lớn với phần
cứng thông thường, tác giả mong muốn tìm hiểu và áp dụng các kỹ thuật xử lý trên
tập ngữ liệu lớn. Điều này mang ý nghĩa khoa học cao, bởi vì với lượng dữ liệu đồ

sộ, khi phân tích sẽ mang lại cái nhìn đa chiều hơn cho một vấn đề. Ngoài ra, thao tác
trên lượng dữ liệu lớn giúp tránh được tình trạng quá luyện khi dữ liệu thử nghiệm
đủ để bao quát hết các vấn đề có thể xảy ra.
Cuối cùng, đề tài mong muốn hoàn thiện hệ thống tìm kiếm những văn bản có chủ đề
tương đồng. Điều này có ý nghĩa rất lớn trong những công việc như tự động gán nhãn
chủ đề, phân loại tài liệu văn bản; đánh giá mức độ hữu ích của văn bản, phát hiện
đạo văn hay lựa chọn văn bản làm đại diện cho tập ngữ liệu.
1.2. Mục tiêu, đối tượng và phạm vi nghiên cứu
Mục tiêu nghiên cứu của đề tài là tìm kiếm văn bản tương đồng theo chủ đề trong kho
văn bản lớn. Để giải quyết bài toán này đề tài sẽ nghiên cứu khám phá chủ đề ẩn trong
văn bản thông qua việc đề xuất cải tiến phương pháp khai phá chủ đề ẩn trong tập
ngữ liệu bằng cách áp dụng tri thức biết trước thông qua nguồn tri thức được xây
dựng tự động. Nguồn tri thức sẽ được sử dụng để nâng cao độ chính xác trong việc
lựa chọn chủ đề cho từ. Từ đó, đề tài xây dựng một hệ thống tìm kiếm những văn bản
có chủ đề tương đồng với nhau.
Đối tượng nghiên cứu của đề tài bao gồm: nội dung tóm tắt của các văn bản khoa
học, cụ thể là các chủ đề và tập từ khóa tương ứng được trình bày trong phần tóm tắt
của các bài báo, sách, giáo trình khoa học; các mô hình khai phá chủ đề ẩn dựa trên
- 11 -

Tổng quan

phương pháp thống kê như Latent Dirichlet Allocation (LDA); mô hình xử lý dữ liệu
lớn...
Phạm vi nghiên cứu của đề tài là các mô hình chủ đề như LDA, Dynamic Topic
Models...; phương pháp xây dựng nguồn tri thức tự động; các mô hình tổ chức dữ
liệu tuần tự; mô hình xử lý dữ liệu lớn MapReduce; framework xử lý dữ liệu lớn
Apache Spark; thư viện máy học MLlib, GraphX, Mahout. Giới hạn của đề tài dự
kiến dừng lại ở mức đề xuất cải tiến và cài đặt mô hình chủ đề theo phương pháp

phân tán, song song hóa.
1.3. Nội dung và phương pháp nghiên cứu
Nội dung nghiên cứu của đề tài bao gồm những bước sau:
1.3.1. Tìm hiểu và sử dụng dữ liệu từ mạng trích dẫn
Nội dung ở bước này là tìm hiểu các mạng trích dẫn các tài liệu khoa học, lựa chọn
và trích xuất dữ liệu để sử dụng làm dữ liệu thử nghiệm. Sau khi có được tập dữ liệu
mạng trích dẫn, đề tài sẽ tiến hành khảo sát để lựa chọn một cơ sở dữ liệu hay sử dụng
hệ thống file phân tán để phân tán hóa lượng dữ liệu đồ sộ này. Việc tổ chức lưu trữ,
cài đặt chỉ mục, nhằm giúp cho việc phân tán lượng dữ liệu lớn và triển khai tính toán
trên nó một cách hiệu quả. Bên cạnh đó, đề tài mong muốn lưu trữ, chỉ mục tập dữ
liệu này một cách hiệu quả bằng những phương pháp như thống kê, cắt từ, rút gọn
các từ khóa, loại bỏ stopword…
Để làm được việc này, đề tài sẽ tìm hiểu các mạng trích dẫn được sử dụng trong
nghiên cứu và được chia sẻ từ những nguồn uy tín như: Microsoft Academic Graph,
ACM-Citation-network,

DBLP-Citation-network,

Stanford

Patent

citation

network…
Kết quả dự kiến đạt được đó là một mạng trích dẫn các tài liệu khoa học và mẫu dữ
liệu đã được sàng lọc dùng để thử nghiệm. Tất cả dữ liệu đã được tổ chức lưu trữ
phân tán, chỉ mục, mẫu dữ liệu đã được tiền xử lý cắt từ, rút gọn, loại bỏ stopword…
1.3.2. Đề xuất phương pháp xây dựng nguồn tri thức tự động
Sau khi có được mẫu dữ liệu mạng trích dẫn dùng để thử nghiệm, đề tài tiến hành

khảo sát các phương pháp khai phá chủ đề ẩn trong tập tài liệu để xây dựng nguồn tri
thức tự động. Chủ đề ẩn được khám phá sẽ đi cùng với tập từ khóa xuất hiện trong
chủ đề, kèm theo xác suất xuất hiện của từ khóa đó đối với từng chủ đề. Các chủ đề,
- 12 -

Tổng quan

từ khóa và xác suất thu được sẽ được tổ chức vào nguồn tri thức một cách phù hợp
để khai thác trong thuật toán Source-LDA.
Đề tài sẽ tìm hiểu ưu, khuyết điểm trong trường hợp cụ thể của bài toán để tìm ra một
phương pháp thích hợp. Các mô hình khai phá chủ đề ẩn hiện nay mà đề tài hướng
đến tìm hiểu đó là: mô hình đơn chủ đề sử dụng TF-IDF, các mô hình đa chủ đề như
LSI, PLSI, LDA và các mô hình cải tiến từ nó…
Kết quả dự kiến đạt được trong bước này đó là một mô hình xây dựng nguồn tri thức
tự động và nguồn tri thức được lưu trữ phù hợp để sử dụng ở các bước kế tiếp.
1.3.3. Xây dựng mô hình áp dụng nguồn tri thức tự động vào Source-LDA
Thuật toán Source-LDA đã cải thiện được nhược điểm của thuật toán LDA đó là sự
thiếu chính xác trong việc phân tích những văn bản ngắn, bằng cách đề xuất áp dụng
tri thức biết trước thông qua nguồn tri thức vào quá trình này. Tuy nhiên, SourceLDA có những nhược điểm cần khắc phục như sau: thứ nhất, nguồn tri thức được xây
dựng thủ công dựa vào tri thức của chuyên gia nên chất lượng của kết quả phụ thuộc
rất nhiều vào khả năng của chuyên gia. Thứ hai, hàm trọng số xác suất của từ đề xuất
chỉ dựa trên phương pháp đếm có vẻ quá đơn giản để đại diện cho một chủ đề. Chính
vì thế, với dữ liệu và một mô hình xây dựng nguồn tri thức tự động ở bước trước, đề
tài tiến hành kết hợp với phương pháp khai phá chủ đề ẩn của thuật toán Source-LDA
để hoàn thiện một mô hình tổng quát về việc tự động xây dựng nguồn tri thức và khai
thác chủ đề ẩn trên mạng trích dẫn các tài liệu khoa học.
Dự kiến kết quả đạt được là một mô hình kết hợp việc xây dựng nguồn tri thức tự
động và khai thác chủ đề tiềm ẩn từ mạng trích dẫn các tài liệu khoa học.
1.3.4. Đề xuất mô hình xử lý phân tán Source-LDA với nguồn tri thức được

xây dựng tự động
Với lượng dữ liệu rất lớn và phong phú khi phân tích hoàn chỉnh các lĩnh vực nghiên
cứu trong mạng trích dẫn, một mô hình xử lý đơn lẻ như kết quả từ các bước trước
của luận văn không thể thực hiện nhanh chóng và có hiệu quả. Đòi hỏi phải phân tán
hóa dữ liệu và song song hóa các tác vụ xử lý để nâng cao tốc độ của mô hình, mang
lại hiệu quả cao. Do đó đề tài tiếp tục thực hiện việc cải tiến trên nền tính toán phân
tán.

- 13 -

Tổng quan

Ở bước này, luận văn sẽ tìm hiểu và đề xuất cải tiến phân tán mô hình Source-LDA
với nguồn tri thức được xây dựng tự động. Tất cả những giải thuật trên sẽ được cài
đặt trên nền tảng phân tán theo mô hình MapReduce, framework Apache Spark và
các thư viện như MLlib, GraphX, Mahout... để xử lý mạng trích dẫn lớn một cách
hiệu quả. Đề tài sẽ tìm hiểu phương pháp phân tán hóa mô hình LDA có sẵn trong
các thư viện nêu trên, từ đó điều chỉnh phương pháp để áp dụng vào quá trình xây
dựng nguồn tri thức tự động, cũng như thuật toán Source-LDA.
Sau các bước phân tích chủ đề ẩn bằng mô hình Source-LDA với nguồn tri thức được
xây dựng tự động, kết quả sẽ được tổ chức lưu trữ để phục vụ bước tiếp theo của đề
tài.
Kết quả dự kiến đạt được là một mô hình phân tán thuật toán Source-LDA với nguồn
tri thức được xây dựng tự động hiện thực trên nền tảng phân tán xử lý dữ liệu lớn và
một phương thức tổ chức lưu trữ các chủ đề và tập từ tương ứng đối với từng văn bản
trong tập ngữ liệu.
1.3.5. Xây dựng hệ thống tìm kiếm những tài liệu khoa học có chủ đề tương
đồng
Bước cuối cùng của đề tài là xây dựng một hệ thống tìm kiếm với dữ liệu về chủ đề

và tập từ khóa đã tìm được. Hệ thống tìm kiếm sẽ có chức năng phát hiện những văn
bản có tính tương đồng về chủ đề với những văn bản trong mạng trích dẫn.
Dựa trên việc tổ chức lưu trữ ở bước trước, đề tài sẽ tìm hiểu mô hình văn bản tương
đồng theo chủ đề, phương pháp tính độ tương đồng giữa các phân phối xác suất tài
liệu - chủ đề với nhau để từ đó đưa ra được kết quả về tính tương đồng chủ đề giữa
các văn bản. Các phương pháp tính độ tương đồng giữa các phân phối xác suất mà đề
tài hướng đến đó là: độ đo khoảng cách Kullback-Leibler, Jensen–Shannon,
Bregman, Bhattacharyya, Hellinger…
Kết quả dự kiến đạt được là một hệ thống tìm kiếm văn bản có chủ đề tương đồng.
1.4. Tổng quan về tình hình nghiên cứu
1.4.1. Các công trình nghiên cứu về tìm kiếm văn bản tương đồng theo chủ đề
Bài báo [27] sử dụng phân phối các từ được mô tả bằng công thức sau đây để biểu
diễn các chủ đề.

- 14 -

Tổng quan

𝑃 (𝑡 ) =

𝑛𝑡𝑓(𝑡)
∑𝑡∈𝑇 𝑛𝑡𝑓(𝑡)

với
𝑛𝑓𝑡 (𝑡 ) =

log 2 (𝑡𝑓(𝑡 ) + 1)
log 2 |𝑇|

𝑛𝑡𝑓 (𝑡 ) là tần số từ được chuẩn hóa (normalised term frequency) của từ 𝑡 trong tổng
số các từ 𝑇 lấy ra từ chủ đề. Tập hợp tất cả các cụm từ duy nhất từ tiêu đề, tóm tắt,
mô tả và mẫu tài liệu liên quan được trích xuất và xếp hạng dựa trên 𝑃(𝑡 ) xác suất
một thuật ngữ 𝑡 có liên quan đến chủ đề đó. Giá trị này sẽ được chia cho tổng của tất
cả các 𝑛𝑡𝑓(𝑡 ) để đảm bảo tổng các xác suất sẽ bằng một.
Chúng ta tính độ tương đồng giữa mỗi cặp chủ đề bằng cách sử dụng phân bố chủ đề
và các loại độ đo sự liên kết, sự liên quan và độ đo khoảng cách. Mỗi độ đo đều dựa
trên những thành phần chung giữa các chủ đề (nghĩa là những thành phần cùng xuất
hiện trong cả hai chủ đề).
Độ đo sự liên kết: Dice’s, Jaccard’s, Cosine và Overlap. Chủ đề được thể hiện bằng
các tập từ không được đánh trọng số A và B.
Độ đo sự liên quan: Hệ số tương quan Pearson (r), Spearman’s rho (ρ) và Kendall’s
tau-b (τ). Tất cả các hệ số đo lường mối quan hệ giữa hai chủ đề thông qua danh sách
các từ đều được rút trích ra từ chủ đề của chúng. Pearson’s r sử dụng các giá trị thực
tế của P(t), trong khi ρ và τ là phi tham số và sử dụng thứ bậc của t (dựa trên P(t)).
Spearman’s ρ đánh giá tỷ lệ biến đổi giữa ranks trong hai danh sách, Kendall’s τ thể
hiện sự khác biệt giữa xác suất mà các danh sách theo cùng một thứ tự so với xác suất
các danh sách được sắp theo những thứ tự khác.
Độ đo khoảng cách: Euclidean, L1(norm) và Kullback-Leibler. Mỗi độ đo thể hiện
giá trị khoảng cách giữa hai chủ đề. Phương pháp Kullback-Leibler không có tính
chất đối xứng theo thứ tự so sánh.
Mục tiêu của bài báo [29] là xây dựng một hệ thống dịch máy dựa trên thứ bậc của
các cụm từ và các luật. Bài báo đề xuất một mô hình chủ đề tương đồng để khai thác
thông tin chủ đề ở mức độ đồng bộ theo quy tắc. Nghiên cứu này liên kết từng quy
tắc đồng bộ với phân phối chủ đề và chọn các quy tắc mong muốn theo sự tương tự
của phân bố chủ đề với các tài liệu nhất định. Mô hình của bài báo đã đạt được hiệu
- 15 -

Tổng quan

suất tốt hơn và tốc độ nhanh hơn các phương pháp tiếp cận trước đó hoạt động ở cấp
độ từ. Bài báo sử dụng thuật toán LDA để tìm ra phân bố xác suất chủ đề của các văn
bản. Sau đó, bằng cách so sánh tính tương đồng của các phân bố chủ đề, hệ thống có
thể quyết định liệu một quy tắc có phù hợp với tài liệu đang xem xét hay không. Độ
tương đồng chủ đề được tính bằng khoảng cách giữa hai phân bố chủ đề bằng công
thức Hellinger:
𝐾

𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑃(𝓏 |𝑑 ), 𝑃(𝓏|𝑟)) = ∑(√𝑃(𝓏 = 𝑘 |𝑑 ) − √𝑃(𝓏 = 𝑘 |𝑟))2
𝑘=1

Công thức Hellinger được sử dụng để tính toán khoảng cách giữa các phân phối và
nó thường được sử dụng trong mô hình chủ đề như trong bài báo [8]. Bài báo cũng
thử nghiệm các độ đo khác như: độ đo khoảng cách Euclidean, khoảng cách KullbackLeibler và hàm Cosine với kết quả thu được tương tự nhau.
Bài báo [17] xây dựng một hệ thống đánh giá (SRs) bao gồm việc xác định, thẩm
định và tổng hợp tất cả các nghiên cứu liên quan với các câu hỏi tập trung theo cách
có thể tái cấu trúc. Một hệ thống đánh giá chất lượng cao phải tuân theo các quy trình
nghiêm ngặt và đòi hỏi nguồn lực và thời gian đáng kể. Bài báo khảo sát các phương
pháp khai thác văn bản nâng cao để giảm gánh nặng liên quan đến việc kiểm tra các
bản tóm tắt trong các báo cáo đánh giá và cung cấp các thông tin tổng quát.
Một framework hỗ trợ hệ thống đánh giá khai thác các văn bản bao gồm ba chỉ số
xếp hạng dựa trên ngữ nghĩa đã được đề xuất, bao gồm độ liên quan của từ khoá, độ
liên quan giữa các từ được chỉ mục và độ tương đồng giữa các chủ đề. Mức độ liên
quan của từ khóa được dựa trên danh sách từ khóa do người dùng xác định sử dụng
trong các kịch bản tìm kiếm. Sự liên quan của các từ chỉ mục có nguồn gốc xuất phát
từ các từ vựng được lập chỉ mục bởi các chuyên gia trong lĩnh vực, chúng được sử
dụng để sắp xếp các bài báo và sách chuyên ngành. Sự liên quan về chủ đề được định
nghĩa là sự tương đồng về ngữ nghĩa, giữa các tóm tắt đã được thu thập, trong những
từ khóa thuộc các chủ đề do thuật toán LDA phân tích.

Bài báo giả định rằng các nghiên cứu được kiểm tra theo cách thủ công thường có xu
hướng phân bố chủ đề tương tự. Do đó, một thước đo mức độ liên quan được xác
định dựa trên sự phân bố chủ đề và được kết hợp vào khung kiểm tra tóm tắt. Chủ đề

- 16 -

Tổng quan

liên quan đến từ chính bản thân các bản tóm tắt. Cụ thể, cho một truy vấn (q, danh
sách từ khóa), điểm số điểm liên quan của một bản tóm tắt (d) được tính như sau:
𝑃𝑙𝑑𝑎 (𝒒|𝑑 ) = ∏ 𝑃𝑙𝑑𝑎 (𝒒|𝑑, 𝜃̂, 𝜙̂) < ∏ ∑ 𝑃𝜃̂ (𝑞 |𝓏)𝑃𝜃̂ (𝓏|𝑑)
𝑞

𝑞

𝓏

trong đó 𝜙̂ và 𝜃̂ là ước lượng hậu nghiệm của 𝜙 (phân phối tiên nghiệm của các từ
thuộc chủ đề) và 𝜃 (phân phối tiên nghiệm của các chủ đề thuộc một bản tóm tắt).
Giá trị 𝑃𝜃̂ (𝑞 |𝓏 ) đề cập đến xác suất của từ khóa trong truy vấn thuộc một chủ đề 𝓏
được điều chỉnh bởi 𝜙̂ (có thể hiểu là từ khóa truy vấn 𝑞 gần như thế nào đến văn
bản tóm tắt 𝑑 theo chủ đề 𝓏). Giá trị 𝑃𝜃̂ (𝓏|𝑑) dùng để chỉ xác suất của chủ đề 𝓏 trong
văn bản tóm tắt 𝑑 được điều chỉnh bởi 𝜃̂. Tích của 𝑃𝜃̂ (𝑞 |𝓏 ) và 𝑃𝜃̂ (𝓏|𝑑) dùng để chỉ
từ khóa truy vấn 𝑞 gần như thế nào đến văn bản tóm tắt 𝑑 theo chủ đề 𝓏.
Nghiên cứu đã thử nghiệm trên các hệ thống đánh giá đã được công bố như: tác động
của phương tiện truyền thông đại chúng, ung thư trực tràng và vắc xin cúm đều thu
được những kết quả cao. Điều này mở ra một triển vọng lớn để thay thế con người
trong những công việc phức tạp như sàng lọc các văn bản tóm tắt và cung cấp những
thông tin tổng quan.

Trong lĩnh vực phân tích mạng xã hội, phát hiện cộng đồng địa phương là bài toán
đang được quan tâm rất nhiều. Hầu hết các phương pháp hiện tại đều có chung giới
hạn nội tại là việc sử dụng các mạng vô hướng và không có trọng số. Trong bài báo
[31], tác giả đề xuất một thuật toán phát hiện cộng đồng địa phương mới giúp kết hợp
các quan hệ xã hội và các đặc trưng chủ đề trong các mạng xã hội. Bằng cách xác
định một sự tương đồng xã hội mới, thuật toán đề xuất có thể tiết lộ các đặc tính động
trong mạng xã hội một cách hiệu quả. Ngoài ra, tính tương đồng chủ đề được đo bằng
độ đo khoảng cách Jensen-Shannon, trong đó các chủ đề được trích ra từ nội dung do
người dùng tạo ra theo mô hình chủ đề của thuật toán LDA. Các thí nghiệm mở rộng
được thực hiện trên một bộ dữ liệu mạng xã hội thật sự cho thấy rằng thuật toán đề
xuất trong bài báo tốt hơn các phương pháp dựa trên các mối quan hệ xã hội hoặc chỉ
riêng các đặc trưng chủ đề.
Mỗi nghệ sĩ có sở thích về các lời hát có chủ đề như "tình yêu" hay "tình bạn". Dựa
trên thói quen này của nghệ sĩ đã có những ứng dụng dựa trên việc khai thác các thông

- 17 -

Tổng quan

tin về âm nhạc như sau: chọn một nghệ sĩ dựa trên các chủ đề về lời bài hát và tìm
kiếm những nghệ sĩ không quen thuộc có cùng phong cách với nghệ sĩ yêu thích.
Mặc dù các nghiên cứu trước đây đã áp dụng thuật toán LDA để phân tích các chủ đề
của lời bài hát, tuy nhiên, LDA đã không thể nắm bắt được sở thích của nghệ sĩ. Trong
bài báo [24], các tác giả đã đề xuất một mô hình chủ đề có thể phân tích được sở thích
của các nghệ sĩ về các chủ đề trong lời bài hát. Theo mô hình này giả định mỗi nghệ
sĩ có một phân bố chủ đề và một chủ đề sẽ được gán cho mỗi bài hát theo phân phối
đó. Kết quả thử nghiệm của bài báo sử dụng tập dữ liệu trên thế giới cho thấy mô
hình này tốt hơn LDA về độ hỗn loạn. Bằng cách áp dụng mô hình đề xuất để phân
tích các chủ đề của 147.990 lời bài hát của 3.722 nghệ sĩ, nhóm tác giả triển khai một

dịch vụ web gọi là Lyric Jumper cho phép người dùng khám phá lời bài hát dựa trên
các chủ đề đã được phân tích. Lyric Jumper cung cấp các chức năng như mô phỏng
sở thích nghệ thuật theo chủ đề của các nghệ sĩ và đề xuất nghệ sĩ dựa trên chủ đề
giống nhau. Bài báo sử dụng độ đo khoảng cách Jensen-Shannon để đo khoảng cách
giữa phân bố chủ đề giữa các nghệ sĩ. Giá trị khoảng cách càng nhỏ thì điểm tương
đồng về chủ đề nghệ thuật giữa các nghệ sĩ càng cao. Nghiên cứu cũng phân tích nhật
ký hoạt động thu được từ 12.353 người dùng trên Lyric Jumper và cho thấy tính hữu
ích của Lyric Jumper đặc biệt trong việc giới thiệu các cụm từ liên quan đến chủ đề
trong lời bài hát.
Bài báo [22] đề xuất một mô hình mới để tính độ tương đồng theo chủ đề giữa những
văn bản bằng cách áp dụng thuật toán LDA để khai phá các chủ đề ẩn. Sử dụng độ
đo Jenshen-Shannon để tính khoảng cách giữa phân bố xác suất của các chủ đề. Tuy
nhiên, khoảng cách Jenshen-Shannon không thể phân biệt các liên quan về ngữ nghĩa
giữa các chủ đề văn bản. Để khắc phục khiếm khuyết này, một thuật toán tính toán
độ tương đồng của văn bản mới dựa trên mô hình chủ đề ẩn và phân tích từ đồng hiện
sẽ được đề xuất.
Các thử nghiệm được thực hiện để xác minh hiệu quả phân cụm của thuật toán cải
tiến này. Kết quả cho thấy rằng phương pháp này có hiệu quả trong việc cải thiện kết
quả tính toán độ tương đồng văn bản và độ chính xác trong gom cụm văn bản.
Như đã trình bày chi tiết ở trên đây, hầu hết các mô hình nghiên cứu về độ tương
đồng của văn bản theo chủ đề chủ yếu tập trung vào việc cải tiến mô hình khai phá
- 18 -

Tổng quan

chủ đề ẩn trong tập ngữ liệu, đặc biệt là mô hình chủ đề của thuật toán LDA. Chính
vì thế việc tìm kiếm văn bản tương đồng chính yếu là bài toán khai phá chủ đề ẩn.
Phần tiếp theo sau đây sẽ trình bày tổng quan tình hình các công trình nghiên cứu về
mô hình chủ đề LDA.

1.4.2. Các công trình nghiên cứu về mô hình chủ đề LDA
1.4.2.1. Những nghiên cứu về LDA trong nước
Những công trình nghiên cứu trong nước chủ yếu theo hướng ứng dụng LDA vào
việc phân tích tìm ra chủ đề ẩn trong tập tài liệu văn bản.
Trong bài báo [2], tác giả đã ứng dụng LDA để gom nhóm các trình tự trong
metagenomic để tìm chủ đề ẩn có ý nghĩa, làm chủ đề đặc trưng cho trình tự. Từ chủ
đề đặc trưng, tiến hành xác định nhóm của trình tự dựa trên phân bố của chủ đề thay
vì tính toán trực tiếp giữa các trình tự.
Trong luận văn Thạc sĩ [4], tác giả đã ứng dụng LDA để tìm ra chủ đề ẩn trong tập
tài liệu văn bản là khối tài liệu khổng lồ thu thập được từ những trang web
VNExpress, Wikipedia Tiếng Việt. Từ đó, tác giả đã áp dụng những phương pháp
máy học dựa trên những đặc trưng của Tiếng Việt để phân lớp, phân cụm các văn bản
này.
Trong luận văn Thạc sĩ [1] tác giả sử dụng LDA làm phương pháp chính để phân tích
văn bản hiện hành. Đó là nội dung các trang web mà người dùng đang truy cập, từ đó
tìm ra được chủ đề và từ khóa trong ngữ cảnh hiện tại mà người dùng quan tâm. Mô
hình keyword-topic sẽ tiến hành so sánh độ tương đồng của từ khóa, chủ đề của quảng
cáo với ngữ cảnh hiện tại để chọn ra được thông điệp quảng cáo phù hợp với thị hiếu
của người dùng. Từ đó nâng cao chất lượng của việc hiển thị quảng cáo, đánh trúng
tâm lý của người dùng hơn, do đó quảng cáo sẽ hiệu quả hơn.
Bài báo [3] tập trung vào việc phân tích các thông tin từ mạng xã hội, diễn đàn. Sau
khi các thông tin trao đổi được thu thập, làm sạch, tách từ và gán nhãn từ loại, mô
hình sẽ áp dụng giải thuật LDA và phương pháp lấy mẫu Gibbs nhằm khám phá chủ
đề tiềm ẩn và rút trích tập từ đặc trưng cho từng chủ đề. Tiếp theo các chủ đề này
cùng với tập từ đặc trưng sẽ được phân lớp gán nhãn nội dung bằng phương pháp
Support Vector Machine. Sau cùng tác giả sử dụng mô hình TART (Temporal –
Author – Recipient – Topic) để phân tích mối quan tâm của người dùng trong từng
- 19 -

Tổng quan

giai đoạn thời gian, chỉ ra sự liên quan, tương tự nhau về nội dung, chủ đề mà người
dùng mạng cùng quan tâm gửi, nhận và trao đổi trên mạng xã hội.
1.4.2.2. Những nghiên cứu về LDA ở nước ngoài
a) Các công trình áp dụng mô hình LDA
Trong công việc phát triển phần mềm, lập trình viên khi muốn chỉnh sửa, dò tìm lỗi
của các chức năng cần phải nhận dạng các hàm liên quan đến các chức năng đó được
khai báo ở vị trí nào trong mã nguồn. Thuật ngữ để gọi công việc này trong tiếng Anh
là feature location (FLT). Để xây dựng mô hình ngữ nghĩa từ tập ngữ liệu được xây
dựng từ mã nguồn phần mềm, một số kĩ thuật đã được áp dụng chẳng hạn như LDA.
Trong bài báo [5], nhóm tác giả nghiên cứu việc áp dụng LDA vào FLT bằng cách
đo lường sự ảnh hưởng đến hiệu năng của các cách tinh chỉnh mô hình LDA. Nhóm
tác giả kết luận được khi loại bỏ các ghi chú và ngữ nghĩa khỏi tập ngữ liệu sẽ làm
giảm độ chính xác của mô hình, hơn nữa, khi áp dụng cách chọn tham số của mô hình
LDA trong xử lý ngôn ngữ tự nhiên vào mã nguồn phần mềm sẽ không tối ưu. Dựa
vào kết quả của nghiên cứu, nhóm tác giả khuyến nghị cách tinh chỉnh mô hình LDA
áp dụng cho FLT.
Trong các bài báo [15], [19] và [20] mô hình LDA chủ yếu được áp dụng đề tìm ra
chủ đề ẩn trong tập ngữ liệu được thu thập từ mạng xã hội. Qua đó có thể phân tích
được chủ đề một cá nhân đang quan tâm hay tìm ra được cá nhân có tầm ảnh hưởng
trong mạng xã hội.
Bên cạnh đó, mô hình LDA có thể được áp dụng vào nhiều lĩnh vực khác như xếp
loại hình ảnh. Bằng cách xem xét một hình như là một văn bản, từng mảnh nhỏ của
bức hình được xem như là từng từ, phương pháp Spatial LDA [25] có thể phân chia
tập hình ảnh thành các loại chẳng hạn như “phòng ngủ”, “rừng”, “động vật” …
b) Các công trình mở rộng mô hình LDA
LDA là một mô hình được lắp ráp từ nhiều mô-đun, do đó nó có thể dàng được phát
triển, mở rộng. Các nhà nghiên cứu tập trung mở rộng chủ yếu là phần mô hình hóa
quan hệ giữa các chủ đề. Cải tiến dễ nghĩ đến nhất ở đây là thay thế phân phối

Dirichlet bằng một phân phối khác. Điển hình là phương pháp Correlated Topic
Model [6] áp dụng cách thay thế này, họ sử dụng phân phối logit chuẩn thay cho phân
phối Dirichlet. Một phương pháp cải tiến khác đó là LDA phân cấp (hierarchical LDA
- 20 -

Tổng quan

- hLDA) [13], trong mô hình này, các chủ đề được nối với nhau trong một hệ thống
phân cấp bằng cách sử dụng Quá trình nhà hàng Tàu (Chinese restaurant process).
LDA cũng có thể mở rộng bằng cách với mỗi tài liệu trong tập tài liệu văn bản sẽ có
2 loại thông tin được phân tích đó là từ và tên, phương pháp này được gọi là mô hình
LDA – đôi (LDA - dual) [12].
Trong bài báo [12], nhóm tác giả đã đề xuất một phương pháp cải tiến từ LDA để
phân tích cấu trúc, mối liên hệ và sự phát triển của chủ đề trong một tài liệu. Phương
pháp này được gọi là LDA tuần tự (Sequential LDA - SeqLDA). Phương pháp này
trực tiếp xem xét các cấu trúc cơ bản tuần tự trong văn bản, nghĩa là, một tài liệu được
xem xét bao gồm nhiều phần (ví dụ: chương, đoạn), mỗi phần trong số đó có tương
quan với các phần trước và sau nó. Trong mô hình SeqLDA, một tài liệu và các phần
của nó được mô hình hóa như là một hỗn hợp ngẫu nhiên của cùng một tập chủ đề
tiềm ẩn, mỗi chủ đề trong số đó là một phân phối của tập từ; và sự phân bố chủ đề
của từng phần phụ thuộc vào các phần trước đó, phần đầu tiên sẽ phụ thuộc vào sự
phân bố của chủ đề trong tài liệu.
Bài báo [18] trình bày một phương pháp HFT (Hidden Factors as Topics). Phương
pháp này là sự kết hợp giữa mô hình nhân tố ẩn và LDA để khai thác triệt để đánh
giá của người dùng, cả điểm số và phản hồi, trên tập ngữ liệu người dùng đánh giá
sản phẩm. Mô hình nhân tố ẩn giúp phân tích điểm số khách hàng đã chấm cho một
sản phẩm. Còn mô hình LDA giúp tìm ra những từ khóa, những chủ đề thể hiện quan
điểm của khách hàng đối với sản phẩm thông qua những dòng phản hồi nhận được.
Từ đó có thể xây dựng một hệ khuyến nghị nhằm giới thiệu những sản phẩm chính

xác hơn đối với thị hiếu của người dùng, nâng cao hiệu quả của những dịch vụ thương
mại điện tử.
Một đặc điểm quan trọng đó chính là LDA dựa trên mô hình túi từ nên với những văn
bản ngắn như vậy sẽ cho độ chính xác thấp. Khuynh hướng cải tiến là đưa thêm tri
thức bên ngoài vào quá trình phân tích với công trình mới nhất là Source-LDA. Thuật
toán này áp dụng tri thức biết trước thông qua nguồn tri thức vào quá trình lấy mẫu
chủ đề để cải thiện tính ổn định và chính xác của mô hình. Phần tiếp theo sẽ trình bày
chi tiết hơn về mô hình này.

- 21 -

Tổng quan

1.5. Cấu trúc báo cáo
Báo cáo luận văn được chia thành 05 chương: Chương 1 giới thiệu tổng quan về đề
tài, động cơ thực hiện, mục tiêu, đối tượng và phạm vi nghiên cứu của đề tài; Chương
2 trình bày cơ sở lý thuyết về các khái niệm, định nghĩa, các mô hình, phép kiểm thử
liên quan đến vấn đề nghiên cứu; Chương 3 mô tả quá trình nghiên cứu, các phương
pháp, mô hình luận văn đề xuất; Chương 4 trình bày việc hiện thực những phương
pháp tiếp cận được đề xuất ở chương 3, cách cài đặt hệ thống và những kết quả đã
đạt được; Chương 5 nêu lên kết luận, những đóng góp của luận văn và hướng phát
triển của đề tài nghiên cứu trong tương lai.

- 22 -

Cơ sở lý thuyết

Chương 2. CƠ SỞ LÝ THUYẾT

Trong chương 2, luận văn trình bày chi tiết cơ sở lý thuyết được sử dụng trong đề tài
nghiên cứu bao gồm: mạng trích dẫn, mô hình tìm kiếm văn bản tương đồng, mô hình
LDA và hai mô hình cải tiến nổi bật là Source-LDA, AD-LDA, khái niệm và đặc
điểm của dữ liệu lớn, mô hình xử lý dữ liệu lớn MapReduce và quá trình phát triển
của nó từ Apache Hadoop đến Apache Spark, các phép kiểm thử được sử dụng là độ
hỗn loạn thông tin và khoảng cách Kullback-Leibler.
2.1. Mạng trích dẫn
Mạng trích dẫn là một đồ thị có hướng, với đỉnh chứa thông tin của một tài liệu khoa
học (sách, giáo trình, bài báo…) và cạnh là mối quan hệ trích dẫn giữa chúng [26].
Đỉnh sẽ chứa các thuộc tính chi tiết của tài liệu khoa học như số định danh, năm xuất
bản, tóm tắt, từ khoá, nội dung... Khi tài liệu pi tham chiếu đến tài liệu pj, quan hệ này
sẽ được ký hiệu bằng một cạnh có hướng đi từ đỉnh biểu diễn pi đến đỉnh biểu diễn
pj. Do đó, mạng trích dẫn có một số đặc điểm sau:
 Mạng trích dẫn là một đồ thị có hướng mà mỗi cạnh là một mũi tên đi từ một tài
liệu khoa học này sang một tài liệu khoa học khác.
 Hướng của tất cả các mũi tên trích dẫn gần như luôn luôn trỏ ngược thời gian tới
các tài liệu cũ hơn. Do đó, đồ thị của mạng trích dẫn đều không có chu trình và
một phần nào đó biểu diễn được sự phát triển của lĩnh vực nghiên cứu theo thời
gian.
 Đặc điểm quan trọng nhất của mạng trích dẫn là sự liên quan chặt chẽ giữa các chủ

đề của tài liệu khoa học và các chủ đề được đề cập trong các tài liệu khác mà nó
trích dẫn.

- 23 -

Cơ sở lý thuyết

Hình 2.1: Biểu diễn trực quan mạng trích dẫn

Hình 2.1 là một mô phỏng về mạng trích dẫn, trong đó p1, p2, ..., p11 là các tài liệu
khoa học. Tài liệu p1 nằm ở trung tâm của đồ thị và nó tham khảo các tài liệu p2, p3,
..., p11 xung quanh nó. Vì vậy, đồ thị biểu diễn sẽ có mũi tên đi từ p1 đến p2, p3, ...,
p11. Người đọc có thể biết rằng p1 là tài liệu mới nhất bởi vì nó tham khảo đến tất cả
các tài liệu khác trong mạng và các chủ đề trong p1 liên quan chặt chẽ đến chủ đề
trong p2, p3, ..., p11.
Với những mạng trích dẫn đơn giản, mỗi nút của đồ thị sẽ chỉ chưa thông tin định
danh như số chỉ, tên tài liệu và nội dung tóm tắt của tài liệu đó. Ở những mạng trích
dẫn phức tạp, một nút sẽ còn có thể chứa các thông tin của tải liệu như thời gian xuất
bản, các tác giả, thông tin nhà xuất bản, tác phẩm thuộc hội nghị hay tạp chí nào, số
lần được trích dẫn...
Việc khai thác dữ liệu trên mạng trích dẫn là một bài toán xử lý dữ liệu văn bản lớn.
Vì số lượng tài liệu khoa học của con người ngày nay đã quá đồ sộ, số lượng các chủ
đề nghiên cứu rất đa dạng phong phú, đa lĩnh vực khiến cho việc xử lý trở nên phức
- 24 -

GOM cụm văn bản TƯƠNG ĐỒNG THEO CHỦ đề TRONG KHO văn bản lớn TRÊN nền TÍNH TOÁN PHÂN tán

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về