Tải bản đầy đủ (.pdf) (154 trang)

GOM cụm và PHÁT HIỆN THÔNG TIN VIỆC làm TRÊN MẠNG xã hội FACEBOOK

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (23.7 MB, 154 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
________________

PHAN QUANG HUY

GOM CỤM VÀ PHÁT HIỆN THÔNG TIN
VIỆC LÀM TRÊN MẠNG XÃ HỘI FACEBOOK

LUẬN VĂN THẠC SĨ
NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01 01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS NGUYỄN PHI KHỨ

TP HỒ CHÍ MINH – 2017
2


LỜI CẢM ƠN
Luận văn nghiên cứu này được thực hiện tại trường Đại Học Công Nghệ Thông
Tin TP.HCM. Để hoàn thành luận văn, tôi xin tỏ lòng biết ơn sâu sắc và gửi lời cảm
ơn chân thành đến Thầy PGS-TS Nguyễn Phi Khứ. Thầy đã tận tình hướng dẫn,
khuyến khích, giúp đỡ tôi trong suốt quá trình thực hiện luận văn.
Tôi xin chân thành cảm ơn quý Thầy-Cô trong khoa KHMT và phòng đào tạo
sau đại học của trường Đại Học Công Nghệ Thông Tin TP.HCM đã tận tình truyền
đạt kiến thức, tạo điều kiện thuận lợi về mặt thủ tục cho hoạt động học tập và thực
hiện luận văn của tôi.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn cùng lớp cao học khóa
9 đã giúp đỡ tôi rất nhiều trong quá trình học tập cũng như thực hiện luận văn.
Cuối cùng, xin được bày tỏ lòng biết ơn sâu sắc tới gia đình, bạn bè đã luôn


động viên, khích lệ tinh thần để tôi đủ nghị lực hoàn thành luận văn thạc sỹ này.

TP.HCM, tháng 12 năm 2017

Phan Quang Huy

3


LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi, các kết quả đưa ra trong
luận văn có được từ các kết quả của quá trình nghiên cứu của tôi dưới sự hướng dẫn
của giảng viên hướng dẫn, Thầy PGS-TS Nguyễn Phi Khứ.
Nội dung của luận văn có tham khảo và sử dụng một số thông tin, tài liệu từ
các nguồn sách, các bài báo-tạp chí khoa học, các website được liệt kê trong danh
mục các tài liệu tham khảo.

TP.HCM, tháng 12 năm 2017

Phan Quang Huy

4


MỤC LỤC

Mục lục
DANH MỤC CÁC KÝ TỰ - CHỮ VIẾT TẮT .................................................................... 4
DANH MỤC CÁC BẢNG .................................................................................................... 5
DANH MỤC HÌNH ẢNH- BIỂU ĐỒ ................................................................................... 6

Chương 1 MỞ ĐẦU .............................................................................................................. 7
1.1

Nhu cầu việc làm trên Facebook ............................................................................. 7

1.1.1

Tình hình lao động và việc làm ....................................................................... 7

1.1.2

Thông tin việc làm trên mạng xã hội ............................................................... 8

1.1.3

Sử dụng Facebook để tìm việc làm ................................................................ 11

1.2

Dữ liệu và cách thức tìm việc làm trên MXH ....................................................... 13

1.2.1

Dữ liệu cho tìm kiếm thông tin việc làm ....................................................... 13

1.2.2

Sử dụng thông tin MXH để tìm việc làm trên mạng ..................................... 15

Chương 2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU ..................................................... 18

2.1

Những nghiên cứu liên quan đến nghiên cứu ....................................................... 18

2.2

Mục tiêu nghiên cứu của luận văn ........................................................................ 24

2.2.1

Xác định không gian vector biểu diễn dữ liệu các nút mạng ......................... 24

2.2.2

Nghiên cứu xác định số chiều của không gian chủ đề tiềm ẩn ...................... 24

2.2.3

Xác định phép chiếu tư liệu vào không gian chủ đề tiềm ẩn. ........................ 25

2.2.4

Trả lời câu truy vấn trên cơ sở thông tin của các chủ đề tiềm ẩn .................. 25

2.2.5

Đánh giá hiệu quả của phương pháp .............................................................. 25

2.2.6


Giải pháp song song hóa cho mô hình ........................................................... 26

2.3

Đối tượng, phạm vi, phương pháp nghiên cứu ..................................................... 26

2.3.1

Đối tượng nghiên cứu .................................................................................... 26

2.3.2

Phạm vi nghiên cứu ....................................................................................... 27

2.3.3

Phương pháp nghiên cứu ............................................................................... 27

2.4

Nội dung trình bày của luận văn ........................................................................... 28

2.5

Một số kết quả đạt được ........................................................................................ 29

2.5.1

Áp dụng mô hình hk-LSA để thực hiện tìm kiếm thông tin .......................... 29


2.5.2

Kết quả tìm kiếm thông tin việc làm trên Facebook ...................................... 29

2.6

Hướng phát triển nghiên cứu................................................................................. 30

Chương 3 TỔ CHỨC DỮ LIỆU TÌM KIẾM THÔNG TIN VIỆC LÀM TRÊN MXH..... 31
3.1

Mô hình không gian vector- vector space model(VSM) ....................................... 31

3.2

Thông tin trên mạng xã hội ................................................................................... 34

3.2.1

Cấu trúc mạng xã hội ..................................................................................... 34

3.2.2

Thông tin trên các nút .................................................................................... 36
1


MỤC LỤC

3.2.3


Thu thập dữ liệu Facebook ............................................................................ 37

3.2.4

Tiền xử lý dữ liệu ........................................................................................... 43

3.3

Độ tương đồng trong tìm thông tin việc làm ......................................................... 47

3.3.1

Độ tương đồng giữa các vector tư liệu .......................................................... 47

3.3.2

Vai trò của độ tương đồng trong tìm kiếm thông tin việc làm ...................... 49

3.4

Gom cụm dữ liệu ................................................................................................... 49

3.4.1

Không gian tìm kiếm ..................................................................................... 49

3.4.2

Bài toán gom cụm .......................................................................................... 51


3.4.3

Gom cụm lồi .................................................................................................. 51

3.4.4

Gom cụm lồi thưa .......................................................................................... 53

Chương 4 BÀI TOÁN TÌM KIẾM THÔNG TIN VIỆC LÀM TRÊN MXH .................... 54
4.1

Đặt vấn đề ............................................................................................................. 54

4.2

Các cơ sở của mô hình hk-LSA ............................................................................ 54

4.2.1

Không gian xấp xỉ .......................................................................................... 54

4.2.2

Tối ưu hóa thưa theo xác suất - Probabilistic Sparse Optimization ............... 55

4.2.3

Phép chiếu tựa xác suất - Like-Probabilistic Projection ................................ 56


4.3

Gom cụm lồi thưa SCC- Sparse convex clustering ............................................... 58

4.3.1

Giải thuật SCC thích ứng cho bài toán gom cụm lồi thưa ............................. 59

4.3.2

Lưu đồ xử lý của quá trình gom cụm ............................................................. 61

4.3.3

Độ phức tạp của thuật toán ............................................................................ 62

4.3.4

Thực nghiệm gom cụm SCC.......................................................................... 63

4.4

Thực hiện khảo sát hk-LSA .................................................................................. 69

4.5

Tổng kết ................................................................................................................ 76

Chương 5 TÌM KIẾM THÔNG TIN VIỆC LÀM TRÊN FACEBOOK ............................ 77
5.1


Tìm kiếm thông tin việc làm trên Facebook ......................................................... 77

5.2

Tập tư liệu trong tìm kiếm thông tin ..................................................................... 80

5.2.1

Dữ liệu sử dụng trong nghiên cứu ................................................................. 80

5.2.2

Không gian vector tư liệu và bài toán truy vấn .............................................. 81

5.3

Áp dụng hk-LSA và kết quả tìm kiếm thông tin việc làm trên dữ liệu Facebook 83

5.3.1

Kết quả truy vấn thông tin việc làm ............................................................... 83

5.3.2

Đánh giá kết quả tìm kiếm thông tin việc làm ............................................... 84

5.4

Giải pháp cho các tập dữ liệu dung lượng lớn ...................................................... 90


5.4.1

Giải pháp song song hóa ................................................................................ 90

5.4.2

Kết quả song song hóa ................................................................................... 92

Chương 6 KẾT LUẬN......................................................................................................... 95
2


MỤC LỤC

6.1

Kết quả đạt được của luận văn .............................................................................. 95

6.2

Hướng phát triển ................................................................................................... 96

TÀI LIỆU THAM KHẢO ................................................................................................... 98
PHỤ LỤC .......................................................................................................................... 102
A. Phương pháp luân hướng nhân tử - ADMM ............................................................. 102
B. Proximal function ...................................................................................................... 103
C. Các bảng kết quả sử dụng trong chương 4 ................................................................ 105
Bảng kết quả số cụm theo số lần lặp cho dữ liệu 810 vector tư liệu .......................... 105
Bảng kết quả truy vấn ................................................................................................. 105

Bảng thống kê kết quả gom cụm theo λ ..................................................................... 110
Bảng thống kê kết quả gom cụm theo t ...................................................................... 111
Bảng thống kê độ lệch số lượng cụm khi t thay đổi và theo λ số lần lặp ................... 112
Bảng kết quả độ tương đồng khi song song hóa ......................................................... 113
D. Các biểu đồ liên quan trong chương 4 ...................................................................... 115

3


DANH MỤC CÁC KÝ TỰ - CHỮ VIẾT TẮT

DANH MỤC CÁC KÝ TỰ - CHỮ VIẾT TẮT
#
1
2
3
4

Ký hiệu viết tắt

Ý nghĩa

MXH

Mạng xã hội

CNTT

Công nghệ thông tin


SNS
ADMM

5

AMA

6

SCC

7
8
9
10
11
12
13

CD
LSA

14

15
16
17

VSM
EU

FOAF
SIOC

18
19
20
21

SWUM
SemSNA
MOAT
SCOT Ontology

Trang mạng xã hội - Social network site
Phương pháp luân hướng nhân tử - Alternating direction
method of multipliers
Thuật toán cực tiểu hóa luân phiên - Alternating
minimization algorithm
Thuật toán gom cụm lồi thưa - Sparce convex clustering
algorirhm
Thuật toán tiết giảm tọa độ - Coordinate descent algorirhm
Latent symantic analysic
Probabilistic latent symantic analysic
Sparse latent symantic analysic
Regularized latent symantic analysic
Latent Dirichlet Allocation
Phân tích ngữ nghĩa tiềm ẩn với h= dim(không gian tư
liệu), k = dim(không gian ngữ nghĩa tiềm ẩn)
Mô hình không gian vector - Vector space model
European Union

Friend of a friend
Cộng các đồng online liên kết ngữ nghĩa. - Semantically
interlinked online communities
Social Web User Model
Semantic social network analysis
Meaning Of-A-Tag
Social Semantic Cloud of Tags

p-LSA
s-LSA
r-LSA
LDA

hk-LSA

4


Danh mục các bảng

DANH MỤC CÁC BẢNG
Bảng 4-1: Sự liên hệ giữa số lần lặp và số cụm thu được.................................................... 64
Bảng 4-2: Sự tăng giảm λ và số cụm thu được .................................................................... 65
Bảng 4-3: Liên hệ giữa số cụm và độ điều chỉnh lambda.................................................... 66
Bảng 4-4: kết quả giải thuật gom cụm SCC ........................................................................ 67
Bảng 4-5: Khoảng lặp để SCC đạt hội tụ............................................................................. 68
Bảng 4-6: Kết quả ADMM và so sánh ADMM-CD trên cấu hình HO ............................... 73
Bảng 4-7: Kết quả ADMM với sự điều chỉnh tham số λ ..................................................... 74
Bảng 4-8: Thời gian thực thi theo giá trị λ .......................................................................... 75
Bảng 5-1: Một số truy vấn tìm kiếm thông tin việc làm ...................................................... 82

Bảng 5-2: Các term còn lại sau khi được tiền xử lý trên câu truy vấn ................................ 83
Bảng 5-3: Kết quả thời gian thực thi và lượng dữ liệu đầu vào ........................................... 93
Bảng 0-1: Số cụm theo số lần lặp ...................................................................................... 105
Bảng 0-2: Bảng kết quả gom cụm theo số lần lặp và λ...................................................... 110
Bảng 0-3: t, số lần lặp và số cụm ....................................................................................... 111
Bảng 0-4: Bảng kết quả tổng hợp giữa λ và tham số tăng tại mỗi lần lặp ......................... 112
Bảng 0-5: Kết quả truy vấn khi song song hóa .................................................................. 114

5


Danh mục hình ảnh - biểu đồ

DANH MỤC HÌNH ẢNH- BIỂU ĐỒ
Hình 1-1: Quan hệ giữa các nút người dùng và các nút thông tin liên quan ....................... 15
Hình 3-1: Cấu trúc mạng xã hội........................................................................................... 35
Hình 3-2: Sử dụng các facebook API với web view, hỗ trợ cho các facebook developer .. 39
Hình 3-3: Cài đặt các yêu cầu cấp quyền lấy thông tin cho ứng dụng ................................ 41
Hình 3-4: Gom cụm term theo chủ đề trên dữ liệu văn bản ................................................ 50
Hình 4-1: Lưu đồ xử lý cho toàn bộ mô hình hk-LSA ........................................................ 58
Hình 4-2: Lưu đồ xử lý quá trình gom cụm ......................................................................... 61
Hình 4-3: Sự liên hệ giữa số lần lặp và số cụm thu được .................................................... 64
Hình 4-4: Biểu đồ thể hiện sự tăng giảm số cụm theo λ ...................................................... 65
Hình 4-5: Liên hệ giữa số cụm và t...................................................................................... 66
Hình 4-6: Lưu đồ xử lý quá trình xác định ma trận chiếu ................................................... 70
Hình 4-7: Biểu đồ quan hệ giữa giá trị λ và thời gian thực thi của ADMM ........................ 75
Hình 5-1: Bảng dữ liệu quản lý thông tin rút trích từ Facebook.......................................... 78
Hình 5-2: Mô hình luồng xử lý tìm kiếm thông tin việc làm trên MXH Facebook ............ 79
Hình 5-3: Quan hệ giữa bảng ghi và các file tư liệu ............................................................ 80
Hình 5-4: Nút thông tin phù hợp nhất với truy vấn Q3 ....................................................... 85

Hình 5-5: Nút thông tin phù hợp nhất với truy vấn Q6 ....................................................... 86
Hình 5-6: Nút thông tin phù hợp nhất với truy vấn Q8 ....................................................... 87
Hình 5-7: Kiểm tra lại nút thông tin thu được sau truy vấn ................................................. 88
Hình 5-8: Lưu đồ song song hóa SCC ................................................................................. 91
Hình 5-9: Lưu đồ song song hóa ADMM ............................................................................ 92
Hình 5-10: Biểu đồ So sánh thời gian thực thi và lượng dữ liệu ......................................... 93
Hình 0-1: Kết quả các vector tư liệu thu được sau truy vấn .............................................. 109
Hình 0-2: Biểu đồ liên hệ giữa số lần lặp, λ và số cụm ..................................................... 115
Hình 0-3: Biểu đồ sự liên hệ giữa số lần lặp, t và số cụm ................................................. 115
Hình 0-4: Biểu đồ liên hệ giữa số lần lặp, λ và t ............................................................... 116

6


MỞ ĐẦU

Chương 1 MỞ ĐẦU
1.1 Nhu cầu việc làm trên Facebook
1.1.1 Tình hình lao động và việc làm
Trong điều kiện xã hội phát triển, tỉ lệ thất nghiệp và việc làm luôn là vấn đề
được quan tâm hàng đầu tại mỗi quốc gia. Nhà nước luôn đề ra nhiều chính sách thúc
đẩy, thu hút đầu tư nhằm tạo thêm nhiều việc làm cho người lao động, giải quyết vấn
đề tỉ lệ thất nghiệp cao, góp phần thúc đẩy tăng tưởng kinh tế cả nước. Việc làm
không chỉ giúp người lao động có khả năng nuôi sống bản thân và gia đình, mà còn
tạo ra các giá trị cho cuộc sống, góp phần ổn định và phát triển xã hội.
Tuy nhiên, tỷ lệ thất nghiệp gần đây vẫn ở mức cao ở một số quốc gia hay
vùng kinh tế. Tỉ lệ thất nghiệp đạt 4,6 % tại Hoa Kỳ vào đầu năm 2016 và 9,8% trên
toàn EU [8,11], tỉ lệ này ở Việt Nam là 3.96% cho lao động đã qua đào tạo (Nguồn
Tổng Cục Thống Kê-2016). Tình trạng thất nghiệp dẫn đến nhiều hệ lụy xấu cho
người thất nghiệp cũng như cho xã hội. Mất việc làm- thất nghiệp dẫn đến vô số vấn

đề tâm lý và thể chất: đau đầu, căng thẳng, trầm cảm và thậm chí là nguyên nhân dẫn
đến việc tự tử [22]. Khi người lao động mất việc họ mất đi nguồn thu nhập, phụ thuộc
vào người khác, tạo gánh nặng cho gia đình. Ngoài những khó khăn tài chính do mất
việc gây ra, các cá nhân thất nghiệp cũng mất sự cân bằng trong cuộc sống hàng ngày,
tiếp xúc xã hội, và sự chia sẻ mục tiêu với đồng nghiệp [16]. Những thay đổi này làm
cho thất nghiệp là một nguyên nhân gây sốc cấp tính có thể dẫn đến căng thẳng tâm
lý [24]. Thêm vào đó, người thất nghiệp còn dễ bị lôi kéo tham gia vào tệ nạn xã hội
và các hoạt động phạm pháp khi không có việc làm.
Vấn đề việc làm ở giới trẻ tại Việt Nam: Việt nam đang có kết cấu dân số trẻ,
lực lượng lao động trong độ tuổi từ 18 đến 45 chiếm số lượng lớn, đây là lực lượng
lao động chiếm số đông trong độ tuổi lao động (từ 15 đến 65 tuổi). Với lực lượng lao
động trẻ vừa bước qua ngưỡng cửa các trường đào tạo chuyên nghiệp, bắt đầu con
đường tìm kiếm việc làm- xây dựng sự nghiệp, với vốn kinh nghiệm ít ỏi, nên có tỉ lệ
thất nghiệp cao hoặc tìm được việc làm không phù hợp với khả năng và chuyên ngành
được đào tạo (đặc biệt ở nhóm đối tượng là sinh viên mới ra trường), gây nên sự lãng

7


MỞ ĐẦU

phí khi phải đào tạo lại sau tuyển dụng hay phổ biến là tình trạng có việc làm nhưng
không tuyển được lao động.
1.1.2 Thông tin việc làm trên mạng xã hội
Ngày nay, với sự phát triển mạnh của mạng internet, thông tin về việc làm và
các vị trí tuyển dụng của các công ty được cập nhật rộng rãi, công khai trên các
phương tiện truyền thông đặc biệt là internet (website của công ty, các trang web
chuyên về giới thiệu việc làm), không khó để tìm kiếm thông tin về việc làm và tham
gia quá trình tuyển dụng trên mạng.
Một phương thức tiếp cận với thông tin việc làm trên internet là dựa trên các

mối quan hệ trên các trang mạng xã hội (MXH). Việt Nam có kết cấu dân số trẻ (Tổng
Cục Thống Kê 2015), số người trong độ tuổi lao động thuộc nhóm tuổi từ 18 đến 40
khá cao, là nhóm lao động có trình độ, đa số lao động có sử dụng MXH như một
phương tiện giao tiếp với xã hội, tìm kiếm thông tin về các vấn đề quan tâm, cũng
như cập nhật thông tin cá nhân, chia sẻ thông tin mà họ quan tâm trên MXH. Việt
Nam là nước có số lượng người sử dụng Facebook đứng trong top 10 thế giới.
Các MXH đóng một vai trò quan trọng trong việc đối phó với thất nghiệp, giúp
người thất nghiệp tìm việc làm mới [14,22]. Quá trình tìm kiếm việc làm dựa trên các
mối quan hệ trên MXH thường đem lại kết quả tốt hơn khi mà các mối liên hệ thường
có chung những mối quan tâm về việc làm và kỹ năng mà người tìm việc có. Ngoài
ra các mối quan hệ trên mạng cũng là một cổng thông tin để người tìm việc có thể
tìm hiểu-tham khảo thông tin về những công ty tuyển dụng, vị trí tuyển dụng, hay các
chính sách dành cho người được tuyển dụng.
Khi các cá nhân hình thành các mối liên kết với những người khác, họ xây
dựng một mạng lưới tương tác qua lại có sự tin cậy lẫn nhau, đem lại cho họ những
lợi ích mà chỉ tồn tại nếu có các quan hệ xã hội, hiện tượng này được gọi là tài nguyên
xã hội [10,18,21]. Tài nguyên xã hội xuất phát từ vị trí của một người trong một mạng
xã hội và số lượng, tính chất của các mối quan hệ của người đó khi được duy trì
[9,23].

8


MỞ ĐẦU

Kết nối của mỗi người khác nhau về độ mạnh của mối liên hệ hay sự gần gũi,
từ những người thân thích đến người lạ. Granovetter định nghĩa độ mạnh của liên kết
như một "sự kết hợp của lượng thời gian, cường độ cảm xúc, sự thân mật (tâm sựgiao tiếp lẫn nhau), và những giao tiếp đặc trưng cho các liên kết" [14]. Tuy nhiên
Gilbert, E. và Karahalios đã bổ sung thêm một số tiêu chí để đánh giá độ mạnh yếu
bao gồm bảy yếu tố, bao gồm: cường độ cảm xúc, sự thân thiêt, thời gian liên kết,

giao tiếp đặc trưng cho các liên kết, kết cấu, sự hỗ trợ tinh thần và khoảng cách xã
hội (địa vị, học vấn) [13].
Mối liên kết mạnh thường có ở những người bạn thực sự tin tưởng, người mà
có các liên kết chồng lắp và chặt chẽ với chính họ. Thông thường, họ cũng là những
người gần giống như bạn. Ở giới trẻ tại các đô thị và có trình độ cao có xu hướng có
đa dạng mạng lưới các mối liên kết mạnh.
Liên kết yếu, ngược lại, là chỉ đơn thuần là những người quen biết. Liên kết
yếu thường cung cấp những thông tin mới, thông tin không được thường được lưu
hành trong mạng lưới đan xen chặt chẽ của mối liên kết mạnh [13].
Trên mạng xã hội, các mối liên kết mạnh-thân thiết, gần gũi (strong ties) có
khả năng cung cấp sự hỗ trợ việc làm và các mối liên kết yếu- các kết nối đa dạng
(weak ties) là những người có thể biết nhiều cơ hội việc làm mới hay những thông tin
quý giá cho quá trình tìm kiếm việc làm. Với mối liên kết yếu, những người tham gia
nhiều cộng đồng khác nhau có điều kiện tìm được nhiều ý tưởng và cơ hội mới hơn.
Putnam [21] đề cập đến khía cạnh này của mối liên kết như "tài nguyên xã hội bắc
cầu". Trong bối cảnh khi bị mất việc làm, người tìm việc tìm kiếm việc làm ở các mối
liên kết yếu trong những cộng đồng liên kết đa dạng và có khả năng tìm thấy cơ hội
việc làm mới [14]. Họ cũng tiếp cận nhiều hơn với các nguồn thông tin bên ngoài,
chẳng hạn như một với bộ phận nhân sự tại các công ty đang tuyển dụng, và khi các
cá nhân được kết nối với nhiều cụm khác nhau, họ đặc biệt có khả năng để đạt được
kết quả tốt từ những kết nối [9, 18]. Người tìm việc bị thúc đẩy phải dành nhiều thời
gian và nỗ lực vào các khía cạnh mang lại công việc cho họ, tìm kiếm - khai thác các
kết nối không chính thức từ các nguồn thông tin có nhiều khả năng để tìm được một
công việc hay nhận thêm lời mời làm việc [22]. Nhiều công việc được tìm ra từ sự
9


MỞ ĐẦU

"ngẫu nhiên"-may mắn, khi chỉ đơn giản là nói chuyện-trao đổi thông tin với những

người quen đúng vào đúng thời điểm [25].
Cả hai mối liên kết yếu và mạnh đều có thể hữu ích khi mọi người đang tìm
kiếm việc làm: Có một mạng lưới rộng lớn và đa dạng về liên kết, liên kết yếu có khả
năng cung cấp thông tin về công việc mới và các chủ đề thông tin khác [14]. Mọi
người thường có xu hướng liên kết mạnh với những người tương tự mình, và nhận
thông tin của họ từ cùng một nguồn, kết quả là, một số mối liên kết có xu hướng cung
cấp các thông tin trùng lặp [20].
Trong điều kiện của việc sử dụng rộng rãi các phương tiện truyền thông xã hội
cho quá trình tìm kiếm việc làm, dịch vụ tuyển dụng Nigel Wright (2011) cho thấy
hơn một nửa số người tìm việc Vương quốc Anh sử dụng các trang web truyền thông
xã hội để tìm kiếm thông tin việc làm, trong đó có 18% người sử dụng Facebook và
31% người sử dụng LinkedIn. Báo cáo cho thấy ngày càng nhiều những người trẻ sử
dụng các công cụ truyền thông xã hội để tạo hồ sơ cá nhân trực tuyến và tìm kiếm
việc làm. Một cuộc khảo sát được thực hiện bởi Potentialpark trong năm 2011 trên
30.000 sinh viên tốt nghiệp, sinh viên và các chuyên gia khởi nghiệp trên toàn thế
giới thấy rằng ở châu Âu, gần như 100% số người tham gia khảo sát muốn tương tác
với người sử dụng lao trực tuyến. Phương tiện MXH ưa thích là cho LinkedIn (48%),
với Facebook đạt 25% (Potentialpark, 2011).
Các trang mạng xã hội (social network site-SNS) như Facebook, Google+,
LinkedIn là công cụ hỗ trợ kết nối con người với nhau, đem lại những lợi ích cầu nối
tiềm năng giữa những mối liên kết yếu và cung cấp một kênh hỗ trợ xã hội từ những
mối liên kết. Pew Internet và American Life Project đưa ra thống kế sự tăng trưởng
nhanh chóng của SNS từ 8% người dùng Internet Mỹ trong 2005-65% vào năm 2011
[19]. Facebook không chỉ dành cho các mối liên kết yếu. Pew báo cáo rằng 40%
người sử dụng SNS đã "kết bạn" với tất cả những người có mối quan tâm gần gũi với
họ, tăng từ 29% trong năm 2008 [15]. Hơn một tỷ người tích cực sử dụng Facebook,
một nửa trong số đó đăng nhập vào các trang web một cách thường xuyên và liên tục
[12].

10



MỞ ĐẦU

Hầu hết các SNS cung cấp một luồng tổng hợp các tin tức xã hội về tất cả các
mối liên kết của người sử dụng (trên Facebook tính năng này được gọi là "News
Feed"). Các feed chứa một luồng cập nhật thường xuyên các hoạt động gần đây của
những mối liên kết, bao gồm cả hình ảnh của họ, liên kết yêu thích, và trò chuyện với
những người bạn khác. Những thông tin cập nhật ngắn cho phép các cá nhân có thể
theo dõi nhiều mối liên kết cùng một lúc, mà không cần sử dụng email hoặc gọi điện
thoại để hỏi thăm như truyền thống. Người dùng Facebook tận dụng lợi thế của News
Feed để quan sát-theo dõi nhiều mối liên kết hơn so với các cụm nhỏ, họ chủ động
tương tác với thông tin đó [7,17].
Người sử dụng các SNS cũng duy trì profile lưu trữ thông tin về những hoạt
động gần đây của họ. Bao gồm thông tin cá nhân như vị trí địa lý hiện tại, mạng lưới
bạn bè, sở thích và những hoạt động thường xuyên, quá trình làm việc của họ. Cả
profile và News Feed là công cụ tương tác, cho phép những mối liên kết thực hiện
những hành vi như "Like" hoặc bình luận về nội dung của nhau một cách dễ dàng.
người sử dụng SNS có thể cập nhật và chia sẻ tin tức của cá nhân thông qua cập nhật
trạng thái hay upload hình ảnh, để thu được sự quan tâm của những mối liên kết một
cách dễ dàng. Về lý thuyết, sự tạo mới, theo dõi và tương tác với các News Feed có
thể thúc đẩy các khả năng cầu may và tạo thêm cầu nối đến tài nguyên xã hội, tạo
điều kiện cho việc tìm kiếm việc làm.
Việc sử dụng SNS để đăng thông tin tuyển dụng, tìm kiếm ứng viên và quá
trình tìm kiếm việc làm thông qua MXH là một xu thế hiện nay. Các công ty tìm kiếm
ứng viên qua MXH, và thường xem xét các profile cá nhân của người ứng tuyển trên
SNS để xem xét quá trình làm việc của họ cũng như thông tin liên quan (Facebook,
Linked). Ở chiều ngược lại, người tìm việc cũng có thể tìm hiểu thông tin của công
ty thông qua SNS của công ty, hay tham khảo các profile cá nhân của những người
đã và đang làm việc cho công ty có tuyển dụng (khi mà giữa 2 người có tồn tại mối

liên kết-quan hệ), những thông tin này thực sự rất hữu ích.
1.1.3 Sử dụng Facebook để tìm việc làm
Sử dụng MXH để tìm kiếm thông tin đang trở thành một xu hướng mới và dần
phổ biến hơn với người sử dụng MXH. Thông tin thu thập được từ MXH có khả năng
11


MỞ ĐẦU

mở rộng-liên kết đến lĩnh vực thông tin liên quan, giúp người tìm kiếm dễ dàng tiếp
cận với thông tin mong muốn.
Hiện nay rất nhiều người sử dụng MXH như một công cụ tìm kiếm thông tin
việc làm, thông qua các trang MXH như LinkedIn, Twitter hay Facebook. Sau đây
xin trích dẫn một số nội dung trong bài viết “4 Ways To Use Facebook To Find A
Job” [47] của tác giả Susan Adams, hướng dẫn việc sử dụng Facebook để tìm kiếm
việc làm:
-

Theo bài viết [47] thì một cuộc khảo sát trên 2000 người từ một công ty tên là
Jobvite (chuyên cung cấp phần mềm giúp các công ty xác định và chọn các ứng
viên tuyển dụng thông qua các mạng xã hội của nhân viên), cho thấy 83% số người
tìm kiếm việc làm nói rằng họ sử dụng Facebook trong tìm kiếm các thông tin
truyền thông xã hội của họ, so với 36% người sử dụng LinkedIn. Facebook là
trang web ít được sử dụng nhất trong số những trang MXH để tìm việc. Khoảng
40% sử dụng Twitter và 37% sử dụng Google. Jobvite cũng khảo sát các nhà tuyển
dụng, 94% trong số đó sử dụng LinkedIn, trong khi 65% sử dụng Facebook, 55%
sử dụng Twitter và 18% sử dụng Google+.

-


Với hơn 1,23 tỷ người sử dụng, Facebook có kích thước gần gấp năm lần kích
thước của LinkedIn, với 259 triệu thành viên, do đó tác giả khuyên người tìm việc
nên sử dụng thế mạnh này của Facebook.

-

Tác giả đã liên hệ với Dan Finnigan, Giám đốc điều hành của Jobvite. Finnigan
đã giúp tác giả đưa ra được bốn cách để bạn có thể sử dụng Facebook để tìm một
công việc như sau:
(1) Lập hồ sơ cá nhân và trình bày quá trình làm việc: việc làm này giúp người

tìm việc quảng cáo bản thân với các nhà tuyển dụng thực hiện tìm kiếm ứng viên
thông qua mạng xã hội.
(2) Phân lớp bạn bè: giúp người sử dụng mạng xã hội dễ dàng theo dõi những
người trong danh sách họ quan tâm, có thể là những người đồng nghiệp của họ, từ đó
có thể sàng lọc thông tin liên quan đến việc làm dễ dàng.

12


MỞ ĐẦU

(3) Tạo các bài viết và phản hồi các bài viết của người khác: nhằm tăng sự
tương tác với những người dùng khác trên mạng xã hội, tạo nên các quan hệ thân
thiết, giúp đỡ lẫn nhau khi cần, ví dụ như khi tìm kiếm việc làm.
(4) Tìm kiếm các kết nối trên mạng: theo như tác giả, đây là cách để có thể xác
định được những mối liên hệ, liên kết giữa người tìm việc với công ty tuyển dụng
thông qua các kết nối bạn bè của họ. Có thể trong danh sách bạn bè của người tìm
việc có những người đang làm việc trong công ty mà họ muốn tìm kiếm việc làm.


1.2 Dữ liệu và cách thức tìm việc làm trên MXH
1.2.1 Dữ liệu cho tìm kiếm thông tin việc làm
Trên MXH, có rất nhiều chủ đề thông tin bao gồm cả thông tin tuyển dụng và
các cơ hội việc làm đang được mở ra nằm rải rác trên các nút mạng, xen lẫn giữa các
thông tin khác. Đôi khi những thông tin trên các nút khác nhau thảo luận về một nội
dung và kết hợp với nhau tạo thành một luồng thông tin liên quan khi nó được chia
sẻ bởi những người dùng mạng có liên kết với nhau.
Điểm mạnh của MXH là tài nguyên xã hội, việc thu thập thông tin có khả năng
mở rộng dựa trên các mối quan hệ bắc cầu giữa các nút. Nguồn thông tin có thể được
mở rộng ra các nút mạng lân cận qua các nút trung gian. Không gian tìm kiếm có thể
mở rộng thông qua một số lượng các nút trung gian với độ liên kết đủ mạnh gọi là
cấp độ mở rộng của phạm vi tìm kiếm.
Không gian dữ liệu đa dạng hơn đem lại nhiều thông tin về các cơ hội việc làm
hơn, tuy nhiên cũng dẫn đến vấn đề lượng thông tin phải xử lý nhiều, sự trùng lặp
thông tin trên các nút và khi thực hiện rút trích qua nhiều cấp độ, các quan hệ có thể
tạo thành chu trình trên đồ thị của không gian tìm kiếm.
Quá trình tìm kiếm thông tin việc làm cần sử dụng những thông tin, thuộc tính
cần thiết để đánh giá độ tương đồng cần có giữa người tìm việc và nhà tuyển dụng
bao gồm:
-

Người tìm việc: Cung cấp những thông tin việc làm muốn tìm kiếm, mục tiêu cần
tìm kiếm. Thông tin việc làm họ mong muốn nhận được phải thỏa mãn với những

13


MỞ ĐẦU

yêu cầu liên quan hay ràng buộc với thông tin cá nhân (các thuộc tính liên quan

như: bằng cấp, vị trí tuyển dụng, nơi làm việc...).
o Những thông tin trên nút và tập thuộc tính cần quan tâm kết hợp với nhau

tạo nên thông tin truy vấn cho quá trình tìm kiếm.
o Trên những thông tin của người tìm việc, danh sách các nút có quan hệ với

nút người tìm việc là một thông tin quan trọng, cung cấp danh sách các nút
có thể lấy thông tin để thực hiện quá trình tìm kiếm việc làm cũng như mở
rộng không gian tìm kiếm.
-

Người tuyển dụng: Là tổ chức hay cá nhân, thường được đại diện bởi cá nhân để
thực hiện việc đăng thông tin tuyển dụng.
o Người tuyển dụng cung cấp thông tin về việc làm và vị trí tuyển dụng, cũng

như những yêu cầu đối với người được tuyển. Thông tin cá nhân của người
tuyển dụng cũng phản ánh một phần thông tin của công viêc mà họ tuyển
dụng (công ty, khu vực làm việc, tính chất công việc, các mối quan hệ với
nhân viên trong công ty...).
o Người tuyển dụng và thông tin về việc làm do người đó cung cấp là tập dữ

liệu chính cho quá trình tìm kiếm, sàng lọc thông tin.
-

Quan hệ giữa 2 đối tượng: Giữa người tìm kiếm và người tuyển dụng có thể tồn
tại một mối quan hệ (trực tiếp-gián tiếp hay có độ liên kết mạnh-yếu)
o Độ mạnh của liên kết phụ thuộc vào nhiều yếu tố như: kiểu quan hệ, số nút

trung gian chung, số thuộc tính tương đồng, v.v...
o Quan hệ này ở mức độ ràng buộc nào đó sẽ giúp tăng khả năng tìm kiếm


được việc làm phù hợp với yêu cầu của người tìm kiếm.
-

Mạng thông tin liên quan đến người tìm việc và thông tin việc làm: dựa trên
mạng quan hệ của nút người tìm việc, thu thập thông tin qua các nút trung gian,
mạng thông tin thu được rất rộng và đa dạng về nội dung. Kết hợp với các ràng
buộc (các thuộc tính có sự tương đồng như độ tuổi, nghề nghiệp, học vấn, địa chỉ
cư trú, …) giữa các nút giúp tìm ra những thông tin có độ tương đồng cao, tăng
khả năng tìm thấy thông tin việc làm mong muốn trên mạng đó.

14


MỞ ĐẦU

1.2.2 Sử dụng thông tin MXH để tìm việc làm trên mạng
Người sử dụng được đại diện bởi một nút trên MXH, và tồn tại các quan hệ
với những nút người dùng khác (quan hệ gia đình, bạn bè, đồng nghiệp...) cũng như
có quan hệ với các nút thông tin khác như quan hệ về sở hữu các bài post trên mạng,
hay quan hệ thể hiện sự quan tâm đến các chủ đề thông tin nào đó (việc làm, học tập,
giải trí ...), v.v.

Hình 1-1: Quan hệ giữa các nút người dùng và các nút thông tin liên quan

Việc tìm kiếm việc làm thông qua MXH là quá trình tìm kiếm thông tin những
nút mạng có quan hệ, sử dụng những từ khóa liên quan đến chủ đề việc làm như: lĩnh
vực- ngành nghề tuyển dụng, vị trí tuyển dụng, yêu cầu tuyển dụng, chế độ đãi ngộ...
Trên mạng lưới các mối quan hệ MXH, một người tìm kiếm việc làm có thể
thực hiện việc truy xuất những thông tin liên quan của những mối quan hệ mà họ có

(các thông tin từ các post, các news-feed của những mối quan hệ đó), trong số những
thông tin họ nhận được, cần lọc thông tin để thu được thông tin về tuyển dụng có liên
quan đến bản thân mà họ mong muốn tìm kiếm.
Dựa trên độ mạnh của quan hệ, sự tương đồng giữa các đối tượng người dùng,
thông tin việc làm thu được thường phù hợp với yêu cầu việc làm của người tìm kiếm.
Các mối liên kết có tiềm năng để thực hiện tìm kiếm việc làm thường là nhóm những

15


MỞ ĐẦU

người dùng có chung tính chất công việc như đã từng học chung trường, làm chung
công ty với người tìm kiếm hay những người làm về môi giới việc làm, nhân sự.
Việc tìm kiếm việc làm thường ưu tiên trên các mối quan hệ liên quan đến
công việc và học tập, vì các mối quan hệ này thường có chung một lĩnh vực nghề
nghiệp mà người tìm kiếm quan tâm, và thông tin mà họ cung cấp về việc làm có
tương đồng hơn với mục tiêu tìm kiếm.
Theo cách thức thủ công-truyền thống, người tìm việc cần phải thu thập những
thông tin của các mối quan hệ, đánh giá xem họ có khả năng cung cấp thông tin giới
thiệu việc làm cho mình hay không, việc đánh giá dựa trên sự hiểu biết của người tìm
kiếm với các đối tượng người dùng có liên kết về sự tương đồng nghề nghiệp giữa họ
(tương đồng về lĩnh vực làm việc, khu vực làm việc, vị trí làm việc...).
Các tiêu chí thông tin quan tâm khi tìm kiếm việc làm trên MXH: Người
tìm kiếm có xu hướng tìm những thông tin về công việc có tính chất như:
-

Thông tin việc làm được những nút đối tượng người dùng có quan hệ hoặc có độ
tương đồng cung cấp.


-

Nội dung công việc tương tự với những công việc đang làm hoặc đã làm, đã được
đào tạo.

-

Những công ty tuyển dụng có đặc điểm tương tự, giống với công ty đã và đang
làm việc.

-

Địa chỉ công ty gần nơi sinh sống.

-

Các chế độ đãi ngộ.

-

Đánh giá về công ty của những người đã và đang làm trong công ty tuyển dụng
tốt hay xấu.

-

V.v...
Một số chủ điểm được quan tâm khi tìm kiếm việc như:

-


Trình độ chuyên môn-bằng cấp yêu cầu: kỹ sư CNTT, chuyên viên phân tích tài
chính, kế toán...

-

Kỹ năng, kinh nghiệm: mới ra trường, có kinh nghiệm, chuyên gia...

-

Vị trí tuyển dụng: nhân viên, trưởng nhóm, trưởng phòng, giám đốc...
16


MỞ ĐẦU

-

Chế độ đãi ngộ: lương, thưởng, các chế độ ưu đãi, bảo hiểm

-

Loại hình công ty: nhà nước, tư nhân, cty có vốn đầu tư nước ngoài...

-

Môi trường làm việc

-

.v.v.

Mục tiêu của việc tìm kiếm: không gian để thực hiện việc tìm kiếm là thông

tin trên các nút mạng, với mục tiêu tìm kiếm là các nút mạng chứa thông tin việc làm
liên quan. Quá trình tìm kiếm có thể sử dụng thông tin trên nút người tìm kiếm để tạo
ra thông tin của câu truy vấn, những thông tin này để đánh giá tương đồng thông tin
với các nút thu được, từ đó xác định được các nút thông tin cần thiết trên mạng.
Một số yêu cầu của việc tìm kiếm: kết quả có độ tin cậy cao: trong các thông
tin tương đồng thu được, cần chọn ra các nút thông tin có độ tương đồng cao, thông
tin phù hợp với truy vấn và thông tin thu được còn giá trị sử dụng tại thời điểm tìm
kiếm.

17


TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

Chương 2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
2.1 Những nghiên cứu liên quan đến nghiên cứu
Các nghiên cứu khai thác thông tin trên mạng xã hội nhận được quan tâm lớn
từ các nhà nghiên cứu và đem lại nhiều giá trị trong đời sống. Một số nghiên cứu liên
quan đến khai thác thông tin trên mạng xã hội như:
-

Năm 2010 bài báo [6] trình bày vấn đề “phát hiện cộng đồng” và giải quyết vấn
đề bằng cách xác định độ liên kết giữa các cá nhân ở các nút với nhau thông qua
các chỉ số trung tâm của từng cá nhân, mỗi cộng đồng là một tập hợp của các cá
nhân có độ liên kết và chỉ số trung tâm cao trong mạng xã hội.

-


Năm 2010, [1] trình bày bài toán khai thác thông tin trên mạng xã hội với hướng
giải quyết dựa trên mạng ngữ nghĩa, bằng cách tạo các thẻ ngữ nghĩa cho thông
tin. [1] đã đưa ra phương pháp sử dụng mạng ngữ nghĩa kết hợp với xác định ngữ
nghĩa và đánh dấu ngữ nghĩa cho từng đối tượng thông tin trên mạng để làm giàu
tri thức cho mạng ngữ nghĩa, dựa trên các tri thức ngữ nghĩa liên quan, có thể tiến
hành việc tìm kiếm thông tin với nhiều ý nghĩa hơn. Dựa trên việc dữ liệu trên
mạng xã hội luôn gắn với ngữ nghĩa riêng của nó, và thông tin được đưa
lên mạng xã hội là tùy ý với mỗi người dùng, không có một quy định chuẩn
nào cho dữ liệu, chính vì vậy máy tính không thể hiểu được ý nghĩa của thông
tin lưu trữ trên mạng xã hội. Việc sử dụng mạng ngữ nghĩa để biểu diễn mạng xã
hội giúp giải quyết được vấn đề biểu diễn tri thức trên mạng xã hội và giúp máy
tính có khả năng hiểu thông tin trên mạng xã hội [3], việc tìm kiếm thông tin có
ngữ nghĩa cũng giúp mang lại thông tin chính xác hơn, dựa vào mối liên hệ ngữ
nghĩa giữa các post của cùng một người dùng, trên cùng cộng đồng, và các mối
quan tâm của người dùng đến các chủ đề nào đó, có thể xác định được phạm vi
ngữ nghĩa của một bài post trên cộng đồng.
Một số nghiên cứu trước đây đã xây dựng nên các ontology để biểu diễn tri

thức trên một số mạng xã hội. Trong [2] đã xem xét các mô hình:
-

FOAF: Friend of a friend, dựa trên ontology này, có thể gợi ý cho người sử dụng
những người bạn mà họ có thể biết.

18


TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

-


SIOC: Semantically Interlinked Online Communities, dùng để xác định các cộng
đồng trên mạng xã hội.

-

SWUM: Social Web User Model, tìm ra các thông tin mà người dùng quan tâm
hoặc thói quen của người dùng trên mạng xã hội

-

SemSNA (semantic social network analysis)
Các mô hình trên biểu diễn các quan hệ giữa các nút với nhau, và dựa trên các

quan hệ đó để phục vụ cho việc truy vấn thông tin của các nút trên mạng ngữ
nghĩa. Để tăng tính chính xác cho mô hình, một số nghiên cứu đã đề nghị việc đánh
dấu ngữ nghĩa cho các đối tượng thông tin trên mỗi nút, giúp cho các nút giàu tri thức
hơn, một số các mô hình đó là MOAT (Meaning Of-A-Tag) và SCOT Ontology
(Social Semantic Cloud of Tags) [2]. Với các ontology này, mỗi nút thông tin sẽ được
đánh dấu thêm các ngữ nghĩa mà nó có thể đề cập tới, và dựa trên đó, việc tìm kiếm
các thông tin sẽ chính xác hơn.
Bên cạnh các nghiên cứu liên quan đến cấu trúc và biễu diễn tri thức cho MXH
để khai thác thông tin, các nghiên cứu liên quan đến khai thác nội dung thông tin trên
mạng cũng được quan tâm. Bằng cách sử dụng mô hình tổ chức dữ liệu tư liệu cho
nội dung thông tin trên các nút mạng và áp dụng các phương pháp phân tích ngữ
nghĩa trên tư liệu như LSA [32], p-LSA [34], LDA [43], v.v.… Một số phương pháp
phân tích ngữ nghĩa tiêu biểu như:
Phân tích ngữ nghĩa tiềm ẩn - LSA, được đề xuất năm 1988 bởi Scott
Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer.
Để khám phá cấu trúc thông tin tiềm ẩn trên tập tư liệu có kích thước lớn, LSA thực

hiện việc chiếu ma trận tư liệu-từ khóa qua một không gian khác có kích thước nhỏ
hơn gọi là không gian chủ đề tiềm ẩn sử dụng SVD trong đại số tuyến tính.
SVD nhằm phân tích ma trận tư liệu-từ khóa D ℛ n×m thành tích của các ma
trận: D = USVT (2.1), trong đó:


U ℛ n×n, ma trận trực giao theo cột của DDT và UTU=In



S ℛ n×m, gồm r các giá trị không âm 1  2  …  r > 0. Là

ma trận chéo các giá trị kì dị, xác định bởi các trị riêng của tích DTD.


V ℛ m×m, ma trận trực giao theo cột của DTD, và VTV=Im
19


TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

Nếu k là số chủ đề tiềm ẩn, k ≤ r, Ukℛn×k và Vkℛm×k là các ma trận trực giao
theo cột được xác định bằng cách loại bỏ lần lượt n-k và m-k các cột bên phải của U
và V, thì ma trận Dk có hạng k là xấp xỉ của D được xác định bởi:
Dk = UkSkVkT≐ D

(2.2)

Với Sk = Diag[1,2,…, k ]. Theo định lý Eckart-Young [50], với bất kì ma
trận Xℛn×m, có rank(X) ≤ k,

min X (DX F ) = DDk F = (2k+1 +… +2r)1/2 ≝ 



||.||F là chuẩn Frobenius của các ma trận. kết quả này chỉ ra rằng Dk là xấp xỉ
hạng k tốt nhất của D với sai số tương đối . Giá trị k càng lớn thì sai số càng bé, khi
k = r,  = 0 hay Dk = D và (2.2) không còn là không gian xấp xỉ nữa.
Nếu T = SkVkTℛk×m, có ma trận giả đảo (pseudo-inverse) của TT, đặc biệt ở
đây được xác định bởi: TT† ≝ (aij) = Sk1VkTℛk×m. TT† được gọi là ma trận chiếu để
chiếu các ma trận từ ℛm sang ℛk.
Từ (2.2) có thể thấy rằng UkT ≐ TT†DT hay TT† ánh xạ một cách xấp xỉ các tư liệu
biểu diễn bởi các vector cột của DT gồm m terms sang các vector cột tương ứng của
UkT trên không gian chủ đề tiềm ẩn k chiều, k << m.
Ngoài ra, TT† còn được sử dụng để chiếu các vector truy vấn trên không gian m
chiều sang không gian chủ đề tiềm ẩn để tìm kiếm tư liệu tương đồng với câu truy vấn
trong tập tư liệu đã cho.
Tuy hiệu quả và có nhiều ứng dụng trong các lĩnh vực text mining và thu nhận
thông tin, LSA vẫn tồn tại một số hạn chế do việc sử dụng SVD với các ma trận trực
giao: Sự phức tạp của SVD yêu cầu chi phí tính toán và lưu trữ lớn. Với không gian
tư liệu lớn với hàng ngàn tư liệu và một số lượng lớn các chủ đề, đôi khi không tìm
được tư liệu tương đương [33].
Nói cách khác, LSA khó đạt hiệu quả cao bởi các lý do sau:
-

Việc chọn k thường dựa trên kinh nghiệm, khó để đưa ra được số k đủ nhỏ.

-

Khó chỉ ra quan hệ liên quan giữa các chủ đề và term do ma trận chiếu rất thưa.


-

Khó xử lý khi xử lý dữ liệu lớn [42].
20


TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

Phân tích ngữ nghĩa tiềm ẩn theo xác suất- p-LSA, được đề xuất bởi Thomas
Hoffmann năm 1999. Với cách thức tương tự như LSA, p-LSA sử dụng phương pháp
thống kê để đưa ra ngữ nghĩa của các term và xác định các ngữ cảnh khác nhau khi
sử dụng các term đó, [34]. Từ đó, tạo ra mô hình các biến tiềm ẩn cho sự xuất hiện
của dữ liệu kết hợp.
Nếu {zα | α = 1,2,.. , k} là tập các lớp tiềm ẩn để quan sát sự xuất hiện của term
wj trong một tư liệu cụ thể di.
Với i = 1,2, …, n, j = 1,2, …, m:


D = (P (di, wj))ℛn×m



U = (P (di|zα))ℛn×k



S = Diag[P (z1), P (z2),… , P (zk)]ℛk×k




V = (P (wj|zα))ℛm×k

Sử dụng công thức nhân xác suất, có được kết quả D = USVT. Đẳng thức này
tương tự với (2.1). Trong đó tất cả các phần tử của các ma trận đều dựa trên xác suất.
Tuy nhiên p-LSA dựa trên khả năng của việc lấy mẫu các term nhiều lần để ước lượng
xác suất của số chủ đề k thay vì thực hiện đếm tần số xuất hiện như LSA để tạo nên
ma trận tư liệu-từ khóa. Rất khó để xác định số chủ đề tiềm ẩn bao nhiêu là đủ cho
một bài toán, và cũng khó để xây dựng mô hình chủ đề đang tồn tại trong tư liệu.
Cấp phát Dirichlet tiềm ẩn LDA, được đề xuất bởi David Blei, Andrew Ng,
and Michael I. Jordan năm 2003. Tương tự như p-LSA, LDA cung cấp một mô hình
xác suất của quá trình sinh không gian chủ đề tiềm ẩn. Mô hình này có thể xác định
sự phân phối hay phân bố của các terms và cho phép xếp hạng term theo chủ đề. Tuy
nhiên, khi số lượng chủ đề tiền ẩn rất lớn, LDA sẽ gặp khó khăn khi xử lý. Ngoài ra
nếu số lượng các chủ đề nhỏ, LDA tạo ra các tư liệu trên không gian chủ đề tiềm ẩn
không đủ khác biệt cho việc phân loại.
Phân tích ngữ nghĩa tiềm ẩn thưa- s-LSA [35], được đề xuất bởi Xi Chen. Mô
hình này dựa trên tập k vector tiềm ẩn không liên quan đến nhau {U.1, U.2, …, U.k}
trên ℛn với k ≤ min(n, m), để tạo ra ma trận trực giao U = [U.1, U.2, … , U.k] [35] có
kích thước n×k. Khi đó, vector tư liệu D*j của m term được biểu diễn một cách xấp
21


TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

xỉ bởi tổ hợp tuyến tính của các vector cột trong U với sai số tương đối hay độ nhiễu
j , j = 1, 2, … , m
Sử dụng phương pháp tối ưu thưa, mô hình này được xác định bởi bài toán:
min U A ½DUA2 +AUTUIk




Để xác định Uℛk×m, ma trận chiếu A = (aij)ℛk×m, (2.4) được giải với các
thuật toán tối ưu, với  là tham số điều chỉnh không âm cho các thành phần trên A có
chuẩn l1 để điều chỉnh độ dày trên A. U và A trong (2.4) chỉ ra ước lượng hạng k tốt
nhất của ma trận tư liệu-từ khóa D.
s-LSA phù hợp cho nhiều bài toán trong thực tế, nhưng lời giải (2.4) lại quá
phức tạp - rườm rà. Bên cạnh đó, làm thế nào để chọn số hạng k đủ nhỏ vẫn đang là
một vấn đề mở.
Hơn nữa, s-LSA được tạo thành từ các ma trận trực giao và mục tiêu của nó
không phải là để cải thiện khả năng mở rộng hay để sử dụng trong các mô hình học
trực tuyến để khai phá các bộ dữ liệu web có kích thước lớn.
Phân tích ngữ nghĩa tiềm ẩn theo chính quy hóa r-LSA [36], được đề xuất bởi
Q.Wang. Thay vì xác định U và A trong (2.4), r-LSA được đề xuất bởi việc giả sử
rằng tập k chủ đề U.jℛm×k, j = 1, 2,... , k tồn tại trong tập các tư liệu.
Ma trận D ước lượng bởi UV với:


U = [U.1, U.2,… , U.k]ℛn×k ma trận term -chủ đề



V = [V.1, V.2,…,, V.m]ℛk×m là ma trận chủ đề-document.

Mô hình này sử dụng chuẩn ℓ1 để điều khiển sự thưa hóa của U và chuẩn ℓ2 để
chính quy hóa V với các tham số không âm 1, 2. Chính vì vậy, r-LSA giải quyết bài
toán tối ưu sau:
min U V DUV2 +U +V




Bằng cách cố định một biến, hàm mục tiêu trong (2.4) và 2.5) đối với một biến
khác là lồi. Đó là lý do tại sao, cả LSA và r-LSA sử dụng phương pháp tách để giải
quyết cho U sau đó A trong (2.4) hoặc V trong (2.5) bằng các phép lặp thay thế.

22


×