Tải bản đầy đủ (.pdf) (68 trang)

giải pháp biểu diễn và so sánh mức độ tương đồng giữa các hồ sơ cá nhân trên mạng xã hội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.68 MB, 68 trang )

i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là kết quả công trình nghiên cứu của bản thân,
không sao chép của người khác. Các số liệu, kết quả trình bày trong luận văn này
là trung thực. Tất cả những tài liệu tham khảo đều có xuất xứ rõ ràng và được
trích dẫn hợp pháp.
Tôi xin chịu hoàn toàn trách nhiệm cho lời cam đoan của mình.

Học viên

Đỗ Quốc Bảo
ii
LỜI CẢM ƠN
Em xin bày tỏ lòng thành kính và biết ơn sâu sắc đến thầy tiến sĩ Phạm
Trần Vũ đã nhiệt tình hướng dẫn, chỉ bảo em trong suốt quá trình thực hiện luận
văn này.
Em xin chân thành cảm ơn Quý thầy cô Khoa Công nghệ thông tin trường
Đại học Lạc Hồng đã tạo điều kiện thuận lợi cho em trong suốt thời gian học tập
và nghiên cứu tại trường.
Xin cảm ơn các anh chị em, bạn bè, đồng nghiệp đã giúp đỡ và động viên
rất nhiều trong quá trình em thực hiện luận văn này.
Xin cảm ơn cha mẹ, anh chị em và những người thân đã và luôn là chỗ
dựa tinh thần, là nguồn động lực to lớn để em vượt qua những khó khăn trong
quá trình thực hiện luận văn này.
Xin chân thành cảm ơn!


Đồng Nai, ngày 15 tháng 5 năm 2013
Học viên

Đỗ Quốc Bảo


iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC HÌNH v
DANH MỤC BẢNG vi
DANH MỤC CÁC TỪ VIẾT TẮT vii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ HỒ SƠ CÁ NHÂN VÀ SO SÁNH ĐỘ
TƯƠNG ĐỒNG 5
1.1 Tổng quan về hồ sơ cá nhân, độ tương đồng 5
1.1.1 Giới thiệu về hồ sơ cá nhân 5
1.1.2 Giới thiệu về bài toán so sánh độ tương đồng 6
1.1.3 Tổng quan về tình hình nghiên cứu 7
1.2 Quy trình so khớp profile 10
CHƯƠNG 2: MỘT SỐ KỸ THUẬT LIÊN QUAN TRONG XỬ LÝ SO
SÁNH ĐỘ TƯƠNG ĐỒNG 13
2.1 Cấu trúc hồ sơ cá nhân 13
2.1.1 Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn của Montainer 13
2.1.2 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực tuyến của
Brusilouvsky 14
2.1.3 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực tuyến của Lê Đức
Long và cộng sự 16
2.1.4 Kết luận 17
2.2 Xử lý thông tin profile 18
2.2.1 Đặc điểm của từ trong tiếng Việt 18
2.2.2 Tách từ trong tiếng Việt 19
2.2.2.1 Phương pháp Maximum Matching: Forward / Backward 19
2.2.2.2 Phương pháp Transformation – based Learning (TBL) 20

2.2.2.3 Mô hình tách từ bằng WFST và mạng Neural 20
2.2.2.4 Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và
thuật giải di truyền 22
2.2.2.5 Loại bỏ từ dừng 22
2.2.3 Đặc trưng văn bản tiếng Việt 22
iv
2.3 Biểu diễn văn bản tiếng Việt 24
2.3.1 Mô hình logic 24
2.3.2 Mô hình phân tích cú pháp 26
2.3.3 Mô hình không gian vector 27
2.3.3.1 Mô hình boolean 28
2.3.3.2 Mô hình tần suất 29
2.4 Độ tương đồng 31
2.4.1 Khái niệm độ tương đồng 31
2.4.2 Độ tương đồng 32
2.4.3 Các phương pháp tính độ tương đồng 32
2.4.3.1 Phương pháp tính độ tương đồng sử dụng độ đo Cosine 33
2.4.3.2 Phương pháp tính độ tương đồng dựa vào độ đo khoảng cách
Euclide 34
2.4.3.3 Phương pháp tính độ tương đồng dựa vào độ đo khoảng cách
Mahattan 34
CHƯƠNG 3: QUY TRÌNH THỰC HIỆN VÀ THỬ NGHIỆM 36
3.1 Quy trình thực hiện 36
3.1.1 Thu thập dữ liệu profile 36
3.1.2 Cấu trúc profile theo đề xuất của tác giả 37
3.1.3 Xử lý dữ liệu profile 39
3.1.3.1 Tách từ tiếng Việt 39
3.1.3.2 Loại bỏ dấu câu, từ dừng 41
3.1.4 Xây dựng tập dữ liệu đặc trưng 42
3.1.4.1 Giới thiệu mô hình phân tích chủ đề ẩn 42

3.1.4.2 Mô hình Latent Dirichlet Allocation 43
3.1.5 So sánh mức độ tương đồng giữa hai profile 45
3.2 Kết quả thực nghiệm 48
3.2.1 Môi trường thực nghiệm 48
3.2.2 Module và công cụ 48
3.2.3 Dữ liệu thực nghiệm 50
3.2.4 Xác định đặc trưng cho từng thuộc tính so sánh 50
3.2.5 Thực nghiệm so sánh profile 53
KẾT LUẬN 57
TÀI LIỆU THAM KHẢO
v
DANH MỤC HÌNH
Hình 1.1: Quy trình so khớp profile 11
Hình 2.1: Cấu trúc tổng quát của Profile do Lê Đức Long đề xuất 16
Hình 2.2: Biểu diễn vector văn bản trong không gian 2 chiều 27
Hình 3.1: Tổng quan giao diện thu thập dữ liệu từ Facebook 36
Hình 3.2: Thực hiện lấy dữ liệu cho profile 37
Hình 3.3: Cấu trúc profile tác giả đề xuất 38
Hình 3.4: Quy trình tách từ 40
Hình 3.5: Tài liệu với K chủ đề ẩn 43
Hình 3.6: Ước lượng tham số cho tập dữ liệu 44
Hình 3.7: Suy luận chủ đề cho các profile mạng xã hội facebook 45
Hình 3.8: Chi tiết so sánh hai profile 47
Hình 3.9: Giao diện module thực hiện lấy dữ liệu profile 48
Hình 3.10: Cấu trúc module hệ thống 49
Hình 3.11: Suy luận theo Employee 50
Hình 3.12: Suy luận theo StatusComments 51
Hình 3.13: Hệ thống xác định chủ đề đặc trưng thuộc tính 51
Hình 3.14: Hệ thống xác định tỉ lệ phần trăm của topic đặc trưng 52
Hình 3.15: Một phần đặc trưng của các topic chủ đề 52

Hình 3.16: Hình ảnh so sánh profile chi tiết 56


vi
DANH MỤC BẢNG
Bảng 1: Biểu diễn văn bản trong mô hình Logic 25
Bảng 2: Biểu diễn văn bản bằng mô hình Vector 28
Bảng 3: Biểu diễn văn bản với mô hình Boolean 29
Bảng 4: Môi trường thực nghiệm 48
Bảng 5: Bảng khảo sát thu thập profile 53
Bảng 6: Một số kết quả thực nghiệm 55
vii
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Từ đầy đủ
AHS Adaptive Hypermedia System
AEHS Adaptive Educational Hypermedia System
AeLS Adaptive e – Learning System
IDF Inverse Document Frequency
LDA Latent Drichlet Allocation
MM Maximum Matching
pLSA Probabilistic Latent Semantic Analysis
SVM Support Vector Machine
TBL Transformation - based Learning
TF Term Frequency
WFST Weighted Finit State Transducer
1

MỞ ĐẦU
Chúng ta hiện đang ngập lụt trong kho dữ liệu khổng lồ của nhân loại, sự
thành công và phát triển của các mạng xã hội như Facebook, Youtube, Linkedin

trên nền web 2.0 đã thu hút một cộng đồng online đông đảo, cộng đồng này đã
tạo ra một số lượng lớn tài liệu số trên web. Họ có thể chia sẻ và cộng tác trong
những lĩnh vực mà họ thấy thích thú. Và tìm kiếm những người có cùng sở thích,
cùng sự quan tâm đến một vấn đề nào đó trong các cộng đồng mạng trực tuyến
là điều không dễ dàng, đặc biệt là trong cộng đồng đa ngành nghề và cách trở về
mặt địa lý, sự hợp tác liên ngành đóng một phần không thể thiếu. Do đó, việc tìm
ra những người có cùng mối quan tâm để cùng chia sẻ, cộng tác trong giải quyết
một công việc lớn, một bài toán lớn là cần thiết.
Ở phương diện khác, nhu cầu giao lưu, giải trí, kết bạn của con người từ
khắp các vùng miền là khá lớn và thiết thực trong đời sống xã hội hiện tại. Bởi lẽ
đó, việc tìm kiếm những người có cùng sở thích, cùng sự đam mê để cùng nhau
thỏa mãn hơn nữa đời sống tinh thần trong cuộc sống đầy bộn bề là hết sức có ý
nghĩa.
Hiện nay các hệ thống thích nghi cá nhân (Personalized System) đang
phát triển rất mạnh và được ứng dụng trong nhiều lĩnh vực như: tìm kiếm thông
tin (Information Retrieval ), thương mại điện tử (e - Commerce), hệ thống tư vấn
(Recommender System) và gần đây là hệ thống đào tạo trực tuyến (e - Learning).
Chẳng hạn, hệ thống bán hàng trực tuyến sẽ tư vấn cho các khách hàng
khác nhau chọn mua những sản phẩm khác nhau phù hợp với sở thích từng
người. Hệ thống tư vấn thông tin sẽ tư vấn cho các người dùng khác nhau những
tài liệu khác nhau phù hợp với chủ đề mà từng người quan tâm. Hệ thống đào tạo
trực tuyến sẽ tư vấn cho các người học khác nhau phương pháp học phù hợp với
trình độ và khả năng tiếp thu của từng người. Trong các hệ thống thích nghi này,
mỗi người dùng sở hữu một hồ sơ cá nhân hay còn gọi là profile hay đặc trưng
người dùng và tùy theo lĩnh vực ứng dụng, đặc trưng người dùng sẽ bao gồm
2

những thông tin khác nhau mô tả về người dùng như: họ tên, tuổi, nghề nghiệp,
sở thích, nhu cầu, mục tiêu, trình độ hay nền tảng kiến thức, v.v. Đặc trưng
người dùng chính là cơ sở để hệ thống cung cấp những thông tin, dịch vụ, tài

nguyên phù hợp với từng người dùng. Điều này đem đến sự tiện nghi, thoải mái
cho người dùng trong quá trình khai thác hệ thống. Người dùng có cảm giác là
hệ thống rất thông minh, hiểu được mình và đáp ứng đúng nhu cầu riêng của
mình.
Trong lĩnh vực đào tạo từ xa hay đào tạo trực tuyến (e - learning), các hệ
thống thích nghi siêu truyền thông (Adaptive Hypermedia System – AHS) hay
hệ thống đào tạo thích nghi siêu truyền thông (Adaptive Educational
Hypermedia System - AEHS) cũng khai thác profile người dùng để vận dụng sự
thích nghi phù hợp với kiến thức cũng như mục tiêu đào tạo. Do đó, việc xây
dựng mô hình profile là rất quan trọng, dựa trên profile các hệ thống tính toán, so
sánh để cung cấp thông tin, dịch vụ phù hợp nhất cho người sử dụng.
Hồ sơ cá nhân là một tập hợp các thông tin được thể hiện dưới dạng văn
bản, hình ảnh, trong đó văn bản là chủ yếu, mô hình biểu diễn văn bản phổ biến
hiện nay là mô hình không gian vector, trong đó mỗi văn bản được biểu diễn
bằng một vector của các từ khóa. Một số khó khăn khi biểu diễn văn bản như
tính nhiều chiều của văn bản, tính nhặp nhằng của ngôn ngữ, đồng thời bài toán
xử lý văn bản còn gặp phải một số khó khăn là để xây dựng được bộ dữ liệu đặc
trưng chuẩn, có độ tin cậy cao thì đòi hỏi phải có một lượng các mẫu dữ liệu
huấn luyện đủ tốt. Các dữ liệu huấn luyện này thường rất hiếm và đắt vì đòi hỏi
thời gian và công sức của con người. Do vậy, cần phải có hệ thống xử lý văn bản
hiệu quả và một phương pháp học có khả năng tận dụng được các nguồn dữ liệu
rất phong phú như hiện nay. Đề tài “Giải pháp biểu diễn và so sánh mức độ
tương đồng giữa các hồ sơ cá nhân trên mạng xã” là một việc làm không
những có ý nghĩa khoa học mà còn mang tính thực tiễn.
Luận văn này sẽ tập trung giải quyết hai vấn đề chính sau:
3

 Xây dựng mô hình profile của người sử dụng từ các thông tin trên
mạng xã hội của họ.
 Xây dựng giải pháp đánh giá mức độ tương đồng giữa các profile.

Luận văn áp dụng kết hợp kỷ thuật phân tích chủ đề ẩn Latent Dirichlet
Allocation và Cosin truyền thống để xác định sự tương đồng của các profile.
Latent Dirichlet Allocation được xem là phương pháp tập trung vào việc bổ sung
các thành phần ngữ nghĩa hỗ trợ cho độ đo tương đồng Cosine tốt nhất hiện nay.
Thực nghiệm cho thấy độ chính xác rất khả quan trong so khớp.
Mục tiêu của luận văn
 Xây dựng giải pháp biểu diễn profile người sử dụng từ các thông
tin trên mạng xã hội.
 Xây dựng giải pháp đánh giá mức độ tương đồng giữa các profile.
Đối tượng nghiên cứu
Trong luận văn này, chỉ giới hạn các thông tin profile bằng tiếng Việt, và
đối tượng người sử dụng là người Việt, mạng xã hội là facebook.
Phạm vi nghiên cứu
Luận văn giới hạn phạm vi nghiên cứu trong cộng đồng người sử dụng
tiếng Việt, mạng xã hội facebook. Một số thông tin của hồ sơ cá nhân được xử lý
trong luận văn như: thông tin về lịch sử cá nhân, ngày tháng năm sinh, nghề
nghiệp, nền giáo dục, tình trạng hôn nhân, mối quan tâm, những hoạt động trên
mạng xã hội, thông tin về quê quán, nơi sống hiện tại, về quan điểm tôn giáo, về
giới tính, về quan điểm sống.
Những vấn đề cần giải quyết trong phạm vi luận văn
 Nghiên cứu các phương pháp rút trích hồ sơ cá nhân.
 Nghiên cứu các phương pháp biểu diễn hồ sơ cá nhân.
 Nghiên cứu phương pháp phân tích về mặt ngữ nghĩa của hồ sơ cá
nhân.
4

 Nghiên cứu các thuật toán để so khớp các hồ sơ cá nhân: thuật toán
LSA, Cosine.
 Đánh giá và chọn một thuật toán so khớp tối ưu để áp dụng so khớp hồ
sơ cá nhân.

 Kết hợp thuật toán được chọn với kỹ thuật so khớp ngữ nghĩa, tính toán
sự tương đồng của các hồ sơ cá nhân, khắc phục các trường hợp liên
quan đến ngữ nghĩa trong so khớp.
 Đánh giá kết quả sau khi so khớp.
 Thử nghiệm trên các hồ sơ khác nhau của một mạng xã hội ở Việt Nam
Bố cục trình bày của luận văn
Chương 1: Giới thiệu tổng quan về bài toán so khớp, tổng quan về tình
hình nghiên cứu từ đó rút ra nhận xét, đánh giá. Dựa trên sự tìm hiểu nghiên cứu
đó, đưa ra quy trình so khớp giữa các hồ sơ cá nhân.
Chương 2: Trình bày một số kỷ thuật liên quan đến quá trình xử lý, tính
toán trong quá trình thực hiện bài toán so khớp hồ sơ cá nhân như: cấu trúc của
một hồ sơ cá nhân, rút trích thông tin hồ sơ cá nhân, biểu diễn hồ sơ cá nhân, xử
lý tiếng Việt, các phương pháp tính toán độ tương đồng.
Chương 3: Trình bày các bước thực hiện: thu thập thông tin hồ sơ cá nhân,
xử lý thông tin hồ sơ, biểu diễn hồ sơ cá nhân trên máy tính theo cấu trúc tác giả
đề xuất, quy trình chi tiết tính toán mức độ tương đồng giữa các hồ sơ cá nhân và
báo cáo kết quả thực nghiệm.
Kết luận: Những gì đã làm được trong việc xây dựng giải pháp biểu diễn
hồ sơ cá nhân và so sánh mức độ tương đồng giữa các hồ sơ cá nhân, chỉ ra
những điểm cần hoàn thiện hơn cũng như hướng phát triển cho đề tài.
5

CHƯƠNG 1: TỔNG QUAN VỀ HỒ SƠ CÁ NHÂN VÀ SO
SÁNH ĐỘ TƯƠNG ĐỒNG

1.1 Tổng quan về hồ sơ cá nhân, độ tương đồng
1.1.1 Giới thiệu về hồ sơ cá nhân
Hồ sơ cá nhân là một tập hợp gồm những thông tin của một cá nhân. Tùy
theo lĩnh vực ứng dụng cụ thể, hồ sơ cá nhân sẽ có những thông tin khác nhau
phù hợp cho miền ứng dụng đó. Chẳng hạn: trong hệ thống bán hàng qua mạng,

hồ sơ cá nhân thường gồm: sở thích, thói quen mua sắm, các sản phẩm đã từng
mua, v.v; trong hệ thống giáo dục, hồ sơ cá nhân thường gồm: tên, tuổi, trình độ
học vấn, kết quả khóa trước, thói quen học tập, kiến thức nền, ngành học, v.v;
trong hệ thống tư vấn thông tin, hồ sơ cá nhân có thể chứa những chủ đề mà
người dùng quan tâm, trình độ tri thức, ngành nghề của người dùng, v.v. Chính
những thông tin được lưu trữ trong hồ sơ cá nhân này đã giúp hệ thống phục vụ
cho người dùng tốt hơn, thông minh hơn. Nói cách khác, sự thông minh và chất
lượng của các hệ thống được xây dựng trên nền tảng chính là hồ sơ cá nhân.
Điều này đem đến sự tiện nghi, thoải mái cho người dùng trong quá trình khai
thác hệ thống. Người dùng có cảm giác là hệ thống rất thông minh, hiểu được
mình và đáp ứng đúng nhu cầu riêng của mình.
Để xây dựng được hồ sơ cá nhân tốt cho hệ thống thì cần phải xác định
được những đặc trưng nào của người dùng sẽ cần thiết, hữu ích cho hệ thống.
Điều này không phải đơn giản bởi vì trong từng miền ứng dụng khác nhau, hồ sơ
cá nhân sẽ có những đặc trưng khác nhau. Chẳng hạn, trong e- Commerce, các
đặc trưng của hồ sơ cá nhân về sở thích là quan trọng nhất để giúp cho việc tư
vấn hiệu quả. Trong khi đó với hệ e-Learning thì các đặc trưng liên quan đến
trình độ học tập, kiến thức nền mới là quan trọng nhất. Ngay cả khi trong cùng
một miền ứng dụng, hồ sơ cá nhân của hệ thống này có thể sẽ khác hồ sơ cá nhân
của hệ thống kia. Nói riêng trong miền e-Commerce, hồ sơ cá nhân của một hệ
6

thống tư vấn bán đĩa CD sẽ cần có các thông tin liên quan đến âm nhạc, thể loại
nhạc nhưng hồ sơ cá nhân của một hệ thống tư vấn bán tranh cần có các thông
tin liên quan đến màu sắc, hội họa, kiến trúc. Do vậy, xây dựng cấu trúc hồ sơ cá
nhân là một trong số những khía cạnh quan trọng quyết định đến sự thành công
của các hệ thống thích nghi.
1.1.2 Giới thiệu về bài toán so sánh độ tương đồng
So sánh độ tương đồng là một vấn đề nghiên cứu phổ biến được biết đến
như tìm kiếm chuyên gia hoặc so khớp hồ sơ cá nhân, trong rút trích thông tin

và đã được thực hiện bởi nhiều nghiên cứu trước đó.
Về độ tương đồng: trong toán học, một độ đo là một hàm số tương ứng với
một "chiều dài", một "thể tích" hoặc một "xác suất" với một phần nào đó của
một tập hợp cho sẵn. Nó là một khái niệm quan trọng trong giải tích và trong lý
thuyết xác suất.
Ví dụ: độ đo đếm được định nghĩa bởi µ(S) = số phần tử của S
Rất khó để đo sự giống nhau, sự tương đồng, tương đồng có thể định nghĩa
là một đại lượng (con số) phản ánh cường độ của mối quan hệ giữa hai đối tượng
hoặc hai đặc trưng. Đại lượng này thường ở trong phạm vi từ -1 đến 1 hoặc 0
đến 1. Như vậy, một độ đo tương đồng có thể coi là một loại Scoring Function
(hàm tính điểm).
Ví dụ: trong mô hình không gian vector, ta sử dụng độ đo Cosine để tính độ
tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector.
So khớp là quá trình tìm ra những đặc trưng chung trong các hồ sơ được so
sánh, kết quả so sánh được qui ước hóa thành một số đo mà dựa vào số đo này
để thực hiện cho nhiều mục đích của con người như tìm đường đi, nhận dạng,
gom nhóm, tư vấn, điều khiển hay đơn giản để phục vụ cho việc đào tạo, kinh
doanh của một đơn vị. Người ta có thể thực hiện so khớp một cách thủ công, tức
là quan sát các đặc trưng rồi đưa ra kết luận. Nhưng với lượng thông tin cần so
sánh là rất lớn nên việc làm này sẽ tốn khá nhiều thời gian, công sức, tiền của và
7

thậm chí là không khả thi. Do vậy mà phải có các phương pháp so khớp tự động,
để so khớp tự động, người ta sử dụng các phương pháp thống kê như độ đo
Cosine, độ đo khoảng cách Euclide, Manhattan,… dựa trên các đặc trưng rút
trích qua quá trình học máy như Cây quyết định, Naïve Bayes, K láng giềng gần
nhất.
Một trong những ứng dụng quan trọng nhất của so khớp tự động là ứng
dụng trong nhận dạng. Nhận dạng để điều khiển, nhận dạng để tư vấn, nhận dạng
để xác minh, nhận dạng để phục vụ trong các hệ thống thích nghi.

Một ứng dụng khác của so khớp là trong tìm kiếm. Một sản phẩm cần tung
ra thị trường, một chương trình đào tạo từ xa, … rất cần xác định các thực thể
cần tương tác và yêu cầu từ các thực thể đó. Khi đó, việc tìm kiếm và so khớp
thông tin là rất cần thiết và thiết thực.
1.1.3 Tổng quan về tình hình nghiên cứu
Liên quan đến xử lý ngôn ngữ tự nhiên nói chung và bài toán xử lý so khớp
nói riêng trong những năm gần đây là lĩnh vực đang được cộng đồng khoa học
trong và ngoài nước quan tâm. Các công trình liên quan đến chủ đề này như:
Ngoài nước:
 Đề tài “Profile-Matching Techniques for On-Demand Software
Management in Sensor Networks” tạm dịch là “kỷ thuật so khớp theo yêu cầu quản
lý phần mềm trong mạng cảm biến” [16] của Falko Dressler, Gerhard Fuchs,
Sebastien Truchat, Zheng Yao, Zengyu Lu, and Holger Marquardt, Autonomic
Networking Group, Department of Computer Science 7, University of Erlangen,
Martensstraße 3, 91058 Erlangen, Germany, 2007.
Đề tài là sự so sánh dựa trên đặc trưng của mạng cảm biến phục vụ cho
việc quản lý mạng cảm biến. Việc so sánh dựa trên đặc trưng, không chứa các
phân tích về mặt ngữ nghĩa.
 Đề tài “Road tracing by profile matching and Kalman filtering” tạm
dịch là “tìm đường bằng cách so khớp theo đặc trưng và lọc Kalman” [17] của
8

George Vosselman and Jurrien de Knecht, Delft University of Technology, The
Netherlands, 1995.
Đề tài là sự so khớp và loại trừ dựa vào đặc trưng để tìm đường, không
chứa các yếu tố phân tích về mặt ngữ nghĩa.
 Đề tài “Using Profle Matching and Text Categorization for Answer
Extraction in TREC Genomics” [18] tạm dịch “sử dụng so khớp hồ sơ và phân loại
văn bản trả lời cho khai thác trong TREC Genomics”, tác giả Haiqing Zheng và
cộng sự, Department of Computer Science and Engineering, Fudan Univerisity, 220

Handan Road, Shanghai 200433, China, 2006.
Đề tài thực hiện so khớp hồ sơ và phân loại văn bản phục vụ cho việc khai
khoáng trong TREC Genomics dựa vào các kỷ thuật Linear Least Squares Fit,
Logistic Regression, SVM.
 Bài báo “Text Categorization with Support Vector Machines:
Learning with Many Relevant Features” [22] tạm dịch “Phân loại văn bản dùng
Support Vector Manchines: Huấn luyện với nhiều tính năng liên quan” của tác
giả Thorsten Joachims, trường Đại học Dortmund, Đức.
Bài báo trình bày về việc sử dụng và cải tiến kỹ thuật Support Vector
Machines (SVM) cho việc học máy có hiệu quả trong việc phân loại văn bản.
 Bài báo “Text Categorization Based on Regulazired Linear
Classification Methods” [23] tạm dịch “Phân loại văn bản dựa trên phương
pháp phân loại tuyến tính chính quy” của nhóm tác giả Tong Zhang và Franks J.
Oles, Mathematical Sciences Department, IBM T.J. Watson Research Center,
NewYork.
Bài báo trình bày phương pháp phân loại văn bản tuyến tính dựa vào các
kỹ thuật Linear Least Squares Fit, Logistic Regression, SVM.
 Hầu hết các đề tài trên đều tập trung xử lý, chú trọng đến phần học
máy khá nhiều, các đề tài xử lý với ngôn ngữ tiếng nước ngoài. Do đó, để áp cho
tiếng Việt thì có thể có rất nhiều hạn chế.
9

Trong nước:
 Luận án tiến sĩ “Một mô hình tạo lớp học thích nghi trong đào tạo
điện tử” [1] của Nguyễn Việt Anh, khoa Công nghệ thông tin, trường Đại học
Công Nghệ, Đại học Quốc gia Hà Nội, 2009.
Luận án nghiên cứu, đề xuất cách tạo một mô hình khóa học E-Learning
hiệu quả, đáp ứng được yêu cầu của người học thông qua đặc điểm học tập. Với
mỗi người học, cùng một bài học nhưng hệ thống sẽ gợi ý để người học tìm hiểu
các khái niệm, thực hiện các nhiệm vụ khác nhau,… Luận án xây dựng mạng xác

xuất Bayes, đánh giá kiến thức người học, sử dụng cơ chế thích nghi để phân
tích, so sánh sự khác nhau về tiến trình học và nhiệm vụ của từng người học.
 Đề tài “Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong
tóm tắt văn bản” [5] của Hoàng Minh Hiền, khoa Công nghệ thông tin, trường
Đại học Công Nghệ, Đại học Quốc gia Hà Nội, 2008.
Đề tài thực hiện các phân tích và tính độ tương đồng giữa hai câu dựa
trên độ tương tự về mặt ngữ nghĩa sử dụng Hidden Topic và tương tự về thứ tự
của từ trong câu.
 Bài báo “Dynamic Profile Representation and Matching in
Distributed Science Networks” [25] tạm dịch “Biểu diễn và so sánh động hồ sơ
cá nhân trong các mạng khoa học” của tác giả Phạm Trần Vũ, Trường Đại học
Bách Khoa, Đại học Quốc gia TP.HCM, đăng trên Journal of Science and
Technology Development, Vol. 14, No. K2, 2011.
Bài báo đề cập tới phương pháp so trùng các hồ sơ dựa trên các phân tích
về mặt ngữ nghĩa (LSA). Các phương pháp này không cần sử dụng ontology,
nhưng vẫn có khả năng thực hiện các so sánh liên quan đến ngữ nghĩa, dựa vào
các phương pháp thống kê.
 Bài báo “Social-aware Document Similarity Compution for
Recommender System” [24] của tác giả Tran Vu Pham, Le Nguyen Thach,
10

Faculty of Computer Science and Engineering, Ho Chi Minh City University of
Technology, Ho Chi Minh City, Vietnam.
Bài báo nói về tính toán sự tương đồng trong văn bản dựa vào kỹ thuật
tính toán sự tương đồng qua 3 khía cạnh của văn bản: Content, Tag, User. Tác
giả nghiên cứu áp dụng kỹ thuật này để tính toán sự tương đồng của văn bản so
với dữ liệu mẫu đã được học máy trước đó.
 Đề tài “Phát triển thuật toán gom cụm văn bản HTML và ứng
dụng” [14] của tác giả Nguyễn Thế Quang.
Đề tài nghiên cứu các khái niệm toán học nền tảng về mô hình không

gian vector, mô hình Latent Semantic Indexing (LSI) được sử dụng để lập chỉ
mục, quản lý và truy xuất trên các tập văn bản lớn và thuật toán gom cụm.
 Các đề tài trên đều có những ưu điểm nhất định của nó, tuy nhiên
phạm vi xử lý của nó là khá rộng, do đó khó có thể đánh giá kết quả về độ chính
xác cũng như tính đồng nhất của kết quả.
1.2 Quy trình so khớp profile
Qua tìm hiểu nghiên cứu, tác giả rút ra quy trình so khớp chung cho các
profile như sau:
11
























Hình 1.1: Quy trình so khớp profile

P
1


Feature
Extraction
Input Document

w(a
1
)
w(a
2
)
w(a
3
)

w(a
n
)

Weight
Assignment
F
1

(w(a
1
))
F
1
(w(a
2
))
F
1
(w(a
3
))

F
1
(w(a
n
))

Similarity
Functions
P
2


Feature
Extraction
Input Document


w(a
1
)

w(a
2
)
w(a
3
)

w(a
n
)

Weight
Assignment
F
2
(w(a
1
))

F
2
(w(a
2
))
F
2

(w(a
3
))

F
2
(w(a
n
))

Similarity
Functions
TRAINING

Input
Documents
Attribute

Feature
Extraction






Learning
Algorithm
Result
Matching

l

12

Để tiến hành so khớp các profile, chúng ta sẽ thực hiện qua các bước như
sau:
Bước 1: Với mỗi thông tin trong profile cần so khớp, xây dựng bộ dữ liệu
đặc trưng thông qua quá trình huấn luyện bằng một thuật toán học máy, việc học
máy cho bộ dữ liệu học được tuyển chọn sau khi đã qua bước tiền xử lý. Xử lý
và thu thập được dữ liệu của quá trình học là các đặc trưng riêng biệt cho từng
thông tin cần so khớp.
Bước 2: Các profile cần so khớp được tiền xử lý, rút ra đặc trưng. Và với
mỗi thông tin cần so sánh chúng tôi kết hợp với đặc trưng được làm giàu trước
đó bởi Latent Dirichlet Allocation để có được kết quả là một số đo.
Bước 3: Từ tập kết quả tương ứng với từng thông tin trong profile cần so
khớp, chúng tôi dễ dàng có được kết quả so khớp cuối cùng giữa hai profile dựa
trên một phương pháp tính độ đo tương đồng.
Các phần xử lý của từng quá trình sẽ được trình bày chi tiết trong các
chương tiếp theo.

13

CHƯƠNG 2: MỘT SỐ KỸ THUẬT LIÊN QUAN TRONG XỬ
LÝ SO SÁNH ĐỘ TƯƠNG ĐỒNG

2.1 Cấu trúc hồ sơ cá nhân
Như đã trình bày ở chương 1, hồ sơ cá nhân là phần cơ bản và không thế
thiếu trong các hệ thống cung cấp thông tin, dịch vụ cho người sử dụng như hệ
thống thích nghi cá nhân, nó đã được nghiên cứu và ứng dụng nhiều vào các lĩnh
vực như: hệ thống tìm kiếm, hệ thống tư vấn, trong thương mại điện tử, trong

đào tạo trực tuyến. Tùy theo miền ứng dụng cụ thể mà hồ sơ cá nhân có những
cấu trúc riêng khác nhau.
Hồ sơ cá nhân cần lưu trữ những thông tin gì của người dùng? Các chuyên
gia trong các miền ứng dụng đã dựa trên kiến thức chuyên môn và kinh nghiệm
về lĩnh vực của họ để cho ra đời các cấu trúc hồ sơ cá nhân tổng quát của từng
miền ứng dụng, sau đây sẽ trình bày một số cấu trúc hồ sơ cá nhân như:
2.1.1 Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn của Montainer [19]
Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn thông tin được đề xuất bởi
Montainer. Montainer xem hồ sơ cá nhân như là sự đánh giá trong quá khứ (kinh
nghiệm) của người dùng về đối tượng mà người dùng quan tâm. Tùy trường hợp,
đối tượng người dùng quan tâm có thể là món hàng, tài liệu, tài nguyên, thông
tin. Hồ sơ cá nhân được chia thành hai phần:
 Một tập các đặc trưng mô tả về đối tượng mà người dùng quan tâm.
 Một tập các đặc trưng về sở thích mô tả sự quan tâm, sự đánh giá của
người dùng đối với các đối tượng mà họ quan tâm.
Ví dụ trong lĩnh vực nhà hàng tập các đặc trưng mà người dùng quan tâm
là: {tên nhà hàng, địa chỉ, cách nấu nướng, giá cả, số chỗ, máy điều hòa, v.v} Và
tập các đặc trưng về sở thích của người dùng đối với nhà hàng là: {đánh giá
14

chung, sự tương xứng giữa giá cả và chất lượng, số lượng món ăn, lượng người
vào website của nhà hàng, v.v}.
Những website bán hàng trực tuyến đã ứng dụng hồ sơ cá nhân nhằm giúp
hệ thống tư vấn tốt như: hệ thống tư vấn sách Amazon.com, hệ thống tư vấn
album nhạc CDNOW, hệ thống tư vấn mua sắm qua mạng eBay, hệ thống tư vấn
mua sắm quần áo Levis, hệ thống tư vấn phim ảnh Moviefinder.com, hệ thống tư
vấn phim ảnh Reel.com. Nếu chúng ta đã từng vào các website này để mua hàng
và cung cấp email liên lạc thì về sau chúng ta sẽ nhận được những lời quảng cáo
về các món hàng mới phù hợp với sở thích của chúng ta và có những nét giống
với món hàng chúng ta đã mua.

2.1.2 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực tuyến của
Brusilouvsky [20]
Lĩnh vực e - Learning lấy vai trò của người học làm trọng tâm và việc tự
học của người học quyết định lớn đến chất lượng đào tạo. Khác với hình thức
giáo dục cổ điển với bảng đen, phấn trắng và người thầy/ cô luôn bên cạnh học
sinh. Hệ thống e – Learning đôi khi khiến người học cảm thấy bơ vơ, mất
phương hướng. Do vậy, việc tư vấn của hệ thống là rất cần thiết, và để thực hiện
được việc tư vấn tốt cho từng người học, hệ thống cần phải biết rõ đặc trưng
riêng của từng người học, đó chính là nhu cầu cần thiết về hồ sơ cá nhân trong e
– Learning. Cấu trúc hồ sơ người học trực tuyến bao gồm các nhóm đặc trưng
về:
 Kiến thức (Knowledge): là kiến thức của người học về chủ đề đang
học, đây là thành phần quan trọng nhất của hồ sơ người học trực tuyến
và kiến thức có thể thay đổi theo chiều hướng tăng (tiếp thu) hoặc
giảm (quên) khi chuyển từ bài này sang bài khác hay trong cùng một
bài học.
 Sở thích/ mối quan tâm (Interests): được xem như là thành phần quan
trọng của hồ sơ cá nhân trong các hệ thống tìm kiếm thông tin, tinh
15

lọc thông tin. Trái lại, trong các hệ AHS thời điểm đầu thường không
chú trọng vào thành phần này mà chỉ chú trọng vào mục đích học tập.
Tuy nhiên khoảng vài năm gần đây, thành phần này được chú trọng
nhiều hơn và có khả năng cạnh tranh với thành phần knowledge để trở
thành thành phần quan trọng nhất.
 Mục tiêu (Goals/ Tasks): thể hiện mục đích tức thời của người dùng
cho một tác vụ trong hệ thống thích nghi. Cụ thể là thể hiện những gì
mà người dùng mong muốn đạt được. Tùy thuộc loại hệ thống, mục
đích có thể là mục tiêu của công việc (hệ thống ứng dụng), nhu cầu
thông tin tức thời (hệ thống tìm kiếm thông tin), mục tiêu học tập (hệ

thống đào tạo). Mục đích là đặc trưng dễ thay đổi nhất, đặc trưng này
luôn luôn thay đổi từ nội dung này sang nội dung khác và thậm chí
thay đổi vài lần trong một nội dung học.
 Kiến thức nền (Background): là tên gọi chung của một tập hợp các đặc
trưng liên quan đến kinh nghiệm trước đây của người dùng và những
đối tượng liên quan. Thành phần này trong các hệ thống web thích
nghi (adaptive web system) thường gồm: nghề nghiệp, trách nhiệm
công việc, kinh nghiệm làm việc trong lĩnh vực có liên quan và thậm
chí là quan điểm cụ thể trong phạm vi công tác. Thành phần này
thường là cố định trong suốt quá trình làm việc với hệ thống và cũng
khó suy ra bằng cách quan sát quá trình người dùng tương tác với hệ
thống.
 Những nét tiêu biểu của người dùng (Individual traits): là tên gọi
chung của những đặc trưng giúp hình dung ra từng cá thể, ví dụ đặc
trưng về nhân cách (hướng nội/ ngoại), cách nhận thức, cách học. Đây
là đặc trưng tĩnh, nghĩa là không thay đổi sau một thời gian dài, và
thậm chí không bao giờ thay đổi. Khác với background, đặc trưng này
có thể thu được qua những bài kiểm tra về tâm lý được thiết kế riêng.
16

2.1.3 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực tuyến của Lê
Đức Long và cộng sự [7]
Đây là mô hình mở rộng của mô hình hồ sơ cá nhân do Brusilouvsky đề
xuất. Nhóm nghiên cứu của Lê Đức Long và cộng sự dựa trên kinh nghiệm của
các chuyên gia sư phạm, các chuyên gia tâm lý đã đề xuất một cấu trúc chung
cho hồ sơ cá nhân người học trực tuyến, ứng dụng trong hệ thống đào tạo trực
tuyến thích nghi (Adaptive e – Learning System - AeLS) gồm bốn nhóm đặc
trưng chính: demographics, training experiences, self-study activities, learning
demands.





Hình 2.1: Cấu trúc tổng quát của Profile do Lê Đức Long đề xuất
 Demographics (nhân thân): nhóm này chứa thông tin về tiểu sử gia
đình và tình trạng bản thân như: mã số sinh viên, lý lịch và nơi làm
việc.
 Training experiences (kinh nghiệm học vấn): nhóm này chứa thông tin
về nền tảng kiến thức, kiến thức đã biết về chủ đề đang học và kiến
thức có thể biết hoặc có khả năng biết trước của người học về chủ đề
đó. Thành phần này nhằm hướng đến cung cấp một sự thích nghi dựa
trên mức độ nhận thức, khả năng lĩnh hội tri thức về bài học/ chủ đề
đang học của mỗi cá nhân người học. Nhóm này gồm các đặc trưng
như kiến thức nền, kiến thức đã biết, kiến thức về chủ đề.
 Self – study activities (hoạt động tự học): nhóm này chứa các thông
tin về đặc điểm cá nhân liên quan đến các hoạt động học tập (đặc biệt
Nhu cầu và
động cơ
Profile

Thông tin
nhân thân
Kinh nghiệm
học vấn
Hoạt động
tự học
17

là tự học) gồm các đặc trưng như thói quen học tập, mục tiêu học tập
và đặc điểm cá nhân.

 Learning demands (nhu cầu học tập): những đặc trưng của nhóm này
là cơ sở giúp cho hệ thống có thể cung cấp cho người học những tài
nguyên/ dịch vụ đáp ứng được mục đích hay yêu cầu của bản thân
người học và điều này sẽ giúp việc học tập trên mạng trở nên hấp dẫn
hơn, kích thích được động cơ học tập của cá nhân người học. Nhóm
này gồm các đặc trưng như: động cơ học tập, nhu cầu học tập và sở
thích.
2.1.4 Kết luận
Trong những vấn đề liên quan đến hồ sơ cá nhân được nêu trên, chúng ta
thấy có nhiều cấu trúc hồ sơ cá nhân được đề xuất cho những miền ứng dụng cụ
thể. Tuy vậy, trong một ứng dụng cụ thể nếu áp dụng máy móc cấu trúc hồ sơ cá
nhân tổng quát của một miền tương ứng sẽ không tránh khỏi tình trạng có những
đặc trưng không cần thiết. Việc lưu trữ, xử lý các thông tin dư thừa làm hao tốn
tài nguyên hệ thống trong quá trình hỗ trợ thích nghi người dùng.
Mặc khác, hiện nay vẫn chưa có nghiên cứu nào đề cập đến các phương
pháp chọn ra những thuộc tính hữu ích nhất, ngoài kinh nghiệm của các chuyên
gia. Các thuộc tính còn được chọn theo kinh nghiệm nên còn mang tính chủ quan
cao. Do vậy, bài toán đặt ra là cần tinh chỉnh cấu trúc tổng quát để tạo ra cấu trúc
hồ sơ cá nhân mới phù hợp với những hệ thống cụ thể.
Luận văn nhằm hướng đến việc xây dựng giải pháp biểu diễn hồ sơ cá nhân
người sử dụng từ các thông tin trên mạng xã hội để hỗ trợ so sánh mức độ tương
đồng giữa các hồ sơ cá nhân. Dựa trên đặc trưng hồ sơ cá nhân tổng quát, tác giả
sẽ tập trung nghiên cứu đề xuất những tiêu chí để đánh giá mức độ tương đồng
giữa các hồ sơ cá nhân. Chi tiết được trình bày chi tiết ở chương tiếp theo.
18

2.2 Xử lý thông tin profile
Thông tin profile có thể ở dạng văn bản, hình ảnh, âm thanh và ứng với
mỗi dạng thông tin khác nhau đó có các kỷ thuật xử lý cũng như phương pháp
khác nhau để chúng ta có được đặc trưng cần so sánh. Trong phạm vi luận văn

này, xử lý so sánh sự tương đồng giữa các profile mà dữ liệu ở dạng văn bản
tiếng Việt nên tác giả sẽ trình bày các kỷ thuật liên quan đến xử lý văn bản tiếng
Việt.
2.2.1 Đặc điểm của từ trong tiếng Việt
Tiếng Việt là ngôn ngữ đơn lập [4][14]. Đặc điểm này bao quát tiếng Việt
cả về mặt ngữ âm, ngữ nghĩa, ngữ pháp. Khác với các ngôn ngữ châu Âu, mỗi từ
là một nhóm các ký tự có nghĩa được cách nhau bởi một khoảng trắng. Tiếng
Việt và các ngôn ngữ đơn lập khác, thì khoảng trắng không phải là căn cứ để
nhận diện từ.
Tiếng trong tiếng Việt
 Trong tiếng Việt trước hết cần chú ý đến đơn vị xưa nay vẫn quen gọi là
tiếng, về mặt ngữ nghĩa, ngữ âm, ngữ pháp, đều có giá trị quan trọng.
 Sử dụng tiếng để tạo từ có hai trường hợp:
 Trường hợp một tiếng: đây là trường hợp một tiếng được dùng làm một
từ, gọi là từ đơn. Tuy nhiên, không phải tiếng nào cũng tạo thành một từ.
 Trường hợp hai tiếng trở lên: đây là trường hợp hai hay nhiều tiếng kết
hợp với nhau, cả khối kết hợp với nhau gắn bó tương đối chặt chẽ, mới
có tư cách ngữ pháp là một từ, đây là trường hợp từ ghép hay từ phức.
Từ trong tiếng Việt
Có rất nhiều quan niệm về từ trong tiếng Việt, từ nhiều quan niệm về từ
tiếng Việt khác nhau đó chúng ta có thể thấy đặc trưng cơ bản của "từ" là sự
hoàn chỉnh về mặt nội dung, từ là đơn vị nhỏ nhất để đặt câu.

×