GIẢI PHÁP BIỂU DIỄN VÀ SO SÁNH MỨC
ĐỘ TƢƠNG ĐỒNG GIỮA CÁC HỒ SƠ CÁ
NHÂN TRÊN MẠNG XÃ HỘI
GVHD: TS. Phạm Trần Vũ
HVTH: Đỗ Quốc Bảo
Kết quả thực nghiệm, đánh giá
4
Nội dung
Đặt vấn đề, lý do, tổng quan, mục tiêu
1
Giới thiệu hồ sơ cá nhân, so sánh độ tương đồng
2
Quy trình thực hiện
3
Kết luận, hướng phát triển
5
Slide 1
Từ sự thành công và phát triển của các mạng xã
hội như: Facebook, Linkedin, Youtube
Cộng đồng online này đã tạo ra số lượng lớn các
tài liệu số trên web
Cộng đồng này thuộc đa ngành nghề và cách trở
về mặt địa lý
Đặt vấn đề
3
Slide 2
Việc tìm những người có cùng sở thích, cùng mối
quan tâm là không dễ dàng
Nhu cầu giao lưu, giải trí, kết bạn là khá lớn và
thiết thực trong đời sống xã hội hiện tại
Các hệ thống thông minh cung cấp các thông tin,
dịch vụ phù hợp nhất cho con người là xu hướng
của xã hội hiện đại
Đặt vấn đề - lý do
4
Slide 3
Thế giới
• “Using Profile Matching and Text Categorization for
Answer Extraction in TREC Genomics”, Haiqing
Zheng và cộng sự, Department of Computer Science
and Engineering, Fudan Univerisity, China.
Linear Least Squares Fit, Logistic Regression, SVM.
Đặt vấn đề - tổng quan
5
Slide 4
Thế giới
• “Profile-Matching Techniques for On-Demand
Software Management in Sensor Networks”, Falko
Dressler và cộng sự, Department of Computer
Science, University of Erlangen, Germany.
Học máy tạo bộ dữ liệu đặc trưng mẫu
Đặt vấn đề - tổng quan
6
Slide 5
Trong nước
• “Một mô hình tạo lớp học thích nghi trong đào tạo
điện tử”, Nguyễn Việt Anh, khoa Công nghệ thông
tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà
Nội.
Sử dụng mạng xác suất Bayes, đánh giá kiến thức
người học, sử dụng cơ chế thích nghi để phân tích, so
sánh sự khác nhau về tiến trình học.
Đặt vấn đề - tổng quan
7
Slide 6
Trong nước
• “Dynamic Profile Representation and Matching in
Distributed Science Networks”, Phạm Trần Vũ,
Trường Đại học Bách Khoa, Đại học Quốc gia
TP.HCM.
So trùng các hồ sơ dựa trên các phân tích về mặt
ngữ nghĩa (LSA), có khả năng thực hiện các so sánh
liên quan đến ngữ nghĩa, dựa vào các phương pháp
thống kê.
Đặt vấn đề - tổng quan
8
Slide 7
Với mục tiêu:
• Xây dựng giải pháp biểu diễn hồ sơ cá nhân người sử
dụng từ các thông tin trên mạng xã hội.
• Xây dựng giải pháp đánh giá mức độ tương đồng giữa
các hồ sơ cá nhân.
Đặt vấn đề - mục tiêu
9
Slide 8
Hồ sơ cá nhân là một tập hợp gồm những thông tin
của một cá nhân. Tùy theo lĩnh vực ứng dụng cụ thể,
hồ sơ cá nhân sẽ có những thông tin khác nhau phù
hợp cho miền ứng dụng đó, chẳng hạn:
• Hồ sơ cá nhân trong hệ thống bán hàng qua mạng
• Hồ sơ cá nhân trong hệ thống e - Learning
Giới thiệu hồ sơ cá nhân
10
Slide 9
Để xây dựng được hồ sơ cá nhân tốt cho hệ thống thì
cần phải xác định được những đặc trưng nào của
người dùng sẽ cần thiết, hữu ích cho hệ thống. Chẳng
hạn:
• Trong e- Commerce, các đặc trưng của hồ sơ cá nhân
về sở thích là quan trọng nhất
• Trong e-Learning thì các đặc trưng liên quan đến trình
độ học tập, kiến thức nền mới là quan trọng nhất
Giới thiệu hồ sơ cá nhân
11
Slide 10
Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn của
Montainer, chia làm hai phần:
• Một tập các đặc trưng mô tả về đối tượng mà người
dùng quan tâm.
• Một tập các đặc trưng về sở thích, mô tả sự quan tâm,
sự đánh giá của người dùng đối với các đối tượng mà
họ quan tâm.
Cấu trúc hồ sơ cá nhân Montainer
12
Slide 11
Slide 12
Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực
tuyến của Brusilouvsky, bao gồm:
• Kiến thức (Knowledge):
• Sở thích/ mối quan tâm (Interests):
• Mục tiêu (Goals/ Tasks):
• Kiến thức nền (Background):
• Những nét tiêu biểu của người dùng hệ thống
(Individual traits)
Cấu trúc hồ sơ cá nhân Brusilouvsky
13
Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực
tuyến của Lê Đức Long và cộng sự
Cấu trúc hồ sơ cá nhân Lê Đức Long
14
Slide 13
Qua nghiên cứu tìm hiểu, tác giả đề xuất một mô hình
cấu trúc hồ sơ cá nhân
Cấu trúc hồ sơ cá nhân tác giả đề xuất
15
Slide 14
• Trong toán học, một độ đo là một hàm số tương ứng với
một "chiều dài", một "thể tích" hoặc một "xác suất" với
một phần nào đó của một tập hợp cho sẵn.
• Rất khó để đo sự tương đồng, sự tương đồng là một đại
lượng (con số) phản ánh cường độ của mối quan hệ giữa
hai đối tượng hoặc hai đặc trưng. Đại lượng này thường
ở trong phạm vi từ -1 đến 1 hoặc 0 đến 1.
• Ví dụ: Hàm S(d
i
,d
j
) được gọi là độ đo sự tương đồng
giữa 2 văn bản d
i
và d
j
.
Giới thiệu độ tƣơng đồng
16
Slide 15
Các phương pháp tính độ tương đồng
• Phương pháp sử dụng các tập dữ liệu chuẩn về ngôn
ngữ để tìm ra mối quan hệ giữa các từ: Wordnet,
Brown Corpus, Penn TreeBank…
• Tính độ tương đồng sử dụng độ đo Cosine
• Tính độ tương đồng dựa vào độ đo khoảng cách
Euclide
• Tính độ tương đồng dựa vào độ đo khoảng cách
Mahattan
Các phƣơng pháp tính độ tƣơng đồng
17
Slide 16
Sử dụng độ đo Cosine, tuy nhiên Cosine tính toán hạn
chế khi cần xét đến yếu tố ngữ nghĩa, hay ngữ nghĩa
tương tự được bỏ qua trong tính toán Cosine.
Do đó, sử dụng kết hợp với phân tích chủ đề ẩn Latent
Dirichlet Allocation (LDA), phương án được đánh giá
khả thi và hiệu quả, tập trung vào việc bổ sung các thành
phần ngữ nghĩa hỗ trợ cho độ đo tương đồng Cosine.
Phƣơng pháp tính độ tƣơng đồng đƣợc chọn
18
Slide 17
Qua tìm hiểu nghiên cứu, tác giả rút ra quy trình so
sánh mức độ tương đồng cho các hồ sơ cá nhân:
Quy trình so sánh hồ sơ cá nhân
19
Slide 18
Quy trình so sánh hồ sơ cá nhân
20
Slide 19
Quy trình so sánh hồ sơ cá nhân
21
Slide 20
Thu thập dữ liệu hồ sơ cá nhân
Quy trình chi tiết – thu thập profile
22
Slide 21
Các bước tiền xử lý
Quy trình chi tiết – các bƣớc tiền xử lý
Hồ sơ cá nhân
Tách từ
Bỏ dấu câu,
stopword
Đặc trưng
Từ điển TV
Từ điển
stopword
23
Slide 22
Tách từ: Tiếng Việt khác các ngôn ngữ khác, tách từ
không dựa vào khoảng trắng như tiếng Anh. Một số
phương pháp tách từ tiếng Việt:
• Maximum Matching (MM)
• Transformation – based Learning (TBL)
• Weight Finit State Transducer và mạng Neural (WFST)
• Thống kê từ Internet và thuật giải di truyền
Quy trình chi tiết – các bƣớc tiền xử lý
24
Slide 23
Phương pháp tách từ được chọn: Công cụ Jvntokenizer
(phương pháp MM với tập dữ liệu sử dụng là bảng âm
tiết tiếng Việt và từ điển từ vựng tiếng Việt)
• Mã nguồn mở, dễ cài đặt, sửa đổi nâng cấp cho ph
hợp với hệ thống.
• Độ chnh xác cao (>97% theo đánh giá của tác giả,
thuộc nhánh đề tài “Xử lý văn bản tiếng Việt”, GS. Hồ
Tú Bảo chủ trì)
Quy trình chi tiết – các bƣớc tiền xử lý
25
Slide 24