Tải bản đầy đủ (.pdf) (37 trang)

giải pháp biểu diễn và so sánh mức độ tương đồng giữa các hồ sơ cá nhân trên mạng xã hội ( tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (879.29 KB, 37 trang )




GIẢI PHÁP BIỂU DIỄN VÀ SO SÁNH MỨC
ĐỘ TƢƠNG ĐỒNG GIỮA CÁC HỒ SƠ CÁ
NHÂN TRÊN MẠNG XÃ HỘI



GVHD: TS. Phạm Trần Vũ



HVTH: Đỗ Quốc Bảo






Kết quả thực nghiệm, đánh giá
4
Nội dung
Đặt vấn đề, lý do, tổng quan, mục tiêu
1
Giới thiệu hồ sơ cá nhân, so sánh độ tương đồng
2
Quy trình thực hiện
3
Kết luận, hướng phát triển
5


Slide 1
 Từ sự thành công và phát triển của các mạng xã
hội như: Facebook, Linkedin, Youtube
 Cộng đồng online này đã tạo ra số lượng lớn các
tài liệu số trên web
 Cộng đồng này thuộc đa ngành nghề và cách trở
về mặt địa lý

Đặt vấn đề
3
Slide 2

 Việc tìm những người có cùng sở thích, cùng mối
quan tâm là không dễ dàng
 Nhu cầu giao lưu, giải trí, kết bạn là khá lớn và
thiết thực trong đời sống xã hội hiện tại
 Các hệ thống thông minh cung cấp các thông tin,
dịch vụ phù hợp nhất cho con người là xu hướng
của xã hội hiện đại


Đặt vấn đề - lý do
4
Slide 3
 Thế giới
• “Using Profile Matching and Text Categorization for
Answer Extraction in TREC Genomics”, Haiqing
Zheng và cộng sự, Department of Computer Science
and Engineering, Fudan Univerisity, China.


Linear Least Squares Fit, Logistic Regression, SVM.

Đặt vấn đề - tổng quan
5
Slide 4

 Thế giới
• “Profile-Matching Techniques for On-Demand
Software Management in Sensor Networks”, Falko
Dressler và cộng sự, Department of Computer
Science, University of Erlangen, Germany.

Học máy tạo bộ dữ liệu đặc trưng mẫu


Đặt vấn đề - tổng quan
6
Slide 5
 Trong nước
• “Một mô hình tạo lớp học thích nghi trong đào tạo
điện tử”, Nguyễn Việt Anh, khoa Công nghệ thông
tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà
Nội.
Sử dụng mạng xác suất Bayes, đánh giá kiến thức
người học, sử dụng cơ chế thích nghi để phân tích, so
sánh sự khác nhau về tiến trình học.
Đặt vấn đề - tổng quan
7
Slide 6



 Trong nước
• “Dynamic Profile Representation and Matching in
Distributed Science Networks”, Phạm Trần Vũ,
Trường Đại học Bách Khoa, Đại học Quốc gia
TP.HCM.
So trùng các hồ sơ dựa trên các phân tích về mặt
ngữ nghĩa (LSA), có khả năng thực hiện các so sánh
liên quan đến ngữ nghĩa, dựa vào các phương pháp
thống kê.


Đặt vấn đề - tổng quan
8
Slide 7
 Với mục tiêu:
• Xây dựng giải pháp biểu diễn hồ sơ cá nhân người sử
dụng từ các thông tin trên mạng xã hội.
• Xây dựng giải pháp đánh giá mức độ tương đồng giữa
các hồ sơ cá nhân.



Đặt vấn đề - mục tiêu
9
Slide 8
 Hồ sơ cá nhân là một tập hợp gồm những thông tin
của một cá nhân. Tùy theo lĩnh vực ứng dụng cụ thể,
hồ sơ cá nhân sẽ có những thông tin khác nhau phù
hợp cho miền ứng dụng đó, chẳng hạn:

• Hồ sơ cá nhân trong hệ thống bán hàng qua mạng
• Hồ sơ cá nhân trong hệ thống e - Learning


Giới thiệu hồ sơ cá nhân
10
Slide 9

 Để xây dựng được hồ sơ cá nhân tốt cho hệ thống thì
cần phải xác định được những đặc trưng nào của
người dùng sẽ cần thiết, hữu ích cho hệ thống. Chẳng
hạn:
• Trong e- Commerce, các đặc trưng của hồ sơ cá nhân
về sở thích là quan trọng nhất
• Trong e-Learning thì các đặc trưng liên quan đến trình
độ học tập, kiến thức nền mới là quan trọng nhất

Giới thiệu hồ sơ cá nhân
11
Slide 10
 Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn của
Montainer, chia làm hai phần:
• Một tập các đặc trưng mô tả về đối tượng mà người
dùng quan tâm.
• Một tập các đặc trưng về sở thích, mô tả sự quan tâm,
sự đánh giá của người dùng đối với các đối tượng mà
họ quan tâm.

Cấu trúc hồ sơ cá nhân Montainer
12

Slide 11
Slide 12
 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực
tuyến của Brusilouvsky, bao gồm:
• Kiến thức (Knowledge):
• Sở thích/ mối quan tâm (Interests):
• Mục tiêu (Goals/ Tasks):
• Kiến thức nền (Background):
• Những nét tiêu biểu của người dùng hệ thống
(Individual traits)
Cấu trúc hồ sơ cá nhân Brusilouvsky
13
 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực
tuyến của Lê Đức Long và cộng sự






Cấu trúc hồ sơ cá nhân Lê Đức Long
14
Slide 13

 Qua nghiên cứu tìm hiểu, tác giả đề xuất một mô hình
cấu trúc hồ sơ cá nhân









Cấu trúc hồ sơ cá nhân tác giả đề xuất
15
Slide 14

• Trong toán học, một độ đo là một hàm số tương ứng với
một "chiều dài", một "thể tích" hoặc một "xác suất" với
một phần nào đó của một tập hợp cho sẵn.
• Rất khó để đo sự tương đồng, sự tương đồng là một đại
lượng (con số) phản ánh cường độ của mối quan hệ giữa
hai đối tượng hoặc hai đặc trưng. Đại lượng này thường
ở trong phạm vi từ -1 đến 1 hoặc 0 đến 1.
• Ví dụ: Hàm S(d
i
,d
j
) được gọi là độ đo sự tương đồng
giữa 2 văn bản d
i
và d
j
.

Giới thiệu độ tƣơng đồng
16
Slide 15


 Các phương pháp tính độ tương đồng
• Phương pháp sử dụng các tập dữ liệu chuẩn về ngôn
ngữ để tìm ra mối quan hệ giữa các từ: Wordnet,
Brown Corpus, Penn TreeBank…
• Tính độ tương đồng sử dụng độ đo Cosine
• Tính độ tương đồng dựa vào độ đo khoảng cách
Euclide
• Tính độ tương đồng dựa vào độ đo khoảng cách
Mahattan

Các phƣơng pháp tính độ tƣơng đồng
17
Slide 16










 Sử dụng độ đo Cosine, tuy nhiên Cosine tính toán hạn
chế khi cần xét đến yếu tố ngữ nghĩa, hay ngữ nghĩa
tương tự được bỏ qua trong tính toán Cosine.
 Do đó, sử dụng kết hợp với phân tích chủ đề ẩn Latent
Dirichlet Allocation (LDA), phương án được đánh giá
khả thi và hiệu quả, tập trung vào việc bổ sung các thành
phần ngữ nghĩa hỗ trợ cho độ đo tương đồng Cosine.













Phƣơng pháp tính độ tƣơng đồng đƣợc chọn
18
Slide 17
 Qua tìm hiểu nghiên cứu, tác giả rút ra quy trình so
sánh mức độ tương đồng cho các hồ sơ cá nhân:






Quy trình so sánh hồ sơ cá nhân
19
Slide 18







Quy trình so sánh hồ sơ cá nhân
20
Slide 19













Quy trình so sánh hồ sơ cá nhân
21
Slide 20

 Thu thập dữ liệu hồ sơ cá nhân










Quy trình chi tiết – thu thập profile
22
Slide 21
 Các bước tiền xử lý








Quy trình chi tiết – các bƣớc tiền xử lý
Hồ sơ cá nhân
Tách từ
Bỏ dấu câu,
stopword
Đặc trưng
Từ điển TV
Từ điển
stopword
23
Slide 22







 Tách từ: Tiếng Việt khác các ngôn ngữ khác, tách từ
không dựa vào khoảng trắng như tiếng Anh. Một số
phương pháp tách từ tiếng Việt:
• Maximum Matching (MM)
• Transformation – based Learning (TBL)
• Weight Finit State Transducer và mạng Neural (WFST)
• Thống kê từ Internet và thuật giải di truyền







Quy trình chi tiết – các bƣớc tiền xử lý

24
Slide 23








 Phương pháp tách từ được chọn: Công cụ Jvntokenizer
(phương pháp MM với tập dữ liệu sử dụng là bảng âm
tiết tiếng Việt và từ điển từ vựng tiếng Việt)

• Mã nguồn mở, dễ cài đặt, sửa đổi nâng cấp cho ph
hợp với hệ thống.
• Độ chnh xác cao (>97% theo đánh giá của tác giả,
thuộc nhánh đề tài “Xử lý văn bản tiếng Việt”, GS. Hồ
Tú Bảo chủ trì)









Quy trình chi tiết – các bƣớc tiền xử lý
25
Slide 24

×