Tải bản đầy đủ (.pdf) (51 trang)

xây dựng thương hiệu cá nhân hệ thống khuyến nghị việc làm thông minh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 51 trang )

ĐẠI HỌC UEH
TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ
KHOA CÔNG NGHỆ THƠNG TIN KINH DOANH

TIỂU LUẬN KẾT THÚC HỌC PHẦN
Bộ mơn: Kiến trúc hệ thống

Xây dựng thương hiệu cá nhân & hệ thống
khuyến nghị việc làm thông minh
Mã lớp học phần: 22D1INF50900401
Giáo viên hướng dẫn: TS. Võ Hà Quang Định
Nhóm sinh viên thực hiện: Nhóm 10 – Lớp BI001
Trần Minh Châu

MSSV: 31201023799

Trần Ngọc Bảo Hân

MSSV: 31201020266

Bùi Thị Thanh Hương

MSSV: 31201023855

Đặng Thị Kim Ngân

MSSV: 31201020589

Lê Ngọc Như Quỳnh

MSSV: 31201020849




LỜI CẢM ƠN
Hồn thành bài thi kết thúc mơn, nhóm chúng em xin chân thành cảm ơn
thầy Võ Hà Quang Định – giảng viên bộ môn Kiến Trúc Hệ Thống, đã tận tình
hướng dẫn và giảng dạy chúng em tận tình trong suốt học phần, ngồi chương trình
học thì thầy đã tận tâm chia sẻ các kiến thức, kinh nghiệm, câu chuyện giúp chúng
em định hướng rõ hơn cũng như có thêm động lực để học tập. Cuối cùng, một lần
nữa chúng em xin gửi lời cảm ơn đến thầy, kính chúc thầy thật nhiều sức khoẻ.

Mục Lụ

1


CHƯƠNG 1: MỞ ĐẦU...........................................................................................4
1. Đặt vấn đề.............................................................................................................. 4
2. Mục tiêu nghiên cứu..............................................................................................5
CHƯƠNG 2: NỘI DUNG......................................................................................7
1. Các hệ thống khuyến nghị truyền thống................................................................7
1.1 Hệ thống khuyến nghị dựa vào lọc cộng tác.................................................7
1.2 Hê L
thống khuyến nghị dựa trên nô iLdung....................................................13
1.3 Hệ thống khuyến nghị dựa trên tri thức......................................................22
2. Hệ thống khuyến nghị kết hợp giữa lọc dựa trên nội dung và lọc dựa trên tri thức
................................................................................................................................. 28
2.1 Đặt vấn đề...................................................................................................28
2.2 Các vấn đề được giải quyết trong hệ thống khuyến nghị kết hợp................28
2.3 Tổng quan quy trình đề xuất trong hệ thống khuyến nghị kết hợp..............29
3. Kiến trúc đề xuất của hệ thống khuyến nghị việc làm thông minh......................30

3.1 Competency Construction (Xây dựng năng lực).........................................32
3.2 Thương hiệu cá nhân...................................................................................38
3.3 Xây dựng profile......................................................................................... 44
3.4 Kiến trúc hệ thống khuyến nghị việc làm thông minh.................................45
CHƯƠNG 3: KẾT LUẬN.....................................................................................48
TÀI LIỆU THAM KHẢO.....................................................................................49

DANH MC HNH N

2


Hình 1.1 Minh họa phương pháp lọc cộng tác..........................................................8
Hình 1.2 Các giai đoạn xây dựng hH sơ sản phIm và hH sơ người dùng.................15
Hình 1.3 Minh họa phương pháp lọc dựa trên nơiKdung..........................................16
Hình 1.4 Quy trình xử lM cNa hêthống
K
khuyến nghị dựa trên nơ iKdung...................18
Hình 1.5 Trang web đề xuQt nhà hàng entree..........................................................24
Hình 1.6 Trang web đề xuQt nhà hàng entree..........................................................25
Hình 1.7 Trang web đề xuQt nhà hàng entree..........................................................25
Hình 1.8 cổng thơng tin thương mại điện tử recommender.com..............................26
Hình 1.9 Cổng thơng tin thương mại điện tử recommender.com.............................27
Hình 1.10 Cổng thơng tin thương mại điện tử recommender.com...........................27
Hình 1.11 Cổng thơng tin thương mại điện tử recommender.com............................28
Hình 3.1 C ác yếu tố trong kiến trúc cNa hê Kthống đề xuQt ----------------------------------- 32
Hình 3.2 Minh họa về sự khác nhau cNa tY trong các ngữ cảnh ---------------------- 35
Hình 3.3 Minh họa bigram ---------------------------------------------------------------------------------------------------- 36
Hình 3.4 Minh họa trigram --------------------------------------------------------------------------------------------------- 36
Hình 3.5 Thang đo bloom ------------------------------------------------------------------------------------------------------- 37

Hình 3.6 Sự phù h[p giữa năng lực và quảng cáo viê cKlàm --------------------------------38
Hình 3.7 P hương pháp luận để xây dựng năng lực --------------------------------------------------- 39
Hình 3.8 Q uá trình tạo nên thương hiệu cá nhân -------------------------------------------------------42
Hình 3.9 Mã giả xây dựng thương hiệu cá nhân ---------------------------------------------------------43
Hình 3.10 K iến trúc cNa hê K
thống khuyến nghị kết h[p -----------------------------------------47
Hình 3.11 Q trình lựa chọn những lời mời cơng viê cK-----------------------------------------48

3


DANH M^C BẢNG BI`U
Bảng 1.1 Ví dụ ma trận Người dùng – Sản phIm---------------------------------------------------------------- 9
Bảng 3.1 Bảng ma trận giữa các môn học, chứng chỉ với năng lực------------------------------ 43
Bảng 3.2 Bảng logic (truth table---------------------------------------------------------------------------------------------- 44

4


CHƯƠNG 1: MỞ ĐẦU
1. Đặt vấn đề
Khi thị trường lao động ngày trở nên càng cạnh tranh, mỗi sinh viên, hay các
trường đại học điều có chung một mối quan tâm đó chính là liệu chương trình đào
tạo có đủ đáp ứng các tiêu chuẩn của ngành nghề tương ứng trong thực tế hay
không, năng lực của các cử nhân có thực sự phù hợp với cơng việc đang hướng đến
cũng như hiện có hay khơng. Nhìn chung thì có thể thấy rằng một trong những thử
thách lớn nhất mà các trường đại học phải giải quyết là chú trọng hỗ trợ sinh viên
trang bị đủ kỹ năng, kiến thức thơng qua chương trình đào tạo, có được cơng việc
phù hợp với bản thân và đáp ứng được các yêu cầu của cơng việc ngồi thực tế.
Mặc dù các trường đại học đang cố gắng thu nhỏ khoảng cách giữa chương trình

học thuật và thị trường lao động, thì có vấn đề khác mang tính cấp thiết hơn là xác
định được đúng người, đúng cơng việc.
Các nhà tuyển dụng thì ln ra sức tìm kiếm các ứng viên, cử nhân tài năng,
cịn các trường đại học thì ln hướng đến việc phát triển các sinh viên, đặc biệt là
thương hiệu cá nhân. Tuy nhiên, hiện tại một số vấn đề cần giải quyết vẫn còn tồn
tại. Theo một số ý kiến cho thấy giữa các yêu cầu của công việc, chương trình đào
tạo, profile cá nhân của các cử nhân vẫn chưa thực sự hoà hợp, phù hợp với nhau,
điều này dẫn đến tình trạng khả năng cá nhân chưa được tận dụng hiệu quả vì làm
cơng việc khơng phù hợp hay khó khăn cho các nhà tuyển dụng trong q trình tìm
kiếm ứng viên phù hợp với vị trí cần tuyển. Nhận thấy được các vấn đề trên, một số
nghiên cứu đã được tiến hành tại LATAM nhằm phân tích sâu hơn để tìm ra cách
khắc phục sự khơng phù hợp giữa người lao động và công việc.
Tại LATAM, dù tỉ lệ phần trăm sinh viên tốt nghiệp bậc đại học cho thấy sự
cải thiện đáng kể với mức tăng trung bình là 40%, nhưng đâu đó các vấn đề khơng
phù hợp với nghề nghiệp vẫn cịn đang tiếp diyn, cụ thể hơn là sự khơng tương thích
giữa kỹ năng và các u cầu của cơng việc đó. Và theo Tổ chức lao động quốc tế,
vấn đề trên là đến từ nhiều nguyên nhân khác nhau, một trong số đó là việc quản lý
5


luồng thông tin, nơi được cho là bất cân xứng về thơng tin giữa những người tìm
việc, cung cấp việc làm và các tổ chức cung cấp giáo dục như trường đại học
(ECLAC-ILO, 2019). Ngồi ra, sự khơng tương thích giữa chương trình đào tạo của
các trường đại học và những yêu cầu của công việc từ các doanh nghiệp đã dẫn đến
25.4% vấn đề không phù hợp với công việc.
Mặt khác, với quá trình tuyển dụng của cả khu vực cơng và tư thì việc tuyển
dụng được hoạt động như cách truyền thống, tìm kiếm các cử nhân tiềm năng thơng
qua việc phân tích CV bằng cách xem xét các năng lực của cử nhân và yêu cầu của
công việc. Và đối với phương pháp này, người tuyển dụng không thể nắm bắt được
đầy đủ năng lực kỹ thuật, chuyên môn và năng lực công nghệ thông tin, cũng như

tình trạng phát triển của sinh viên tốt nghiệp đại học, ngay cả khi họ thừa năng lực
làm việc so với yêu cầu.
Như chúng ta cũng đã biết, nếu kỹ năng, năng lực khơng phù hợp với cơng
việc thì sẽ dẫn đến tình trạng làm giảm đi hiệu quả, sự thỏa mãn trong công việc ở
cả người tuyển dụng, đồng thời nó cũng sẽ làm tăng tỷ lệ thay đổi nhân sự, tăng chi
phí ẩn của doanh nghiệp, khó khăn trong việc triển khai phát triển công nghệ mới,
sản phẩm và dịch vụ. (ILO).
Do đó, để giải quyết vấn đề này thì cần dựa trên trí tuệ nhân tạo để xây dựng
nên định hướng nghề nghiệp cũng như hệ thống thơng tin thị trường lao động nhằm
để giảm chi phí tìm kiếm cơng việc và cải thiện tình trạng có công việc không phù
hợp của người lao động.

2. Mục tiêu nghiên cứu


Đề xuất kiến trúc hệ thống khuyến nghị việc làm thông minh dựa

trên thương hiệu cá nhân giúp các sinh viên tìm được cơng việc phù hợp và
hỗ trợ các phịng ban nhân sự trong quy trình tuyển dụng người lao động
thích hợp.


Xây dựng thương hiệu cá nhân dựa trên nội dung chương trình đào

tạo và sự hài lịng của các cử nhân.
6





Cung cấp khung lý thuyết để giúp các sinh viên, cử nhân tiến đến

sự thành công trong nghề nghiệp chuyên môn, giúp các trường đại học đạt
được sự thành công trong tính cá nhân hố cho sinh viên, đồng thời giúp tối
ưu và cải thiện chất lượng trong chương trình đào tạo.

7


CHƯƠNG 2: NỘI DUNG

1.

Các hệ thống khuyến nghị truyền thống

1.1 Hệ thống khuyến nghị dựa vào lọc cộng tác
1.1.1 Định nghĩa
“Lọc cộng tác là kỹ thuật sử dụng các sở thích cá nhân của người dùng để đưa
ra những gợi ý.”Hệ thống khuyến nghị dựa vào lọc cộng tác sẽ phân tích dữ liệu
người dùng để tìm ra mối tương quan (sự liên quan, điểm tương đồng) giữa các đối
tượng người dùng. Sau đó, hệ thống sẽ dựa trên những sở thích của người dùng này
để dự đốn những sản phẩm, dịch vụ, nội dung mà người dùng khác trong nhóm có
thể thích. Lấy ví dụ, A thích xe đạp màu đỏ và B cũng thích xe đạp màu đỏ thì A và
B có điểm tương đồng nên được xếp vào một nhóm. Trong phương pháp này, hệ
thống sẽ so sánh, tính tốn độ tương đồng giữa những người dùng (users) hay món
hàng (items), từ đó người dùng sẽ được gợi ý những sản phẩm thích hợp và được ưa
chuộng bởi những người dùng khác có cùng sở thích. Lấy ví dụ, để có thể gợi ý một
loại trái cây cho chị H, hệ thống lọc cộng tác sẽ tìm những người dùng khác có cùng
sở thích ăn trái cây với chị H, cụ thể ở đây là anh A có cùng sở thích ăn chuối với
chị H. Từ đó hệ thống sẽ xác định được chị H và anh A có cùng sở thích, anh A

cũng thích quả lê vậy nên hệ thống sẽ đề xuất quả lê cho chị H vì khả năng cao chị
H cũng sẽ thích quả lê.(Nguyyn Thị Phượng, 2016)

Hình 1.1 Minh họa phương pháp lọc cộng tác
8


Lọc cộng tác hoạt động bằng cách xây dựng một cơ sở dữ liệu, lưu trữ dưới
dạng ma trận Người dùng - Sản phẩm (Users – Items). Với phương pháp này, đầu
vào chính là sở thích của người dùng và nó thể hiện những dữ kiện lịch sử, những
hành vi trong quá khứ. Trong hệ thống khuyến nghị, hàng (rows) dùng để thể hiện
cho người dùng và columns (cột) thể hiện những sản phẩm mà người dùng lựa
chọn, giá trị mỗi ô là đánh giá của người dùng lên sản phẩm đó.
“Đối với những hệ thống khác nhau thì đánh giá cNa người dùng cũng đư[c
quy ước những giá trị khác nhau, tùy vào mỗi hệ thống. Trong ví dụ này, các đánh
giá có giá trị tY 1 tới 5.
Bảng 1.1 Ví dụ ma trận Người dùng – Sản phIm

Người dùng

Sản phẩm

Sản phẩm

Sản phẩm

1

2


3

4

2

0

1

5

4

0

0

3

1
Người dùng
2
Người dùng
3
Ở ví dụ ma trận trên, người dùng 1 đánh giá sản phẩm 1 là 4, sản phẩm 2 là 2,
sản phẩm 3 chưa được đánh giá. Ma trận trên còn khá nhiều chỗ trống (ma trận
thưa) tức được điền 0 và công việc của hệ thống lọc cộng tác là phải điền vào những
chỗ trống đó. Nghĩa là hệ thống phải đưa ra dự đoán người dùng 1 đánh giá sản
phẩm 3 là bao nhiêu và người dùng 3 đánh giá sản phẩm 1, 2 là bao nhiêu. Sau đó,

hệ thống sẽ sắp xếp kết quả dự đốn (ví dụ từ cao xuống thấp) và chọn ra Top-N sản
phẩm theo thứ tự, cuối cùng là gợi ý chúng cho người dùng.”

9


1.1.2 Phân loại
Phương pháp lọc cộng tác có 2 dạng chính: lọc cộng tác dựa trên bộ nhớ
(Memory-based) và lọc cộng tác dựa trên mơ hình (Model-based).
1.1.2.1

Lọc cộng tác dựa trên bộ nhớ

Phương pháp lọc cộng tác dựa trên bộ nhớ hay còn được gọi là phương pháp
lọc cộng tác dựa trên láng giềng (Neighborhood-based collaborative filtering) là
phương pháp dự đoán các sản phẩm dựa trên sự tương quan giữa những người dùng
láng giềng hoặc sản phẩm láng giềng, nghĩa là những người dùng có sở thích tương
tự hay những sản phẩm có điểm tương đồng. Phương pháp này đưa ra dự đoán dựa
vào 2 cách tiếp cận:


Lọc cộng tác dựa trên người dùng (User-based collaborative

filtering). Bản chất của lọc cộng tác dựa trên người dùng là tìm những
người dùng có sở thích tương tự với 1 người dùng A bất kì và gợi ý những
thứ họ thích cho người dùng A. Hệ thống sẽ thu thập dữ liệu mẫu và xây
dựng ma trận Người dùng – Sản phẩm (Users – Items). Đối với mỗi người
dùng, cần quan tâm đến các sản phẩm đã được người dùng đó đánh giá. Đối
với mỗi sản phẩm được người dùng đó đánh giá, cơng việc của hệ thống là
phải tìm được N người dùng khác cũng đánh giá sản phẩm đó. Từ đó, hệ

thống tính tốn được độ tương tự giữa các người dùng với nhau và cho ra
được kết quả đánh giá các sản phẩm chưa được người dùng hiện tại đánh
giá. Cuối cùng, hệ thống sẽ gợi ý cho người dùng hiện tại những sản phẩm
có đánh giá cao nhất.



Lọc cộng tác dựa trên sản phẩm (Item-based collaborative

filtering). Bản chất của lọc cộng tác dựa trên sản phẩm là xác định những
sản phẩm tương đồng để dự đoán mức độ yêu thích của người dùng đối với
1 sản phẩm dựa trên mức độ yêu thích của người dùng đối với những sản
phẩm tương đồng. Hệ thống vẫn sẽ thu thập dữ liệu mẫu và xây dựng ma
10


trận Người dùng – Sản phẩm (Users – Items). Hệ thống quan tâm đến tập
hợp các sản phẩm đã được người dùng B đánh giá. Sau đó, nhiệm vụ của hệ
thống là phải tìm được K sản phẩm tương tự nhất với mỗi sản phẩm I trong
tập hợp. Từ đó, hệ thống tính tốn được độ tương tự giữa các sản phẩm có
điểm tương đồng nhau và cho ra được kết quả dự đoán đánh giá của người
dùng đối với các sản phẩm chưa được đánh giá. Bước cuối cùng là hệ thống
sẽ gợi ý cho người dùng những sản phẩm được dự đốn có đánh giá cao.
1.1.2.2

Lọc cộng tác dựa trên mơ hình

Khác với phương pháp lọc cộng tác dựa vào bộ nhớ, phương pháp lọc cộng tác
dựa trên mơ hình (Model-based methods) sử dụng tập đánh giá để xây dựng mơ
hình huấn luyện. Kết quả của mơ hình huấn luyện sẽ đưa ra dự đốn mức độ u

thích của người dùng về những sản phẩm chưa được đánh giá. Mơ hình huấn luyện
có kích thước nhỏ hơn rất nhiều so với ma trận đánh giá và thực hiện dự đoán
nhanh. Để đưa ra các khuyến nghị, lọc cộng tác có thể sử dụng các kỹ thuật học
máy (machine learning) và khai phá dữ liệu (data mining) như mô hình Bayesian,
mơ hình Clustering, mạng nơ-ron nhân tạo, cây quyết định và cịn nhiều mơ hình
khác nữa.


Bơ L phân loại Bayes được sử dụng để phân loại các sản phẩm dựa

trên những đánh giá “thích” hoă cL“khơng thích” của người dùng đối với các
sản phẩm.


Cây quyết định được áp dụng trong viê cLphân tích và phân loại cho

các sản phẩm mới. Kỹ th tLnày cho ta mơtLcách nhìn trực quan hơn để đưa
ra các dự đoán đánh giá cho người dùng.


Phân cụm là kỹ thuâ tLchia các đối tượng dữ liê uL đầu vào thành các

cụm dữ liê uL khác nhau nhằm mục đích loại bỏ các dữ liê uL khơng liên quan
và tâpLtrung vào phân tích các dữ liê uL có mối quan hê LmâtLthiết với nhau.


Mạng nơ tron nhân tạo là mơ tLmơ hình học máy vơ cùng mạnh mẽ.

Nó giúp chúng ta hiểu được các mối quan hê Lphức tạp trong tâ pL dữ liê uL và
hạn chế các thông tin gây nhiyu. Nhưng vấn đề của nó là khó khăn trong


11


viêcLđề ra cấu trúc mạng phù hợp và yêu cầu dữ liê uL phân tích cho nó khá
lớn.

1.1.3 Ứng dụng phương pháp lọc cộng tác

Phương pháp lọc cộng tác dựa trên người dùng (áp dụng tương tự với phương
pháp lọc cộng tác dựa trên sản phẩm) được thực hiện qua các bước sau:
Bước 1: Giảm số chiều của dữ liệu
Đây là giai đoạn chuyển đổi ma trận ban đầu thành một khơng gian biểu diyn
thấp hơn, giảm kích thước số chiều của ma trận nhằm mục đích giải quyết vấn đề
thưa thớt và khả năng mở rộng thường xuất hiện trong phương pháp lọc cộng tác.
Ban đầu, biểu diyn của dữ liệu đầu vào là một ma trận Người dùng – Sản phẩm m ×
n, trong đó m là số lượng các sản phẩm và n là số lượng người dùng. Trên thực tế,
số lượng người dùng là rất lớn, số lượng sản phẩm cũng rất lớn như vậy ma trận
đánh giá sẽ rất lớn nên cần xử lý nhiều phép tính hơn và thời gian tính tốn cũng sẽ
lâu hơn. Bên cạnh đó, thơng thường một người dùng chỉ tiếp cận với một số ít sản
phẩm. Lấy ví dụ, một danh sách bài hát có sẵn nhưng người dùng chỉ đánh giá hay
chọn một số ít bài hát dẫn đến kết quả là một ma trận thưa thớt. Để khắc phục được
các hạn chế nói trên, ma trận thưa thớt có thể chuyển đổi thành một khơng gian biểu
diyn thấp hơn thông qua phương pháp Latent Semantic Indexing.
Bước 2: Tìm kiếm người dùng liên quan
Nhiều phương pháp được sử dụng để tính tốn độ tương đồng giữa các người
dùng như độ tương tự Cosine, độ đo tương quan Pearson, độ đo khoảng cách
Euclid,… Tuy nhiên, bài nghiên cứu này chỉ tâ pL trung khai thác phương pháp hệ số
tương quan Pearson bởi tính phổ biến và độ chính xác cao mà nó mang lại. Độ
tương đồng giữa 2 người dùng và được tính như sau:

12


Trong đó:
: đánh giá của người dùng a trên sản phẩm i
: đánh giá của người dùng b trên sản phẩm i
: trung bình đánh giá của người a
: trung bình đánh giá của người b
m : tổng số sản phẩm
Thực hiện tính tốn độ tương đồng giữa các người dùng khác so với người
dùng a, sau đó thu được danh sách những người dùng khác có điểm tương đồng cao
nhất với người dùng a. Các giá trị được sắp xếp giảm dần và có thể lấy Top 10, Top
20, Top 30,… tùy thuộc vào việc tùy chọn cho hệ thống sử dụng.
Bước 3: Tạo ra các giá trị dự báo
Sau khi tìm được danh sách các người dùng tương đồng nhất, hệ thống sẽ tính
tốn đưa ra các dự báo đánh giá để đưa ra các khuyến nghị phù hợp cho người dùng.
Những phương pháp dự đoán như điểm số Z trung bình (Z-score average), trung
bình có trọng số (Weighted average), deviation-from-mean được sử dụng để ước
lượng điểm số đánh giá của người dùng a trên sản phẩm. Đối với bài nghiên cứu
này, nhóm sẽ tập trung vào phương pháp điểm số Z trung bình với cơng thức được
đề xuất như sau:
1.1.4 Ưu và nhược điểm cia phương pháp lọc cơ j ng tác
Ưu điểm


Khơng phụ thuộc vào tính chất đối tượng/ sản phẩm cần gợi ý:“Hệ

thống lọc cộng tác dựa trên những đánh giá của người dùng để đưa ra dự
đốn về sở thích của họ, thế nên các tính chất của đối tượng gợi ý khơng
13



ảnh hưởng đến quá trình gợi ý. Phương pháp này còn gợi ý các sản phẩm
phù hợp với từng đối tượng khách hàng mà khơng cần hiểu tính chất sản
phẩm.”



Gợi ý đa dạng: hệ thống lọc cộng tác gợi ý dựa trên trải nghiệm của

người dùng khác có điểm tương đồng nên có thể gợi ý được đa dạng các sản
phẩm mới phù hợp với sở thích mới thâ m
L chí là khác h•n so với các sản
phẩm trong q khứ mà người dùng đã đánh giá.
Nhược điểm


Vấn đề người dùng mới:“Trong trường hợp xuất hiện những người

dùng mới mà họ chưa có lịch sử đánh giá các sản phẩm trong quá khứ
(đánh giá bằng 0), như vậy sẽ gây khó khăn cho hệ thống lọc cộng tác trong
việc đưa ra các gợi ý chính xác cho những người dùng này.”



Vấn đề sản phẩm mới:“Một lượng lớn các sản phẩm mới thường

xuyên được cập nhật trong hệ thống. Tất cả các đánh giá của người dùng
đối với sản phẩm mới hầu như bằng 0 do có thể họ chưa tiếp cận và trải
nghiệm những sản phẩm mới. Kết quả là hệ thống lọc công tác không thể

giới thiệu sản phẩm mới đó đến những người dùng được.”



Vấn đề dữ liệu thưa:“Trên thực tế, hệ thống có số lượng người dùng

và sản phẩm rất lớn, tuy nhiên chỉ có một lượng ít người dùng đánh giá cho
các sản phẩm. Số lượng đánh giá chỉ chiếm một phần nhỏ trong ma trận
rộng lớn và ít hơn nhiều so với số lượng các đánh giá cần dự đốn vậy nên
gây khơng ít khó khăn cho hệ thống lọc cộng tác trong việc dự đoán và đưa
ra các khuyến nghị.”
1.2 Hê j thống khuyến nghị dựa trên nôij dung
1.2.1
14

Định nghĩa


Trong khi hê Lthống khuyến nghị lọc cô nLg tác sử dụng những tương quan mẫu
để đưa ra các gợi ý cho người dùng thì hê L
thống khuyến nghị dựa trên nô iLdung khai
thác và đánh giá hồ sơ về sản phẩm cùng với hồ sơ của người dùng để đưa ra những
gợi ý phù hợp và tương tự. Trong đó, hồ sơ sản phẩm và người dùng được biểu diyn
dưới dạng các thcLtính. Cụ thể, hê Lthống sẽ đề xuất những sản phẩm mới tương tự
với những sản phẩm mà người dùng yêu thích và quan tâm trong quá khứ.


Đối với hồ sơ sản phẩm, các kỹ thuâ tLtrích xuất đặc trưng sẽ

được ứng dụng để hình thành danh sách các thcLtính.



Đối với hồ sơ người dùng, cũng bằng những kỹ thuâtLtương

tự, các sở thích cá nhân cũng như những phản hồi rõ ràng và ẩn ý của
người dùng sẽ được khai thác và phân tích để tạo nên các th cL tính
của hồ sơ người dùng. Những phản hồi rõ ràng ở đây chính là các
đánh giá, xếp hạng của người dùng về sản phẩm và chúng được thu
thâpLtheo cách giống như hê Lthống khuyến nghị lọc công
L tác ở trên.
MơtLđiều“đă cLbiê tLtrong hê L
thống này làm nó khác với hê Lthống khuyến nghị
lọc công
L tác ở trên là các phản hồi, đánh giá của người dùng khác không được sử
dụng trong viêcLđưa các đề xuất. Đồng thời, người dùng có thể chỉ định rõ từ khố
về hồ sơ của riêng họ.”
Ta có thể dy dàng hình dung được quá trình hình thành hồ sơ sản phẩm và hồ
sơ người dùng thơng qua hình sau:

Hình 1.2 Các giai đoạn xây dựng hH sơ sản phIm và hH sơ người dùng

Như hình minh họa ở dưới đây, giả sử anh A thích bộ mơn thể thao tennis và
anh ấy có nhu cầu mua hoặc quan tâm đến sản phẩm vợt tennis. “Tại đây, hệ thống
khuyến nghị dựa trên nội nội dung sẽ làm việc và tìm ra sự tương quan giữa sản
15


phẩm vợt tennis với các sản phẩm khác mà cụ thể ở đây là bóng tennis. ”Đơn giản là
để chơi tennis, bạn cần phải có vợt và cả bóng tennis nữa. Do đó, hệ thống sẽ đề
xuất bóng tennis cho anh A như một sản phẩm mà anh A có thể có nhu cầu mua

hoặc quan tâm đến.

Hình 1.3 Minh họa phương pháp lọc dựa trên nô Ki dung

1.2.2 Ứng dụng
Bước đầu tiên cũng là mô tLbước nền tảng vô cùng quan trọng đó là tiền xử lý
và trích xuất đặc trưng. Đây là quá trình xử lý, làm sạch và biến đổi các dữ liê uL
trước khi đưa vào q trình phân tích chun sâu. Viê cLnày giúp chúng ta tiết kiê m
L
được nhiều thời gian và không gian bơ L nhớ khi khơng cần phải phân tích những dữ
liêuLkhơng cần thiết.
Bởi vì các mơ tả ban đầu của các sản phẩm là mô tLđoạn văn bản chưa qua xử
lý vì thế các kỹ thuâ tLtiền xử lý đặc trưng phổ biến liên quan đến các công cụ xử lý
ngôn ngữ tự nhiên (NLP) được sử dụng để phân tích và trích xuất. Kết quả của q
trình xử lý này hỗ trợ chúng ta có được các mơ tả tốt nhất của các sản phẩm.
Quá trình tiền xử lý và trích xuất đặc trưng bao gồm các bước phổ biến như
sau:


Mã hóa câu: Đây là q trình tách mơ tLvăn bản hoăcLđoạn văn đầu

vào thành các câu riêng lŽ.


Mã hóa tk: Đây là q trình chia nhỏ câu thành các từ. Ở đây, các

từ sẽ được nắm bắt và phân tích kỹ lư•ng hơn ch•ng hạn như chúng sẽ
được đếm và phân loại vào mơ tLnhóm cảm xúc cụ thể nào đó, … Và đă cL
biêt,Ltrong mã hóa từ, các dấu câu cũng được xem là các từ riêng biê L
t.

16




Xóa tk dkng: Từ dừng là các từ được sử dụng thường xuyên trong

các tài liê uL văn bản tuy nhiên chúng thường có ít hoă cL hồn tồn khơng có
tác dụng gì cho q trình phân loại vì thế viê cL loại bỏ từ dừng giúp giảm số
lượng từ cần phân tích (trừ mơ tLsố trường hợp đăcLbiêtLthì loại bỏ từ dừng
gây ra vấn đề lớn). Các từ dừng có thể là các đại từ, giới từ, liên từ. Khơng
có bơ L từ dừng phổ biến cho tất cả, mỗi ngơn ngữ sẽ có mơt tâ
L pLhợp các từ
dừng riêng của nó.


Stemming và lemmatization: Stemming là kỹ thuật dùng để biến

đổi môtLtừ về dạng gốc bằng cách cực kỳ đơn giản là loại bỏ các phụ tố
(tiền tố hoă cL hâuLtố). Ví dụ như chúng ta thấy các từ như walked, walking,
walks chỉ khác nhau là ở những ký tự cuối cùng, bằng cách bỏ đi các hậu tố
-ed, -ing hoặc -s, chúng ta sẽ được từ nguyên gốc là walk. Viê cL này giúp
giảm số lượng từ để phân tích qua đó tiết kiê m
L thời gian và không gian bô L
nhớ. Tuy nhiên, kỹ thuâtLStemming không hiê uL quả đối với các từ bất quy
tắc (vd như went, spoke, …). Và để khắc phục điều đó, lemmatization được
sử dụng. Kỹ thuâ tLnày giải quyết được vấn đề bất quy tắc của từ thông qua
viêcLliên kết với mô tLbộ từ điển hoặc một bộ ontology. Bởi vì quá trình xử
lý phức tạp và thơng minh hơn nên thời gian xử lý của lemmatization sẽ lâu
hơn so với Stemming tuy nhiên đơ L chính xác của nó sẽ cao hơn, đảm bảo

rằng các từ bất quy tắc như “goes“, “went” và “go” sẽ trả về cùng mô L
t kết
quả.
Sau khi trải qua quá trình trên, các phương pháp khuyến nghị dựa trên nơ iL
dung được thực hiênLtheo quy trình 3 bước chung như sau:


Bước 1: Biểu diyn nôiLdung của sản phẩm khuyến nghị i, được ký

hiêuL là Content (i) dựa trên tâ pL hợp các thcLtính của i. Danh sách các
thcLtính được xây dựng nên nhờ các kỹ th tLtruy vấn thơng tin


Bước 2: Mơ hình hóa hồ sơ người dùng u, ký hiê uL là UserProfile

(u). Thực chất, hồ sơ người dùng bao gồm các lịch sử truy câ pL cũng như
những xếp hạng, đánh giá đối với các sản phẩm cụ thể và bằng cách phân
tích các mơ tả về sản phẩm đó dựa trên các kỹ thuâ tLtruy vấn thông tin mà
hồ sơ người dùng được thiết lâ p.
L Do đó, dạng biểu diyn của hồ sơ người
17


dùng là mơtLvector và nó được thể hiê nL thơng qua danh sách các th cLtính
của sản phẩm i


Bước 3: Bằng cách phân tích hồ sơ sản phẩm và hồ sơ người dùng,

ở bước này, ta sẽ đưa ra các dự đốn đánh giá của người dùng qua đó đề

xuất những khuyến nghị thích hợp cho người dùng đó.
Quy trình của hê L thống khuyến nghị dựa trên nơ
i dung
có thể được cụ thể
L
hóa theo hình sau:

Hình 1.4 Quy trình xử lM cNa hê thống
khuyến nghị dựa trên nô Ki dung
K

Các phương pháp khuyến nghị dựa trên nôiLdung truyền thống có thể chia
làm hai nhóm chính:


Khuyến nghị“theo nơ iLdung dựa vào bơ L nhớ: Trong phương pháp

này, ta tính tốn đô Ltương tự giữa hồ sơ sản phẩm và hồ sơ người dùng bằng
cách sử dụng các đô Lđo tương tự như là Cosin, Euclide, …


Khuyến nghị theo nô iLdung dựa vào mơ hình: Trong phương pháp

này, các kỹ thtLthống kê hoă cL học máy được sử dụng để phân các đối
tượng đề xuất thành các đối tượng mà người dùng quan tâm hoă cL không
quan tâm.”
1.2.2.1 Phương pháp khuyến nghị theo nô ij dung dựa vào bô j nhớ

18



Phương pháp khuyến nghị theo nôiLdung dựa vào bô L nhớ bao gồm hai
phương pháp đó là phương pháp khuyến nghị dựa trên hồ sơ sản phẩm và phương
pháp khuyến nghị dựa trên hồ sơ người dùng. Tuy nhiên, cách thức thực hiênL của
chúng khá tương tự nhau. Do đó, trong phần này, chúng ta sẽ cùng nhau tìm hiểu về
phương pháp khuyến nghị dựa trên hồ sơ của sản phẩm. Cụ thể, “những sản phẩm
mới có đơ L tương tự cao nhất so với hồ sơ người dùng sẽ được ưu tiên đề xuất cho
người dùng đó.”
Phương pháp khuyến nghị dựa trên hn sơ người dùng
Bước 1:“Biểu diyn sản phẩm mới dưới dạng véc tơ trọng số thcLtính của
sản phẩm”
Phương pháp tính trọng số các th cL tính được sử dụng nhiều nhất là phép
đo tần suất kết hợp với tần suất xuất hiện ngược (TF/IDF). Phương pháp được tiến
hành như sau:
Đầu tiên, ta sẽ tính tần suất xuất hiê nL của từ th cLtính ci trong sản phẩm pj
thơng qua cơng thức sau:

Trong đó:
là số lần thcLtính ci xuất hiện trong sản phẩm
là số lần xuất hiê nL nhiều nhất của th cLtính cz trong sản phẩm
Tuy nhiên, các thcL tính xuất hiê nL trong nhiều sản phẩm không thể hiê nL
được mức đô L tương tự của giữa các sản phẩm bởi vì chúng có thể xuất hiê
nL
trong
các sản phẩm khơng liên quan với nhau. Do đó, tần suất xuất hiê nL ngược được đưa
ra và kết hợp với giúp chúng ta giải quyết được vấn đề trên và nó được tính thơng
qua cơng thức sau:

19



Trong đó:
N chính là tổng số các sản phẩm có trong hê Lthống
là số sản phẩm có sự xuất hiênLcủa th cLtính
Cuối cùng, sự kết hợp TF và IDF giúp chúng ta xác định được tầm quan
trọng của thcLtính cần xét.

Trong các cơng thức trên, nếu mơtLth cL tính xuất hiênLtrong phần lớn các
sản phẩm của hê Lthống ( thì th cL tính đó sẽ “khơng chứa nhiều thơng tin phản ánh
nôiLdung của sản phẩm (). Ngược lại, nếu thuô cLtính chỉ nằm trong mơ tLsản phẩm (=
1) thì thcLtính đó sẽ chứa nhiều thơng tin quan trọng đối với sản phẩm.”
Bằng cách tính tốn này, mỗi sản phẩm sẽ được biểu diyn như mô tLvector
trọng số các thuô cL tính trong đó C là tổng số thcLtính có trong sản phẩm.
Bước 2: Biểu diyn hồ sơ người dùng dưới dạng vector trọng số các th cL
tính sản phẩm
là“vector trọng số các th cL tính sản phẩm của mỗi người dùng và nó cũng
chính là hồ sơ của người dùng. Trong đó, mỗi trọng số sẽ biểu thị tầm quan trọng
của các thcLtính sản phẩm nào đó đối với người dùng. Ta có thể tính tốn vector
bằng cách tính trung bình cơng
L các vector trọng số trên các sản phẩm mà người
dùng đã truy câpLvà đánh giá trong quá khứ. Trong trường hợp có q nhiều th cL
tính thì phương pháp sử dụng bô L phân loại Bayes để ước lượng mức đô L tương tự
của các sản phẩm và đề xuất th tLtốn Winnow rất hiêuLquả.”
Bước 3: Tính độ tương tự giữa sản phẩm mới và hồ sơ người dùng.
MôtLtrong những phương pháp được sử dụng nhiều nhất trong viê cL ước
lượng“mức đô L tương tự giữa sản phẩm và hồ sơ người dùng đó là đơ L đo cosin giữa
hai vector và .
20



Trong đó:
là số thcLtính của sản phẩm
Trong cơng thức ở trên, nếu Cosin của hai vector mà gần bằng 1 hoă cLgóc
giữa hai vector nhỏ thì mức đơ L tương tự giữa sản phẩm và hồ sơ người dùng càng
cao, khi đó sản phẩm sẽ được ưu tiên đề xuất cho người dùng. Ngược lại, nếu Cosin
của hai vector này gần tiến tới 0 hoă cLgóc giữa hai vector lớn thì mức đơ L tương tự
giữa sản phẩm và hồ sơ người dùng càng thấp, do đó mà sản phẩm này sẽ ít hoă cL
khơng được đề xuất cho người dùng. Ngồi ra, ta cũng có thể sử dụng các kỹ thuâ tL
như khoảng cách Euclidean hoặc tương quan Pearson.”
1.2.2.2 Phương pháp khuyến nghị theo nô ij dung dựa vào mơ hình
Tương tự với phương pháp khuyến nghị theo nơ iLdung dựa vào bô L nhớ,
phương pháp này cũng sử dụng hồ sơ sản phẩm và hồ sơ người dùng để thực hiê nL
phân tích. Kết quả của q trình phân tích sẽ được sử dụng trong mơ hình dự đoán
để đưa ra các khuyến nghị phù hợp cho người dùng. “Các kỹ thuâtLthống kê, học
máy như là mạng Bayes, cây quyết định, phân cụm, mạng nơ ron nhân tạo, … sẽ
được sử dụng trong phương pháp này nhằm đưa ra các dự đoán cho người dùng.”
1.2.3 Ưu, nhược điểm
Ưu điểm


Các sản phẩm được đề xuất phù hợp với từng sở thích của mỗi

người dùng.


Viê cLđưa ra các sản phẩm khuyến nghị không cần phụ thuô cL vào dữ

liêuL của những người dùng khác. Do đó, phương pháp này giải quyết được
vấn đề các sản phẩm mới.



Người dùng sẽ được đề xuất các sản phẩm tương tự với những sản

phẩm mà người dùng đã truy câ pL hoăcLđánh giá tốt trong quá khứ.
21


Nhược điểm


Vấn đề trong viê cL trích xuất đặc trưng: Khó khăn trong viê cL trích

xuất các đặc trưng của các đối tượng dữ liê uL phức tạp như hình ảnh, âm
thanh, …


Giới hạn trong viêcLphân tích nơ iLdung: Khơng thể nào phân biê tL

được nếu như hai sản phẩm khác nhau cùng biểu diyn mơ tLtâpL hợp các
thcLtính giống nhau


Vấn đề người dùng mới: Bởi vì các đề xuất được đưa ra trong

phương pháp này phụ thcL hồn tồn vào các dữ liê uL lịch sử của người
dùng trên hê Lthống vì thế hê L
thống sẽ khơng thể đề xuất các sản phẩm phù
hợp với người dùng nếu như họ khơng có dữ liê uL về truy câ pLhoăcLđánh giá
các sản phẩm trong quá khứ.



Vấn đề sản phẩm mới: Đối với những sản phẩm mới, chúng khơng

có đủ thơng tin hay đơi khi những thơng tin đó q đă cL biêtLthâ m
L chí khơng
được chính xác thì rất dy dẫn đến viê cL đưa ra các sản phẩm khuyến nghị
khơng phù hợp với người dùng.


Giảm đi tính đa dạng và mới lạ: Phương pháp này chỉ đề xuất

những sản phẩm tương tự với các dữ liê uL trong lịch sử vì thế đơi khi nó có
thể đưa ra những sản phẩm khuyến nghị quá tương tự nhau đồng thời nó
cùng khơng thể đưa ra những đề xuất phù hợp với sở thích mới của người
dùng được.
1.3 Hệ thống khuyến nghị dựa trên tri thức
1.3.1 Định nghĩa
Hệ thống khuyến nghị dựa trên tri thức là loại hệ thống khuyến nghị gợi ý các
đối tượng dựa trên các suy luận về nhu cầu và sở thích của người dùng.Hệ thống
khuyến nghị dựa“trên cơ sở tri thức có khả năng suy diyn, khả năng suy diyn phụ
thuộc vào độ phù hợp của yêu cầu người sử dụng với các thuộc tính của sản phẩm.”
Phương pháp này được phân biệt ở chỗ: chúng có tri thức làm thế nào một đối

22


tượng cụ thể đáp ứng nhu cầu một người dùng cụ thể, và do đó có thể lập luận về
mối quan hệ giữa nhu cầu người dùng và các gợi ý cụ thể.
Hệ thống khuyến nghị dựa trên tri thức được chia làm 2 loại:
Hệ thống khuyến nghị dựa trên ràng buộc, người dùng xác định các




yêu cầu và các quy tắc miền chuyên biệt sẽ được sử dụng để ghép nối
với các yêu cầu của người dùng
Hệ thống khuyến nghị dựa trên trường hợp. Nó là một q trình tương



tác không ngừng cho đến khi đạt được kết quả mong muốn. Kết quả
thường được sử dụng như một mục tiêu mới với một số điều chỉnh
dựa trên sự tương tác của người dùng.
1.3.2 Ứng dụng
Vấn đề cold start – vấn đề xảy ra khi khơng có đủ thơng tin người dùng để có
thể đưa ra khuyến nghị, là vấn đề mà các hệ thống thường gặp nhất. Hệ thống
khuyến nghị dựa trên tri thức có thể giải quyết vấn đề này do nó dựa trên các thơng
số kỹ thuật do người dùng cung cấp chứ không phải dữ liệu lịch sử như lọc cộng tác
và hệ thống khuyến nghị dựa trên nội dung.
Với lí do trên, mà hệ thống khuyến nghị dựa trên tri thức thường được ứng
dụng để giải quyết các trường hợp sau:


Các sản phẩm đắt tiền, ít thường xuyên được mua và ít lượt đánh

giá: nhà, xe oto


Các sản phẩm mà vấn đề thời gian là quan trọng: sản phẩm công nghệ




Các truy vấn mà từ các yêu cầu rõ ràng của người dùng.

Dưới đây sẽ trình bày về các ví dụ cụ thể ứng dụng hệ thống khuyến nghị
dựa trên tri thức

23


Hình 1.5 thể hiện cho trang web đề xuất nhà hàng Entree. Người dùng bắt
đầu với một nhà hàng đã biết là Wolfgang Puck’s “Chinois on Main” in Los
Angeles.

Hình 1.5 Trang web đề xuQt nhà hàng entree

Ở hình 1.6, hệ thống tìm một nhà hàng Chicago tương tự mà có sự kết hợp
giữa Châu Á và Pháp, đó là “Yoshi’s Cafe.

24


×