Tải bản đầy đủ (.pdf) (18 trang)

Xây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dung (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (240.16 KB, 18 trang )

1
PHẦN MỞ ĐẦU
Ngày nay, ngành thương mại điện tử tăng trưởng mạnh và
các nhà đầu tư, doanh nghiệp cũng đã và đang gặp khó khăn trong
việc kinh doanh trực tuyến vì các mặt hàng, dịch vụ đa dạng và
phong phú tăng dần hình thành một khối dữ liệu lớn (Big Data) dẫn
đến khó khăn trong việc tìm kiếm và lọc các mặt hàng, dịch vụ phù
hợp để giới thiệu đến khách hàng.
Do đó, việc phát triển hệ thống gợi ý (Recommender
System) là cần thiết nhằm hỗ trợ cho việc lọc và tìm kiếm dữ liệu
hiệu quả, phù hợp với từng khách hàng cụ thể, giúp khách hàng tiết
kiệm thời gian và công sức trong việc tìm kiếm sản phẩm mà mình
có thể quan tâm, cùng hướng đến sự tiện lợi của khách hàng và
hướng đến lợi nhuận của công ty, doanh nghiệp.
Hệ thống gợi ý là một đề tài nghiên cứu có ảnh hưởng đến
chiến lược kinh doanh của công ty, tổ chức, tập đoàn.
Dữ liệu sẽ được thu thập từ các nguồn như tiki.vn, fahasa
book để chuẩn bị dữ liệu cho việc phân tích cho hệ thống. Thu thập
bình luận của cộng đồng người dùng từ nguồn vnexpress trên mạng
xã hội facebook.com, sau đó tiến hành xử lý ngôn ngữ tự nhiên để
phân tích cảm xúc người dùng phục vụ cho việc xây dựng hệ thống.
Ngoài phần Mở đầu, Phần kết luận và các Phụ lục, nội dung
luận văn gồm có 4 chương chính:
Chương 1 – Tổng quan. Nội dung chương giới thiệu về lợi ích
nghiên cứu và ứp dụng hệ thống gợi ý vào kinh doanh, phân tích lợi
ích giữa doanh nghiệp và khách hàng sử dụng dịch vụ. Giới thiệu


2
tổng quan về hệ thống gợi ý và các hướng tiếp cận phổ biến hiện
nay.


Chương 2 – Cơ sở lý thuyết. Nội dung chương trình bày các khái
niệm, định nghĩa, thuật toán, các yếu tố, thành phần liên quan đến hệ
thống gợi ý.
Chương 3 – Kỹ thuật thực hiện. Nội dung chương trình bày mô hình
xây dựng hệ thống gợi ý, các thành phần và công nghệ được sử dụng.
Chương 4 – Phần mềm và kết quả thực nghiệm. Nội dung chương
trình bày kết quả thực nghiệm Hệ thống gợi ý theo hướng tiếp cận
nội dung.


3
PHẦN NỘI DUNG
CHƢƠNG 1 – TỔNG QUAN
1.1. Tính cấp thiết của đề tài
Ngày nay, ngành thương mại điện tử tăng trưởng mạnh và các
nhà đầu tư, doanh nghiệp cũng đã và đang gặp khó khăn trong việc
kinh doanh trực tuyến vì các mặt hàng, dịch vụ đa dạng và phong
phú hình thành một khối dữ liệu lớn dẫn đến khó khăn trong việc tìm
kiếm và lọc các mặt hàng, dịch vụ phù hợp để giới thiệu đến khách
hàng.
Do đó, việc phát triển hệ thống gợi ý là cần thiết nhằm hỗ trợ
cho việc lọc và tìm kiếm dữ liệu hiệu quả, phù hợp với từng khách
hàng cụ thể, giúp khách hàng tiết kiệm thời gian và công sức trong
việc tìm kiếm sản phẩm mà mình quan tâm, cùng hướng đến sự tiện
lợi của khách hàng và hướng đến lợi nhuận của công ty, doanh
nghiệp.

1.2. Tổng quan về vấn đề nghiên cứu
Ở nước ta ngành thương mại điện tử đang trên đà phát triển,
ngày một tăng nhanh. Rất nhiều doanh nghiệp đã và đang phát triển,

kinh doanh cách hệ thống thương mại ở mọi lĩnh vực như: Giáo dục,
Giải trí, Dịch vụ, Thương mại… Bên cạnh đó ta thấy những hệ thống
đó đang gặp vấn đề về dữ liệu quá lớn gây khó khăn trong việc tìm
kiếm và lọc thông tin, lọc dữ liệu để có thể phù hợp với khách hàng,
phù hợp với mong muốn của người dùng. Với những lý do đó, đòi
hỏi phải thay đổi, nâng cấp hệ thống sao cho có thể hỗ trợ người


4
dùng tìm đến những thông tin, sản phẩm, dịch vụ mà phù hợp với
mong muốn của họ. Do đó xây dựng hệ thống dự đoán gợi ý là cần
thiết, hệ thống gợi ý áp dụng các bộ lọc dữ liệu thông minh có thể
phân tích, rút trích và dự đoán dữ liệu cần thiết, giúp cho mọi người
đều có thể tìm kiếm được thông tin ưng ý với mình. Với mục đích
kinh doanh ngày một tăng lợi nhuận hơn.
Với những khó khăn và chiến lược kinh doanh trực tuyến
được nói đến ở trên, luận văn này sẽ phân tích và đưa ra giải pháp
“Xây dựng hệ thống gợi ý dựa trên phân tích sở thích của người
dùng theo hướng tiếp cận lọc trên nội dung”.
Dữ liệu sẽ được thu thập về từ các nguồn như tiki.vn,
fahasa.com để chuẩn bị dữ liệu cho việc phân tích cho hệ thống. Thu
thập dữ liệu của cộng đồng người dùng từ fanpage tiki, fahasa trên
mạng xã hội facebook.com, sau đó tiến hành rút trích các đặc trưng
sản phẩm dựa trên tập luật định trước phục vụ cho việc xây dựng hệ
thống. Để đo độ tương tự sản phẩm, độ đo Jaccard được sử dụng để
phù hợp cho việc đo đạc với kiểu dữ liệu phân loại. Bài toán hướng
tới việc xây dựng hệ thống trên nền hệ thống phân tán Hadoop và sử
dụng các kỹ thuật xử lý dữ liệu lớn.
Kết quả đạt được sẽ là một hệ thống gợi ý các sản phẩm và
dịch vụ phù hợp với người dùng mà có thể họ quan tâm, ưng ý.


1.3. Mục đích nghiên cứu
Xây dựng hệ thống gợi ý có thể hỗ trợ khách hàng tìm được
những sản phẩm yêu thích thông qua lịch sử yêu thích hoặc lịch sử
mua sắm của họ, có thể phân tích sở thích của người dùng, dự đoán


5
gợi ý các mặt hàng và dịch vụ đến khách hàng mà có thể họ quan
tâm, nhằm thu hút khách hàng và tăng doanh thu.
Mục tiêu nghiên cứu: Thu thập dữ liệu chuẩn bị cho việc
phân tích và dự đoán sản phẩm, dịch vụ. Xây dựng bộ lọc dựa trên
nội dung (Content-based filtering [1]) để tích hợp vào hệ thống gợi ý
sản phẩm, dịch vụ dựa vào các thuật toán máy học. Triển khai
Hadoop MapReduce và tích hợp bộ lọc Content-based vào hệ thống
Hadoop để phân tích và xử lý dữ liệu sau đó trainning để được tập dữ
liệu gợi ý. Xây dựng hệ thống website dựa trên tập dữ liệu thu thập
và hệ thống Hadoop. Sau cùng là thử nghiệm và phân tích và kiểm
chứng kết quả.

1.4. Đối tƣợng và phạm vi nghiên cứu
Nghiên cứu chiến lược kinh doanh trực tuyến ở Việt Nam,
xây dựng và ứng dụng hệ thống gợi ý vào việc kinh doanh sản phẩm,
dịch vụ trực tuyến.
Nghiên cứu và phân tích các chi tiết đặc trưng của sản phẩm
dịch vụ, tìm hiểu mối quan hệ giữ các sản phẩm và dịch vụ với nhau,
phân tích hành vi của khách hàng tác động lên sản phẩm và dịch vụ,
phân tích sở thích của khách hàng đối với các mặt hàng và dịch vụ.
Nghiên cứu hướng tiếp cận lọc dựa trên nội dung để xây
dựng hệ thống gợi ý, giúp cho khách hàng dễ dàng tìm kiếm được

sản phẩm mà họ có thể ưng ý.

1.5. Hệ thống gợi ý
Hệ thống gợi ý là một hệ thống được áp dụng những công nghệ và
giải thuật lọc dữ liệu một cách thông minh, giúp cho người dùng có


6
thể tìm kiếm được những sản phẩm, dịch vụ mà họ ưng ý.

1.6. Các hƣớng tiếp cận
1.6.1. Lọc dựa trên nội dung
Hướng tiếp cận lọc trên nội dung, trả lời cho câu hỏi “Tôi
muốn xem nhiều hơn các sản phẩm và dịch vụ khác tương tự như
những sản phẩm dịch vụ mà tôi đã xem, yêu thích hoặc mua, hãy gợi
ý cho tôi những sản phẩm và dịch vụ phù hợp với tôi.”.

1.6.2. Lọc cộng tác
Hướng tiếp cận lọc cộng tác, trả lời cho câu hỏi “Tôi muốn
xem những sản phẩm và dịch vụ phổ biến nhất đang được cộng đồng
quan tâm và phù hợp với tôi. Bạn có gợi ý cho tôi không?”.

1.6.3. Lọc kết hợp giữa cộng tác và nội dung
Hướng tiếp cận này là sự kết hợp giữa hướng tiếp cận lọc
dựa trên nội dung và hướng tiếp cận lọc cộng tác. Hướng tiếp cận
Hybrid kết hợp giữa kỹ thuật A và B, sử dụng điểm mạnh của A để
khác phục cải tiến điểm yếu của B. Ví dụ: CF có điểm yếu về vấn đề
item mới, phương pháp CF không thể gợi ý những item chưa được
đánh giá (rating) nhưng điều này hướng tiếp cận CB có thể giải
quyết được, CB dự đoán dựa vào những đặc tính của item để gợi ý.


1.7. Ứng dụng của hệ thống gợi ý
Hệ thống gợi ý đã được ứng dụng thành công ở các lĩnh vực như:
-

Hệ thống giới ý giới thiệu sản phẩm: Amazon, Ebay.

-

Hệ thống giải trí gợi ý phim ảnh: Youtube, Netflix.


7
-

Hệ thống gợi ý bài viết, tin tức: Google news, Yahoo
news…

-

Hệ thống gợi ý cho các trang xã hội: Facebook, Twitter.

1.8. Kết luận chƣơng 1
Nội dung chương 1 trình bày về vấn đề khó khăn gặp phải
trong việc kinh doanh trực tuyến ngày nay, đưa ra lý do và lợi ích
cho khách hàng và doanh nghiệp khi ứng dụng hệ thống gợi ý vào
việc kinh doanh của họ, giới thiệu tổng quan về hệ thống gợi ý và
các hướng tiếp cận phổ biến hiện nay.

CHƢƠNG 2 – CƠ SỞ LÝ THUYẾT

2.1. Đối tƣợng phục vụ của hệ thống
Hệ thống phục vụ 2 loại khách hàng: khách hàng thân thuộc
và khách hàng vãng lai.
Khách hàng thân thuộc là khách hàng đã có hồ sơ thông tin
cá nhân, đã có lịch sử mua sắm và thường xuyên đến thăm viếng
website của chúng ta. Ví dụ: anh Nguyễn quan tâm đến các thiết bị
công nghệ như điện thoại, máy tính bảng,… Nguyễn đã từng đánh
giá các sản phẩm, yêu thích các sản phẩm và mua sản phẩm. Nguyễn
là khách hàng thân thuộc và đã có hồ sơ cá nhân. Gần đây, anh
Nguyễn quay lại website để tìm kiếm mua những phụ kiện liên quan
đến chiếc điện thoại mà anh ta mua cách đây vài hôm. Từ những
thông tin trên, hệ thống phân tích, xây dựng chiến lược để dự đoán
và giới thiệu các phụ kiện hoặc những sản phẩm mới tương tự dựa


8
vào từ khóa và sản phẩm mà anh ta đã tìm kiếm hoặc thanh toán
trước đó.
Khách hàng vãng lai là khách hàng chưa có hồ sơ thông tin
cá nhân, chưa hoặc ít mua sắm và ít khi đến thăm viếng website của
chúng ta. Ví dụ: chị Hà là người dùng mới, không có hồ sơ cá nhân,
lần đầu đến thăm viếng website của chúng ta. Hệ thống dựa vào kho
lịch sử mua sắm, lịch sử yêu thích của các sản phẩm trong những
tuần qua để phân tích và chọn ra top sản phẩm được người dùng
quan tâm cũng như được công đồng mua sắm gần đây để hiển thị
giới thiệu cho Hà. Sau đó Hà chọn xem sản phẩm, hệ thống sẽ phân
tích và dự đoán sở thích của chị Hà, từ đây hệ thống tận dụng thông
tin để thực hiện gợi ý những sản phẩm mới đến Hà và có thể được
ưng ý.


2.2. Định nghĩa Item và User
Hệ thống gợi ý bao gồm 2 đối tượng: Item, user. Item và
User có mối quan hệ mật thiết với nhau.
Item là đối tượng sẽ được gợi ý đến user như: sản phẩm,
dịch vụ, bài hát, bài báo, clip… cũng có thể là một user. Item có
những đặc trưng và metadata như: chủ đề, mô tả, nôi dung, từ khóa,
dung lượng, kích thước… Những đặc trưng này sẽ được hệ thống xử
lý dự đoán và gợi ý những item tương tự đến user .
User là đối tượng phục vụ của hệ thống như: khách hàng đến
mua sản phẩm, người dùng viếng thăm website để xem phim, đọc tin
tức, nghe nhạc.

2.3. Định nghĩa User profile và Item profile


9
Hệ thống sẽ gợi ý những items phù hợp nhất dựa trên nội
dung đặc trưng và profile của user.
Item profile là tập các nội dung đặc trưng quan trọng mô tả
về một item. Ví dụ như: một tập phim ta có thể xây dựng profile như:
danh sách viễn viên, danh sách đạo diễn, năm phát hành, thể loại.
User profile là tập các item profile của người dùng thông qua
lịch sử mua sắm, yêu thích… Profile thể hiện sự yêu thích của người
dùng quan tâm đến sản phẩm.

2.4. Định nghĩa về dữ liệu
Trong hệ thống gợi ý sẽ có 2 loại dữ liệu được phân tích
được tạo ra thông qua các hàng động của khách hàng tác động lên
sản phẩm, dịch vụ . Ví dụ như: đánh giá, yêu thích, mua sắm,…
Dữ liệu tường minh là những dữ liệu sau được tạo bởi người

như: dữ liệu log khách hàng đánh giá sản phẩm, dịch vụ; dữ liệu log
yêu thích sản phẩm, dịch vụ; dữ liệu log bình luận về sản phẩm, dịch
vụ; dữ liệu log mua sắm sản phẩm, dịch vụ.
Dữ liệu không tường minh là những dữ liệu sau được tạo bởi
người dùng như: dữ liệu log xem trang về sản phẩm, dịch vụ; dữ liệu
log tìm kiếm.

2.5. Quan hệ giữa Item và User
2.6. Đo khoảng cách (Distance Measure)
Như chúng ta đã biết, thuật toán gom cụm phụ thuộc và ảnh
hưởng vào phương thức tính khoảng cách. Tùy thuộc vào từng bài
toán, cấu trúc dữ liệu mà chúng ta quyết định lựa chọn phương pháp


10
tính khoảng cách phù hợp. Ví dụ: để gom nhóm tài liệu, bài báo
chúng ta chọn phương pháp tính khoảng cách là Cosine.

2.7.1. Gom cụm (Cluster analysis hoặc Clustering)
2.7.2. Thuật toán K-mode
Tương tự như K-mean, thuật toán K-mode là phiên bản cải
tiến của thuật toán K-means. Do việc xử lý gom cụm các sản phẩm,
dịch vụ trong bài toán không phù hợp với thuật toán K-means nên
chúng ta cải tiến K-means thành K-mode.
Thuật toán K-mode dùng để phân nhóm, với trung tâm của
từng nhóm được xác định bằng giá trị khoảng cách nhỏ nhất của tất
cả các đối tượng trong cùng nhóm.

2.8. Kết luận chƣơng 2
Nội dung chương 2 trình bài lý thuyết về hệ thống gợi ý, các

khái niệm liên quan đến hệ thống gợi ý như: user, item, mối quan hệ
giữa user với item, khái niệm về dữ liệu tường minh. Cơ sở lý thuyết
làm nền tảng để giải quyết bài toán gợi ý: độ đo khoảng cách, gom
nhóm và cuối cùng là ví dụ minh họa.


11

CHƢƠNG 3 – GIẢI PHÁP THỰC HIỆN
3.1. Framework hệ thống gợi ý
Hệ thống gợi ý gồm có 5 thành phần xử lý chính:
Xử lý feedback: module sẽ kiểm soát các hành động của
người dùng tác động lên sản phẩm, lưu dữ liệu log khi người dùng
thể hiện sự quan tâm đối với sản phẩm qua các thao tác như: yêu
thích, chia sẽ, đánh dấu, bình chọn hoặc comment.
Rút trích đặc trưng: module phân tích nội dung mô tả item từ
dữ liệu thô không cấu trúc (như text), sau đó rút trích các đặc tính
của sản phẩm, dịch vụ và xây dựng thông tin có cấu trúc cho sản
phẩm, dịch vụ.
Xây dựng User preference: module sẽ tổng hợp dữ liệu về
các hành động của người dùng thể hiện sự yêu thích quan tâm đối
với sản phẩm qua lịch sử thao tác của người dùng lên sản phẩm. và
được xây dựng thông qua kỹ thuật máy học như: gom nhóm, phân
lớp.
Clustering: module sẽ thực hiện gom nhóm các item dựa vào
đặt trưng, phục vụ cho việc dự đoán các sản phẩm và dịch vụ phù
hợp với khách hàng.
Xử lý lọc: module sẽ tận dụng dữ liệu user preference để gợi
ý những sản phẩm phù hợp qua việc phân tích, kết hợp với dữ liệu
gom nhóm và item profile để đưa ra tập dữ liệu gợi ý.



12

3.2. Cơ sở dữ liệu lƣu trữ
Hệ thống gợi ý sử dụng 3 hệ cơ sở dữ liệu sau:
-

Mysql. CSDL chính dùng để lưu trữ thông tin quan trọng của
hệ thống như sản phẩm, dịch vụ, khách hàng.

-

Mongodb. CSDL dùng để crawler thu thập dữ liệu, chuẩn bị
cho việc xử lý.

-

Hbase. CSDL dùng để xử lý tính toán gom cụm trên môi
trường Hadoop.

3.3. Xây dựng mối quan hệ giữa user và item
Mỗi khách hàng đến viếng thăm website, họ sẽ xem các sản
phẩm nếu sản phẩm đấy làm họ hài lòng có thể họ sẽ nhất vào nút
“like” trên giao diện website để thể hiện sự yêu thích của mình đối
với sản phẩm. Khi đó ta có được quan hệ giữa user đối với item.

3.4. Thu thập dữ liệu
Dữ liệu phân tích được thu thập từ nguồn tiki.vn, fahasa.com
và fanpage của tiki, fahasa từ cộng đồng facebook.


3.4.1. Thu thập bài post từ fanpage trên facebook
Dữ liệu bài post ta thu thập được clawer từ nguồn fanpage
của facebook phục vụ cho việc rút trích đặc trưng, xây dựng hồ sơ
người dùng và hồ sơ item. Dữ liệu thu thập được lưu trữ vào Hệ
CSDL MongoDB.

3.4.2.Thu thập dữ liệu thông tin sản phẩm từ trang chính


13
Sau bước thu thập dữ liệu từ fanpage, chúng ta thực hiện
truy cập đến trang chính thống tiki.vn hoặc fahasa.com để crawler
tiếp dữ liệu chi tiết, đặc trưng của item như: mô tả, giá tiền, màu sắc,
thể loại, xuất bản,… để phục vụ cho việc tìm kiếm, tìm item tương
tự.

3.5. Rút trích đặc trƣng sản phẩm
Chúng ta kinh doanh về các mặt hàng sản phẩm và dịch vụ,
thông tin quan trọng giúp cho hệ thống có thể tìm kiếm dựa vào
hướng tiếp cận “Lọc dựa trên nội dung” đó là các trường đặc trưng
(feature) của sản phẩm, dịch vụ. Ví dụ: loại sản phẩm, giá tiền, màu
sắc, trọng lượng, bảo hành... Vì vậy ta cần phải thống kê các feature
và rút trích đặc trưng cho các sản phẩm và dịch vụ thông qua mô tả
của sản phẩm đó.

3.5.1. Kỹ thuật sử dụng rút trích đặc trƣng cho sản phẩm
3.5.2. Lƣu trữ đặc trƣng ở định dạng kiểu số
Trong kỹ thuật lọc dựa vào nội dung sử dụng K-Mode để
gom cụm các sản phẩm có độ tương tự với nhau, và độ đo khoảng

cách sử dụng phương pháp Jaccard distance measure. Vì vậy các
feature của sản phẩm, dịch vụ phải chuyển về dạng số đặc trưng cho
giá trị feature.

3.6. Thƣ viện máy học Apache Mahout
Apache Mahout là một thư viện mã nguồn mở hỗ trợ trong
việc xý lý tính toán dữ liệu như: gom cụm, phân lớp, cây quyết định,


14
hê thống gợi ý [5]… Mahout hỗ trợ tính năng mở rộng, cho phép
hoạt động trong môi trường hệ phân tán Hadoop framework [6].
Trong luận văn sử dụng thư viện máy học Mahout. Sử dụng
thuật toán K-Mode để gom cụm nhằm mục đích cho việc tìm kiếm
các sản phẩm tương tự, thuật toán K-Mode sử dụng phương thức tính
khoảng cách là Jaccard. K-Mode được cái tiến từ K-Mean trong gói
mã nguồn thư viện Mahout.

3.6.1. Cài đặt thuật toán Jaccard DistanceMeasure
3.6.2. Cải tiến phƣơng pháp tính C trung tâm cho từng cụm
3.7. Gom nhóm sản phẩm (item clustering)
Thực hiện việc gom nhóm là để xác định các sản phẩm có độ
tương tự với nhau, sẽ được xem xét và gom vào cùng một nhóm,
giúp cho việc tìm kiếm các sản phẩm tương tự gợi ý đến khách hàng
một cách nhanh chóng và hiệu quả.
Gom nhóm có ảnh hưởng bởi việc chọn k nhóm để phân bố
các phần tử và việc chọn phương pháp đo khoảng cách có phù hợp
với đối tượng đó hay không. Trong kỹ thuật gom nhóm, chúng ta sử
dụng độ đo Jaccard, phương pháp này chưa được thư viện máy học
Apache Mahout hỗ trợ, vì vậy chúng ta sẽ cài đặt thuật toán để giải

quyết vấn đề gom nhóm. Ngoài ra, phương pháp này sẽ không sử
dụng cách tính C trung tâm cho từng cụm do Apache hỗ trợ vì không
phù hợp.

3.7.1. Thuật toán K-Mode trên hệ thống phân tán
3.7.2. K-Mode xử lý gom cụm trên hệ phân tán Hadoop


15
3.8. Gợi ý sản phẩm, dịch vụ
Sau khi thực hiện gom nhóm cho tập dữ liệu, mỗi sản phẩm,
dịch vụ sẽ có thêm thông tin về: khoảng cách, nhóm mà sản phẩm
thuộc về.
Xét một sản phẩm A được khách hàng yêu thích ta sẽ biết được sản
phẩm A thuộc về nhóm nào, từ đó chúng ta chọn ra danh sách các
sản phẩm dịch vụ có cùng nhóm với A và ngưỡng khoảng cách được
giới hạn là 0.5.

3.9. Đánh giá gom nhóm (Evaluation Clustering)
Để đánh giá chất lượng kết quả của gom nhóm ta xét khoảng
cách Inter-cluster và khoảng cách Intra-cluster. Chúng ta cần phải
đảm bảo độ tương tự intra-cluster cao và độ tương tự inter-cluster
thấp.
Cho tất cả các phần tử trung tâm, khoảng cách giữa tất cả các
cặp phần tử trung tâm có thể được tính bằng cách sử dụng độ đo
khoảng cách và được thể hiện bằng ma trận. Ma trận khoảng cách
Inter-cluster cho biết các phần tử trong một cluster được thể hiện
khoảng cách xa hoặc gần như thế nào cho từng cluster.

3.9.1. Khoảng cách Inter-cluster

Khoảng cách Inter-cluster là một độ đo tốt về chất lượng
gom nhóm, những phần tử được gom nhóm tốt hầu như không có
trung tâm gần với trung tâm cluster khác, bởi vì điều này thể hiện
việc xử lý phân nhóm đã tạo ra các cluster có những đặc trưng tương
tự, và tạo ra một không gian khoảng cách giữa các phần tử bên trong
cluster rất khó hỗ trợ.


16
Tính khoảng cách giữa các cặp trung tâm với nhau, tìm kiếm
giá trị min và max trong tất cả các cặp trên, sau đó tính tỉ lệ khoảng
cách trung bình inter-cluster

3.9.2. Khoảng cách Intra-cluster
Khoảng cách Intra-cluster là khoảng cách giữa các phần tử
bên trong một cluster, sẽ được so sánh bên trong khoảng cách intercluster. Khoảng cách tốt sẽ trả về giá trị khoảng cách nhỏ giữa các
đối tượng cho thấy sự giống nhau và gom nhóm các cluster chặt chẽ
phân biệt hơn.
Như vậy ta thấy để có được những cluster tốt thì giá trị các
phần tử (vector) chất lượng, và điều quan trọng nhất để tạo được
những cluster chất lượng là lựa chọn phương thức đo khoảng cách
phù hợp. Ví dụ: phương thức tính khoảng cách Cosine là tốt cho việc
clustering tài liệu (text document).

3.10. Kết luận chƣơng 3
Nội dung chương 3 trình bày framework của hệ thống và
giải pháp được dùng để xây dựng hệ thống gợi ý theo hướng tiếp cận
lọc trên nội dung. Bao gồm các giải pháp: thu thập dữ liệu, rút trích
đặc trưng sản phẩm, gom cụm K-means và xử lý dữ liệu trên môi
trường Hadoop MapReduce.



17
CHƢƠNG 4 – PHẦN MỀM VÀ KẾT QUẢ
THỰC NGHIỆM
4.1. Kết quả gom cụm
Thực hiện gom nhóm trên tập dữ liệu gồm 1806 bản tin. Lần
lượt chọn giá trị k và số lần lặp tối đa để thực hiện cluster.

4.2. Kết quả gợi ý
Truy cập vào website hệ thống, thực hiện yêu thích một sản
phẩm với mã “tiki_91094926” thuộc cluster 42, sau đó chọn ra 10
sản phẩm cùng cluster và ngưỡng khoảng cách được chọn nhỏ hơn
hoặc bằng 0.5

4.3. Giao diện chƣơng trình demo
4.4. Môi trƣờng sử dụng
Hệ thống sử dụng 2 hệ điều hành và 3 hệ CSDL, máy ảo, hệ
phân tán Hadoop, ngôn ngữ java và một số thư viện khác.

4.5. Mã nguồn chƣơng trình
Hệ thống gồm nhiều module được phát triển và đóng gói
thành 3 chương trình, gồm 2 tiến trình và 1 web application

4.6. Kết luận chƣơng 4
Nội dung chương 4 trình bày về kết quả thực nghiệm của hệ
thống gợi ý dựa theo hướng tiếp cận nội dung. Môi trường và phần
mềm sử dụng, hệ thống sử dụng hệ phân tán Hadoop để xử lý dữ liệu
lớn và được viết bằng ngôn ngữ Java gồm 3 chương trình chính: 2
tiến trình và 1 web application.



18

PHẦN KẾT LUẬN
Hệ thống gợi ý được xem là một hệ thống chiến lược trong
việc kinh doanh trực truyến ngày nay, góp phần cho việc tăng lợi
nhuận kinh doanh và thu hút khách hàng đến viếng thăm.Hệ thống
gợi ý giúp cho khách hàng tìm thấy, có được những điều họ muốn,
họ mong đợi mà làm giảm thời gian tìm kiếm. Hệ thống gơi ý đang
được ứng dụng và phát triển mạnh mẽ ở mọi mặt, mọi lĩnh vực: giải
trí, kinh doanh, giáo dục… Luận văn đã đóng góp như sau:
-

Xử lý dữ liệu lớn trên nền tảng Hadoop, dễ dàng mở rộng
hệ thống.

-

Cải tiến thuật toán gom cụm của thư viện Mahout để tính
K-Mode.

-

Bổ sung phương thức tính khoảng cách Jaccard cho thư
viện Mahout.

-

Gợi ý được sản phẩm theo hướng tiếp cận lọc trên nội

dung.
Luận văn đã nhiên cứu và phát triển hệ thống gợi ý theo trên

hướng tiếp cận dựa trên nội dung của sản phẩm. Góp phần cho việc
giới thiệu các sản phẩm mới đa dạng hơn đến khách hàng.



×