Tải bản đầy đủ (.pdf) (84 trang)

XÂY DỰNG WEBSITE ỨNG DỤNG CHƯƠNG TRÌNH tư vấn DU LỊCH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (11.15 MB, 84 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TRẦN XUÂN THANH PHÚC

XÂY DỰNG WEBSITE ỨNG DỤNG
CHƯƠNG TRÌNH TƯ VẤN DU LỊCH

LUẬN VĂN THẠC SỸ
Ngành: Công nghệ thông tin

TP. HỒ CHÍ MINH – 2017


ĐẠI HỌC QUỐC GIA TP. HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc lập – Tự do – Hạnh phúc

CÔNG NGHỆ THÔNG TIN

------------------------------------------------------------BÁO CÁO LUẬN VĂN THẠC SỸ

Họ và tên giảng viên hướng dẫn: PGS.TS QUẢN THÀNH THƠ
Cơ quan công tác: Trường Đại học Bách Khoa

Đề tài luận văn đối với học viên cao học ngành: Công nghệ thông tin
1. Tên hướng nghiên cứu: Khai phá dữ liệu


2. Tên đề tài luận văn: Xây dựng website ứng dụng chương trình tư vấn du
lịch

Họ và tên học viên: Trần Xuân Thanh Phúc
MSHV: CH1402036
Điện thoại: 01264 222 400
Email:


LỜI CẢM ƠN
Trên thực tế một sự thành công luôn đi đôi với sự hỗ trợ, giúp đỡ dù ít hay
nhiều, dù trực tiếp hay gián tiếp. Có được kết quả báo cáo này, tôi rất trân trọng và
biết ơn sự tận tình hướng dẫn, giúp đỡ và định hướng từ các thầy, cô thuộc Phòng sau
Đại học và các Thầy thuộc Khoa Công nghệ thông tin trường Đại học Công Nghệ
Thông Tin.
Đặc biệt, tôi xin gởi lời tri ân và cảm ơn sâu sắc nhất đến thầy hướng dẫn
luận văn của tôi: PGS.TS Quản Thành Thơ. Thầy đã tận tình hướng dẫn chúng tôi từ
những ý tưởng thực hiện, hướng giải quyết các vấn đề lớn nhỏ đến việc chỉnh sử và
gợi ý những ý tưởng báo cáo chi tiết nhất nhằm cho ra một báo cáo tốt. Một lần nữa
tôi xin gửi lời cảm ơn sâu sắc nhất tới thầy.
Đồng thời cũng xin gửi lời cảm ơn gia đình, bạn bè đã tiếp động lực cho tôi
trong thời gian vừa qua, và cũng không quên gửi lời cảm ơn đến các bạn trong nhóm
nghiên cứu đã tạo điều kiện, giúp đỡ, và đồng hành cùng tôi trong quá trình nghiên
cứu thực hiện luận văn vừa qua.
Trong quá trình nghiên cứu và làm bài báo cáo khó tránh khỏi những thiếu
sót, sai sót không mong muốn. Rất mong nhận được thông cảm và ý kiến đóng góp
quý báo từ các Thầy, Cô.

1



LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này do chính tôi thực hiện dưới sự hướng dẫn
khoa học của PGS. TS. Quản Thành Thơ, giảng viên Trường Đại học Bách Khoa
TP.HCM.
Các dữ liệu nghiên cứu trong luận văn là trung thực, do tôi lập trình, phân
tích, thiết kế.
Các thông tin trích dẫn trong luận văn này đều đã được chỉ rõ nguồn gốc.
Nếu sai, tôi xin chịu hoàn toàn trách nhiệm.

Tác giả luận văn

Trần Xuân thanh Phúc

2


MỞ ĐẦU
Xã hội ngày càng phát triển, kéo theo những nhu cầu về mặt tinh thần cũng
đang cần thiết hơn đối với mỗi con người. Đặc biệt là sau một khoảng thời gian dài
làm việc căng thẳng và mệt mỏi, mỗi người luôn muốn tìm cho bản thân mình một
khoảng thời gian thư giãn thật thoải mái, và du lịch là một trong những hình thức
được lựa chọn phổ biến.
Cùng với sự phát triển mạnh mẽ của Internet, thì việc đi du lịch càng trở nên
dễ dàng hơn khi mà họ có thể nhanh chóng có được một Tour du lịch phù hợp cho
mình chỉ với vài bước tìm kiếm trên Internet mà không phải mất nhiều thời gian và
công sức. Từ việc tìm kiếm, đặt Tour và thanh toán đều có thể thực hiện dễ dàng
thông qua Internet.
Được sự hỗ trợ của nhà trường, thầy hướng dẫn, cùng với sự phối hợp hỗ trợ

của nhóm nghiên cứu. Tôi đã quyết định phát triển một hệ thống tư vấn du lịch thông
minh trên nền tảng ứng dụng web, mục đích để góp phần hỗ trợ người dùng tìm kiếm
được những chuyến du lịch ưng ý mà không phải mất quá nhiều thời gian và công
sức.
Để xây dựng hệ thống “Tư vấn du lịch thông minh”, tôi đã tham khảo và đưa
ra các bài toán, tình huống xảy ra trong thực tế, rồi từ đó tìm ra giải pháp để giải quyết
cho từng vấn đề cụ thể, cố gắng tối ưu hóa và đưa chúng vào hệ thống.
Mục tiêu của luận văn này là xây dựng được một hệ thống tư vấn du lịch thông
minh dựa trên các giải thuật tính toán và tìm kiếm tour phù hợp trên nền tảng ứng
dụng web.

3


DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT
AR

Association Rule

DAML

DARPA Agent Markup Language

DCA

Disjiont Common ancestor

GPS

Global Positioning System


IC

Information content

LCS

Least Common Subsumer

MICA

Most Informative Common Ancestor

OWL

Ontology Web Language

POI

Points of Interest

RDF

Resource Description Framework

RDFS

Resource Description Framework Schema

RS


Recommender Systems

SPARQL

Sparql Protocol and RDF Query Language

W3C

World Wide Web Consortium

XML

Extensible Markup Language

IM

Interaction Matrix

4


MỤC LỤC
LỜI CẢM ƠN..........................................................................................................................................1
MỞ ĐẦU................................................................................................................................................3
DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT....................................................................................4
DANH MỤC CÁC HÌNH VẼ ..............................................................................................................8
CHƯƠNG 1 : TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU ........................................................................9
1.1. Giới thiệu đề tài nghiên cứu ..................................................................................................9
1.2. Mục tiêu nghiên cứu............................................................................................................15

1.3. Đối tượng và phạm vi nghiên cứu .......................................................................................16
1.3.1 Đối tượng nghiên cứu...................................................................................................16
1.3.2 Phạm vi nghiên cứu ......................................................................................................16
CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT ..........................................................................................................18
2.1 Giới thiệu các hệ thống tư vấn ............................................................................................18
2.2 Hệ thống tư vấn du lịch .......................................................................................................22
2.3 Ontology ..............................................................................................................................26
2.4 Ngôn ngữ OWL ....................................................................................................................28
2.5 Công cụ Protégé...................................................................................................................29
CHƯƠNG 3 : HIỆN THỰC VÀ XÂY DỰNG GIẢI THUẬT.........................................................................31
3.1 Mô tả thuật ngữ ..................................................................................................................31
3.1.1 Thuộc tính tour .............................................................................................................31
3.1.2 Trọng số ........................................................................................................................32
3.1.3 Điểm tương tác .............................................................................................................32
3.1.4 Độ tương tự ..................................................................................................................33
3.2 Ứng dụng độ tương tự trên Ontology để tăng độ chính xác cho hệ thống tư vấn .............33
3.2.1 Phương pháp tính độ tương tự giữa 2 khái niệm trên Ontology .................................33
3.2.2 Giải thuật tính toán độ tương tự giữa hai thuộc tính trên Ontology ...........................41
3.3 Giải thuật tính điểm các thuộc tính và chiến lược đặt câu hỏi ...........................................43
3.3.1 Luật kết hợp trong khai phá dữ liệu .............................................................................43
3.3.2 Các khái niệm cơ bản ....................................................................................................44
3.3.3 Thuật toán FP-Growth ..................................................................................................45
3.3.4 Giải thuật xây dựng ma trận IM....................................................................................50

5


3.3.5 Giải thuật tính điểm các thuộc tính dựa trên IM..........................................................50
3.3.6 Chiến lược đặt câu hỏi ..................................................................................................52
3.4 Giải thuật tính điểm các thuộc tính và chiến lược đặt câu hỏi ...........................................55

3.4.1 Các thành phần hệ thống .............................................................................................55
3.4.2 Giải thuật ......................................................................................................................56
CHƯƠNG 4 : THIẾT KẾ VÀ HIỆN THỰC ỨNG DỤNG ............................................................................58
4.1 Mô hình hoạt động của hệ thống ........................................................................................58
4.2 Lược đồ Use case .................................................................................................................59
4.3 Chức năng chính: tìm kiếm tour ..........................................................................................60
4.4 Thiết kế Ontology ................................................................................................................61
4.5 Hiện thực thuật toán FP-Growth .........................................................................................63
4.5.1 Sơ đồ giải thuật.............................................................................................................63
4.5.2 Thiết kế mã giả..............................................................................................................63
4.6 Hiện thực thuật toán tính độ tương tự và mở ....................................................................64
4.6.1 Sơ đồ giải thuật.............................................................................................................64
4.6.2 Thiết kế mã giả..............................................................................................................64
4.7 Thiết kế ứng dụng web ........................................................................................................65
CHƯƠNG 5 : THỰC NGHIỆM NGHIÊN CỨU ........................................................................................67
5.1 Phương pháp kiểm thử hệ thống ........................................................................................67
6.1 Môi trường kiểm thử hệ thống ...........................................................................................67
5.2 Đánh giá hệ thống ...............................................................................................................67
5.3 Kiểm tra, đánh giá giải thuật ...............................................................................................68
5.3.1 Đánh giá giải thuật Generate Transaction dựa trên độ tương tự ................................68
5.3.2 Đánh giá IM được xây dựng bởi Fp-Growth .................................................................70
5.3.3 Giải thuật tìm kiếm tour ...............................................................................................72
5.3.4 Chạy thực nghiệm và so sánh với hệ thống cũ .............................................................73
CHƯƠNG 6 : KẾT LUẬN VÀ KHUYẾN NGHỊ .........................................................................................78
6.1 Kết luận ................................................................................................................................78
6.2 Hạn chế ................................................................................................................................78
6.3 Thuận lợi và khó khăn..........................................................................................................78
6.3.1 Thuận lợi .......................................................................................................................78

6



6.3.2 Khó khăn .......................................................................................................................79
6.4 Khuyến nghị và hướng phát triển ........................................................................................79
TÀI LIỆU THAM KHẢO .........................................................................................................................80

7


DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Mô tả hệ thống câu hỏi chương trình đưa ra cho người dùng ................. 10
Hình 1.2: Mô tả hệ thống câu hỏi chương trình đưa ra cho người dùng ................. 10
Hình 1.3: Mô tả hệ thống câu hỏi chương trình đưa ra cho người dùng ................. 11
Hình 1.4: Mô tả kết quả đề xuất tour của chương trình tư vấn ................................ 11
Hình 1.5: IM .............................................................................................................. 12
Hình 1.6: Chiến lược đặt câu hỏi trong hệ thống có sẵn của công ty DeNA Travel 12
Hình 1.7: Mô tả ma trận điểm tương tác (interaction matrix) ................................. 13
Hình 1.8 Mô tả bảng bảng dữ liệu từ người dùng .................................................... 14
Hình 1.9 Mô hình toàn thể hệ thống cải tiến ............................................................ 15
Hình 3.1: Bảng danh sách các thuộc tính tour ......................................................... 31
Hình 3.2: Ví dụ Ontology .......................................................................................... 33
Hình 3.3: Hai phương pháp tiếp cận node-based và edge-based. ............................. 34
Hình 3.4: Phương pháp tiếp cận MICA (node-based). ............................................. 35
Hình 3.5: Phương pháp tiếp cận CDA (node-based). ............................................... 36
Hình 3.6: Minh họa cách tính của công thức 𝑠𝑖𝑚𝑊&𝑃. .......................................... 38
Hình 3.7: Minh họa cách tính của Pekar và Staab. ................................................... 39
Hình 3.8: Mô tả bài toán ví dụ Ontology .................................................................. 40
Hình 3.9: Hình Ontology các thuộc tính của Tour ................................................... 41
Hình 3.10: Ví dụ cây FP ........................................................................................... 49
Hình 3.11: Biểu đồ đánh giá Tour của giải thuật tìm kiếm Tour ............................. 56

Hình 4.1: Mô hình hoạt động của hệ thống ............................................................. 58
Hình 4.2: Mô tả Use case của hệ thống tư vấn du lịch ............................................. 59
Hình 4.3: Sơ đồ mô tả hoạt động đặt câu hỏi ............................................................ 60
Hình 4.4: Sơ đồ mô tả hoạt động chức năng tìm Tour ............................................. 61
Hình 4.5: Thứ tự sắp xếp các Attribute trên Ontology ............................................. 62
Hình 4.6: Dữ liệu Ontology ...................................................................................... 62
Hình 4.7: Mô hình hóa giải thuật Fp-Growth .......................................................... 63
Hình 4.8: Giao diện màn hình khảo sát .................................................................... 65
Hình 4.9: Giao diện màn hình kết quả ...................................................................... 66
Hình 5.1: Hình biểu diễn độ tương thích của tour tìm được so với nhu cầu của user
................................................................................................................................... 73

8


CHƯƠNG 1 : TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

1.1. Giới thiệu đề tài nghiên cứu
Ngày nay khi xã hội ngày càng phát triển thì nhu cầu du lịch của nhiều
người đang dần trở nên phổ biến hơn. Việc quá bận rộn với công việc và cuộc
sống hằng ngày thì những chuyến du lịch là phương án rất cần thiết để giúp thư
giãn đầu óc, phục hồi lại năng lượng. Tuy nhiên, làm cách nào để có được những
chuyến du lịch phù hợp nhất, với chi phí hợp lí nhất? Câu trả lời là có thể nhờ
tư vấn từ người thân, bạn bè cũng như những người quen biết xung quanh hoặc
thậm chí là đến những công ty du lịch nhờ tư vấn, nhưng điều đó dường như đã
làm mất quá nhiều thời gian. Và hiện nay, trong thời điểm mà Internet và thông
tin số đang phát triển và bùng nổ mạnh mẽ, thì việc sử dụng những lợi ích này
để tìm kiếm cho mình một chuyến đi ưng ý là điều khả dĩ. Do đó, người dùng
có thể tìm đến những trang web hay những ứng dụng để giúp họ tìm được một
kế hoạch du lịch phù hợp và nhanh chong thông qua Internet. Tuy nhiên, với sự

xuất hiện tràn lan của những trang web cũng như ứng dụng trên Internet thì làm
thế nào để người dùng tin tưởng và sử dụng ứng dụng của bạn xây dựng? Để
làm được điều này thì bạn cần phải xây dựng một hệ thống tư vấn du lịch thông
minh giúp người dùng có thể tìm được những tour du lịch ưng ý nhất với giá cả
hợp lý nhất mà không phải tốn quá nhiều thời gian.
Vậy như thế nào là một hệ thống tư vấn du lịch thông minh? Đầu tiên là
nó phải hỗ trợ người dùng tìm ra Tour du lịch phù hợp nhất trong thời gian nhanh
nhất, thứ hai là phải có một chiến lược đặt câu hỏi phù hợp dựa trên nhu cầu của
người dùng, giúp người dùng tiết kiệm được nhiều thời gian mà vẫn tìm kiếm
được những Tour du lịch hợp lý thông qua các câu trả lời của họ cho các câu hỏi
mà hệ thống đưa ra.
DeNA Travel* là một trong những công ty du lịch đã ứng dụng thành
công hệ thống tư vấn thông minh vào hoạt động tư vấn du lịch của mình. Ứng
với hệ thống tư vấn du lịch thông minh sẵn có của công ty DeNA Travel. Tôi đã

*

9


CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

có dịp tiếp cận, tìm hiểu và nghiên cứu hệ thống này khi tham gia nhóm nghiên
cứu do PGS.TS Quản Thành Thơ hướng dẫn.
Hệ thống tư vấn du lịch của Công ty DeNA hoạt động cơ bản như sau:
 Khi người dùng truy cập vào hệ thống, hệ thống sẽ đưa ra câu hỏi đầu tiên.

Hình 1.1: Mô tả hệ thống câu hỏi chương trình đưa ra cho người dùng
 Sau khi người dùng trả lời câu hỏi này hệ thống sẽ tính toán và đưa ra tiếp câu hỏi
thứ 2.


Hình 1.2: Mô tả hệ thống câu hỏi chương trình đưa ra cho người dùng
 Khi người dùng trả lời câu hỏi thứ 2 hệ thống sẽ ghi nhận, tính toán và các câu hỏi
tiếp theo được đưa ra để thu thập thông tin người dùng. Quá trình này lặp đi lặp lại
cho đến khi hết số câu hỏi hoặc khi đã thu thập đầy đủ thông tin của người dùng cần
tư vấn.

10


CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

Hình 1.3: Mô tả hệ thống câu hỏi chương trình đưa ra cho người dùng

 Cuối cùng hệ thống sẽ tiến hành tính toán và sẽ đề xuất cho người dùng các tour

du lịch được xem là phù hợp và gần nhất với nhu cầu của người dùng.

Hình 1.4: Mô tả kết quả đề xuất tour của chương trình tư vấn
 Các câu hỏi lần lượt được đưa ra (câu trước  câu sau) dựa vào mối quan hệ đã

được định nghĩa sẵn. Quan hệ đó được thể hiện trong bảng ma trận tương quan
(Interaction Matrix - IM):

11


CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

Hình 1.5: IM

 Hoạt động cụ thể của hệ thống được mô hình hóa cơ bản như sau:
A

Câu hỏi

Thuộc tính

1

2

B

3

4

5

7

8

9

Hệ thống
Đưa ra câu hỏi A

START


A

Câu hỏi

Thuộc tính

6

C

1

2

B

3

4

5

6

D

10 11 12 13 14 15 16 17 18 19 20

Người dùng chọn
câu trả lời


8

9

Hệ thống tính toán
điểm cho các thuộc
tính dựa trên bảng
điểm tương quan

VD người dùng
chọn 1

C

7

E

D

E

10 11 12 13 14 15 16 17 18 19 20

Câu hỏi nào có số thuộc tính chưa
được tính điểm nhiều nhất sẽ được
chọn làm câu hỏi tiếp theo

Hệ thống

Đưa ra câu hỏi E

Người dùng chọn
câu trả lời

Hệ thống tính
toán điểm cho các
thuộc tính dựa
trên bảng điểm
tương quan

Quá trình này lập lại cho đến khi tất
cả các thuộc tính được tính điểm

. ..

END

Hoặc hết số lượng câu hỏi được
quy định cho mỗi người dùng

Giải thích:
Các thuộc tính chưa được tính điểm
Các thuộc tính đã được tính điểm

Đưa ra tư vấn

Hình 1.6: Chiến lược đặt câu hỏi trong hệ thống có sẵn của công ty DeNA Travel
12



CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

Từ phương thức hoạt động như mô tả trên, và qua quá trình tìm hiểu,
nghiên cứu đánh giá cho thấy: Hệ thống tư vấn vẫn còn một vấn đề tồn tại cần
giải quyết đó là: IM hiện tại còn thưa và chưa hợp lý, cũng như chưa được phát
sinh một cách tự động mà được tạo ra theo cảm tính của nhà phát triển và đây
cũng là một nguyên nhân ảnh hưởng đến độ chính xác cao của hệ thống.

Hình 1.7: Mô tả ma trận điểm tương tác (interaction matrix)
Ý tưởng được đưa ra để giải quyết vấn đề tồn tại trên, đó là:
Thứ nhất: Sử dụng bảng khảo sát để thu thập những sở thích cũng như
thói quen du lịch của người dùng. Từ đó ta rút trích ra được tập dữ liệu thể hiện
thói quen du lịch của họ. Bảng khảo sát là tập hợp các câu hỏi được đúc kết trong
8 thói quen phổ biến nhất của người dùng, đây cũng là các câu hỏi sẽ được dùng
để thu thập dữ liệu tư vấn nhằm tìm ra các tour du lịch phù hợp:
STT

Câu hỏi

Lựa chọn

1

Giá tour

Dưới 1 triệu, từ 1 đến 2 triệu, 2 đến 4 triệu,
4 đến 6 triệu, 6 đến 10 triệu, trên 10 triệu

2


Thời gian chuyến
đi

1 buổi, 1 ngày, 1-2 ngày, 2-4 ngày, trên 4
ngày

3

Cự ly tuyến

Nội thành, Ngoại thành, khu vực lân cận,
cùng vùng, khác vùng

4

Khí hậu

Ấm áp, Mát mẻ, Lạnh

13


CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

5

Đặc điểm tour

Núi, Biển, Sông/ Hồ, Khu bảo tồn, Thôn

quê, Thành thị

6

Loại hình du lịch

Nghĩ dưỡng, sinh thái, tham quan, giải trí

7

Hoạt động tour

Spa, mua sắm, ngắm cảnh, thể thao, văn
nghệ,…

8

Người đi cùng

Một mình, Người yêu, Gia đình, Bạn bè,
Tổ chức- đoàn thể

A1 - A2
1

A3

A4

A5


1

2

1

3

1

4

1

1
1

1

A6

B1

B2

B3

B4


B5

C1

1

1

1

1

1

1

1

1

1

1

1

1

1


5

1

1

1

1

6

1

1

1

1

7

1

1

1

8


1

9

1

10

1

1

1
1

1

1

1

C2

1

C3

C4

C5


1

1

1

1
1
1

1

1

1

1

Hình 1.8 Mô tả bảng bảng dữ liệu từ người dùng
Thứ hai: Sau khi khảo sát, thu được tập dữ liệu thể hiện những thói quen
phổ biến của người dùng khi chọn các tour du lịch thỏa các nhu cầu đề ra. Nhưng
vì người khảo sát họ chỉ chú ý đến những nhu cầu họ mong muốn nhất, mà bỏ
qua yếu tố gần đúng khác, vì thế tác giả sẽ dùng Ontology để mở rộng tập dữ
liệu trên dựa vào mối quan hệ tương tự của hai thuộc tính gần nhau.

14


CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU


Ý tưởng: A1A5B1B2 xuất hiện 2 lần  Áp dụng tính cánh tính độ tương
tự giữa 2 thuộc tính cho Ontology.
A1  A2 tương tự: 0.5  A2A5B1B2 xuất hiện 1 lần.
VD: Chi phí 1 triệu  có thể đi được Hồ Tràm. Dùng độ tương tự giữa
các thuộc tính  Chi phí 1 triệu  cũng có thể đi Vũng Tàu.
Thứ ba: Dựa trên tập dữ liệu đã xử lý qua Ontology, ta xây dựng IM
bằng cách sử dụng thuật toán Fp-Growth.

Hình 1.9 Mô hình toàn thể hệ thống cải tiến

1.2. Mục tiêu nghiên cứu
-

Xây dựng lại hệ thống tư vấn Tour du lịch theo hướng cải tiến giải
thuật

-

Ứng dụng Ontology để mở rộng tập dữ liệu dựa vào mối quan hệ
tương tự của 2 thuộc tính gần nhau

-

Ứng dụng Thuật toán Fp-Growth để phát sinh các giá trị điểm tương
tác trong IM một cách tự động.

Đề tài này sử dụng hai kỹ thuật chính là khai phá dữ liệu và Ontology.
Khai phá dữ liệu giúp dự đoán kết quả dựa vào tập lịch sử dữ liệu có sẵn.


15


CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

Ontology dựa vào sơ đồ tri thức, giúp tìm điểm tương đồng giữa hai khái niệm,
hỗ trợ cho việc khảo sát sở thích du lịch của người dùng, những yếu tố quyết
định đến sự lựa chọn của họ. Việc làm này có hai ý nghĩa:
-

Về mặt học thuật: nâng cao độ chính xác của việc đề xuất tour phù
hợp với nhu cầu sở thích người dùng mục tiêu là thách thức mà các
hệ thống tư vấn hướng đến.

-

Về mặt thực tiễn: Du lịch là một nhu cầu thiết thực trong cuộc sống
ngày nay, nhưng đôi khi có những người họ muốn đi, nhưng lại không
biết chọn lựa điểm đến nào. Việc xây dựng hệ thống tư vấn du lịch
dựa trên hai nền tẳng khoa học kỹ thuật trên, sẽ giúp đỡ cho những
đối tượng này dựa vào sở thích và kinh nghiệm của những người đi
trước, giúp họ tiết kiệm thời gian hơn và tìm được cho mình những
tour du lịch ưng ý nhất. Mặc khác nó giúp cho doanh nghiệp có thể
tiết kiệm được chi phí lao động để đảm nhiệm vai trò tư vấn, vì tất cả
đều được vận hành một cách tự động, và cập nhật liên tục.

1.3. Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Đối tượng đầu tiên là nghiên cứu các kỹ thuật, kiến thức xây dựng
ontology du lịch để phản ánh đúng tri thức hoạt động ngành.

Áp dụng các kỹ thuật khai phá dữ liệu người dùng, Sử dụng kỹ thuật tính
toán độ tương tự giữa các khái niệm trong Ontology kết hợp với thuật toán FpGrowth khai phá luật kết hợp, xây dựng IM trong hệ thống tư vấn. Nhằm mục
đích hoàn thiện khả năng tính toán, xử lý dữ liệu và tăng độ chính xác trong việc
tư vấn và đề xuất tour. Kiểm thử kết quả với các luật suy diễn phù hợp, làm cơ
sở đánh giá hiệu quả hoạt động của hệ thống.

1.3.2 Phạm vi nghiên cứu
-

Tìm hiểu các yếu tố đánh giá một tour du lịch.

16


CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

-

Nghiên cứu, đánh giá giải thuật tìm kiếm Tour, chiến lược đặt câu hỏi
trong phạm vi các Tour mà hệ thống có cung cấp.

-

Nghiên cứu các phương pháp tính toán độ tương tự giữa các khái niệm
trong Ontology, thuật toán Fp-Growth khai phá luật kết hợp, xây dựng
IM phục vụ cho việc phát triển và tối ưu hóa các chiến lược, giải thuật
tìm kiếm và tư vấn (đề xuất) Tour du lịch cho người dùng.

Đề tài chỉ nghiên cứu giới hạn trong phạm vi tư vấn những tour du lịch
phù hợp nhất cho người dùng dựa trên các mà người dùng đưa ra như: sở thích,

chi phí, thời gian, loại khí hậu, số người cùng đi, loại hình du lịch mong muốn…
Đề tài sẽ bỏ qua các yếu tố khách quan như: thời tiết, kinh tế, chính trị…

17


CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT
2.1

Giới thiệu các hệ thống tư vấn
Cùng với sự phát triển của Internet thì các công cụ tìm kiếm ngày nay

(như: Google, bing, yahoo…) cũng hỗ trợ rất mạnh. Người dùng có thể tìm được
một lượng lớn thông tin liên quan trong khoảng thời gian ngắn. Cũng chính vì
vậy, Người dùng phải bỏ ra quá nhiều thời gian để lọc những thông tin tìm kiếm
được phù hợp với yêu cầu của mình nhất. Thêm nữa, đôi khi người dùng cũng
không hiểu hết nhu cầu của mình, không biết được từ khóa chính xác mình muốn
tìm kiếm, do đó rất khó để tìm được thông tin mình cần.
Thực trạng cho thấy, rất cần có một hệ thống tư vấn, đề xuất để tính toán
và dự đoán khả năng một sản phẩm hay thông là phù hợp để đưa ra các gợi ý
cho người dùng một cách nhanh chóng dựa trên các thông tin đã được cung cấp.
Recommender Systems (RS) là hệ thống chọn lọc thông tin cần thiết
nhằm đưa ra gợi ý, dự báo phù hợp cho người dùng về vấn đề thông tin (như là
sách, âm nhạc, phim) hoặc vấn đề xã hội (là người, nhóm người) mà người đó
có thể chưa xem xét. Các hệ thống RS giới thiệu các khuyến nghị có thể phù
hợp tốt hơn với thị hiếu, cá nhân người dùng và hạn chế việc thông tin tràn ngập,
quá tải làm rối người dùng.
Hệ thống tư vấn là một công cụ mới, tạo ra nền tảng, hướng phát triển
mới và mạnh mẽ cho các nhóm ngành cụ thể như: thương mại điện tử về hàng
hóa, dịch vụ, tư vấn, du lịch, đào tạo... Hệ thống tư vấn được nghiên cứu, phát

triển với hình thức khá đa dạng, tuy nhiên dựa vào mục tiêu ứng dụng, tri thức
được sử dụng, giải thuật xử lý, và cách hệ thống hóa các khuyến nghị, RS có thể
được phân thành 6 loại (Gavalas, 2014):
 Collaborative filtering _ Breece, 1998 [15] (Chọn lọc theo cộng tác),
loại này được dùng nhiều trong ecommerce, social media. Người
dùng mục tiêu được gợi ý các món hàng, tiết mục, item tương tự với
các thứ được chọn bởi những người khác có tương đồng về sở thích,
thị hiếu, các cá nhân có tương quan (correlate) với nhau. Về cơ bản,
*

18


CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2 người có sự tương quan với nhau sẽ có mức độ tương đồng nhau về
cá tính, sở thích, qua sự đánh giá, sự lựa chọn của quá khứ.
 Content-based filtering _ Pazzani, 1999 [15] (Chọn lọc theo nội
dung), hệ thống tư vấn loại này dựa trên nội dung các món hàng, tiết
mục mà người dùng mục tiêu đã từng lựa chọn trong các lần thao tác
trước đó. Cụ thể là các sản phẩm đề cử được so sánh với các sản phẩm
được đánh giá (rate) trước đó bởi người dùng, và món hàng phù hợp
nhất được chọn để đưa ra gợi ý.
 Knowledged-based filtering _ Trewin, 2000 [15] (Chọn lọc theo tri
thức), loại này dựa trên cơ sở tri thức để tạo một tư vấn bằng cách suy
diễn về các món hàng đáp ứng được nhu cầu người dùng (ví dụ một
tư vấn về một chiếc xe hơi sẽ xem xét dựa trên tiêu chí nào trọng yếu
hơn đối với người dùng mục tiêu như: tính kinh tế, tiết kiệm xăng hay
tính tiện nghi, thoải mái, sang trọng). Tri thức được xây dựng từ việc
thu thập từ các lựa chọn, sở thích người dùng, hoặc qua hỏi đáp người

dùng để cung cấp thông tin liên quan đến các lựa chọn. Một hàm
tương tự được sử dụng để thể hiện mức độ nhu cầu của người dùng
tương quan với nội dung của các món hàng tùy chọn (item options).
Giá trị của hàm tương tự thường thể hiện mức độ hữu ích của mỗi gợi
ý.
 Demographic filtering¬ _ Pazzani, 1999 [15] (Lựa chọn theo số liệu
biểu diễn), hệ thống này được dùng nhiều trong ngành marketing để
gợi ý món hàng dựa trên dữ liệu nhân khẩu học của user. Thông tin
của dữ liệu này cụ thể như là số lần xem một món hàng cụ thể liên
quan đến vùng miền, ngôn ngữ, tuổi, giới tính, sở thích.
 Matrix factorization ¬_ Koren, 2008 [18] (Phân rã ma trận), loại này
là biến thể của collaborative filtering kết hợp với thông số đường cơ
sở (baseline parameter) cho mỗi user và món hàng. Baseline là các
tham số mô hình cộng thêm mô tả cho mỗi user và món hàng, chúng
thể hiện độ lệch tổng quát của mức đánh giá (rating) người dùng hay

19


CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

món hàng so với trung bình toàn cục (global average). Ví dụ, đường
cơ sở người dùng, user baseline của một người có xu hướng mức đánh
giá (rate) cao hơn trung bình dân số sẽ là số dương (positive number).
 Hybrid RSs _ Burke, 2002 (Hệ thống kết hợp), loại này dùng kết hợp
các phương pháp trên bằng cách khai thác điểm mạnh của kỹ thuật
này để bù đắp điểm yếu của cái kia, vì vậy nâng cao hiệu quả hiệu
suất tổng thể. Lai ghép hóa có thể được thực hiện bằng nhiều cách, ví
dụ tạo dự đoán theo cách content-based và collaborative-based độc
lập rồi kết hợp kết quả lại; hoặc thêm khả năng của content-based vào

collaborative-based và ngược lại; hợp nhất các phương pháp lại thành
một mô hình tổng thể.
Mỗi loại RS có khác nhau về ưu nhược điểm, tùy vào đặc thù ngành
nghề, mức độ chính xác mà RS phù hợp được chọn. Trên thực tế có 3 loại RS
được quan tâm áp dụng nhiều, và ta đánh giá rõ hơn về ưu nhược điểm như bảng
dưới đây:
Dữ liệu nền

Quy trình

Ưu điểm

Nhược điểm

Đánh giá,

Nhận diện

Có thể gợi ý

Khó khăn

bình chọn

users profile

Items đến

với items


của users.

trong hệ

các người

mới, users

Không cần

thống giống

dùng tương

mới vì chưa

thu thập đặc

với users

đồng trong

có dữ liệu

Collaborative trưng items.

mục tiêu

nhóm.


rating.

Kỹ thuật

Không gặp
trở ngại dù
có thay đổi.
sở thích của
user
Content-

Các đặc

Phân lớp các Không trở

Khó khăn

based

trưng của

items nhằm

với users

ngại với

20



CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

hàng hóa,

làm khớp

items mới.

mới chưa có

items.

với bình

Có thể giới

profile.

Dữ liệu đánh chọn, hành
vi của users.
giá, bình

thiệu chính

Khó khăn

xác items

nếu user có


chọn của

hợp với

nhiều sở

users.

profile.

thích đa
dạng, trung
du.
Thiếu đột
phá vì không
thể gợi ý
items nằm
ngoài user
profile.

Đặc trưng

Tìm kiếm sự Không cần

Kỹ thuật xử

items tri

phù hợp


thống kê dữ

lý tri thức

thức về tính

giữa người

liệu profile

phức tạp.

đáp ứng nhu

dùng và đặc

người dùng.

Khả năng

cầu user của

trưng item.

Thích nghi

khuyến

với sở thích,


nghị là tĩnh

cá tính user

(static),

nếu có thay

không ảnh

đổi.

hưởng trên

items đó.
Knowledged

các tập dữ
liệu nhiều
item.

21


CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.2 Hệ thống tư vấn du lịch
Hệ thống tư vấn du lịch (TRS - Tourism Recommender Systems) là một
nhánh cụ thể của hệ thống tư vấn, có khả năng xử lý dữ liệu đầu vào là hồ sơ
người dùng, đặc điểm cá nhân, sở thích, mối quan hệ cá nhân trong mạng xã hội

(social networking), thông tin ngữ cảnh về thời tiết, khí hậu, lễ hội, vị trí địa lý
vùng miền, GPS thu được từ nhiều nguồn như internet, mobile phone, facebook,
blog, social network,… nhằm đưa ra các gợi ý về chuyến du lịch, lời khuyên về
chuyến đi, các điểm quan tâm (POI – Points of Interest), đề xuất về gói du lịch
đang có, theo các tiêu chí phù hợp với cá nhân về độ hấp dẫn, giá cả, khoảng
thời gian, chi phí phù hợp ngân sách người dùng.
Thách thức đối với TRS là dữ liệu đầu vào liên quan tới người dùng có
tường minh (explicitly) và ngầm định (implicitly) qua xử lý khai thác dữ liệu từ
hoạt động trực tuyến của người dùng (user online activity), cảm xúc, ý kiến
người dùng theo từng thời điểm khác nhau. Sự thay đổi sở thích của người dùng
có thể thay đổi theo ngữ cảnh, tâm trạng, môi trường kinh tế xã hội, khí hậu, thời
tiết…
Cùng với sự phổ dụng của thiết bị di động như điện thoại thông minh,
thiết bị di động nhỏ gọn tích hợp sẵn các cảm biến, định vị địa lý, suy diễn user,
môi trường xã hội và ngữ cảnh, là điều kiện thuận lợi khai thác thông tin, đã có
khá nhiều nghiên cứu trong vài năm gần đây đã có được các kết quả đáng giá
khi gợi ý người dùng theo các môi trường ngữ cảnh, đặc trưng cá nhân hóa. Các
hệ thống cụ thể như: VISIT (Mehaan, 2013), EnoSigTur (Simó, 2012),
DieToRecs (Bauernfeind, 2003), TripMatcher MePrint (Ricci, 2002),
TripAdvisor (2012), TripSay (2012).
Dựa theo các đặc điểm về kiến trúc hệ thống (web application, mobile),
mức độ quan tâm và nhu cầu người dùng (user involvement), tiêu chí nguồn cơ
sở tư vấn (deriving recommendation), các hệ thống này được xếp vào loại hình
dịch vụ khác nhau. Dù không tách bạch, rõ ràng và thấu đáo, nhưng ta có thể
phân loại tương đối, các mục tiêu, dịch vụ được cung cấp gồm có 5 loại chính.

22


CHƯƠNG 2: CƠ SỞ LÝ THUYẾT


-

Đầu tiên là Attractions (POIs) Recommendations, gợi ý điểm quan
tâm, điểm đến của một chuyến du lịch.

-

Hai là Tourist Services Recommendations, hệ thống này lọc các thông
tin dựa trên ràng buộc để gợi ý thông tin về nhà hàng, khách sạn, giao
thông, trung tâm thông tin, chi phí.

-

Ba là Collaborative Filtering Recommendations, loại hệ thống này
nhắm đến các gợi ý có tính khám phá, mới lạ vượt mong đợi, ngạc
nhiên cho người dùng từ ý kiến, sở thích, nhận định của nhiều người
khác chia sẽ. Nguồn dữ liệu xử lý từ kho tàng thông tin cá nhân của
mạng xã hội, nơi chia sẽ, kho lưu trữ trên thiết bị của người dùng.

-

Bốn là Routes and Tours Recommendations, dựa trên trích lọc thông
tin vị trí có từ thiết bị như GPS, Wi-Fi, cell-id, RFID, hệ thống này
gợi ý giúp người dùng đường đi từ điểm hiện tại đến nơi quan tâm.

-

Năm là Personalized Multiple-days Tour Tour Planning, người du lịch
có thể muốn tham quan, trải nghiệm tối đa nhiều nơi, nhiều ngày,

nhưng do có giới hạn về thời gian, ngân sách, hệ thống này gợi ý giúp
người dùng tham quan chọn các điểm (POIs) hấp dẫn nhất, xứng đáng
nhất phù hợp điều kiện cho phép và thông tin cá nhân, sở thích của
họ. Ý tưởng này dẫn đến bài toán thiết kế tour khách du lịch (TTDP,
tourist trip design problem), các giải thuật heuristic hiệu quả được
dùng để giải bài toán này cho các ứng dụng trực tuyến vì không thể
giải trong thời gian đa thức (Vansteenwegen, 2011). Các nghiên cứu
cố gắng đơn giản hóa bài toán TTDP đã được thực hiện như mô hình
TTDP đơn giản nhất là bài toán chạy định hướng (OP, orienteering
problem) được giới thiệu năm 1984 bởi Tsiligirides, các mở rộng là
bài toán TOP (Team Orienteering Problem) năm 1996 bởi Chao, TOP
with Time Windows (TOPTW) bởi Vansteenwegen, 2009, và nghiên
cứu gần đây là Timedependent TOPTW bởi Garcia, 2013.

23


×