Tải bản đầy đủ (.pdf) (62 trang)

(Luận văn thạc sĩ) hệ tư vấn và ứng dụng cho bài toán dự báo kết quả bóng đá

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.38 MB, 62 trang )

1

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ NINH

HỆ TƢ VẤN VÀ ỨNG DỤNG CHO BÀI TOÁN
DỰ BÁO KẾT QUẢ BĨNG ĐÁ

LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN

HÀ NỘI - 2014


2

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ NINH

HỆ TƢ VẤN VÀ ỨNG DỤNG CHO BÀI TOÁN
DỰ BÁO KẾT QUẢ BĨNG ĐÁ
Ngành: Cơng nghệ thơng tin
Chun ngành: Hệ thống thơng tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa


TS. Lê Hồng Sơn

HÀ NỘI - 2014


3

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu độc lập của riêng tôi, không sao
chép ở bất kỳ một cơng trình hoặc một luận văn, luận án của các tác giả khác. Các số
liệu, kết quả nêu trong luận văn này là trung thực và chƣa đƣợc cơng bố trong bất kỳ
cơng trình nào khác. Các trích dẫn, các số liệu và kết quả tham khảo dùng để so sánh
đều có nguồn trích dẫn rõ ràng.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan của mình.
Hà Nội, tháng 12 năm 2014
Tác giả luận văn

Nguyễn Thị Ninh


4

LỜI CẢM ƠN
Trƣớc khi trình bày nội dung chính của luận văn, em xin bày tỏ lòng biết ơn sâu
sắc tới PGS.TS Nguyễn Đình Hóa và Tiến sĩ Lê Hồng Sơn, ngƣời đã tận tình hƣớng
dẫn và tạo điều kiện để em có thể hồn thành luận văn này.
Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới tồn thể các thầy cơ giáo
trong khoa Cơng nghệ thơng tin, trƣờng Đại học Công nghệ Hà Nội, Đại học Quốc gia
Hà Nội đã dạy bảo tận tình em trong suốt quá trình em học tập tại khoa.

Thứ ba, em xin đƣợc gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn
trong Trung tâm Tính tốn Hiệu năng cao, trƣờng Đại học Khoa học tự nhiên đã giúp
đỡ em trong suốt thời gian làm luận văn này.
Cuối cùng em xin chân thành cảm ơn tới gia đình, bạn bè, đồng nghiệp đã ln
bên em cổ vũ, động viên, giúp đỡ em trong suốt quá trình học tập và thực hiện luận
văn này. Luận văn này đƣợc thực hiện dƣới sự tài trợ của đề tài NAFOSTED, mã số:
102.05-2014.01.
Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép
nhƣng chắc chắn sẽ khơng tránh khỏi những thiếu sót. Em rất mong đƣợc sự góp ý
chân thành của thầy cơ và các bạn để em hồn thiện luận văn của mình.
Xin chân thành cảm ơn!
Hà Nội, ngày 02 tháng 12 năm 2014
Học viên

Nguyễn Thị Ninh


5

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................... 2
LỜI CẢM ƠN ................................................................................................................. 4
MỤC LỤC ...................................................................................................................... 5
DANH SÁCH HÌNH VẼ................................................................................................ 8
DANH SÁCH BẢNG ..................................................................................................... 9
DANH MỤC CÁC KÝ HIỆU VIẾT TẮT ................................................................... 10
MỞ ĐẦU ...................................................................................................................... 11
CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU............................................. 13
1.1. KHAI PHÁ DỮ LIỆU ............................................................................................13
1.1.1. Định nghĩa khai phá dữ liệu ...................................................................... 13

1.1.2. Khám phá tri thức ..................................................................................... 13
1.2. KỸ THUẬT KHAI PHÁ DỮ LIỆU.......................................................................14
1.2.1. Các thành tố cơ bản .................................................................................. 14
1.2.2. Các nhiệm vụ khai phá dữ liệu .................................................................. 16
1.2.3. Kỹ thuật khai phá dữ liệu .......................................................................... 17
1.3. ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU ............................................................19
1.3.1. Ứng dụng của khai phá dữ liệu .................................................................. 19
1.3.2. Ứng dụng các phƣơng pháp khai phá dữ liệu trong hệ tƣ vấn ...................... 20
1.4. KẾT LUẬN CHƢƠNG ..........................................................................................21
CHƢƠNG 2. HỆ TƢ VẤN VÀ CÁC PHƢƠNG PHÁP LỌC .................................... 22
2.1. HỆ TƢ VẤN ..........................................................................................................22
2.1.1. Định nghĩa hệ tƣ vấn ................................................................................. 22
2.1.2. Các phƣơng pháp khuyến nghị .................................................................. 22
2.2. PHƢƠNG PHÁP LỌC CỘNG TÁC .....................................................................23
2.2.1. Khát quát lọc cộng tác............................................................................... 23
2.2.2. Cách tiếp cận dựa trên ngƣời dùng ............................................................ 24
2.2.3. Cách tiếp cận dựa trên tài nguyên .............................................................. 26
2.3. VẤN ĐỀ COLD - START .....................................................................................28


6

2.3.1. Phát sinh vấn đề cold - start ....................................................................... 28
2.3.2. Phƣơng pháp dựa trên nhân khẩu ............................................................... 29
2.4. PHƢƠNG PHÁP TIẾP CẬN ĐA CHIỀU .............................................................31
2.4.1. Mơ hình khuyến nghị đa chiều .................................................................. 31
2.4.2. Giảm chiều cho mơ hình khuyến nghị đa chiều .......................................... 32
2.5. NGỮ CẢNH TRONG HỆ TƢ VẤN .....................................................................34
2.5.1. Vai trò của ngữ cảnh ................................................................................. 34
2.5.2. Kết hợp ngữ cảnh trƣớc khi lọc ................................................................. 35

2.5.3. Kết hợp ngữ cảnh sau khi lọc .................................................................... 35
2.5.4. Kết hợp ngữ cảnh trong khi lọc ................................................................. 36
2.6. MƠ HÌNH NGƢỜI DÙNG TƢƠNG TỰ NHSM .................................................36
2.6.1. Nhƣợc điểm của độ đo tƣơng tự hiện có..................................................... 36
2.6.2. Cơng thức của độ đo tƣơng tự NHSM ........................................................ 39
2.7. THUẬT TOÁN DỰ BÁO ......................................................................................40
2.8. KẾT LUẬN CHƢƠNG ..........................................................................................42
CHƢƠNG 3. ỨNG DỤNG CHO BÀI TOÁN DỰ BÁO KẾT QUẢ BÓNG ĐÁ ....... 43
3.1. ĐẶC TẢ YÊU CẦU...............................................................................................43
3.1.1. Yêu cầu thực tế ......................................................................................... 43
3.1.2. Thực tế hóa hệ thống ................................................................................ 43
3.1.3. Mục đích của hệ thống .............................................................................. 43
3.2. PHÂN TÍCH HỆ THỐNG .....................................................................................44
3.2.1. Chức năng ngƣời dùng .............................................................................. 44
3.2.2. Chức năng ngƣời quản trị .......................................................................... 44
3.2.3. Mơ hình tổng thể thể hiện mối quan hệ giữa các ca sử dụng ........................ 46
3.2.4. Mô tả giao diện hệ thống ........................................................................... 46
3.3. ĐẶC TẢ CSDL ......................................................................................................49
3.3.1. CSDL....................................................................................................... 49
3.3.2. Mô tả quan hệ CSDL ................................................................................ 51
3.4. THIẾT KẾ HỆ THỐNG .........................................................................................51


7

3.4.1. Modul dự báo ........................................................................................... 51
3.4.2. Modul giải đấu ......................................................................................... 52
3.4.3. Modul mùa giải ........................................................................................ 52
3.4.4. Modul thông tin đội bóng .......................................................................... 52
3.4.5. Modul thuật tốn ...................................................................................... 53

3.5. MINH HỌA CÁC CHỨC NĂNG HỆ THỐNG ....................................................53
3.5.1. Chức năng dự báo kết quả bóng đá ............................................................ 53
3.5.2. Các chức năng trong việc quản lý dữ liệu ................................................... 56
3.6. KẾT LUẬN CHƢƠNG ..........................................................................................58
KẾT LUẬN .................................................................................................................. 59
TÀI LIỆU THAM KHẢO .............................................................................................60


8

DANH SÁCH HÌNH VẼ
Hình 1.1: Q trình khám phá tri thức
Hình 1.2: Các nhiệm vụ khai phá dữ liệu
Hình 1.3: Các kỹ thuật khai phá dữ liệu
Hình 2.1: Ma trận đánh giá R của ngƣời dùng lên tài nguyên
Hình 2.2: Minh họa một đánh giá cần dự đoán của ngƣời dùng với lọc cộng tác
Hình 2.3: Các cách tiếp cận trong lọc cộng tác
Hình 2.4: Phƣơng pháp dựa trên nhân khẩu
Hình 2.5: Khung đánh giá thuộc tính nhân khẩu
Hình 2.6: Mơ hình khuyến nghị đa chiều với khơng gian Ngƣời dùng  Mặt hàng 
Thời gian.
Hình 2.7: Tƣ vấn cho ngƣời dùng theo ngữ cảnh (thời tiết)
Hình 2.8: Mơ hình (U  I  C  R) : Dữ liệu ban đầu gồm các ngƣời dùng, các mục để
đƣa ra khuyến nghị, các ngữ cảnh liên quan và hàm xếp hạng.
Hình 2.9: Ma trận ngƣời dùng tƣơng tự theo bảng 2.3
Hình 3.1: Sơ đồ ca sử dụng của ngƣời dùng
Hình 3.2: Sơ đồ ca ngƣời quản trị quản lý thông tin đội bóng
Hình 3.3: Sơ đồ ca ngƣời quản trị quản lý giải đấu
Hình 3.4: Sơ đồ ca ngƣời quản trị quản lý mùa giải
Hình 3.5: Sơ đồ ca ngƣời quản trị quản trị quản lý thuật tốn

Hình 3.6: Sơ đồ ca tổng thể mối quan hệ giữa các ca sử dụng
Hình 3.7: Giao diện tại mục trang chủ (phần trang chủ)
Hình 3.8: Giao diện tại menu ảnh nằm ngang (phần trang quản trị)
Hình 3.9: CSDL quan hệ giữa các bảng
Hình 3.10: Lựa chọn giải đấu cho dự báo
Hình 3.11: Lựa chọn mùa giải cần dự báo
Hình 3.12: Lựa chọn tập huấn luyện và tập kiểm tra
Hình 3.13: Lựa chọn ô kết quả cần dự báo
Hình 3.14: Lựa chọn sai số cho kết quả cần dự báo và hiển thị kết quả
Hình 3.15: Giao diện phần quản lý thơng tin đội bóng
Hình 3.16: Giao diện phần quản lý giải đấu


9

Hình 3.17: Giao diện phần quản lý mùa giải chung
Hình 3.18: Giao diện phần quản lý mùa giải chi tiết
Hình 3.19: Giao diện phần quản lý thuật toán
DANH SÁCH BẢNG
Bảng 2.1: Ví dụ về đánh giá của ngƣời dùng lên tài nguyên
Bảng 2.2: Ma trận đánh giá của ngƣời dùng lên tài ngun có ngƣời dùng mới
Bảng 2.3: Bảng thơng tin nhân khẩu của một số ngƣời dùng
Bảng 2.4: Ma trận đánh giá ngƣời dùng – tài nguyên
Bảng 3.1: Bảng giải đấu
Bảng 3.2: Bảng mùa giải
Bảng 3.3: Bảng thông tin đội bóng
Bảng 3.4: Bảng tham chiếu
Bảng 3.5: Bảng thuật tốn



10

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT
Từ hoặc cụm từ

Từ viết tắt

Từ Tiếng Anh

Khai phá dữ liệu

KPDL

Data mining

Khám phá tri thức

KDD

Knowledge Discovery in Databases

Cơ sở dữ liệu

CSDL

Database

Đa chiều

MD


Multidimensional

Chênh lệch trung bình bình MSD
phƣơng

Mean squared difference

Lọc cộng tác

Collaborative filtering

CF

Mơ hình ngƣời dùng tƣơng tự NHSM
mới

New heuristic similarity model

Độ đo PIP

PIP

Proximity Impact Popylarity

Độ đo tƣơng quan Pearson

PCC

Pearson correlation coefficient


Độ tƣơng tự cosin

COS

Cosine

Độ đo tƣơng quan Pearson có CPCC
ràng buộc

Constrained
coefficient

Độ đo cosin hiệu chỉnh

ACOS

Adjusted Cosine

Độ đo PSS

PSS

Proximity Signsficance Singularity

Pearson

correlation



11

MỞ ĐẦU
1/. ĐẶT VẤN ĐỀ
Trong hơn một thập niên trở lại đây, với sự phát triển mạnh của xã hội thì cơng
nghệ viễn thơng và thiết bị điện tử cũng phát triển không ngừng. Tuy nhiên, sự bùng
nổ này cũng kèm theo mặt trái của nó. Lƣợng thơng tin lƣu trữ ngày một lớn đã gây
sức ép đáng kể tới phần cứng, buộc con ngƣời tìm đủ mọi cách để tận dụng nguồn tài
nguyên dồi dào này. Khai phá dữ liệu xuất hiện nhƣ câu trả lời cho khủng hoảng thừa
thơng tin.
Internet có mặt trên mọi phƣơng diện của cuộc sống. Tuy nhiên, ngƣời sử dụng
lại mất nhiều thời gian để tìm kiếm thơng tin với nhu cầu bản thân. Một số cơng cụ tìm
kiếm trực tuyến đã đƣợc triển khai hỗ trợ cho ngƣởi dùng nhƣng nhiều khi vẫn chƣa
cho hiệu quả nhƣ mong muốn. Để thay đổi điều đó, các phƣơng pháp khai phá thơng
tin đƣợc hình thành, hỗ trợ không nhỏ cho sự phát triển của hệ thống khuyến nghị. Hệ
tƣ vấn sinh ra nhằm mục đích tính tốn thơng tin trong dữ liệu và để dự đốn sở thích
của ngƣời dùng và đƣa ra các khuyến nghị phù hợp với ngƣời dùng. Để thực hiện mục
tiêu đó, hệ tƣ vấn vẫn khơng ngừng đƣợc cải thiện, nâng cao chất lƣợng hiện có.
Phƣơng pháp phổ biến, đóng vai trò quan trọng trong hệ tƣ vấn là lọc cộng tác. Xuất
hiện trong hệ tƣ vấn, ngữ cảnh mô tả chi tiết hơn về các đối tƣợng trong hệ thống, góp
phần tƣ vấn đƣợc chính xác hơn.
Hệ tƣ vấn có ứng dụng trong nhiều lĩnh vực thực tế nhƣ hệ thống dự báo phim,
âm nhạc, v.v. Bóng đá là một môn thể thao đƣợc nhiều ngƣời quan tâm và triển khai
nhiều dịch vụ giải trí. Ngƣời hâm mộ đƣợc khuyến khích đƣa ra kết quả dự báo của
mình mỗi khi trận đấu đƣợc xảy ra. Hiểu rõ điều này, chúng tơi xây dựng hệ thống dự
báo kết bóng đá dựa trên hệ tƣ vấn. Hệ thống áp dụng phƣơng pháp điển hình của hệ
tƣ vấn kết hợp với các đặc trƣng vốn có của một trận đấu bóng đá để dự báo kết quả
theo các hƣớng khác nhau. Hệ thống này đƣợc triển khai cho thấy đƣợc hƣớng phát
triển của hệ tƣ vấn trong lĩnh vực thể thao.
2/. MỤC ĐÍCH CỦA LUẬN VĂN

Việc dự báo kết quả bóng đá cũng sẽ giúp cho ngƣời tham gia dự đốn có đƣợc
những ý kiến gợi ý nhất định, tránh đƣợc những sai lầm khơng đáng có. Trang web dự
báo kết quả bóng đá đƣợc xây dựng dựa trên hệ tƣ vấn. Luận văn tiến hành trình bày
và phân tích dựa trên thuật toán lọc sử dụng độ đo tƣơng tự để tính tốn đƣa ra khuyến
nghị. Sau đó dựa trên kết quả phân tích để so sánh và đánh giá khả năng dự báo.
3/. BỐ CỤC CỦA LUẬN VĂN
Luận văn gồm 3 chƣơng, có phần mở đầu, phần kết luận, phần mục lục, phần tài
liệu tham khảo. Các nội dung cơ bản của luận văn đƣợc trình bày theo cấu trúc nhƣ
sau:


12

Chƣơng 1: Tổng quan về khai phá dữ liệu
Trong chƣơng này, luận văn sẽ trình bày những vấn đề cơ bản của khai phá dữ
liệu nhƣ: định nghĩa, các thành tố cơ bản của một nhiệm vụ khai phá dữ liệu, các
nhiệm vụ, các kỹ thuật và ứng dụng của khai phá dữ liệu. Thơng qua đó, khai phá dữ
liệu tạo đã điều kiện phát triển cho hệ tƣ vấn.
Chƣơng 2: Hệ tƣ vấn và các phƣơng pháp lọc
Phần đầu tiên giới thiệu là các thông tin liên quan đến hệ tƣ vấn: định nghĩa và
phƣơng pháp khuyến nghị lọc cộng tác.
Vấn đề thứ hai đƣợc trình bày trong chƣơng này là vấn đề cold - start nảy sinh và
phƣơng pháp khắc phục dựa trên tính nhân khẩu. Nội dung phần này cũng trình bày cụ
thể vai trị của ngữ cảnh cùng sự xuất hiện của phƣơng pháp tiếp cận đa chiều trong
khuyến nghị.
Phần tiếp theo trình bày về các độ đo tƣơng tự. Đƣa ra độ đo tƣơng tự mới
NHSM và thuật tốn dự báo kết quả bóng đá với độ đo mới này.
Chƣơng 3: Ứng dụng cho bài tốn dự báo kết quả bóng đá
Nội dung chƣơng này trình bày phân tích, thiết kế trang web dự báo kết quả
bóng đá và xây dựng chƣơng trình ứng dụng.



13

CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1. KHAI PHÁ DỮ LIỆU
1.1.1. Định nghĩa khai phá dữ liệu
Trong những năm trở lại đây, cơng nghệ thơng tin đã có những bƣớc đột phá, đạt
đƣợc nhiều thành tựu to lớn. Sự phát triển của công nghệ điện tử dựa trên định luật
Moore đã cho ra những thiết bị có dung lƣợng chứa lớn mà giá thành lại giảm. Với nhu
cầu của con ngƣời thì lƣợng thơng tin đang đƣợc lƣu trữ là một con số khổng lồ và
không ngừng tiếp tục gia tăng nhanh chóng. Trong tác phẩm John Naisbitt năm 1982
thì Megatrends đã đề cập [29]: “Chúng ta đang ngập trong dữ liệu nhƣng lại đói tri
thức”. Thực trạng địi hỏi con ngƣời phải tìm cách khai thác nguồn dữ liệu này, tuy
nhiên chỉ có 20% dữ liệu ẩn chứa những tri thức quý giá. Vấn đề đƣợc đặt ra là làm thế
nào chúng ta có thể lấy ra đƣợc những thơng tin hữu ích đó trong một “núi” dữ liệu nhƣ
vậy?
Nhƣ một quy luật của tự nhiên, sự khó khăn của bài tốn thúc đẩy con ngƣời tìm
mọi cách khắc phục. KPDL đã đƣợc xuất hiện nhƣ một giải pháp thần kỳ cho vấn đề
nan giải của công nghệ thông tin. Gắn liền với dữ liệu, KPDL đƣợc úng dụng rộng rãi
khơng chỉ trong khoa học mà cịn cả kinh tế, xã hội, giáo dục, v.v.
Thuật ngữ KPDL xuất hiện vào những năm thập niên 90 nhƣng sự phát triển của
KPDL là quá trình phát triển của một lĩnh vực với lịch sử lâu dài. Hiểu một cách đơn
giản, KPDL là chiết xuất hoặc khai thác kiến thức từ một lƣợng lớn dữ liệu. Thuật ngữ
này dễ làm cho ngƣời ta hiểu nhầm ý nghĩa của nó. Cụ thể hóa là việc thực hiện khai
thác vàng từ các loại đá hoặc cát là đƣợc gọi là khai thác vàng chứ khơng phải khai thác
đá hoặc cát. Do đó, KPDL hiểu một cách chính xác hơn là khai thác tri thức từ dữ liệu,
mặc dù cái tên gọi đó hơi dài. Nếu tên gọi đƣợc đổi lại là khai thác tri thức, sẽ là ngắn
gọn hơn nhƣng nó có thể sẽ không nhấn mạnh vào việc khai thác từ một lƣợng lớn dữ
liệu. Tuy nhiên, KPDL là một thuật ngữ sinh động, thể hiện ra việc tìm kiếm một lƣợng

tài nguyên nhỏ từ lƣợng lớn dữ liệu.
Từ những lý giải trên, định nghĩa về KPDL có thể đƣợc mơ tả nhƣ sau [2, 23, 27]:
Khai phá dữ liệu là một quá trình khai thác, chiết xuất các tri thức mới có khả năng hữu
ích từ một lƣợng lớn dữ liệu.
1.1.2. Khám phá tri thức
KPDL là một bƣớc quan trọng trong q trình KDD [18, 30] nhằm phân tích và
giải thích các mẫu dữ liệu trong khơng gian lớn dữ liệu. KDD là một quá trình bao gồm
một chuỗi lặp đi lặp lại 5 bƣớc sau [3, 8, 27, 28]:
 Trích chọn dữ liệu là cơng đoạn lấy dữ liệu liên quan đến nhiệm vụ đƣợc phân
tích từ kho dữ liệu lƣu trữ ở trên.
 Tiền xử lý dữ liệu bao gồm có các q trình làm sạch dữ liệu, tích hợp dữ liệu.


14

 Chuyển đổi dữ liệu có nhiệm vụ biến đổi dữ liệu hoặc hợp nhất thành các hình
thức thích hợp cho khai thác.
 Khai phá dữ liệu là quá trình cần thiết, có vai trị quyết định việc tìm ra những
tri thức ẩn.
 Đánh giá mơ hình và trình bày tri thức là quá trình xác định giá trị của các mẫu
dữ liệu đại diện cho tri thức nằm bên trong dựa trên một số các độ đo, sau đó sử
dụng các kỹ thuật biểu diễn và thể hiện trực quan các tri thức khai phá đƣợc cho
ngƣời sử dụng.

Hình 1.1: Quá trình khám phá tri thức
1.2. KỸ THUẬT KHAI PHÁ DỮ LIỆU
1.2.1. Các thành tố cơ bản
Mỗi ngƣời dùng sẽ có nhũng nhiệm vụ KPDL cần đƣợc thực hiện. Một nhiệm vụ
KPDL có thể đƣợc xác định hình thức bằng một truy vấn KPDL, là đầu vào của hệ
thống KPDL. Năm thành tố cơ bản để đặc tả một nhiệm vụ KPDL gồm: dữ liệu với

nhiệm vụ liên quan, loại tri thức sẽ đạt đƣợc, tri thức nền, các độ đo, mơ hình trực quan
và biểu diễn tri thức [17, 27].
Dữ liệu với nhiệm vụ liên quan [17, 26] là phần dữ liệu từ các nguồn đƣợc điều tra
tƣơng ứng với các thuộc tính hay chiều hƣớng của dữ liệu đƣợc quan tâm. Các dữ liệu
cụ thể này bao gồm có tên kho dữ liệu hoặc CSDL, các bảng dữ liệu hoặc các khối dữ
liệu, các điều kiện chọn dữ liệu, các thuộc tính hoặc chiều dữ liệu đƣợc quan tâm, các
tiêu chí gom nhóm dữ liệu, v.v.
Loại tri thức sẽ đạt đƣợc [17, 26] có trọng tâm là phải xác định những tri thức
đƣợc khai thác, vì điều này sẽ quyết định chức năng KPDL sẽ đƣợc thực hiện. Các loại
tri thức bao gồm đặc trƣng hóa dữ liệu, phân biệt hóa dữ liệu, mơ hình phân tích kết
hợp hay tƣơng quan, mơ hình phân lớp, mơ hình dự đốn, mơ hình gom cụm, mơ hình
phân tích phần tử biên, mơ hình phân tích tiến hóa, v.v.


15

Tri thức nền [17, 26] là những thông tin về lĩnh vực cụ thể sẽ đƣợc khai phá.
Thành tố này hƣớng dẫn quá trình khám phá tri thức bằng cách hỗ trợ KPDL ở nhiều
mức khác nhau. Hệ thống phân cấp khái niệm là một hình thức điển hình của tri thức
nền. Hệ thống này bao gồm bốn loại chính là phân cấp lƣợc đồ, phân cấp thiết lập
nhóm, phân cấp nguồn gốc hoạt động, phân cấp dựa trên quy. Một số hệ thống phân
cấp là:
 Hệ thống phân phân cấp lƣợc đồ là thứ tự toàn bộ hoặc một phần các thuộc tính
trong lƣợc đồ CSDL.
 Hệ thống phân cấp thiết lập nhóm tổ chức các giá trị cho thuộc tính thành các
nhóm hoặc tập các giá trị. Hệ thống này đƣợc dùng để hoàn thiện hoặc làm phong
phú thêm cho hệ thống phân cấp lƣợc đồ, thƣờng đƣợc sử dụng cho một tập nhỏ
của thuộc tính đối tƣợng.
 Hệ thống phân cấp nguồn gốc hoạt động dựa trên các hoạt động cụ thể. Các
hoạt động này có thể bao gồm giải mã các chuỗi thơng tin mã hóa, khai thác thông

tin từ các đối tƣợng dữ liệu phức tạp, phân cụm dữ liệu.
 Hệ thống phân cấp dựa trên quy luật xuất hiện khi toàn bộ hoặc một phần của
hệ thống phân cấp khái niệm đƣợc định nghĩa là một tập hợp các quy tắc và đƣợc
đánh giá tự động dựa trên CSDL hiện tại và quy tắc định nghĩa.
Các độ đo [17, 26] đƣợc sử dụng để giới hạn số lƣợng các mẫu dữ liệu dựa trên
cấu trúc của mẫu và số liệu thống kê cơ bản của chúng. Các độ đo thƣờng đi kèm với
các ngƣỡng giá trị đƣợc lựa chọn bởi ngƣời khai thác nhằm dẫn đƣờng cho quá trình
khai phá hoặc đánh giá các mẫu tìm thấy. Các phép đo khách quan bao gồm các thuộc
tính là tính đơn giản, tính chắc chắn, tính hữu dụng, tính mới lạ. Các thuộc tính trên
đƣợc sử dụng nhƣ sau:
 Tính đơn giản của một mơ hình đƣợc dựa trên sƣ đơn giản tổng thể của mô hình
đó đối với sự hiểu biết của con ngƣời. Ví dụ, quy định về độ dài là một quy định
đơn giản.
 Tính chắc chắn đánh giá những giá trị độ tin cậy của một mơ hình. Ví dụ, xác
suất có điều kiện mua máy tính thì sẽ mua phần mềm cao chứng tỏ nhiều khả năng
ngƣời mua máy tính cũng sẽ mua phần mềm.
 Tính hữu ích cho thấy khả năng sử dụng của một mơ hình. Ví dụ, một xác suất
cho trƣớc cho các quy tắc mua phần mềm trƣớc đó có ý nghĩa là với xác suất này
thì tất cả ngƣời mua máy tính cũng sẽ mua phần mềm trong các của hàng.
 Tính mới lạ chỉ ra các mẫu góp phần thơng tin mới cho việc thiết lập mơ hình
đƣợc gọi là mẫu mới. Việc loại bỏ mơ hình dƣ thừa là chiến lƣợc cho việc phát
hiện mẫu mới lạ.


16

Mơ hình trực quan và biểu diễn tri thức [17, 26] có tác dụng giúp cho khai thác dữ
liệu có hiệu quả, bằng cách hiển thị các mẫu đƣợc phát hiện ở nhiều hình thức bao gồm
các quy tắc, bảng, báo cáo, biểu đồ, đồ thị, cây, khối và các trình bày trực quan khác.
Ngƣời khai thác phải có khả năng xác định các hình thức trình bày cần đƣợc sử dụng để

hiển thị các mơ hình đƣợc phát hiện.
1.2.2. Các nhiệm vụ khai phá dữ liệu
Nhiệm vụ KPDL là rất đa dạng bởi có nhiều mẫu trong một CSDL lớn. Dựa trên
các loại mẫu, nhiệm vụ KPDL có thể đƣợc phân chia thành năm loại gồm có tổng hợp,
phân lớp, phân cụm, luật kết hợp và phân tích xu hƣớng [16, 27].
Tổng hợp [16] là sự trừu tƣợng hoặc khái quát hóa dữ liệu. Cụ thể là:
 Một tập hợp các dữ liệu có liên quan đƣợc tổng hợp và trừu tƣợng hóa dẫn đến
một tập nhỏ hơn và đƣa ra cái nhìn tổng quan về dữ liệu với thơng tin kèm theo.
Ví dụ nhƣ cuộc gọi đƣờng dài của một khách hàng có thể đƣợc tóm tắt trong tổng
số phút, tổng số chi phí, tổng số các cuộc gọi, v.v.
 Tổng kết có thể lên đến những mức độ trừu tƣợng khác nhau và đƣợc nhìn từ
nhiều góc độ khác nhau. Các phút gọi và chi phí điện thoại có thể đƣợc tổng cộng
theo thời gian gọi điện thoại trong tuần, tháng, quý, năm. Tƣơng tự nhƣ vậy, các
cuộc gọi đƣợc tóm tắt vào trong cuộc gọi trong thành phố, cuộc gọi giữa các thành
phố, cuộc gọi châu Á, cuộc gọi châu Âu, v.v.
Phân lớp [16] xác định lớp của một đối tƣợng dựa trên thuộc tính của nó. Phân lớp
có thể hiểu nhƣ:
 Một tập hợp các đối tƣợng đƣợc cho là tập huấn luyện, trong đó mỗi đối tƣợng
đƣợc biểu diễn bởi một véc-tơ các thuộc tính của nó. Một chức năng phân lớp
đƣợc xây dựng bằng cách phân tích mối quan hệ giữa các thuộc tính của đối tƣợng
trong tập huấn luyện. Ví dụ, từ một tập các bệnh nhân đƣợc chẩn đoán, đƣợc dùng
nhƣ một tập huấn luyện, một mơ hình phân lớp có thể đƣợc xây dựng, trong đó kết
luận bệnh của bệnh nhân mắc phải từ dữ liệu chẩn đốn của mình.
 Mơ hình phân lớp có thể đƣợc sử dụng để chẩn đoán bệnh của bệnh nhân mới
dựa trên dựa trên dữ liệu chẩn đoán của bệnh nhân, chẳng hạn nhƣ tuổi, giới tính,
khối lƣợng, nhiệt độ, huyết áp, v.v.
Luật kết hợp [16] khám phá sự liên kết hoặc kết nối của các đối tƣợng. Liên kết
hoặc kết nối nhƣ vậy đƣợc gọi với thuật ngữ là luật kết hợp. Luật kết hợp về căn bản
nhƣ sau:
 Một luật kết hợp cho thấy mối quan hệ liên kết giữa các đối tƣợng. Sự xuất hiện

của một tập hợp các đối tƣợng trong một CSDL có liên quan chặt chẽ đến sự xuất
hiện của một tập hợp các đối tƣợng khác.


17

 Các luật kết hợp có tác dụng trong tiếp thị, quản lý hàng hóa, quảng cáo, v.v.
Phân cụm [16] xác định các cụm hay nhóm cho một tập các đối tƣợng mà nhóm
của chúng chƣa rõ. Khi các cụm đƣợc quyết định, các đối tƣợng đƣợc dán nhãn với các
cụm tƣơng ứng của chúng và các tính năng phổ biến của các đối tƣợng trong một cụm
đƣợc tổng hợp để hình thành các mơ tả các lớp.
Phân tích xu hƣớng [16] là phân tích các chuỗi dữ liệu đƣợc tích lũy theo thời
gian. Phƣơng pháp phân tích xu hƣớng khám phá ra mẫu trong lịch sử phát triển của
các đối tƣợng. Một mẫu đƣợc xây dựng để mô phỏng hành vi của các đối tƣợng, có thể
sử dụng để dự đốn hành vi trong tƣơng lai.

Hình 1.2: Các nhiệm vụ khai phá dữ liệu
1.2.3. Kỹ thuật khai phá dữ liệu
Khai phá dữ liệu bao gồm cả thống kê, học máy, định hƣớng CSDL, mạng nơron,
tập thô và trực quan [16, 27].
Kỹ thuật thống kê [16, 24] chỉ ra rằng nhiều công cụ thống kê đã đƣợc sử dụng
cho khai phá dữ liệu bao gồm cả mạng Bayesian, phân tích hồi quy, phân tích tƣơng
quan và phân tích cụm. Mơ hình thống kê thƣờng đƣợc xây dựng đƣợc từ một tập hợp
các dữ liệu huấn luyện. Một mơ hình tối ƣu, dựa vào kỹ thuật thống kê đƣợc xác định
trƣớc, đƣợc tìm kiếm trong khơng gian giả thuyết. Quy định và quy luật sau đó đƣợc rút
ra từ mơ hình. Các mơ hình trên đƣợc mơ tả nhƣ sau:
 Một mạng Bayes là một đồ thị có hƣớng đại diện cho các mối quan hệ thông
thƣờng giữa các biến, đƣợc tính bằng cách sử dụng lý thuyết xác suất Bayes.
 Hồi quy là nguồn gốc của một hàm ánh xạ một tập hợp các thuộc tính của các
đối tƣợng đến một biến đầu ra.

 Phân tích tƣơng quan nghiên cứu sự tƣơng ứng của các biến với nhau.


18

 Phân tích cụm tìm thấy các nhóm từ một tập hợp đối tƣợng dựa trên thƣớc đo
khoảng cách.
Kỹ thuật học máy [16, 24] tìm kiếm một mơ hình phù hợp nhất với các dữ liệu thử
nghiệm giống nhƣ thống kê. Khác với thống kê ở chỗ, khơng gian tìm kiếm trong học
máy là một không gian nhận thức của nhiều thuộc tính. Bên cạnh đó, hầu hết kỹ thuật
học máy sử dụng kỹ thuật chẩn đốn trong tìm kiếm. Kỹ thuật học máy phổ biến nhất
đƣợc sử dụng cho khai phá dữ liệu là cây quyết định, học quy nạp khái niệm và phân
cụm khái niệm. Các mơ hình áp dụng cụ thể là:
 Cây quyết định là một phân loại tự do, xác định một lớp các đối tƣợng bằng
cách đi theo con đƣờng hình thành từ gốc đến nút lá, lựa chọn các chi nhánh theo
các giá trị thuộc tính đối tƣợng. Cây quyết định đƣợc tạo nên từ tập huấn luyện và
quy tắc phân loại có thể đƣợc trích ra từ những cây quyết định khác.
 Học quy nạp khái niệm xuất phát ngắn gọn, mô tả hợp logic các khái niệm từ
một tập hợp các ví dụ.
 Phân cụm khái niệm tìm thấy các nhóm hoặc các cụm trong một tập đối tƣợng
dựa trên khái niệm gần gũi giữa các đối tƣợng.
Kỹ thuật định hƣớng CSDL [16, 24] khơng tìm kiếm một mơ hình tốt nhất nhƣ hai
kỹ thuật trƣớc. Thay vào đó, mẫu dữ liệu hoặc CSDL phỏng đoán cụ thể đƣợc sử dụng
để khai thác dữ liệu theo cách thủ công. Các thuộc tính định hƣớng quy nạp, kỹ thuật
quét CSDL lặp đi lặp lại, và các thuộc tính tập trung, là đại diện của các kỹ thuật định
hƣớng CSDL.
 Trong định hƣớng thuộc tính quy nạp, dữ liệu cấp thấp tổng hợp vào các khái
niệm cao cấp sử dụng hệ thống phân cấp khái niệm.
 Kỹ thuật quét CSDL lặp đi lặp lại sử dụng để tìm kiếm các tập hợp thƣờng
xuyên trong một CSDL.

 Kỹ thuật tập trung liên kết tìm kiếm các mẫu với xác xuất bất thƣờng bằng cách
thêm thuộc tính chọn lọc vào mơ hình.
Kỹ thuật trực quan hóa [16, 24] là kỹ thuật khai thác dựa vào việc phân tích biểu
diễn. Dữ liệu đƣợc chuyển đổi thành dấu chấm, đƣờng, khu vực, v.v và hiển thị trong
một khơng gian hai hoặc ba chiều. Ngƣời sử dụng có thể tƣơng tác, khám phá những
điểm lý thú bằng cách kiểm tra trực quan.
Các kỹ thuật trên có thể kết hợp với nhau để giải quyết các vấn đề phức tạp hoặc
cung cấp giải pháp thay thế cách thức đã có.


19

Hình 1.3: Các kỹ thuật khai phá dữ liệu
1.3. ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU
1.3.1. Ứng dụng của khai phá dữ liệu
KPDL đã đƣợc áp dụng thành công trên nhiều lĩnh vực, từ các lĩnh vực truyền
thống nhƣ kinh doanh, khoa học cho đến các lĩnh vực mới nhƣ thể thao.
Ứng dụng trong kinh doanh [16]: Nhiều tổ chức hiện nay sử dụng KPDL nhƣ là
một vũ khí bí mật để giữ hoặc đạt đƣợc lợi thế cạnh tranh. KPDL đã đƣợc sử dụng
trong tiếp thị, phân tích dữ liệu bán lẻ, lựa chọn cổ phiếu, phê duyệt tín dụng, v.v. Cụ
thể các ứng dụng đó là:
 CSDL của tiếp thị là một trong những ứng dụng kinh doanh thành công và phổ
biến của KPDL. Bằng cách khai thác CSDL về lịch sử khách hàng, xu hƣớng đƣợc
rút ra và hồ sơ khách hàng đƣợc xây dựng có thể đƣợc sử dụng để tiếp thị hiệu quả
hơn.
 CSDL bán lẻ có chứa các giao dịch mua sắm của khách hàng. KPDL có thể tìm
thấy mơ hình mua sắm của khách hàng đã đƣợc sử dụng. Ví dụ, trong chiến dịch
bán hàng.
 Sử dụng KPDL, nhà đầu tƣ có thể xây dựng mơ hình đƣợc sử dụng để dự đốn
hiệu suất của các cổ phiếu. Bằng cách tìm kiếm các xu hƣớng và các mẫu cổ phiếu

trong dữ liệu, KPDL có thể giúp các nhà đầu tƣ tìm cổ phiếu có hiệu suất tốt.
 Ứng dụng cho tín dụng hoặc cho vay đƣợc quyết định dựa trên thông tin của
thông tin ngƣời nộp đơn. Một hỗ trợ quyết định duyệt tín dụng hoặc cho vay có
thể đƣợc xây dựng từ dữ liệu lịch sử sử dụng các công cụ KPDL.


20

Ứng dụng trong khoa học [16]: KPDL cũng đƣợc sử dụng trong thiên văn học,
sinh học phân tử, y học địa chất và nhiều hơn nữa. Ví dụ, hệ thống KPDL có thể phân
loại các đối tƣợng trên bầu trời, chẳng hạn nhƣ ngơi sao, thơng qua hình ảnh của những
vệ tinh.
Ứng dụng khác: KPDL cũng đƣợc sử dụng trong nhiều lĩnh vực khác, chẳng hạn
nhƣ quản lý chăm sóc sức khỏe, phát hiện gian lân thuế, giám sát hoạt động rửa tiền,
thậm chí cả thể thao.
1.3.2. Ứng dụng các phƣơng pháp khai phá dữ liệu trong hệ tƣ vấn
Thuật ngữ KPDL để cập đến một loạt các mơ hình tốn học và các cơng cụ phần
mềm đƣợc sử dụng để tìm kiếm các mẫu trong dữ liệu và sử dụng chúng để xây dựng
mơ hình. Trong bối cảnh các ứng dụng khuyến nghị, thuật ngữ KPDL đƣợc sử dụng để
mơ tả bộ các kỹ thuật phân tích đƣợc sử dụng hệ đƣa ra quy tắc khuyến nghị hoặc xây
dựng các mơ hình khuyến nghị từ các tập dữ liệu lớn. Hệ thống tƣ vấn kết hợp các kỹ
thuật KPDL làm cho khuyến nghị của chúng có thể sử dụng những kiến thức học đƣợc
từ những hành động và các thuộc tính của ngƣời sử dụng. Các hệ thống này thƣờng dựa
trên phát triển hồ sơ của ngƣời dùng kéo dài (dựa trên tính nhân khẩu hoặc dữ liệu lịch
sử tiêu thụ), nhất thời (dựa trên các hành động ở hiện tại) hoặc là cả hai. Các thuật toán
đƣợc sử dụng bao gồm phân cụm, phân lớp, luật kết hợp, v.v. [22]
Phân cụm [22] đƣợc thực hiện bằng cách xác định các nhóm (cụm) ngƣời tiêu
dùng có sở thích tƣơng tự. Khi nhóm đƣợc tạo ra, trung bình các ý kiến của ngƣời dùng
khác trong nhóm có thể đƣợc sử dụng để đƣa ra dự đoán cho một cá nhân. Dự đốn là
một giá trị trung bình dựa trên các cụm, trọng số là mức độ tham gia của từng cụm.

Phƣơng pháp phân cụm thƣờng tạo ra các khuyến nghị ít mang tính cá nhân hơn các
phƣơng pháp khác. Một số trƣờng hợp, phân cụm có độ chính xác kém hơn các thuật
toán lọc cộng tác. Mỗi khi một quá trình phân cụm đƣợc hồn tất, hiệu quả đạt đƣợc có
thể rất tốt nếu nhƣ kích thƣớc của một nhóm đƣợc phân chia thành rất nhỏ.
Phân lớp [25] là các mơ hình tính tốn chung gán với một thể loại đầu vào. Các
đầu vào có thể là các véc-tơ tính năng cho các tài nguyên đƣợc phân lớp hoặc dữ liệu
về mối quan hệ giữa các mặt hàng. Thể loại là một tên miền phân lớp, cụ thể nhƣ ác
tính hoặc lành tính để phân loại cho khối u, cho phép hoặc khơng cho phép u cầu tín
dụng, xâm nhập hoặc ủy quyền cho kiểm tra an ninh. Một cách để xây dựng một hệ
thống tƣ vấn sử dụng phân lớp là sử dụng thông tin về một sản phẩm mà đầu vào là một
khách hàng và thể loại đầu ra sản phẩm đại diện chắc chắn để khuyến nghị cho khách
hàng. Phân lớp có thể đƣợc thực hiện bằng cách sử dụng nhiều chiến lƣợc học máy
khác nhau bao gồm quy tắc cảm ứng, mạng noron và mạng Bayes. Trong mỗi trƣờng
hợp, phân lớp đƣợc đào tạo bởi tập huấn luyện trong đó phân loại đúng đã có sẵn. Sau
đó, phân lớp có thể đƣợc áp dụng để phân loại các mặt hàng mới mà chƣa có sẵn phân
loại đúng. Ví dụ, mạng Bayes tạo ra một mơ hình đào tạo dựa trên một thiết lập với một


21

cây quyết định tại mỗi nút và các cạnh đại diện cho thông tin ngƣời dùng. Phân lớp khá
thành công trong một số lĩnh vực khác nhau từ xác định gian lận và rủi ro tín dụng
trong các giao dịch tài chính đến chẩn đốn y tế để phát hiện bệnh.
Luật kết hợp [22] là một trong các phƣơng pháp đƣợc biết đến nhiều nhất của
KPDL trong hệ tƣ vấn. Các cách xác định tài nguyên thƣờng xuyên đƣợc tìm thấy trong
các kết hợp mà ngƣời dùng bày tỏ quan tâm. Sự kết hợp có thể dựa trên việc cùng mua,
sở thích của những ngƣời dùng thơng thƣờng hoặc các biện pháp khác. Hệ thống tỏ ra
hiệu quả với toàn bộ các mặt hàng, chẳng hạn dựa vào giỏ mua của khách hàng, giúp
cho việc xác định các mặt hàng kết hợp. Mỗi luật kết hợp biểu hiện một mối quan hệ là
một sản phẩm thƣờng đƣợc mua cùng với các sản phẩm khác. Luật kết hợp có thể tạo

thành một đại diện đơn giản của các dữ liệu sở thích, góp phần nâng cao hiệu quả lƣu
trữ cũng nhƣ hiệu suất khuyến nghị. Luật kết hợp thành công trong nhiều ứng dụng nhƣ
bố trí kệ để hàng trong các cửa hàng bán lẻ. Ngƣợc lại, hệ thống tƣ vấn trong lọc cộng
tác lại dễ dàng thực hiện khuyến nghị cho một cá nhân trong một miền mà ý kiến ngƣời
dùng thƣờng xuyên bổ sung, chẳng hạn nhƣ bán lẻ trực tuyến. Ngoài việc sử dụng trong
thƣơng mại, luật kết hợp đã trở thành công cụ mạnh cho ứng dụng trong lĩnh vực quản
lý kiến thức. Trong lĩnh vực trên, hệ thống cố gắng để dự đoán những trang web hoặc
tài liệu có thể có ích cho một ngƣời sử dụng.
1.4. KẾT LUẬN CHƢƠNG
Trong chƣơng này, chúng tơi đã trình bày tổng quan về khai phá dữ liệu và các
kỹ thuật khai phá cùng những ứng dụng của khai phá kỹ thuật, đặc biệt là ứng dụng
trong hệ tƣ vấn.


22

CHƢƠNG 2. HỆ TƢ VẤN VÀ CÁC PHƢƠNG PHÁP LỌC
2.1. HỆ TƢ VẤN
2.1.1. Định nghĩa hệ tƣ vấn
Internet ngày càng trở lên phổ biến và con ngƣời có thể tìm kiếm, kiểm tra mọi
thông tin hoặc các đối tƣợng chƣa biết thơng qua mạng máy tính. Tƣơng ứng với điều
đó, lƣợng thông tin trên các trang web cũng trở nên phong phú, đa dạng. Các mặt hàng,
sản phẩm đƣợc giới thiệu ngày một nhiều. Ngƣời sử dụng càng khó khăn để lựa chọn
mặt hàng phù hợp cho bản thân mình. Các cơng cụ tìm kiếm trên mạng vẫn có lúc tỏ ra
chƣa hiệu quả khi đƣa ra một danh sách dài các kết quả và các thông tin không cần
thiết. Bên cạnh đó, ngƣời dùng có thể cũng chƣa thật sự hiểu rõ nhu cầu của mình, và
cần có sự tƣ vấn cho bản thân.
Hệ tƣ vấn xuất hiện để tính tốn dữ liệu sao cho phù hợp với sở thích của ngƣời sử
dụng. Qua đó, hệ thống sẽ khuyến nghị cho ngƣời dùng những thông tin, sản phẩm phù
hợp nhất với nhu cầu của họ.

Hệ thống tƣ vấn (hay còn gọi là hệ thống khuyến nghị) [5, 1] là một phân lớp của
hệ thống lọc thơng tin mà tìm cách dự đốn đánh giá hoặc sở thích ngƣời dùng sẽ cung
cấp cho một đối tƣợng.
Đối tƣợng đƣợc nhắc đến ở trên có thể là một mặt hàng (chẳng hạn nhƣ âm nhạc,
sách, phim) hoặc yếu tố xã hội (ví dụ nhƣ ngƣời hoặc nhóm) vẫn chƣa đƣợc xem xét.
Mơ hình dự báo có thể đƣợc xây dựng từ những đặc điểm của một đối tƣợng (theo
phƣơng pháp tiếp cận dựa trên nội dung) hoặc môi trƣờng xã hội của ngƣời dùng (theo
phƣơng pháp lọc cộng tác).
2.1.2. Các phƣơng pháp khuyến nghị
Hai phƣơng pháp thƣờng đƣợc các hệ thống khuyến nghị hiện nay sử dụng dùng
nhiều nhất là lọc cộng tác và lọc dựa trên nội dung.
Lọc cộng tác [7] cung cấp khuyến nghị dựa trên sự giống nhau giữa ngƣời dùng
(hoặc tài nguyên), giả định rằng ngƣời sử dụng với thị hiếu tƣơng tự sẽ đánh giá mặt
hàng tƣơng tự. Bằng cách cố gắng tìm thấy những thơng tin tƣơng tự trong lịch sử đánh
giá tài nguyên của ngƣời dùng, lọc cộng tác thành lập một nhóm những ngƣời dùng
(hoặc tài nguyên) gần gũi để dự đoán đánh giá của ngƣời cần tƣ vấn.
Lọc dựa trên nội dung [7] đƣợc dựa trên thông tin, mục tiêu đánh giá và đặc điểm
tính năng của sản phẩm đƣợc khuyến nghị. Phƣơng pháp này có phƣơng châm là ngƣời
sử dụng sẽ đánh giá nhƣ nhau với các mặt hàng có tính năng tƣơng tự. Dựa trên lịch sử
lựa chọn mặt hàng của ngƣời dùng, nó sẽ khuyến nghị ngƣời dùng sử dụng các mặt
hàng có tính năng tƣơng tự đối với các mặt hàng đã đƣợc đánh giá cao.


23

Ngoài hai phƣơng pháp trên, các phƣơng pháp khuyến nghị khác [1] là phƣơng
pháp nhân khẩu, phƣơng pháp dựa trên tiện ích, phƣơng pháp dựa trên tri thức, v.v. Và
một số phƣơng pháp biến thể đƣợc tạo ra bằng cách kết hợp hai hay nhiều phƣơng pháp
đƣợc nêu ra ở trên nhằm phát huy ƣu thế riêng của từng phƣơng pháp.
2.2. PHƢƠNG PHÁP LỌC CỘNG TÁC

2.2.1. Khát quát lọc cộng tác
Lọc cộng tác [3, 6] là một kỹ thuật đƣợc sử dụng cho hệ thống tƣ vấn, dựa vào
việc xử lý dữ liệu để xây dựng đặc điểm của ngƣời dùng cần khuyến nghị dựa trên sở
thích tƣơng tự hoặc thói quen. Trong phƣơng pháp này, dữ liệu đầu vào là một tập đánh
giá các tài nguyên của ngƣời dùng. Dựa trên các đánh giá này, ngƣời dùng có thể so
sánh đƣợc với nhau hình thành nên khái niệm ngƣời dùng tƣơng đồng. Tƣơng tự nhƣ
vậy, xuất hiên khái niệm tài nguyên tƣơng đồng. Điểm đánh giá của một ngƣời dùng có
thể dự đốn đƣợc dựa trên các đánh giá của ngƣời dùng “lân cận” hay tài nguyên “gần
gũi”. Dựa theo cơ sở để dự đoán đánh giá của một ngƣời dùng, chúng ta có thể phân ra
làm hai cách tiếp cận chính:
 Dựa trên ngƣời dùng (user - based)
 Dựa trên tài nguyên (item - based)

Hình 2.1: Ma trận đánh giá R của người dùng lên tài nguyên
Theo hình trên, U là tập gồm N ngƣời dùng, I là tập gồm M tài nguyên và R là
tập đánh giá của ngƣời dùng u U lên tài nguyên i  I . Mục tiêu của lọc cộng tác là có
thể dự đoán đánh giá của ngƣời dùng lên một tài nguyên chƣa đƣợc lựa chọn. Lọc cộng
tác bao gồm hai nhiệm vụ chính: dự báo và tƣ vấn. Phƣơng thức dự báo cho ra giá trị
pu ,i thể hiện đánh giá có tiềm năng nhất của ngƣời dùng u lên tài nguyên i . Phƣơng
thức tƣ vấn cho ra danh sách K tài nguyên đầu mà ngƣời dùng u thích nhất (hay giá trị
pu ,i cao nhất).


24

Hình 2.2: Minh họa một đánh giá cần dự đốn của người dùng với lọc cộng tác

Hình 2.3: Các cách tiếp cận trong lọc cộng tác
2.2.2. Cách tiếp cận dựa trên ngƣời dùng
Theo cách tiếp cận dựa trên ngƣời dùng [14, 18], việc dự đoán đánh giá của ngƣời

dùng lên một tài nguyên dựa trên đánh giá của những ngƣời dùng hàng xóm “lân cận”
lên tài ngun đó. Vì thế, cần định nghĩa một độ đo tƣơng đồng giữa những ngƣời dùng
trƣớc khi một tập những ngƣời hàng xóm lân cận đƣợc xác định.
Độ đo tƣơng đồng này sử dụng hệ số tƣơng quan Pearson. Gọi simu, v  là độ đo
tƣơng đồng giữa ngƣời dùng u và v đƣợc đo bởi công thức [9, 31]:
sim(u, v ) 

 (r
iI

 (r
iI

u ,i

u ,i

 ru )  ( rv ,i  rv )

 ru ) 2 

 (r
iI

v ,i

 rv ) 2

(2.1)


Ở đây,
 I là tập tất cả các tài nguyên đƣợc đánh giá bởi ngƣời dùng u và v .
 ru ,i và rv ,i là các đánh giá đã biết của ngƣời dùng u và v lên tài nguyên i .


25

 ru và rv là đánh giá trung bình của các ngƣời dùng u và v .
Trƣớc hết, hệ thống xác định số lƣợng ngƣời K tƣơng đồng với ngƣời đƣợc xét.
Tập ngƣời dùng hàng xóm của ngƣời dùng u , ký hiệu là Gu , đƣợc tạo nên bởi K ngƣời
dùng trên, với K là tham số hệ thống, đƣợc xác định tùy thuộc vào hệ thống.
Một cách khả thi để có thể dự đốn đƣợc đánh giá của ngƣời dùng u lên tài
nguyên i là sử dụng tổng trọng số các đánh giá của những ngƣời hàng xóm gần nhất
(hoặc tƣơng đồng với u nhất dựa trên độ đo tƣơng đồng trên) v lên tài nguyên i :
pu ,i 

 sim(u, v ) * r

v ,i

vGu

(2.2)

 sim(u, v )

vGu

Để xem xét sự khác nhau giữa những ngƣời dùng khác nhau, việc đánh giá độ lệch
dựa trên đánh giá trung bình đƣợc đề ra. pu ,i trong trƣờng hợp này sẽ đƣợc đánh giá

dựa trên tổng của đánh giá trung bình của ngƣời dùng u với tổng trọng số đƣợc đánh
giá từ độ lệch từ đánh giá trung bình của những ngƣời dùng hàng xóm lên tài nguyên
[9, 31]:
p

,
u ,i

 ru 

 sim(u, v ) * ( r

v ,i

vGu

 rv )

(2.3)

 sim(u, v )

vGu

Ký hiệu chung cho cả hai công thức trên:
 Gu : Tập tất cả những ngƣời hàng xóm gần nhất với u .
 rv là đánh giá trung bình của ngƣời dùng v .
Ví dụ: Cho ma trận đánh giá R dƣới đây. R là ma trận đánh giá của ngƣời dùng
lên các tài nguyên.
Bảng 2.1: Ví dụ về đánh giá của người dùng lên tài nguyên

I

i1

i2

i3

u1

5

4

3

u2

4

5

5

u3

3

X


4

u4

5

3

3

i4

U

3

4

Chúng ta đi đến dự đoán đánh giá của ngƣời dùng u 3 lên tài nguyên i2 (đƣợc đánh
dấu X trong bảng trên.
Tính độ tƣơng đồng:


×