Tải bản đầy đủ (.doc) (110 trang)

CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG VIỆC TÌM KIẾM TÀI LIỆU ONLINE

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.51 MB, 110 trang )

Page | 1
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
LỜI NÓI ĐẦU
1 1. MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI
Máy tính hiện nay đã đóng góp một phần không nhỏ vào đời sống, và đã trở
nên phổ dụng. Trong lĩnh vực lưu trữ dữ liệu, chỉ cần một ổ cứng 10x15x3 cm
3

đã có thể lưu trữ được số lượng sách tương ứng với cả một thư viện sách khổng
lồ. Theo đó, là vấn đề tra cứu dữ liệu trong kho dữ liệu như thế. Cũng như việc
tổ chức trong thư viện, việc lưu trữ tài liệu điện tử trong máy tính cũng được chia
thành các loại sách, và chủ đề lớn khác nhau. Hiện nay xu thế người đọc sách là
coi sách là nguồn để tra cứu những vấn đề mình quan tâm, chứ không phải học
một kiến thức mới do một cuốn sách mang đến. Vấn đề đặt ra là làm sao tư vấn
cho người dùng những cuốn sách nào liên quan nhiều nhất tới chủ đề người dùng
yêu cầu (thông qua các từ khóa được nhập) bằng phân tích nội dung và lịch sử
truy cập của những người dùng trước.
Luận văn này đực thực hiện nhằm đề xuất ra được một phương thức xây
dựng hệ thống hỗ trợ tư vấn với các kết quả sau:
1 - Tư vấn hoàn toàn tự động các tài liệu cho người dùng theo từ khóa, lịch
sử truy cập của người dùng đó và những người dùng khác và sở thích của họ. Kết
quả tư vấn ngày càng chính xác hơn vì hệ thống có phân tích và cập nhật lịch sử
truy cập của người dùng.
2 - Giới thiệu tài liệu có độ tương tự nhất định với tài liệu đang nghiên cứu
để người dùng lựa chọn tài liệu tiếp theo nghiên cứu.
- Hệ thống khảo sát (survey) để thu thập các ý kiến đánh giá của người dùng về
sự tương tự của các tài liệu hệ thống gợi ý. Qua đó, càng thu thập nhiều sự đánh
giá, kết quả tư vấn cho người dùng càng sát với vấn đề người ta đặt ra hơn.
3 - Người dùng mới không nhất thiết phải đăng ký thông tin với hệ thống.
Hệ thống vẫn gợi ý cho người dùng thông qua phân tích nội dung và lịch sử truy
Page | 2


CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
cập hệ thống.
4 - Đáp ứng các yêu cầu tìm kiếm trên các trang web (tìm kiếm trong site
riêng hoặc trên internet). Hệ thống hướng tới việc tìm kiếm và xây dựng cơ sở
dữ liệu động từ internet.
0 2. VẤN ĐỀ GIẢI QUYẾT
Có 2 phương pháp chủ đạo được dùng trong hệ tư vấn:
Phương pháp lọc cộng tác: là phương pháp tập hợp các đánh giá hoặc các
quan điểm của người dùng, nhận dạng sự tương đồng giữa các người dùng trên
cơ sở các phiên giao dịch của họ. Phiên giao dịch của người dùng được bắt đầu
từ khi người dùng đánh từ khóa và có tín hiệu search. Kết thúc phiên làm việc
với một từ khóa mới được nhập. Phương pháp lọc cộng tác ước lượng hàm đánh
giá R(u,i) của item i với user u dựa trên cơ sở đánh giá R(u’,i) của user u’ cho
cùng item i mà trong đó u và u’ là tương tự nhau.
Phương pháp lọc cộng tác có các vấn đề như:
5 Sự thưa thớt: thực tế thì vấn đề của người dùng quan tâm (từ khóa) nó
chiếm phần rất nhỏ và sự đánh giá sự tương đồng cho tài liệu là rất nhỏ so với rất
nhiều tài liệu của hệ thống. Với hệ thống gợi ý trong luận văn này, các đánh giá,
các nhận định sẽ được lưu lại dần dần, loại bỏ dần những kết quả không chính
xác.
6 Vấn đề tài nguyên mới: Hệ thống không ngừng cập nhật các tài liệu mới
cho kho dữ liệu của mình. Mỗi lần thêm một tài liệu mới, hệ thống sẽ tính lại
(off-line) là phân tích độ tương đồng về ngữ nghĩa giữa các văn bản (kỹ thuật
LSA) để tìm ra tập các láng giềng gần của một cuốn sách.
7 Vấn đề người dùng mới: Như đã đề cập, hệ thống sẽ phân tích và lưu trữ
lại lịch sử của tất cả các phiên làm việc, kết hợp phân tích nội dung trong hệ
thống để lọc ra sự tương đồng, liên quan chính xác nhất của các tài liệu. Nên hệ
Page | 3
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
thống hoàn toàn có thể gợi ý tư vấn cho một người dùng mới. Khi người dùng

cung cấp cho hệ thống các sở thích, hệ thống sẽ lọc tiếp theo sở thích đó, để cung
cấp kết quả chính xác hơn.
Phương pháp lọc dựa trên nội dung: là một giải thuật hướng về nghiên cứu
lọc thông tin, phương pháp lọc dựa trên nội dung ước lượng hàm đánh giá R(u,i)
của item i với user u được thiết lập dựa trên cơ sở đánh giá R(u,i’) của cùng user
u cho item i’ mà trong đó i và i’ là tương tự nhau về mặt nội dung.
Nhược điểm chính của phương pháp này là nó giả định các thuật ngữ là độc
lập nhau. Trong thực tế, các thuật ngữ thường có liên quan với nhau và hiểu
được điều này có thể dẫn đến việc tính độ liên quan tốt hơn.
Tính đồng nghĩa: có nhiều cách để chỉ đến một đối tượng, ví dụ: car và
automobile
8 • Các sản phẩm tương tự được đối xử theo cách khác nhau
9 • Tăng sự thưa thớt, làm mất tính chất bắc cầu giữa các từ khóa
10 • Sinh ra kết quả có chất lượng thấp
Tính nhiều nghĩa của từ: hầu hết các từ đều có nhiều nghĩa, ví dụ: model, python,
chip.
11 • Độ chính xác thấp
12
2 3. CÁCH GIẢI QUYẾT
3 Sử dụng phương pháp lọc cộng tác, hệ thống đã đưa ra phương án giải
quyết được các nhược điểm của nó như đã trình bầy ở trên. Về sử dụng phương
pháp lọc dựa trên nội dung, hệ thống đang sử dụng các phương pháp:
1 3.1 Phân tách tài liệu thành các từ khóa (Filter)
2 Các tài nguyên là các tài liệu được thể hiện dưới dạng văn bản như một
Page | 4
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
cuốn sách, tạp chí, hay một bài báo, bài diễn văn điện tử nào đó. Với những tài
liệu tiếng Anh, một từ thường có một âm tiết, ta có thể dễ dàng xác định một từ
dựa vào dấu cách (space) hoặc dấu câu. Việc phân tách văn bản tiếng anh thành
các từ khóa không khó khăn. Với những văn bản tiếng việt, mỗi từ nó có thể có

một, hai hoặc nhiều hơn số lượng âm tiết. Việc phân tách thành từ khóa đối với
văn bản tiếng việt phải dựa trên từ điển và các thuật toán đọc từ khóa sao cho
đúng nghĩa nhất của câu. Thí dụ: Học sinh học sinh học thì hệ thống sẽ tách
thành Học sinh, học, sinh học. Sau đó, loại bỏ các từ dừng (Stopword – Những
từ mang ý nghĩa cảm thán, đại từ…như anh, bạn, do đó…), những từ không
mang nhiều ý nghĩa về nội dung. Bước tiếp theo, dùng kỹ thuật TF-IDF để lọc bỏ
bớt số lượng từ khóa của tài liệu.
3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA)
3 Kỹ thuật LSA là những lý thuyết và phương thức cho việc trích rút và thể
hiện ngữ cảnh sử dụng ngữ nghĩa của từ dựa trên việc tính toán thông kê. Kỹ
thuật này cho phép ứng dụng trên một kho dữ liệu văn bản lớn. Ý tưởng cơ bản
của kỹ thuật là tổng hợp tất cả các văn cảnh của từ, trong đó, một từ được đưa ra
đã và không chỉ định biểu lộ những tập ràng buộc lẫn nhau. Những tập ràng buộc
này cho phép xác định sự tương đồng về nghĩa của những từ và tập hợp mỗi từ
khác.
4 Tập các từ khóa của các tài liệu của bước phân tích trên được dùng làm
đầu vào cho các hàng của ma trận. Theo đó, bộ từ khóa của một tài liệu được
dùng làm cột, các tài liệu làm hàng, các cell của ma trận được khởi tạo là tần suất
xuất hiện của từ khóa-thuật ngữ đó trong tài liệu. LSA dùng kỹ thuật phân tích
giá trị riêng (SVD-singular value decomposition) để giảm bớt để giảm bớt kích
thước ma trận thuật ngữ-tài liệu, không gian N-chiều sẽ được giảm bớt xuống
một không gian K chiều, K<<N, không gian mới này được gọi là không gian
khái niệm.
Page | 5
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
5 Sử dụng kết quả bước này, ta thu được tập các tài liệu có sự tương đồng về
ngữ nghĩa nhất định với tài liệu xét. Là nguồn quan trọng trong việc đưa ra gợi ý
những tài liệu tương tự với tài liệu người dùng đang đọc.
3.3 Phân tích lịch sử truy cập của người dùng
6

Một phiên làm việc của người dùng được đánh dấu bằng việc nhập một từ
khóa và nhấn nút search. Các kết quả gợi ý được đưa ra, khi người dùng quyết
định chọn một tài liệu (A), hệ thống gợi thống gợi ý các tài liệu có liên quan (dựa
vào phân tích LSA trước và phân tích lịch sử phiên làm việc). Khi người dùng
chọn một tài liệu (B) tiếp theo trong phần của hệ thống gợi ý để đọc, hệ thống
ghi nhận tài liệu B có liên quan nhất trong phiên làm việc đó với tài liệu A. Và
cứ thế, hệ thống sẽ cập nhật và đánh giá lại sự liên quan nhất định của các tài liệu
qua các phiên làm việc của người dùng.
Hệ thống còn đưa ra kỹ thuật khảo sát (survey) để thu thập ý kiến chính xác
hơn của người dùng về sự tương đồng của các tài liệu.
Hạn chế của phương pháp này, là khi có một tài liệu mới được cập nhật, chỉ
số lịch sử truy cập của nó là 0, hoặc một giá trị âm nào đó. Có thể về cơ bản thì
nó rất tương đồng với văn bản A trên chẳng hạn, nhưng phải qua nhiều lần, nhiều
phiên làm việc thì nó mới đứng đầu trong các văn bản liên quan của A.
Page | 6
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
4. CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN
 Cung cấp bộ phân tách văn bản thành các từ khóa với văn bản tiếng
Việt và văn bản tiếng Anh. Sử dụng bộ đọc văn bản đầu vào Ifilter để xử lý, kết
hợp các file từ điển, file từ stopword để tách dữ liệu được đọc vào thành các từ
khóa, đặc trưng cho tài liệu đó.
 Kỹ thuật LSA, đánh giá độ tương đồng về mặt ngữ nghĩa giữa các
tài liệu dựa trên kỹ thuật xử lý ma trận SVD. Phần này sẽ được trình bày chi tiết
trong luận văn còn lại của dự án (Liên lạc với Mr Kiều Văn Cường)
 Cung cấp kỹ thuật xử lý lịch sử phiên làm việc của một người dùng,
cho phép các kết quả chính xác hơn sau nhiều phiên làm việc.
 Đề xuất mô hình và phương thức triển khai cho phần mở rộng dự
án, xây dựng hệ thống CSDL động trên Internet và đẩy hết các quá trình xử lý
thành on-line (hệ thống như một tool tìm kiếm cho khách hàng. Hệ thống sẽ bắt
đầu khi người dùng bắt đầu phiên làm việc)

Page | 7
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
5. CÀI ĐẶT
5.1 Tách tài liệu thành các từ khóa. Tìm kiếm dựa trên từ khóa
Mô hình này áp dụng cho những lần gợi ý đầu tiên, cho khi người dùng nhập
từ khóa.
Giải thuật tách từ khóa (chạy off-line):
Input: tập tài nguyên là sách, tạp chí, trang thông tin (html) ở các định dạng tài
liệu.
Output: Tập các từ khóa với rank tương ứng.
Quá trình tìm kiếm sẽ ưu tiên với những khóa được lọc ra ở tập khóa có mức
độ ưu tiên được đánh giá bằng rank tương ứng của chúng
Giải thuật này được thiết kế để chạy offline trong phiên bản đầu tiên này.
Quá trình cập nhật tài liệu được người quản trị nhập. Chi phí thời gian cho modul
này là khá lớn, một cuốn sách điện tử tầm 200 trang tương ứng là 3 phút cho hệ
thống đọc và tách thành từ khóa.
Tập văn bản nguồn Tập văn bản đã được phân tách
Page | 8
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
Hình 1: Hình minh họa tập tách văn bản
Page | 9
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
5.2 Mô hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn
Sau khi tách thành tập các từ khóa, modul này sẽ thực hiện việc cập nhật tiếp
các tài liệu liên quan, có độ tương đồng nhất định về nội dung. Mỗi tài liệu sẽ
được xác định cùng với nó một tập các tài liệu khác có tương đồng về mặt nội
dung.
Hình 2: Cấu trúc giải thuật LSA
Tập tài liệu
(từ khóa)

Xử lý LSA
(ma trận
và giải
thuật SVD)
Tập các tài liệu
liên quan tới 1
tài liệu
Cập nhật
CSDL (dữ
liệu tài liệu
liên quan )
Page | 10
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
5.3 Mô hình tư vấn dựa trên lịch sử phiên truy cập của người dùng
Kế thừa từ các hệ thống học thông minh, từ các phiên làm việc của người
dùng, hệ thống sẽ tự động cập nhật để chính xác hơn những thông tin có trong cơ
sở dữ liệu để phục vụ cho những lần tư vấn sau đó. Có rất nhiều mô hình khai
thác trên lĩnh vực người dùng. Trong đồ án này, tôi chỉ khai thác trên khía cạnh
sở thích và lịch sử các phiên làm việc của người dùng. Khi người dùng đăng ký
thông tin, hệ thống ghi nhận ở tài khoản của họ, thông tin về các lĩnh vực người
dùng quan tâm để lọc các kết quả tìm kiếm. Tại phiên làm việc của người dùng,
khi người dùng click vào một tài liệu mà hệ thống đưa ra để gợi ý cho tài liệu
đang đọc, hệ thống sẽ cập nhật hệ số tương quan giữa 2 tài liệu đó, phục vụ cho
các kết quả tư vấn ở lần tiếp theo.
Nhận và tiền
xử lý query
Câu truy vấn
Xử lý query,
tạo kết quả trả
Tài liệu chứa từ

khóa trong query
Tài liệu có liên quan
với tài liệu kết quả
Truy vấn
CSDL (tài
liệu)
Tập tài liệu
Các tài liệu liên quan
Cập nhật tài
liệu liên quan
Hiển thị kết
quả ra
browser
Tài liệu trả về
Xử lý tác thao
tác người
dùng
Page | 11
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE

Hình 3: Quy trình truy vấn
6. GIAO DIỆN TRANG CHỦ CHƯƠNG TRÌNH
Page | 12
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
Hình 4: Giao diện chính trang chủ chương trình
Page | 13
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG
1. ĐẶT BÀI TOÁN
Hiện nay, khoa học kỹ thuật ngày càng phát triển. Máy vi tính được phát

triển từ năm 1980 đã ngày càng được sử dụng rộng rãi với các ứng dụng tiên tiến
của nó. Theo đó, các hệ thống lưu trữ tài liệu dần chuyển sang lưu trữ số trên
máy tính. Các hệ thống thư viện điện tử, thư viện trực tuyến ngày càng được sử
dụng rộng rãi. Theo đó, là các vấn đề liên quan đến tìm kiếm, chia theo danh
mục và gợi ý nội dung đọc Ebook cho người dùng.
Trên internet, chúng ta đã có rất nhiều các công cụ tìm kiếm và gợi ý các tài
liệu cần đọc và những tài liệu liên quan. Thí dụ như công cụ tìm kiếm của
Google, ngoài những tài liệu có chứa từ khóa, nó còn gợi ý những tài liệu có độ
tương đồng nhất định với nội dung người dùng tra cứu, thể hiện ở các liên kết
cuối mỗi trang. Với amazon.co.uk, hệ thống recommender chỉ với những thành
viên đăng ký tài khoản với hệ thống. Khi đăng ký tài khoản, user đăng ký luôn
các sở thích và các lĩnh vực họ quan tâm. Với hệ thống mubu.com, họ gợi ý
trong lĩnh vực âm nhạc. Người dùng cũng phải cung cấp thông tin về sở thích
như ca sỹ, nhạc sĩ, thể loại nhạc quan tâm. Từ đó, hệ thống gợi ý cho người dùng
không cần keyword…
Page | 14
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
Hình 5: Tìm kiếm thông tin – So sánh gợi ý của người và máy
Page | 15
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
Rất nhiều người không có thời gian để lọc ra trong một tệp các cuốn sách
được thông tin mình mong muốn. Thậm chí trong một cuốn sách dầy tới nghìn
trang. Mục lục ở mỗi cuốn sách cũng là các tóm tắt ý, các chủ đề viết về cho
cuốn sách. Người dùng có thể tìm trong các mục lục đó, cũng có thể tìm theo từ
khóa (ứng với mỗi tài liệu, chúng được tìm theo từ khóa dựa vào chương trình
đọc tài liệu đó). Như hình trên, vấn đề là, tìm được một cuốn sách chứa chủ đề
của mình và có đủ lượng thông tin cần thiết cho vấn đề mình quan tâm. Hoặc khi
chưa đủ thông tin, người dùng được gợi ý những cuốn sách viết về những chủ đề
có liên quan mà người ta cần tra cứu thông tin về.
Bài toán đặt ra là, trong kho dữ liệu, bao gồm rất nhiều cuốn sách, rất nhiều

các tài liệu như bài báo, tạp chí. Người dùng cần tra cứu thông tin về một vấn đề
nào đó. Hệ thống sẽ phải cung cấp những cuốn sách viết về vấn đề đó và sắp xếp
theo thứ tự ưu tiên nhất định cho người đọc. Hơn nữa, hệ thống cũng cung cấp
các tài liệu mà những người dùng trước đó đã sử dụng khi cần tra cứu vấn đề đó.
Người dùng thiết lập một phiên giao dịch, bằng việc đăng nhập vào hệ thống
hoặc có thể không cần đăng nhập (Tất nhiên, khi đăng nhập vào hệ thống sẽ
được hỗ trợ một số tính năng tìm kiếm nâng cao). Bằng việc đánh một từ khóa
người dùng quan tâm, hệ thống sẽ cung cấp hai loại kết quả:
1. Kết quả do truy vấn SQL trong cơ sở dữ liệu của hệ thống
2. Kết quả do phân tích qua lịch sử truy cập của những người dùng trước.
Với loại kết quả đầu tiên, kết quả tìm được do việc truy vấn bằng các câu
truy vấn SQL trong cơ sở dữ liệu. CSDL phải được thiết kế sao cho quá trình tìm
kiếm là thuận lợi nhất. Khi tìm được các kết quả theo mức độ ưu tiên, người
dùng sẽ chọn một văn bản nào đó để nghiên cứu. Hệ thống phải cung cấp tiếp
cho người dùng những tài liệu liên quan tới tài liệu mà họ đang đọc. Việc tìm
Page | 16
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
những văn bản liên quan là dựa trên sự tương đồng giữa hai văn bản. Với loại
kết quả thứ hai, hệ thống sẽ cung cấp cho người dùng những văn bản mà qua
những lần truy cập hệ thống trước đó, hệ thống ghi nhận những tài liệu mà các
người dùng trước đã đọc khi đọc tài liệu này học tài liệu khác cùng chủ đề hay có
độ tương đồng nhất định với tài liệu đó. Sơ đồ tổng quát giao dịch của hệ thống:
Page | 17
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
Query search
1.Truy vấn theo từ khóa
2.Truy vấn theo tài liệu
liên quan (LSA + phân
tích lịch sử làm việc)
Items Databases

Phân tích phiên làm việc
Page | 18
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
Hình 6: Mô hình sơ đồ hệ thống gợi ý cho người dùng
Kết quả trả lại được sắp xếp theo thứ tự giảm dần của mức độ ưa thích.
Page | 19
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
2. CÁC VẤN ĐỀ VÀ CÁC GIẢI PHÁP HIỆN TẠI
2.1 Các hệ thống gợi ý (recommender systems - RS)
2.1.1 Các khái niệm về Recommender System
Recommender Systems (RS) là một hế thống lọc thông tin đặc biệt, hệ thống
cho phép lọc thông tin dựa trên sự quan tâm của người dùng và nội dung của văn
bản. Điển hình, một hệ thống RS sẽ so sánh những thông tin người dùng với
những đặc trưng liên quan. Những đặc trưng này có thể thu thập từ nội dung
thông tin (Cách tiếp cận theo nội dung: Content - based approach) hoặc từ môi
trường mạng xã hội của người sử dụng (Cách tiếp cận theo hướng lọc cộng tác:
Collaborative filtering approach). <Theo wikipedia>
Như vậy dựa vào khái niệm trên chúng ta có thể thấy hiện có hai kỹ thuật
chính được sử dụng để xây dựng một hệ thống RS hiện nay. Một là kỹ thuật
hướng nội dung – Content based approach, kỹ thuật này cho phép hệ thống
đưa ra những gợi ý phù hợp nhất với những tiêu chuẩn đã được xác định. Hệ
thống phải nắm được tất cả những đặc điểm chính được thể hiện trong đối tượng
được quan tâm (Theo từ khoá của người dùng) và sắp xếp chúng theo những tiêu
chuẩn tương ứng.
Mặt khác , tiếp cận theo hướng lọc cộng tác – Collborative filtering CF
lại làm việc dựa trên cơ chế tìm kiếm những sự đồng nhất của một cá nhân với
cộng đồng mà họ tham gia để xác định gợi ý hơn là dựa trên việc xác thực nội
dung của sự quan tâm. Tức là CF dựa trên sự công tác giữa một nhóm cá thể có
chung một quan điểm hay một sự lựa chọn nào đó để đưa ra nhưng gợi ý cho
người tìm kiếm.

Page | 20
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
Hình 7: Sơ đồ tổng quát hệ thống
Trong môt số hệ thống cũng thường áp dụng cả hai kỹ thuật này cách này gọi
là hệ thống lai (Hybrid).
Về căn bản mô hình bài toán được xây dựng như sau:
- Gọi C là số thành viên của hệ thống: ci là tường người dùng cụ thể.
- Gọi S là toàn bộ không gian đối tượng có thể đưa ra và si là một đối tượng
cụ thể.
- Gọi u là giá trị phù hợp của đối tượng s với người dùng c.
Vậy bài toán là sự ánh xạ u: CxS  R. Trong đó R chính là tập hợp các đối
tượng được đưa ra giới thiệu. Tập R sẽ được sắp xếp theo thứ tự giảm dần của
u.Công việc chính của giải thuật đơn giản chỉ là đi tìm giá trị hàm u=f(c, s) sao
cho u (max) là giá trị được ưa thích nhất.
Dễ thấy độ phức tạp của bài toán là rất cao bởi không gian S là rất lớn. Ví dụ
như cách ứng dụng về gợi ý sách, số lượng sách có thể lên tới hàng triệu quyển.
Hoặc hệ thống gợi ý về CDs…Đồng thời không gian C cũng rất lớn nếu như
mạng phát triển mang tính toàn cầu như Ebay, Google, Yahoo có thể lên đến
hàng tỉ thành viên.
Page | 21
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
2.1.2 Các hệ thống recommender tiêu biểu
Hệ thống bán hàng trực tuyến m a z o n e .
Hình 8: Giao diện tìm kiếm của Amazone.com
Đầu vào: Tên thiết bị, tên công ty, tên danh mục hay bất cứ từ khóa nào
Đầu ra: Gợi ý cho người dùng các sản phẩm hiện có.
Page | 22
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
Hình 9: Giao diện kết quả trả lại
Kết quả trả về với đúng cuốn sách cần tìm. Ngoài ra, hệ thống còn tư vấn các sản

phẩm khác tương tự

Page | 23
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
Hệ thống tìm kiếm âm nhạc trực tuyến Chacha.vn.
Hình 10: Giao diện kết quả tìm kiếm của Amazone.com
Recommender System của ChaCha.vn là một hệ thống tư vấn âm nhạc độc đáo
với nhiều tính năng nổi trội, là công cụ hỗ trợ bạn nghe nhạc một cách hữu hiệu
nhất. Hệ thống Recommender tư vấn cho người dùng những thông tin mới như:
• Nghệ sĩ liên quan : Hệ thống này sẽ cho bạn biết sự liên quan giữa các
nghệ sĩ với nhau, xét theo tiêu chí là mức độ yêu thích của người dùng đối
với các nghệ sĩ đó.
• Người dùng hợp gu : Hệ thống đưa ra danh sách nhóm người dùng có
cùng sở thích âm nhạc với bạn. Đồng thời cho biết thêm mức độ hợp “gu”
của bạn với một người trong nhóm đó là thấp, trung bình, hay cao.
Page | 24
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
• Bài hát liên quan : Hệ thống sẽ đưa ra danh sách các bài hát có liên quan
gần gũi đến một bài hát cụ thể nào đó để người dùng tham khảo.
• Giới thiệu các bài hát mới : Hệ thống tư vấn cho người dùng các bài hát
mới mà theo dự đoán của hệ thống, đó là các bài hát người dùng sẽ thích
nghe.
Page | 25
CÔNG NGHỆ GIẢI HÓA NGỮ NGHĨA TRONG CÔNG NGHỆ TÌM KIẾM TÀI LIỆU ONLINE
Hoạt động của hệ thống
Hệ thống tư vấn gồm 4 chức năng hoạt động như sau:
• Nghệ sĩ liên quan: Dựa trên các thông tin về nghệ sĩ (các bài hát, thể loại
sáng tác hay trình bày, mức độ quan tâm của người dùng…), hệ thống sẽ
tính toán để đo mức liên quan giữa các nghệ sĩ, sau đó đưa ra danh sách các
nghệ sĩ có độ liên quan cao nhất.

• Người dùng hợp “gu”: Dựa trên các bài hát đã nghe qua của từng người
dùng cụ thể, hệ thống tính toán mức độ hợp “gu” (hợp sở thích) giữa những
người dùng khác nhau. Trên cơ sở đó đưa ra danh sách những người dùng
có mức độ hợp “gu” cao nhất.
• Bài hát liên quan: Dựa vào thể loại, mức độ được ưa thích của bài hát, hệ
thống tính toán độ liên quan giữa các bài hát khác nhau. Sau đó đưa ra danh
sách bài hát có độ liên quan cao nhất đối với bài hát hiện tại.
• Giới thiệu các bài hát mới: Dựa vào tiểu sử người dùng (các bài hát đã
nghe qua, đánh giá của người dùng về các bài hát đã nghe), hệ thống sẽ tiến
hành dự đoán mức độ ưa thích của người dùng đối với các bài hát chưa
nghe. Thông qua đó, sắp xếp các bài hát và đưa ra danh sách các bài hát có
độ ưa thích cao nhất để tư vấn cho người dùng .
Hệ thống này có ưu điểm nổi bật:
• Hệ thống giúp cho người dùng có thể tìm thấy các bài hát gần gũi với bài
hát mà mình yêu thích thông qua các bài hát liên quan.
• Hệ thống Recommender cũng là kênh kết nối bạn với những người dùng
khác có cùng sở thích âm nhạc. Bạn sẽ có nhiều cơ hội làm quen, khám phá
những sở thích mới lạ từ những người cùng “gu” âm nhạc.

×