Tải bản đầy đủ (.docx) (15 trang)

PHẦN I VẤN ĐỀ VÀ THỰC TRẠNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (872.44 KB, 15 trang )

PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG
1. ĐẶT BÀI TOÁN
Hiện nay, khoa học kỹ thuật ngày càng phát triển. Máy vi tính được phát triển từ năm
1980 đã ngày càng được sử dụng rộng rãi với các ứng dụng tiên tiến của nó. Theo đó, các
hệ thống lưu trữ tài liệu dần chuyển sang lưu trữ số trên máy tính. Các hệ thống thư viện
điện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi. Theo đó, là các vấn đề liên
quan đến tìm kiếm, chia theo danh mục và gợi ý nội dung đọc Ebook cho người dùng.
Trên internet, chúng ta đã có rất nhiều các công cụ tìm kiếm và gợi ý các tài liệu cần
đọc và những tài liệu liên quan. Thí dụ như công cụ tìm kiếm của Google, ngoài những tài
liệu có chứa từ khóa, nó còn gợi ý những tài liệu có độ tương đồng nhất định với nội dung
người dùng tra cứu, thể hiện ở các liên kết cuối mỗi trang. Với amazon.co.uk, hệ thống
recommender chỉ với những thành viên đăng ký tài khoản với hệ thống. Khi đăng ký tài
khoản, user đăng ký luôn các sở thích và các lĩnh vực họ quan tâm. Với hệ thống
mubu.com, họ gợi ý trong lĩnh vực âm nhạc. Người dùng cũng phải cung cấp thông tin về
sở thích như ca sỹ, nhạc sĩ, thể loại nhạc quan tâm. Từ đó, hệ thống gợi ý cho người dùng
không cần keyword…
Hình : Tìm kiếm thông tin – So sánh gợi ý của người và máy
Rất nhiều người không có thời gian để lọc ra trong một tệp các cuốn sách được thông
tin mình mong muốn. Thậm chí trong một cuốn sách dầy tới nghìn trang. Mục lục ở mỗi
cuốn sách cũng là các tóm tắt ý, các chủ đề viết về cho cuốn sách. Người dùng có thể tìm
trong các mục lục đó, cũng có thể tìm theo từ khóa (ứng với mỗi tài liệu, chúng được tìm
theo từ khóa dựa vào chương trình đọc tài liệu đó). Như hình trên, vấn đề là, tìm được một
cuốn sách chứa chủ đề của mình và có đủ lượng thông tin cần thiết cho vấn đề mình quan
tâm. Hoặc khi chưa đủ thông tin, người dùng được gợi ý những cuốn sách viết về những
chủ đề có liên quan mà người ta cần tra cứu thông tin về.
Bài toán đặt ra là, trong kho dữ liệu, bao gồm rất nhiều cuốn sách, rất nhiều các tài liệu
như bài báo, tạp chí. Người dùng cần tra cứu thông tin về một vấn đề nào đó. Hệ thống sẽ
phải cung cấp những cuốn sách viết về vấn đề đó và sắp xếp theo thứ tự ưu tiên nhất định
cho người đọc. Hơn nữa, hệ thống cũng cung cấp các tài liệu mà những người dùng trước
đó đã sử dụng khi cần tra cứu vấn đề đó.
Người dùng thiết lập một phiên giao dịch, bằng việc đăng nhập vào hệ thống hoặc có


thể không cần đăng nhập (Tất nhiên, khi đăng nhập vào hệ thống sẽ được hỗ trợ một số tính
năng tìm kiếm nâng cao). Bằng việc đánh một từ khóa người dùng quan tâm, hệ thống sẽ
cung cấp hai loại kết quả:
1. Kết quả do truy vấn SQL trong cơ sở dữ liệu của hệ thống
2. Kết quả do phân tích qua lịch sử truy cập của những người dùng trước.
Với loại kết quả đầu tiên, kết quả tìm được do việc truy vấn bằng các câu truy vấn
SQL trong cơ sở dữ liệu. CSDL phải được thiết kế sao cho quá trình tìm kiếm là thuận lợi
nhất. Khi tìm được các kết quả theo mức độ ưu tiên, người dùng sẽ chọn một văn bản nào
đó để nghiên cứu. Hệ thống phải cung cấp tiếp cho người dùng những tài liệu liên quan tới
tài liệu mà họ đang đọc. Việc tìm những văn bản liên quan là dựa trên sự tương đồng giữa
hai văn bản. Với loại kết quả thứ hai, hệ thống sẽ cung cấp cho người dùng những văn bản
mà qua những lần truy cập hệ thống trước đó, hệ thống ghi nhận những tài liệu mà các
người dùng trước đã đọc khi đọc tài liệu này học tài liệu khác cùng chủ đề hay có độ tương
đồng nhất định với tài liệu đó. Sơ đồ tổng quát giao dịch của hệ thống:
Hình : Mô hình sơ đồ hệ thống gợi ý cho người dùng
Kết quả trả lại được sắp xếp theo thứ tự giảm dần của mức độ ưa thích.
Query search
Phân tích phiên làm việc
1.Truy vấn theo từ khóa
2.Truy vấn theo tài liệu liên
quan (LSA + phân tích lịch
sử làm việc)
Items Databases
2. CÁC VẤN ĐỀ VÀ CÁC GIẢI PHÁP HIỆN TẠI
2.1Các hệ thống gợi ý (recommender systems - RS)
2.1.1 Các khái niệm về Recommender System
Recommender Systems (RS) là một hế thống lọc thông tin đặc biệt, hệ thống cho phép
lọc thông tin dựa trên sự quan tâm của người dùng và nội dung của văn bản. Điển hình, một
hệ thống RS sẽ so sánh những thông tin người dùng với những đặc trưng liên quan. Những
đặc trưng này có thể thu thập từ nội dung thông tin (Cách tiếp cận theo nội dung: Content -

based approach) hoặc từ môi trường mạng xã hội của người sử dụng (Cách tiếp cận theo
hướng lọc cộng tác: Collaborative filtering approach). <Theo wikipedia>
Như vậy dựa vào khái niệm trên chúng ta có thể thấy hiện có hai kỹ thuật chính
được sử dụng để xây dựng một hệ thống RS hiện nay. Một là kỹ thuật hướng nội dung –
Content based approach, kỹ thuật này cho phép hệ thống đưa ra những gợi ý phù hợp
nhất với những tiêu chuẩn đã được xác định. Hệ thống phải nắm được tất cả những đặc
điểm chính được thể hiện trong đối tượng được quan tâm (Theo từ khoá của người dùng)
và sắp xếp chúng theo những tiêu chuẩn tương ứng.
Mặt khác , tiếp cận theo hướng lọc cộng tác – Collborative filtering CF lại làm
việc dựa trên cơ chế tìm kiếm những sự đồng nhất của một cá nhân với cộng đồng mà họ
tham gia để xác định gợi ý hơn là dựa trên việc xác thực nội dung của sự quan tâm. Tức là
CF dựa trên sự công tác giữa một nhóm cá thể có chung một quan điểm hay một sự lựa
chọn nào đó để đưa ra nhưng gợi ý cho người tìm kiếm.
Hình : Sơ đồ tổng quát hệ thống
Trong môt số hệ thống cũng thường áp dụng cả hai kỹ thuật này cách này gọi là hệ thống
lai (Hybrid).
Về căn bản mô hình bài toán được xây dựng như sau:
- Gọi C là số thành viên của hệ thống: ci là tường người dùng cụ thể.
- Gọi S là toàn bộ không gian đối tượng có thể đưa ra và si là một đối tượng cụ thể.
- Gọi u là giá trị phù hợp của đối tượng s với người dùng c.
Vậy bài toán là sự ánh xạ u: CxS  R. Trong đó R chính là tập hợp các đối tượng được
đưa ra giới thiệu. Tập R sẽ được sắp xếp theo thứ tự giảm dần của u.Công việc chính của
giải thuật đơn giản chỉ là đi tìm giá trị hàm u=f(c, s) sao cho u (max) là giá trị được ưa thích
nhất.
Dễ thấy độ phức tạp của bài toán là rất cao bởi không gian S là rất lớn. Ví dụ như cách
ứng dụng về gợi ý sách, số lượng sách có thể lên tới hàng triệu quyển. Hoặc hệ thống gợi ý
về CDs…Đồng thời không gian C cũng rất lớn nếu như mạng phát triển mang tính toàn cầu
như Ebay, Google, Yahoo có thể lên đến hàng tỉ thành viên.
2.1.2 Các hệ thống recommender tiêu biểu
Hệ thống bán hàng trực tuyến m a z o n e .

Hình : Giao diện tìm kiếm của Amazone.com
Đầu vào: Tên thiết bị, tên công ty, tên danh mục hay bất cứ từ khóa nào
Đầu ra: Gợi ý cho người dùng các sản phẩm hiện có.
Hình : Giao diện kết quả trả lại
Kết quả trả về với đúng cuốn sách cần tìm. Ngoài ra, hệ thống còn tư vấn các sản phẩm
khác tương tự

×