PHẦN 0: LỜI NÓI ĐẦU
1
1. MỤC TIÊU VÀ Ý NGHĨA CỦA ĐỀ TÀI
Máy tính hiện nay đã đóng góp một phần không nhỏ vào đời sống, và đã trở nên phổ
dụng. Trong lĩnh vực lưu trữ dữ liệu, chỉ cần một ổ cứng 10x15x3 cm 3 là đã có thể lưu trữ
được số lượng sách tương ứng với cả một thư viện sách khổng lồ. Theo đó, là vấn đề tra
cứu dữ liệu trong kho dữ liệu như thế. Cũng như việc tổ chức trong thư viện, việc lưu trữ
tài liệu điện tử trong máy tính cũng được chia thành các loại sách, và chủ đề lớn khác nhau.
Hiện nay xu thế người đọc sách là coi sách là nguồn để tra cứu những vấn đề mình quan
tâm, chứ khơng phải học một kiến thức mới do một cuốn sách mang đến. Vấn đề đặt ra là
làm sao tư vấn cho người dùng những cuốn sách nào liên quan nhiều nhất tới chủ đề người
dùng yêu cầu (thông qua các từ khóa được nhập) bằng phân tích nội dung và lịch sử truy
cập của những người dùng trước.
Luận văn này đực thực hiện nhằm đề xuất ra được một phương thức xây dựng hệ thống
hỗ trợ tư vấn với các kết quả sau:
- Tư vấn hoàn toàn tự động các tài liệu cho người dùng theo từ khóa, lịch sử truy cập của
người dùng đó và những người dùng khác và sở thích của họ. Kết quả tư vấn ngày càng
chính xác hơn vì hệ thống có phân tích và cập nhật lịch sử truy cập của người dùng.
- Giới thiệu tài liệu có độ tương tự nhất định với tài liệu đang nghiên cứu để người dùng
lựa chọn tài liệu tiếp theo nghiên cứu.
- Hệ thống khảo sát (survey) để thu thập các ý kiến đánh giá của người dùng về sự tương
tự của các tài liệu hệ thống gợi ý. Qua đó, càng thu thập nhiều sự đánh giá, kết quả tư vấn
cho người dùng càng sát với vấn đề người ta đặt ra hơn.
- Người dùng mới không nhất thiết phải đăng ký thông tin với hệ thống. Hệ thống vẫn gợi ý
cho người dùng thông qua phân tích nội dung và lịch sử truy cập hệ thống.
- Đáp ứng các yêu cầu tìm kiếm trên các trang web (tìm kiếm trong site riêng hoặc trên
internet). Hệ thống hướng tới việc tìm kiếm và xây dựng cơ sở dữ liệu động từ internet.
1
2
3
4
1
2. VẤN ĐỀ GIẢI QUYẾT
Có 2 phương pháp chủ đạo được dùng trong hệ tư vấn:
Phương pháp lọc cộng tác: là phương pháp tập hợp các đánh giá hoặc các quan điểm
của người dùng, nhận dạng sự tương đồng giữa các người dùng trên cơ sở các phiên giao
dịch của họ. Phiên giao dịch của người dùng được bắt đầu từ khi người dùng đánh từ khóa
và có tín hiệu search. Kết thúc phiên làm việc với một từ khóa mới được nhập. Phương
pháp lọc cộng tác ước lượng hàm đánh giá R(u,i) của item i với user u dựa trên cơ sở đánh
giá R(u’,i) của user u’ cho cùng item i mà trong đó u và u’ là tương tự nhau.
Phương pháp lọc cộng tác có các vấn đề như:
5
Sự thưa thớt: thực tế thì vấn đề của người dùng quan tâm (từ khóa) nó chiếm phần rất nhỏ
và sự đánh giá sự tương đồng cho tài liệu là rất nhỏ so với rất nhiều tài liệu của hệ thống.
Với hệ thống gợi ý trong luận văn này, các đánh giá, các nhận định sẽ được lưu lại dần dần,
loại bỏ dần những kết quả khơng chính xác.
6
Vấn đề tài nguyên mới: Hệ thống không ngừng cập nhật các tài liệu mới cho kho dữ liệu
của mình. Mỗi lần thêm một tài liệu mới, hệ thống sẽ tính lại (off-line) là phân tích độ
tương đồng về ngữ nghĩa giữa các văn bản (kỹ thuật LSA) để tìm ra tập các láng giềng gần
của một cuốn sách.
7
Vấn đề người dùng mới: Như đã đề cập, hệ thống sẽ phân tích và lưu trữ lại lịch sử của
tất cả các phiên làm việc, kết hợp phân tích nội dung trong hệ thống để lọc ra sự tương
đồng, liên quan chính xác nhất của các tài liệu. Nên hệ thống hoàn toàn có thể gợi ý tư vấn
cho một người dùng mới. Khi người dùng cung cấp cho hệ thống các sở thích, hệ thống sẽ
lọc tiếp theo sở thích đó, để cung cấp kết quả chính xác hơn.
Phương pháp lọc dựa trên nội dung: là một giải thuật hướng về nghiên cứu lọc
thông tin, phương pháp lọc dựa trên nội dung ước lượng hàm đánh giá R(u,i) của item i với
user u được thiết lập dựa trên cơ sở đánh giá R(u,i’) của cùng user u cho item i’ mà trong
đó i và i’ là tương tự nhau về mặt nội dung.
Nhược điểm chính của phương pháp này là nó giả định các thuật ngữ là độc lập nhau.
Trong thực tế, các thuật ngữ thường có liên quan với nhau và hiểu được điều này có thể dẫn
đến việc tính độ liên quan tốt hơn.
Tính đồng nghĩa: có nhiều cách để chỉ đến một đối tượng, ví dụ: car và automobile
8
• Các sản phẩm tương tự được đối xử theo cách khác nhau
9
• Tăng sự thưa thớt, làm mất tính chất bắc cầu giữa các từ khóa
10 • Sinh ra kết quả có chất lượng thấp
Tính nhiều nghĩa của từ: hầu hết các từ đều có nhiều nghĩa, ví dụ: model, python, chip.
11 • Độ chính xác thấp
12
2 3. CÁCH GIẢI QUYẾT
3 Sử dụng phương pháp lọc cộng tác, hệ thống đã đưa ra phương án giải quyết được
các nhược điểm của nó như đã trình bầy ở trên. Về sử dụng phương pháp lọc dựa trên nội
dung, hệ thống đang sử dụng các phương pháp:
1 3.1 Phân tách tài liệu thành các từ khóa (Filter )
2 Các tài nguyên là các tài liệu được thể hiện dưới dạng văn bản như một cuốn sách,
tạp chí, hay một bài báo, bài diễn văn điện tử nào đó. Với những tài liệu tiếng Anh,
một từ thường có một âm tiết, ta có thể dễ dàng xác định một từ dựa vào dấu cách
(space) hoặc dấu câu. Việc phân tách văn bản tiếng anh thành các từ khóa khơng khó
khăn. Với những văn bản tiếng việt, mỗi từ nó có thể có một, hai hoặc nhiều hơn số
lượng âm tiết. Việc phân tách thành từ khóa đối với văn bản tiếng việt phải dựa trên
từ điển và các thuật tốn đọc từ khóa sao cho đúng nghĩa nhất của câu. Thí dụ: Học
sinh học sinh học thì hệ thống sẽ tách thành Học sinh, học, sinh học. Sau đó, loại
bỏ các từ dừng (Stopword – Những từ mang ý nghĩa cảm thán, đại từ…như anh,
bạn, do đó…), những từ khơng mang nhiều ý nghĩa về nội dung. Bước tiếp theo,
dùng kỹ thuật TF-IDF để lọc bỏ bớt số lượng từ khóa của tài liệu.
3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analystic-LSA)
3 Kỹ thuật LSA là những lý thuyết và phương thức cho việc trích rút và thể hiện ngữ
cảnh sử dụng ngữ nghĩa của từ dựa trên việc tính tốn thơng kê. Kỹ thuật này cho phép ứng
dụng trên một kho dữ liệu văn bản lớn. Ý tưởng cơ bản của kỹ thuật là tổng hợp tất cả các
văn cảnh của từ, trong đó, một từ được đưa ra đã và không chỉ định biểu lộ những tập ràng
buộc lẫn nhau. Những tập ràng buộc này cho phép xác định sự tương đồng về nghĩa của
những từ và tập hợp mỗi từ khác.
4 Tập các từ khóa của các tài liệu của bước phân tích trên được dùng làm đầu vào cho
các hàng của ma trận. Theo đó, bộ từ khóa của một tài liệu được dùng làm cột, các tài liệu
làm hàng, các cell của ma trận được khởi tạo là tần suất xuất hiện của từ khóa-thuật ngữ đó
trong tài liệu. LSA dùng kỹ thuật phân tích giá trị riêng (SVD-singular value
decomposition) để giảm bớt để giảm bớt kích thước ma trận thuật ngữ-tài liệu, không gian
N-chiều sẽ được giảm bớt xuống một không gian K chiều, K<
được gọi là không gian khái niệm.
5
Sử dụng kết quả bước này, ta thu được tập các tài liệu có sự tương đồng về ngữ
nghĩa nhất định với tài liệu xét. Là nguồn quan trọng trong việc đưa ra gợi ý những
tài liệu tương tự với tài liệu người dùng đang đọc.
3.3
6
Phân tích lịch sử truy cập của người dùng
Một phiên làm việc của người dùng được đánh dấu bằng việc nhập một từ khóa và
nhấn nút search. Các kết quả gợi ý được đưa ra, khi người dùng quyết định chọn một tài
liệu (A), hệ thống gợi thống gợi ý các tài liệu có liên quan (dựa vào phân tích LSA trước và
phân tích lịch sử phiên làm việc). Khi người dùng chọn một tài liệu (B) tiếp theo trong phần
của hệ thống gợi ý để đọc, hệ thống ghi nhận tài liệu B có liên quan nhất trong phiên làm
việc đó với tài liệu A. Và cứ thế, hệ thống sẽ cập nhật và đánh giá lại sự liên quan nhất định
của các tài liệu qua các phiên làm việc của người dùng.
Hệ thống còn đưa ra kỹ thuật khảo sát (survey) để thu thập ý kiến chính xác hơn của
người dùng về sự tương đồng của các tài liệu.
Hạn chế của phương pháp này, là khi có một tài liệu mới được cập nhật, chỉ số lịch sử
truy cập của nó là 0, hoặc một giá trị âm nào đó. Có thể về cơ bản thì nó rất tương đồng với
văn bản A trên chẳng hạn, nhưng phải qua nhiều lần, nhiều phiên làm việc thì nó mới đứng
đầu trong các văn bản liên quan của A.
4. CÁC ĐĨNG GĨP CHÍNH CỦA LUẬN VĂN
Cung cấp bộ phân tách văn bản thành các từ khóa với văn bản tiếng Việt và văn bản tiếng
Anh. Sử dụng bộ đọc văn bản đầu vào Ifilter để xử lý, kết hợp các file từ điển, file từ
stopword để tách dữ liệu được đọc vào thành các từ khóa, đặc trưng cho tài liệu đó.
Kỹ thuật LSA, đánh giá độ tương đồng về mặt ngữ nghĩa giữa các tài liệu dựa trên kỹ thuật
xử lý ma trận SVD. Phần này sẽ được trình bày chi tiết trong luận văn còn lại của dự án
(Liên lạc với Mr Kiều Văn Cường)
Cung cấp kỹ thuật xử lý lịch sử phiên làm việc của một người dùng, cho phép các kết quả
chính xác hơn sau nhiều phiên làm việc.
Đề xuất mơ hình và phương thức triển khai cho phần mở rộng dự án, xây dựng hệ thống
CSDL động trên Internet và đẩy hết các quá trình xử lý thành on-line (hệ thống như một
tool tìm kiếm cho khách hàng. Hệ thống sẽ bắt đầu khi người dùng bắt đầu phiên làm việc)
5.
CÀI ĐẶT
5.1
Tách tài liệu thành các từ khóa. Tìm kiếm dựa trên từ khóa
Mơ hình này áp dụng cho những lần gợi ý đầu tiên, cho khi người dùng nhập từ khóa.
Giải thuật tách từ khóa (chạy off-line):
Input: tập tài ngun là sách, tạp chí, trang thơng tin (html) ở các định dạng tài liệu.
Output: Tập các từ khóa với rank tương ứng.
Quá trình tìm kiếm sẽ ưu tiên với những khóa được lọc ra ở tập khóa có mức độ ưu tiên
được đánh giá bằng rank tương ứng của chúng
Giải thuật này được thiết kế để chạy offline trong phiên bản đầu tiên này. Quá trình cập
nhật tài liệu được người quản trị nhập. Chi phí thời gian cho modul này là khá lớn, một
cuốn sách điện tử tầm 200 trang tương ứng là 3 phút cho hệ thống đọc và tách thành từ
khóa.
Tập văn bản nguồn
Hình : Hình minh họa tập tách văn bản
Tập văn bản đã được phân tách
5.2 Mơ hình tìm tư vấn dựa trên phân tích ngữ nghĩa tiềm ẩn
Sau khi tách thành tập các từ khóa, modul này sẽ thực hiện việc cập nhật tiếp các tài
liệu liên quan, có độ tương đồng nhất định về nội dung. Mỗi tài liệu sẽ được xác định cùng
với nó một tập các tài liệu khác có tương đồng về mặt nội dung.
Tập tài liệu
(từ khóa)
Cập nhật CSDL (dữ
liệu tài liệu liên
quan )
Xử lý LSA (ma
trận và giải thuật
SVD)
Tập các tài liệu
liên quan tới 1
tài liệu
Hình : Cấu trúc giải thuật LSA5.3
Mơ hình tư vấn dựa trên lịch sử phiên truy
cập của người dùng
Kế thừa từ các hệ thống học thông minh, từ các phiên làm việc của người dùng, hệ
thống sẽ tự động cập nhật để chính xác hơn những thơng tin có trong cơ sở dữ liệu để phục
vụ cho những lần tư vấn sau đó. Có rất nhiều mơ hình khai thác trên lĩnh vực người dùng.
Trong đồ án này, tôi chỉ khai thác trên khía cạnh sở thích và lịch sử các phiên làm việc của
người dùng. Khi người dùng đăng ký thông tin, hệ thống ghi nhận ở tài khoản của họ,
thông tin về các lĩnh vực người dùng quan tâm để lọc các kết quả tìm kiếm. Tại phiên làm
việc của người dùng, khi người dùng click vào một tài liệu mà hệ thống đưa ra để gợi ý cho
tài liệu đang đọc, hệ thống sẽ cập nhật hệ số tương quan giữa 2 tài liệu đó, phục vụ cho các
kết quả tư vấn ở lần tiếp theo.
Nhận và tiền xử lý
query
Hiển thị kết quả ra
browser
Câu truy vấn
Tài liệu trả về
Xử lý tác thao tác
người dùng
Xử lý query, tạo kết
quả trả
Tài liệu chứa từ
khóa trong query
Tài liệu có liên quan
với tài liệu kết quả
Truy vấn CSDL (tài
liệu)
Tập tài liệu
Các tài liệu liên quan
Cập nhật tài liệu liên
quan
Hình : Quy trình truy vấn
6.
GIAO DIỆN TRANG CHỦ CHƯƠNG TRÌNH
Hình : Giao diện chính trang chủ chương trình
PHẦN I: VẤN ĐỀ VÀ THỰC TRẠNG
1.
ĐẶT BÀI TOÁN
Hiện nay, khoa học kỹ thuật ngày càng phát triển. Máy vi tính được phát triển từ năm
1980 đã ngày càng được sử dụng rộng rãi với các ứng dụng tiên tiến của nó. Theo đó, các
hệ thống lưu trữ tài liệu dần chuyển sang lưu trữ số trên máy tính. Các hệ thống thư viện
điện tử, thư viện trực tuyến ngày càng được sử dụng rộng rãi. Theo đó, là các vấn đề liên
quan đến tìm kiếm, chia theo danh mục và gợi ý nội dung đọc Ebook cho người dùng.
Trên internet, chúng ta đã có rất nhiều các cơng cụ tìm kiếm và gợi ý các tài liệu cần
đọc và những tài liệu liên quan. Thí dụ như cơng cụ tìm kiếm của Google, ngồi những tài
liệu có chứa từ khóa, nó cịn gợi ý những tài liệu có độ tương đồng nhất định với nội dung
người dùng tra cứu, thể hiện ở các liên kết cuối mỗi trang. Với amazon.co.uk, hệ thống
recommender chỉ với những thành viên đăng ký tài khoản với hệ thống. Khi đăng ký tài
khoản, user đăng ký ln các sở thích và các lĩnh vực họ quan tâm. Với hệ thống
mubu.com, họ gợi ý trong lĩnh vực âm nhạc. Người dùng cũng phải cung cấp thơng tin về
sở thích như ca sỹ, nhạc sĩ, thể loại nhạc quan tâm. Từ đó, hệ thống gợi ý cho người dùng
khơng cần keyword…
Hình : Tìm kiếm thơng tin – So sánh gợi ý của người và máy
Rất nhiều người khơng có thời gian để lọc ra trong một tệp các cuốn sách được thơng
tin mình mong muốn. Thậm chí trong một cuốn sách dầy tới nghìn trang. Mục lục ở mỗi
cuốn sách cũng là các tóm tắt ý, các chủ đề viết về cho cuốn sách. Người dùng có thể tìm
trong các mục lục đó, cũng có thể tìm theo từ khóa (ứng với mỗi tài liệu, chúng được tìm
theo từ khóa dựa vào chương trình đọc tài liệu đó). Như hình trên, vấn đề là, tìm được một
cuốn sách chứa chủ đề của mình và có đủ lượng thơng tin cần thiết cho vấn đề mình quan
tâm. Hoặc khi chưa đủ thơng tin, người dùng được gợi ý những cuốn sách viết về những
chủ đề có liên quan mà người ta cần tra cứu thơng tin về.
Bài toán đặt ra là, trong kho dữ liệu, bao gồm rất nhiều cuốn sách, rất nhiều các tài liệu
như bài báo, tạp chí. Người dùng cần tra cứu thơng tin về một vấn đề nào đó. Hệ thống sẽ
phải cung cấp những cuốn sách viết về vấn đề đó và sắp xếp theo thứ tự ưu tiên nhất định
cho người đọc. Hơn nữa, hệ thống cũng cung cấp các tài liệu mà những người dùng trước
đó đã sử dụng khi cần tra cứu vấn đề đó.
Người dùng thiết lập một phiên giao dịch, bằng việc đăng nhập vào hệ thống hoặc có
thể khơng cần đăng nhập (Tất nhiên, khi đăng nhập vào hệ thống sẽ được hỗ trợ một số tính
năng tìm kiếm nâng cao). Bằng việc đánh một từ khóa người dùng quan tâm, hệ thống sẽ
cung cấp hai loại kết quả:
1. Kết quả do truy vấn SQL trong cơ sở dữ liệu của hệ thống
2. Kết quả do phân tích qua lịch sử truy cập của những người dùng trước.
Với loại kết quả đầu tiên, kết quả tìm được do việc truy vấn bằng các câu truy vấn
SQL trong cơ sở dữ liệu. CSDL phải được thiết kế sao cho quá trình tìm kiếm là thuận lợi
nhất. Khi tìm được các kết quả theo mức độ ưu tiên, người dùng sẽ chọn một văn bản nào
đó để nghiên cứu. Hệ thống phải cung cấp tiếp cho người dùng những tài liệu liên quan tới
tài liệu mà họ đang đọc. Việc tìm những văn bản liên quan là dựa trên sự tương đồng giữa
hai văn bản. Với loại kết quả thứ hai, hệ thống sẽ cung cấp cho người dùng những văn bản
mà qua những lần truy cập hệ thống trước đó, hệ thống ghi nhận những tài liệu mà các
người dùng trước đã đọc khi đọc tài liệu này học tài liệu khác cùng chủ đề hay có độ tương
đồng nhất định với tài liệu đó. Sơ đồ tổng quát giao dịch của hệ thống:
Query search
Phân tích phiên làm việc
1.Truy vấn theo từ khóa
2.Truy vấn theo tài liệu
liên quan (LSA + phân tích
lịch sử làm việc)
Items Databases
Hình : Mơ hình sơ đồ hệ thống gợi ý cho người dùng
Kết quả trả lại được sắp xếp theo thứ tự giảm dần của mức độ ưa thích.
2.
CÁC VẤN ĐỀ VÀ CÁC GIẢI PHÁP HIỆN TẠI
2.1 Các hệ thống gợi ý (recommender systems - RS)
2.1.1 Các khái niệm về Recommender System
Recommender Systems (RS) là một hế thống lọc thông tin đặc biệt, hệ thống cho phép
lọc thông tin dựa trên sự quan tâm của người dùng và nội dung của văn bản. Điển hình, một
hệ thống RS sẽ so sánh những thông tin người dùng với những đặc trưng liên quan. Những
đặc trưng này có thể thu thập từ nội dung thông tin (Cách tiếp cận theo nội dung: Content based approach) hoặc từ môi trường mạng xã hội của người sử dụng (Cách tiếp cận theo
hướng lọc cộng tác: Collaborative filtering approach). <Theo wikipedia>
Như vậy dựa vào khái niệm trên chúng ta có thể thấy hiện có hai kỹ thuật chính
được sử dụng để xây dựng một hệ thống RS hiện nay. Một là kỹ thuật hướng nội dung –
Content based approach, kỹ thuật này cho phép hệ thống đưa ra những gợi ý phù hợp
nhất với những tiêu chuẩn đã được xác định. Hệ thống phải nắm được tất cả những đặc
điểm chính được thể hiện trong đối tượng được quan tâm (Theo từ khoá của người dùng)
và sắp xếp chúng theo những tiêu chuẩn tương ứng.
Mặt khác , tiếp cận theo hướng lọc cộng tác – Collborative filtering CF lại làm
việc dựa trên cơ chế tìm kiếm những sự đồng nhất của một cá nhân với cộng đồng mà họ
tham gia để xác định gợi ý hơn là dựa trên việc xác thực nội dung của sự quan tâm. Tức là
CF dựa trên sự cơng tác giữa một nhóm cá thể có chung một quan điểm hay một sự lựa
chọn nào đó để đưa ra nhưng gợi ý cho người tìm kiếm.
Hình : Sơ đồ tổng quát hệ thống
Trong môt số hệ thống cũng thường áp dụng cả hai kỹ thuật này cách này gọi là hệ thống
lai (Hybrid).
Về căn bản mơ hình bài toán được xây dựng như sau:
-
Gọi C là số thành viên của hệ thống: ci là tường người dùng cụ thể.
Gọi S là toàn bộ khơng gian đối tượng có thể đưa ra và si là một đối tượng cụ thể.
Gọi u là giá trị phù hợp của đối tượng s với người dùng c.
Vậy bài toán là sự ánh xạ u: CxS R. Trong đó R chính là tập hợp các đối tượng được
đưa ra giới thiệu. Tập R sẽ được sắp xếp theo thứ tự giảm dần của u.Cơng việc chính của
giải thuật đơn giản chỉ là đi tìm giá trị hàm u=f(c, s) sao cho u (max) là giá trị được ưa thích
nhất.
-
Dễ thấy độ phức tạp của bài tốn là rất cao bởi khơng gian S là rất lớn. Ví dụ như cách
ứng dụng về gợi ý sách, số lượng sách có thể lên tới hàng triệu quyển. Hoặc hệ thống gợi ý
về CDs…Đồng thời không gian C cũng rất lớn nếu như mạng phát triển mang tính tồn cầu
như Ebay, Google, Yahoo có thể lên đến hàng tỉ thành viên.
2.1.2
Các hệ thống recommender tiêu biểu
Hệ thống bán hàng trực tuyến m a z o n e .
Hình : Giao diện tìm kiếm của Amazone.com
Đầu vào: Tên thiết bị, tên cơng ty, tên danh mục hay bất cứ từ khóa nào
Đầu ra: Gợi ý cho người dùng các sản phẩm hiện có.
Hình : Giao diện kết quả trả lại
Kết quả trả về với đúng cuốn sách cần tìm. Ngồi ra, hệ thống còn tư vấn các sản phẩm
khác tương tự
Hệ thống tìm kiếm âm nhạc trực tuyến Chacha.vn.
Hình : Giao diện kết quả tìm kiếm của Amazone.com
Recommender System của ChaCha.vn là một hệ thống tư vấn âm nhạc độc đáo với nhiều
tính năng nổi trội, là cơng cụ hỗ trợ bạn nghe nhạc một cách hữu hiệu nhất. Hệ thống
Recommender tư vấn cho người dùng những thông tin mới như:
• Nghệ sĩ liên quan : Hệ thống này sẽ cho bạn biết sự liên quan giữa các nghệ sĩ với
nhau, xét theo tiêu chí là mức độ yêu thích của người dùng đối với các nghệ sĩ đó.
• Người dùng hợp gu : Hệ thống đưa ra danh sách nhóm người dùng có cùng sở thích
âm nhạc với bạn. Đồng thời cho biết thêm mức độ hợp “gu” của bạn với một người
trong nhóm đó là thấp, trung bình, hay cao.
• Bài hát liên quan : Hệ thống sẽ đưa ra danh sách các bài hát có liên quan gần gũi đến
một bài hát cụ thể nào đó để người dùng tham khảo.
• Giới thiệu các bài hát mới : Hệ thống tư vấn cho người dùng các bài hát mới mà
theo dự đốn của hệ thống, đó là các bài hát người dùng sẽ thích nghe.
Hoạt động của hệ thống
Hệ thống tư vấn gồm 4 chức năng hoạt động như sau:
• Nghệ sĩ liên quan: Dựa trên các thông tin về nghệ sĩ (các bài hát, thể loại sáng tác hay
trình bày, mức độ quan tâm của người dùng…), hệ thống sẽ tính tốn để đo mức liên
quan giữa các nghệ sĩ, sau đó đưa ra danh sách các nghệ sĩ có độ liên quan cao nhất.
• Người dùng hợp “gu”: Dựa trên các bài hát đã nghe qua của từng người dùng cụ thể,
hệ thống tính tốn mức độ hợp “gu” (hợp sở thích) giữa những người dùng khác
nhau. Trên cơ sở đó đưa ra danh sách những người dùng có mức độ hợp “gu” cao
nhất.
• Bài hát liên quan: Dựa vào thể loại, mức độ được ưa thích của bài hát, hệ thống tính
tốn độ liên quan giữa các bài hát khác nhau. Sau đó đưa ra danh sách bài hát có độ
liên quan cao nhất đối với bài hát hiện tại.
• Giới thiệu các bài hát mới: Dựa vào tiểu sử người dùng (các bài hát đã nghe qua,
đánh giá của người dùng về các bài hát đã nghe), hệ thống sẽ tiến hành dự đốn mức
độ ưa thích của người dùng đối với các bài hát chưa nghe. Thơng qua đó, sắp xếp các
bài hát và đưa ra danh sách các bài hát có độ ưa thích cao nhất để tư vấn cho người
dùng .
Hệ thống này có ưu điểm nổi bật:
Hệ thống giúp cho người dùng có thể tìm thấy các bài hát gần gũi với bài hát mà
mình yêu thích thơng qua các bài hát liên quan.
• Hệ thống Recommender cũng là kênh kết nối bạn với những người dùng khác có
cùng sở thích âm nhạc. Bạn sẽ có nhiều cơ hội làm quen, khám phá những sở thích
mới lạ từ những người cùng “gu” âm nhạc.
• Với các mục hỗ trợ tìm kiếm hiện nay, người dùng muốn tìm một bài hát buộc phải
đưa thơng tin nào đó về bài hát cần tìm (tên bài hát, một câu hát trong bài, tên ca sĩ,
nhạc sĩ sáng tác...). Vì thế rất khó để tìm thấy một bài hát mới hoặc một bài hát hợp
sở thích của mình, hoặc bạn sẽ gặp khó khăn nếu bạn khơng có thơng tin về bài hát
đó. Với chức năng tư vấn âm nhạc, hệ thống Recommender cho phép người dùng có
thể khám phá các bài hát mới lạ, bất ngờ. Nhờ hệ thống Recommender, bạn có thể
nghe nhạc chọn lọc theo đúng sở thích mà khơng mất nhiều thời gian tìm kiếm.
Kết luận:
•
Nhìn chúng các hệ thống truyền thống đều có mặt hạn chế nhưng chúng ta biết cách kết
hợp các kỹ thuật phù hợp với từng hệ thống riêng biết. Trong nhiều hệ thống thực tế chúng
ta đã thấy được khả năng mở rồng đầy tiềm năng đặc biệt trong hệ thống tìm kiếm.
2.2 Xử lý tài liệu tiếng Việt
Tiếng nói và chữ viết là hai yếu tố cơ bản nhất của bất kỳ ngôn ngữ nào. Trong sự phát
triển của công nghệ thông tin (CNTT) ở Việt Nam, một số việc liên quan đến “tiếng Việt”
đã được làm và ít nhiều có kết quả ban đầu:
(a) Trước hết là các bộ gõ chữ Việt và thành công của việc đưa được bộ mã chữ Việt
vào
bảng mã Unicode, cũng như việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đây
cũng xin nói thêm, do chưa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhà
nước vẫn chưa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất quan
trọng của xử lý tiếng Việt). Bảo tồn chữ Nôm trên máy tính cũng là một việc đầy nỗ lực
và nhiều ý nghĩa được nhiều người theo đuổi lâu nay, cần được nhà nước tiếp tục ủng hộ
lâu dài ().
(b) Tiếp theo có thể kể đến các chương trình nhận dạng chữ Việt in (OCR: optical
character recognition), như hệ VnDOCR của Viện Công nghệ Thông tin, Viện Khoa học và
Công nghệ Việt Nam. Các chương trình nhận dạng chữ in nhằm chuyển các tài liệu in trên
giấy thành các tài liệu điện tử (dưới dạng các tệp văn bản trên máy tính).
(c) Các phần mềm hỗ trợ việc sử dụng tiếng nước ngoài, tiêu biểu là các từ điển song
ngữ
trên máy tính, thí dụ như các từ điển điện tử của Lạc Việt đã được dùng rộng rãi trên máy
tính để tra cứu từ Anh-Việt, Việt-Anh. Điều ta cần phân biệt là các từ điển điện tử này
dành cho con người sử dụng, khác với từ điển điện tử dành cho máy tính sử dụng trong
xử lý ngơn ngữ tự nhiên (sẽ được đề cập ở phần sau).
(d) Các nỗ lực trong việc làm các phần mềm dịch Anh-Việt,Việt-Anh, chẳng hạn như
các hệ dịch EVTRAN và VETRAN.
(e) Một loại việc nữa là Việt hóa các phần mềm mà gần đây tiêu biểu là kết quả Việt
hóa
Windows và Microsoft Office của Microsoft. Việc này có thể xem như việc “dịch” các
thơng báo tiếng Anh cố định trong các phần mềm thành các thông báo tiếng Việt.
2.2.1
Các nghiên cứu về cấu của các nhà nghiên cứu Việt Nam.
Các quan điểm trong nghiên cứu về ngữ pháp tiếng Việt, chúng ta có thể thấy rằng
chưa có một định nghĩa chuẩn thống nhất về cách gọi của từ loại cũng như cấu trúc các ngữ
của tiếng Việt. Trong đồ án này, người viết luận văn sẽ chủtrương bám sát theo quan điểm
được nhiều tác giảđã thống nhất, quan điểm này được đánh giá là khá phù hợp với ngữ
pháp tiếng Việt hiện tại. Đồng thời, trong quá trình xây dựng đồ án, tác giả cũng tiến hành
so sánh và bổ sung thêm những phần lý thuyết thuộc hai quan điểm của Nguyễn Tài Cẩn và
Diệp Quan Ban.
Nguyễn Tài Cẩn (1975) [14] cho rằng cụm danh từ (danh ngữ) gồm có ba phần : phần
đầu, phần trung tâm và phần cuối như sơ đồ sau :
Hình : Sơ đồ cấu trúc từ của Nguyễn Tài Cẩn
Trong thực tế danh ngữ cịn có thể xuất hiện cả dưới dạng những dạng chỉ có hai phần:
phần đầu+phần trung tâm, phần trung tâm+phần sau hoặc phần đầu + phần sau.
Phần trung tâm của danh ngữ không phải chỉ có một từ trung tâm mà bao gồm cả
bộphận trung tâm ghép gồm hai trung tâm T1 và T2, với hai vị trí T1, T2 bộ phận trung tâm
có thể xuất hiện dưới 3 biến dạng :
a o Có đầy đủ : T1T2, ví dụ : con chim ( này)
b o Dạng thiếu T1 : -T2, ví dụ : - chim (này)
c o Dạng thiếu T2: T1-, ví dụ : con – ( này)
-Phần đầu của danh ngữ có tất cả 3 loại thành tố phụ (3 loại định tố) :
a
b
c
o Định tố “cái”, ví dụ : cái cậu học sinh ấy
o Định tố chỉ số lượng, ví dụ : mấy cái cậu học sinh ấy
o Định tố chỉ ý nghĩa tồn bộ, ví dụ : tất cảmấy cái cậu học sinh ấy
-Phần cuối của danh ngữ, có thể có 2 loại định tố có tổ chức hồn tồn khác nhau:
a o Loại định tố chỉ gồm một từ, ví dụ : một quyển sách quý
b o Loại định tố do một mệnh đềđảm nhiệm, ví dụ : cuốn sách tơi vừa mua hơm qua
Trong tiếng Việt có theer dùng những từ loại sau đây để làm định tố cuối :
1 + Danh từ, ví dụ : vườn cau
2 + Tính từ, ví dụ : ghế dài, một cái ghể rất tốt
3 + Động từ, ví dụ : bàn học
4 + Từ chỉ trỏ, ví dụ : sáng nay, người ấy
5 + Từ chỉ vị trí, ví dụ : nhà trong, cổng trước
6 + Từ chỉ con số : giường một, ngày 27
Hồ Lê (1992) [20] cho rằng vị trí của số lượng từ, đại từ chỉ định và sự kiện từ xoay
xung quanh danh từ theo mơ hình sau :
Trong đó:
D1: gồm những danh từ như : con, cái, …; ơng, bà…; loại, thứ, hạng, …; phía, bên,
nơi, chốn, buổi, hôm, ngày, giờ, khi, lúc….
D2: gồm những danh từ cịn lại.
Ví dụ: - Con mèo đen lớn rồi
1 - Cơ y tá
2 - Phía ngồi sân
Nguyễn Kim Thản (1997) [20] cho rằng việc nghiên cứu cụm danh từ chính là việc
nghiên cứu từ tổ danh từ, loại từ chiếm ưu thế tuyệt đối trong nhóm danh từ. Danh từcó thể
ghép với danh từ, thời vị từ, số từ, động từ, tính từ, đại từvà một số từ phụ khác như : khi,
lúc, hồi, dạo, thưở, khoảng, độ, bữa, buổi, đằng, phía, phương, nơi, bên, ngả, lối, hạng, cái,
loại, cỡ, khổ, bậc, ngạnh…..
-Từ tố danh từ + danh từ (N) :
a o Từ tố N1 N2, ví dụ : cân gạo, bó rau, hịm sách, chùm cau, tóc mây, tiền nghìn,
sơng Hồng, huyện Gia Lộc, nước Lào…
b o Từ tố N1 z N2, ví dụ : quê của mẹ, nhà bằng gạch, kế hoạch vềkinh tế, sách cho
thiếu nhi, nhãn ở Hưng yên…
c oTừ tố N1 (z) N2, ví dụ : quê mẹ, nhà gạch, kế hoạch kinh tế sách thiếu nhi, nhãn
Hưng yên…. ( z : là giới từ).
-Từ tố danh từ + thời vị từ (E):
a oTừ tổ N E, ví dụ : Ngồi nhà ngồi có cái giường mình nằm
b oTừ tổ N (z) E, ví dụ: ý định ( của) trên như thế nào ?
-Từ tố danh từ + số từ ( F): từ chỉ số lượng bao giờ cũng đặt trước danh từ (FN), ví dụ :
hai cái bàn. Từ chỉ thứ tự bao giờ cũng đặt sau danh từ ( NF), ví dụ : bàn số hai,
quyển thứ năm...
a o Từ tố danh từ + động từ, ví dụ : cá sống, nước sơi, gió lùa, kế hoạch làm việc….
b oTừ tố danh từ + tính từ, ví dụ: quả táo vàng, cái áo trắng…
c oTừ tố danh từ + đại từ chỉđịnh, ví dụ: con mèo ấy, cái xe này, …
Diệp Quang Ban (1999) [1] đưa ra cấu tạo chung của cụm danh từ có ba phần: phần
trung tâm, phần phụ trước, phần phụ sau. Phần trung tâm thường là một danh từ hoặc một
ngữ danh từ. Trong phần phụ trước người ta đã xác định được ba vị trí khác nhau sắp xếp
theo một trật tự nhất định. Ở phần phụ sau thường nhận được hai vị trí có trật tựổn định.
Phần phụ trước cụm danh từ chuyên dùng chỉ mặt số lượng của sự vật nêu ở trung tâm,
phần phụ sau chủ yếu dùng chỉ mặt chất lượng của sự vật nêu ở trung tâm.
Phần phụ trước
-3
-2
-1
Phần phụ trung tâm
0
Phần phụ sau
1
2
mèo
0
đen
1
Ví dụ:
tất cả
-3
•
•
•
những con
-2
-1
ấy
2
Vị trí 0 là vị trí của danh từ chính
Vị trí -1 là vị trí của từ chỉ xuất cái
Vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai,…; vài, ba, dăm, dăm ba...; mỗi,
từng, mọi…; những, các, một…; mấy
• Vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ : hết thảy, tất cả, cả…
• Vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác nhau
như : danh từ, động từ, tính từ, số từ, đại từ và thời vị từ.
•
Ví dụ:
phịng tạp chí, phịng đọc, phịng hẹp, phịng chúng tơi….
•
2.2.2
Vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia…
Tóm tắt đặc trưng của cấu trúc ngữ pháp tiếng Việt, Anh
Các đặc điểm trong câu của tiếng Việt:
Câu được cấu tạo đa thành phần, có câu đơn, câu ghép, câu tối giản.
Các câu được phân tách bằng các dấu chấm câu.
Câu hồn chỉnh có hoặc khơng sử dụng các trạng từ, từ cảm thán (các stopword, sẽ
được loại bỏ khi phân tách để lọc thơng tin)
Câu được hình thành từ các từ, hoặc các câu đơn.
Mỗi câu mang một ý nghĩa thơng tin hồn chỉnh.
Như đã trình bày ở trên, ngày nay, các tài liệu viết tiếng Việt đang chuyển sang khai
thác trên font chữ chung, tuân theo chuẩn unicode. Điều này có lợi rất nhiều cho việc đọc
chính xác các tài liệu tiếng việt của các chương trình đọc.
Với các tài liệu tiếng Anh, các từ được phân cách nhau bởi dấu cách. Việc xử lý phân
tách từ từ các văn bản tiếng Anh tương đối dễ dàng.
Trong tiếng Việt không thể phân tách được thành những từ riêng bởi dấu cách. Vì từ có
thể gồm một, hai hoặc nhiều hơn số lượng âm tiết (số lượng từ ghép). Vì thế, việc tách từ
để chính xác đòi hỏi giải thuật tách từ tốt.
2.3 Xử lý tài liệu theo ngữ nghĩa
2.3.1 Đặt vấn đề
Trong xử lý ngôn ngữ tự nhiên, bài toán gán nhãn ngữ nghĩa hay còn gọi là “khử sự nhập
nhằng ngữ nghĩa của từ” là bài tốn khó khăn nhất và cũng là bài toán trọng tâm mà đến
nay trên thế giới vẫn chưa giải quyết ổn thỏa. Hiện nay, có rất nhiều mơ hình với nhiều
hướng tiếp cận khác nhau, chủ yếu là:
1. Dựa trên trí tuệ nhân tạo (AI-based):
Đây là cách tiếp cận sớm nhất (1960) với những lý thuyết rất hay về mạng ngữ
nghĩa, khung ngữ nghĩa và các ý niệm nguyên thủy và các quan hện như ISA,PART-OF…Tuy nhiên, do hầu hêt các tri thức về ngữ nghĩa trong cách tiếp cận
này đều được xây dựng bằng tay, vì vậy các mơ hình đều dừng lại ở mức độ biểu
diễn trên một vài câu. Vấn đề khó khăn của cách tiếp cận này là thiếu tri thức.
2. Dựa trên Cơ sở tri thức (Knowledge-Based):
Vào đầu thập niên 80, người ta đã chuyển sang hướng khai thác tri thức tự động
từ các từ điển điện tử (MRD: Machine – Readable Dictionaries) như các từ điển
đồng nghĩa… để có thể phần nào khắc phục hạn chế của hướng tiếp cận dựa trên trí
tuệ nhân tạo (thiếu tri thức). Kết quả của hướng tiếp cận này là sự ra đợi của mạng
WordNet – Một cơ sở tri thức khổng lồ về ngữ nghĩa theo hướng liệt kê nét nghĩa.
Tuy nhiên, các cơ sở tri thức nói trên cũng chỉ là những nguồn thông tin để hệ thống
chọn nghĩa tham khảo, cịn chọn thơng tin nào trong số những thơng tin có liên quan
đó thì ta phải tự xác định trong từng trường hợp cụ thể.
3. Dựa trên ngữ liệu (Corpus – Based)
Hướng tiếp cận này sẽ rút ra các quy luật xử lý ngữ nghĩa (bằng thống kê, bằng
máy học,…) từ những kho dữ liệu lớn đã có sẵn và áp dụng các luật này cho trường
hợp mới. Thực ra, cách tiếp cận này đã được nêu ra rất sớm (1940), nhưng do nguồn
dữ liệu hạn chế, thiết bị xử lý chưa hiện đại nên không có điều kiện phát triển. Mãi
tới thập niên 1990, khi mà cơng nghệ phát triển mạnh, đã có thể vượt qua được khó
khăn của mình, cách tiếp cận này được hồi sinh và phát triển mạnh tới ngày nay.
Hiện nay, cách tiếp cận dựa trên ngữ liệu kết hợp với tri thức có sẵn là hướng tiếp
cận đang được nhiều nhà ngơn ngữ học – máy tính quan tâm.
2.3.2
Phân tích ngữ nghĩa tiềm ẩn (LSA)
Cũng liên quan tới mảng ngữ nghĩa của từ, trong đồ án tốt nghiệp này, chúng tơi khai
thác chiều khác của phân tích về mặt ngữ nghĩa. Ngồi việc tương đồng từ khóa về mặt
hình thức (về bản mặt từ), chúng tơi cịn đề cập tới tương đồng về nội dung của tài liệu.
Có nhiều phương pháp khác nhau để đánh giá sự tương đồng về nội dung như phương
pháp Định chỉ số ngữ nghĩa tiềm ẩn (LSI – Latent Semantic Index), phương pháp Phân tích
ngữ nghĩa tiềm ẩn (LSA – Latent Sematic Analys).
Chỉ mục ngữ nghĩa tiềm ẩn (LSI) thêm một bước quan trọng cho việc xử lý chỉ mục tài
liệu.Thêm vào việc ghi những từ khóa mà một tài liệu chứa. Phương pháp này khảo sát toàn
bộ tập dữ liệu, để thấy những tài liệu khác chứa một số từ tương được với các từ đó. LSI
được phát triển đầu tiên ở Bellcore trong cuối những năm 80. LSI xem các tài liệu có nhiều
từ thơng dụng là có nghĩa, và xem những tài liệu ít từ thơng dụng là ít có nghĩa. Mặc dù
thuật giải LSI khơng hiểu tí gì về nghĩa của các từ, nó nhận ra các khn mẫu.
Khi bạn tìm kiếm một CSDL chỉ mục LSI, cơng cụ tìm kiếm này xem xét những giá trị
tương tự mà nó tính toán cho mỗi từ của nội dung, và trả về các tài liệu mà nó nghĩ là thích
hợp nhất với câu truy vấn. Bởi vì hai tài liệu có thể rất gần nghĩa với nhau thậm chí nếu
chúng khơng cùng chung một từ khóa đặc biệt, LSI khơng u cầu một sự phân tích lấy
tương xứng để trả về các kết quả hữu dụng. Ở những vị trí mà một tìm kiếm theo từ khóa
đơn giản sẽ khơng thực hiện được nếu khơng có phân tích lấy tương xứng, thì LSI sẽ
thường trả về những tài liệu liên quan mà khơng chứa tất cả những từ khóa đó.
Phương pháp đề cập nữa là phân tích ngữ nghĩa tiềm ẩn (LSA), là phần kia của đồ án.
Xin vui lịng xem đồ án của Mr Cường sẽ có trình bầy chi tiết về phương pháp LSA, và áp
dụng của nó trong việc phân tích nội dung của tài liệu.
2.3.3
Nhận xét, kết luận
Phân tích ngữ nghĩa là một khâu rất quan trọng trong hệ thống gợi ý. Bước tách từ
vựng đã tách tài liệu thành các từ khóa và nó đặc trưng cho tài liệu đó. Hệ thống sẽ tìm
kiếm trong kết quả trả về cho người dùng lần đầu tiên bằng việc so khớp các từ khóa được
nhập với các từ khóa trong phần từ khóa của các tài liệu. Khâu xử lý về nội dung sẽ xác
định các tài liệu nào giống tài liệu nào. Giống ở đây chỉ mức độ tương đồng về mặt nội
dung giữa các tài liệu đem gợi ý. Có thể hai tài liệu khơng có bộ từ khóa giống nhau,
nhưng nó có thể sẽ giống về nội dung.
2.4 Thu thập thông tin người dùng
Ưu điểm của các hệ thống tự học
2.4.1
Hệ thống tự học là hệ thống dựa vào thông tin của người dùng mà người dùng cung cấp
những lần giao dịch với hệ thống để phát hiện ra những sở thích lĩnh vực người dùng quan
tâm để cải thiện kết quả trả về cho người dùng cho sát với những yêu cầu thực tế. Hệ thống
là một phần nhỏ của hệ chuyên gia-là hệ mà khai thác tri thức trong những lần “giao tiếp”
với người dùng bằng các tập luật đã được định nghĩa sẵn.
Những ưu điểm của hệ thống tự học chúng tôi tổng kết được.
Tri thức của hệ thống là tri thức mở. Các giao tiếp với người dùng có thể thay đổi
2.4.2
sau những lần giao dịch để thích hợp với sở thích của người dùng hơn.
Cho phép người dùng lựa chọn bước tiếp theo của hệ thống.
Kết quả tìm kiếm đối với một hệ thống search engine ngày càng sát hơn với nhu cầu
của người tìm kiếm.
Càng thơng minh hơn sau nhiều lần giao dịch với người dùng.
Hệ thu nhận và tạo một profile cho người dùng (nếu họ đăng ký thông tin với hệ
thống). Và sau những lần giao dịch với hệ, hệ sẽ học được và loại bỏ những thông
tin không cần thiết, tăng bộ lọc cho kết quả trả về.
Phân tích logfile
Logfile là file ghi nhận thông tin về lịch sử làm việc của người dùng với một hệ nào đó.
Việc phân tích logfile sẽ góp phần quan trọng để xác định những sở thích của người dùng
để thu hẹp phạm vi các kết quả trả về, đồng thời cũng thu thập để chính xác hơn những dữ
liệu mà hệ thống có với những hệ gợi ý.
Có rất nhiều các kỹ thuật phân tích logfile, trong phạm vi đồ án này, tôi chỉ giới thiệu mà
không đi sâu vào phương pháp nào, để giới thiệu một ứng dụng nhỏ trong hệ thống về việc
phân tích các thơng tin trong các lần giao dịch với hệ thống.
2.4.3
Phân tích dựa thơng tin người dùng
Việc ghi nhận các thông tin của người dùng như địa điểm, độ tuổi, giới tính, hay một số
các thơng tin về sở thích sẽ giúp hệ thống lọc chính xác hơn các kết quả đưa lại cho người
dùng. Thí dụ, một trang nhạc có thể đưa mặc định trong playlist của một người dùng có
tuổi 13 những bài hát thiếu nhi.
Những hệ thống đa người sử dụng, phân tích dựa trên thống tin người dùng thể hiện ở
các nhóm quản trị hệ thống, nhóm các người dùng thơng thường hay những khác vãng lai.
Với những hệ thống đó, những thông tin về người dùng sẽ quyết định giao diện của hệ
thống đối với người dùng đó.
Kết luận
Một hệ thống recommender system cần phải kết hợp tối đa các phân tích để trả lại kết
quả chính xác và phù hợp nhất cho yêu cầu của người dùng. Những thông tin do người
dùng cung cấp sẽ là những bộ lọc cho kết quả, những nguồn thông tin đầu vào cho những
gợi ý nâng cao. Hệ thống khai thác tri thức dựa trên thông tin được cung cấp bởi người
được áp dụng rất nhiều ngay từ những năm 60 được thể hiện ở những hệ chuyên gia, hệ tư
vấn.
2.5 Vấn đề lưu trữ dữ liệu
Vấn đề lưu trữ dữ liệu cũng là bài tốn khơng nhỏ với những bộ máy tìm kiếm. Ở phần
dưới, tơi sẽ giới thiệu những cơng cụ tìm kiếm nổi tiếng trên internet hiện nay. Mỗi hệ
thống đều có những giải pháp lưu trữ dữ liệu riêng phụ thuộc vào giải thuật tìm kiếm của
mình. Với những search engine, phải có kế hoạch cập nhật thơng tin định kỳ nhất định để
cập nhật sự thay đổi (những hệ thống tìm kiếm online) hay khi cập nhật tài liệu mới (những
hệ thống trên CSDL có sẵn). Trong đồ án này, chúng tôi cũng lựa chọn một phương thức
lưu trữ dữ liệu sẽ được trình bày chi tiết trong phần sau.
2.4.4
PHẦN II: CƠ SỞ LÝ THUYẾT
1.
CÁC BỘ MÁY TÌM KIẾM <SEARCH ENGINE>
1.1
Một số engine thông dụng
Sau đây là danh sách một số search engine. Tại sao chúng được gọi là các search
engine “lớn”? Đó là vì chúng được biết đến nhiều và sử dụng tốt. Với các chuyên gia web,
các cơng cụ tìm kiếm lớn là danh sách những nơi quan trọng nhất bởi chúng phát sinh ra
một lượng lớn các trang web tiềm tàng. Đối với những người tìm kiếm, các cơng cụ tìm
kiếm phổ biến thường trả lại kết quả đáng tin cậỵ
Dưới đây là danh sách các search engine.
1.
Hình : Giao diện tìm kiếm của Google
Nguyên thủy, Google là một đề án của trường Đại học Stanford được thực hiện bởi hai
sinh viên Larry Page và Sergey Brin gọi là BackRub. Đến năm 1998 thì đổi thành Google,
và đồ án đó đã trở thành cơng ty riêng Google đặt tại khuôn viên trường đại học.
Google
là công cụ tìm kiếm nổi tiếng, tốt nhất hiện tại cho tìm kiếm thơng tin trên web. Dịch vụ
dựa vào crawler, spider cung cấp trang web với thông tin đưa ra toàn diện cùng mức độ liên
quan tốt.
2.
Hình : Giao diện tìm kiếm Yahoo
Đưa ra năm 1994, yahoo là “thư mục” cũ nhất của web, một nơi các nhà tổ chức trang
web thành các thư mục. Tuy nhiên, vào tháng 10 năm 2002, yahoo chuyển sang lập danh
sách dựa vào crawler cho những kết quả chính của nó. Cơng cụ này sử dụng cơng nghệ từ
Google cho tới 2/2004. Hiện nay, Yahoo sử dụng công cụ tìm kiếm riêng của mình.
Yahoo Directory vẫn tồn tai. Bạn sẽ chỉ ra các liên kết “danh mục” phía dưới một số
các trang web liệt kê trong kết quả trả về của một tìm kiếm từ khóa. Khi được đề xuất,
những trang web này dẫn bạn đến một danh sách các trang web đã được xem xét và phê
chuẩn bởi một nhà biên tập.
Công nghệ Alta Vista và AllTheWeb được phối hợp với kỹ thuật Inktomi, một cơng cụ
tìm kiếm dựa trên crawler, để tạo nên một Yahoo crawler hiện nay.
Vừa qua, thương vụ mua bán Yahoo với Microsoft không thành, khiến nhiều chuyên
gia đánh giá, trong thời gian tới, cả 2 hãng này sẽ có bước đột phá trong cơng nghệ tìm
kiếm và đánh giá các site.
3. Ask Jeeves
Ask Jeeves bắt đầu nổi tiếng từ năm 1998 và 1999, được biết như một cơng cụ tìm
kiếm “ngơn ngữ tự nhiên” cho phép ta tìm kiếm bằng cách đặt câu hỏi và trả về kết quả với
những gì có vẻ là trả lời đúng.