Tải bản đầy đủ (.pdf) (11 trang)

Nghiên cứu phương pháp xếp hạng kết quả tìm kiếm trên cơ sở dữ liệu bệnh viện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (405.12 KB, 11 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN VĂN HIỆP

NGHIÊN CỨU PHƯƠNG PHÁP XẾP HẠNG KẾT QUẢ TÌM
KIẾM TRÊN CƠ SỞ DỮ LIỆU BỆNH VIỆN

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Trí Thành

Hà Nội - 2015


1

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Nghiên cứu phương pháp xếp hạng kết quả tìm
kiếm trên cơ sở dữ liệu bệnh viện” là công trình nghiên cứu của tôi. Những kiến thức
trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình bày lại theo cách hiểu.
Trong quá trình làm luận văn, tôi có tham khảo các tài liệu có liên quan và đã ghi rõ
nguồn tài liệu tham khảo.
Hà Nội, ngày tháng năm 2015
Học viên

Trần Văn Hiệp




2

LỜI CẢM ƠN
Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS.
Nguyễn Trí Thành - Trƣờng Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội đã trực
tiếp hƣớng dẫn và tận tình giúp đỡ em trong suốt thời gian thực hiện luận văn.
Em xin gửi lời cảm ơn chân thành tới toàn thể các thầy cô giáo trong Trƣờng
Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội đã dạy dỗ, giúp đỡ và chỉ bảo cho em
trong suốt quá trình học tập.
Cuối cùng, em xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè, đồng nghiệp,
những ngƣời đã luôn bên cạnh em để động viên, giúp đỡ và tạo điều kiện tốt nhất để
em có thể hoàn thành luận văn.
Hà Nội, ngày tháng năm 2015
Học viên

Trần Văn Hiệp


3

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................ 1
LỜI CẢM ƠN .................................................................................................................. 2
MỤC LỤC ....................................................................................................................... 3
DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Error! Bookmark not defined.
DANH MỤC CÁC HÌNH VẼ ....................................... Error! Bookmark not defined.
DANH MỤC CÁC BẢNG BIẾU.................................. Error! Bookmark not defined.
MỞ ĐẦU ......................................................................................................................... 5

CHƢƠNG 1:TỔNG QUAN VỀ BÀI TOÁN TÌM KIẾM TRÊN CƠ SỞ DỮ LIỆU
BỆNH VIỆN .................................................................................................................... 6
1.1

Tổng quan ..........................................................................................................6

1.1.1

Giới thiệu.....................................................................................................6

1.1.2

Ý nghĩa khoa học và thực tiễn .....................................................................7

1.1.3

Tầm quan trọng ...........................................................................................7

1.1.4

Mục đích ......................................................................................................7

1.2

Truy tìm thông tin ..............................................................................................8

1.2.1

Hệ thống tìm kiếm thông tin ........................................................................8


1.2.2

Các hệ thống thông tin khác........................................................................9

1.2.3

Các mô hình tìm kiếm thông tin ................ Error! Bookmark not defined.

1.2.4

Xếp hạng tài liệu ....................................... Error! Bookmark not defined.

1.3

Kết luận ............................................................ Error! Bookmark not defined.

CHƢƠNG 2: MỘT SỐ PHƢƠNG PHÁP XẾP HẠNG Error! Bookmark not defined.
2.1

Một số phƣơng pháp tìm kiếm ......................... Error! Bookmark not defined.

2.1.1

Mô hình tìm kiếm Boolean ........................ Error! Bookmark not defined.

2.1.2

Tìm kiếm tương tự ..................................... Error! Bookmark not defined.

2.1.3


Độ đo tương tự Cosine .............................. Error! Bookmark not defined.

2.2

Một số phƣơng pháp xếp hạng ......................... Error! Bookmark not defined.

2.2.1

Phương pháp xếp hạng dựa trên cấu trúc. Error! Bookmark not defined.

2.2.2

Phương pháp dựa trên nội dung ............... Error! Bookmark not defined.

2.2.2.1 Phƣơng pháp xếp hạng Cosine ................ Error! Bookmark not defined.


4
2.2.2.2 Phƣơng pháp xếp hạng Cosine Short SegmentsError! Bookmark not
defined.
2.2.2.3 Phƣơng pháp xếp hạng Dice ................... Error! Bookmark not defined.
2.2.2.4 Phƣơng pháp xếp hạng Jaccard ............... Error! Bookmark not defined.
2.2.2.5 Phƣơng pháp xếp hạng Matching ........... Error! Bookmark not defined.
2.2.2.6 Phƣơng pháp Overlap ............................. Error! Bookmark not defined.
2.3

Kết luận ............................................................ Error! Bookmark not defined.

CHƢƠNG 3: ĐỀ XUẤT CẢI TIẾN PHƢƠNG PHÁP XẾP HẠNGError! Bookmark not defined.

3.1

Bài toán ứng dụng ............................................ Error! Bookmark not defined.

3.1.1

Giới thiệu bài toán .................................... Error! Bookmark not defined.

3.1.2

Mô tả chi tiết ............................................. Error! Bookmark not defined.

3.1.3

Chức năng tìm kiếm chẩn đoán ................. Error! Bookmark not defined.

3.1.4

Mô hình hệ thống tìm kiếm ........................ Error! Bookmark not defined.

3.2

Phƣơng pháp đề xuất ........................................ Error! Bookmark not defined.

3.3

N-gram và áp dụng........................................... Error! Bookmark not defined.

3.4


Kết luận ............................................................ Error! Bookmark not defined.

CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ......... Error! Bookmark not defined.
4.1

Dữ liệu thực nghiệm và phƣơng pháp đánh giáError!

Bookmark

not

defined.
4.1.1

Chuẩn bị dữ liệu thực nghiệm ................... Error! Bookmark not defined.

4.1.2

Phương pháp đánh giá kết quả tìm kiếm .. Error! Bookmark not defined.

4.2

Một số kết quả khi chạy chƣơng trình ............. Error! Bookmark not defined.

4.2.1 Kết quả khi chạy các phương pháp xếp hạng khác nhau cho cùng một truy
vấn trên tập dữ liệu các loại bệnh ......................... Error! Bookmark not defined.
4.2.1.1 Kết quả tìm kiếm ..................................... Error! Bookmark not defined.
4.2.1.2 Kết quả các phƣơng pháp xếp hạng ........ Error! Bookmark not defined.
4.2.2


Kết quả khi đánh giá các phương pháp với các truy vấn khác nhau Error!

Bookmark not defined.
4.3

Kết luận ............................................................ Error! Bookmark not defined.

KẾT LUẬN ................................................................... Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ............................................................................................. 10


5
MỞ ĐẦU
Tin học ngày càng phát triển, thay vì việc hàng ngày phải viết thông tin hồ sơ
lên giấy, thông tin đó dần dần đƣợc số hóa và lƣu trữ trên máy tính dƣới dạng cơ sở dữ
liệu thông qua ứng dụng tin học. Lợi ích của việc số hóa là dữ liệu đƣợc lƣu trữ và
quản lý tốt hơn, tra cứu, trích xuất thông tin dễ dàng hơn. Thông tin hồ sơ đƣợc số hóa
ngày càng nhiều vấn đề đặt ra để tìm kiếm thông tin trong tập hồ sơ hàng nghìn thậm
trí đến hàng triệu triệu một cách nhanh nhất, hiệu quả nhất đòi hỏi ứng dụng tin học
cần phải xây dựng các giải thuật tìm kiếm tối ƣu nhất đảm bảo tốc độ tìm kiếm và giá
trị ngƣời dùng cần.
Đối với lĩnh vực tìm kiếm thông tin, mỗi khi ngƣời dùng tìm kiếm sẽ thu đƣợc
kết quả phù hợp hoặc không có kết quả, nếu kết quả trả về là một lƣợng lớn giá trị phù
hợp, ngƣời dùng khó có thể dò tìm từng kết quả để tìm ra nhanh nhất kết quả mình
muốn tìm. Theo tâm lý thông thƣờng ngƣời dùng chỉ xem qua vài chục bản ghi đầu
tiên và không đủ thời gian để xem tất cả các kết quả trả về. Do đó xếp hạng là kỹ thuật
đánh giá giá trị từng kết quả trong tập dữ liệu trả về, xếp hạng độ quan trọng để ngƣời
dùng dễ dàng nhìn thấy giá trị phù hợp mong muốn.
Có rất nhiều hệ thống tìm kiếm cần đến kỹ thuật xếp hạng để cung cấp cho ngƣời
dùng có thể tìm thấy các tài liệu của mình nhanh nhất và xếp nó ở ngay đầu tiên và nhu

cầu hệ thống tìm kiếm trên cơ sở dữ liệu bệnh viện cũng cần tới nó. Đề tài nghiên cứu
hƣớng tới các phƣơng pháp xếp hạng. Trên cơ sở tìm hiểu nắm vững các phƣơng pháp
xếp hạng và vận dụng vào việc tìm kiếm xếp hạng trên cơ sở dữ liệu bệnh viện.
Bố cục của luận văn gồm 4 chƣơng:
Chương 1. Tổng quan về bài toán tìm kiếm trên cơ sở dữ liệu bệnh viện trình
bày tổng quan về bài toán tìm kiếm trên cơ sở dữ liệu bệnh viện.
Chương 2. Một số phương pháp xếp hạng trình bày về các phƣơng pháp xếp hạng,
áp dụng công thức cũng nhƣ ví dụ minh họa thực nghiệm cho các phƣơng pháp đó.
Chương 3. Đề xuất cải tiến phương pháp xếp hạng trình bày về bài toán ứng
dụng áp dụng phƣơng pháp xếp hạng, cách thức cải tiến phƣơng pháp xếp hạng để đạt
đƣợc kết quả xếp hạng tốt hơn.
Chương 4. Thực nghiệm và đánh giá thực thi chƣơng trình tìm kiếm áp
dụng các phƣơng pháp xếp hạng với số liệu thu thập đƣợc, so sánh kết quả từng
phƣơng pháp. Đánh giá kết quả các phƣơng pháp để chọn ra đƣợc phƣơng pháp xếp
hạng tốt nhất.


6

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN TÌM KIẾM TRÊN CƠ SỞ DỮ
LIỆU BỆNH VIỆN
1.1 Tổng quan
1.1.1 Giới thiệu
Hiện nay, việc tạo ra những sản phẩm Tin Học mang tính đặc thù của Việt Nam là
một điều cần phải đƣợc quan tâm, đặc biệt là các phần mềm mang lại hiệu quả làm
việc trong các hoạt động mang tính hành chính. Việc quản lý số lƣợng lớn bệnh nhân
thông qua hồ sơ bệnh án, theo dõi tiến trình luân chuyển hồ sơ, cũng nhƣ việc thống kê
y tế là một trong những công việc hành chính sự vụ đó. Một số bệnh viện có khối
lƣợng bệnh nhân lớn là những nơi đang rất cần những công cụ hỗ trợ của Tin học một
phần trong những công cụ đó là ứng dụng tìm kiếm dữ liệu.

Mỗi khi ngƣời dùng tìm kiếm sẽ thu đƣợc kết quả phù hợp hoặc không có kết quả,
nếu kết quả trả về là một lƣợng lớn giá trị phù hợp, ngƣời dùng khó có thể dò tìm từng
kết quả để tìm ra nhanh nhất kết quả mình muốn tìm. Theo tâm lý thông thƣờng ngƣời
dùng chỉ xem qua vài chục bản ghi đầu tiên và không đủ thời gian để xem tất cả các
kết quả trả về. Do đó xếp hạng là kỹ thuật đánh giá giá trị từng kết quả trong tập dữ
liệu trả về, xếp hạng độ quan trọng để ngƣời dùng dễ dàng nhìn thấy giá trị phù hợp
mong muốn. Vì vậy đề tài nghiên cứu hƣớng tới các phƣơng pháp xếp hạng, đánh giá
chọn ra phƣơng pháp nào thực sự tốt nhất. Trên cơ sở tìm hiểu nắm vững các phƣơng
pháp xếp hạng và vận dụng vào việc tìm kiếm trên cơ sở dữ liệu bệnh viện, điển hình
là bài toán xếp hạng chẩn đoán theo danh mục bệnh tật quốc tế.
Thông thƣờng việc ghi chẩn đoán đúng có tầm quan trọng nhƣ sau:
 Quan trọng cho chính thầy thuốc. Giúp thầy thuốc phát triển tƣ duy, tích
cực suy nghĩ lựa chọn chẩn đoán theo logic (Ví dụ: chẩn đoán tử vong một
cách lƣời biếng “Sốc không hồi phục”. Phải suy nghĩ tìm nguyên nhân).
Tăng trình độ biện luận lâm sàng và trình độ chuyên môn.
 Trong tương quan giữa thầy thuốc và người bệnh. Giúp thầy thuốc lƣu tâm
tìm hiểu ngƣời bệnh nhiều hơn và có thêm cơ hội suy nghĩ đến ngƣời bệnh,
nhất là ngƣời bệnh tử vong trong tay mình. Thể hiện y đức vì ngƣời bệnh
hơn là vì bệnh.
 Trong tương quan giữa thầy thuốc và khoa học. Thầy thuốc ghi chẩn đoán
đúng - thống nhất theo danh mục và mã số bệnh tật quốc tế sẽ là đóng góp
lớn cho khoa học, vì: ghi chẩn đoán đúng sẽ là những dữ liệu có giá trị trong
nghiên cứu khoa học. Rất quan trọng trong thời đại Công Nghệ Thông Tin.


7
 Trong tương quan giữa thầy thuốc và ngành y tế. Đóng góp lớn cho công
tác lƣu trữ, báo cáo, thống kê một cách chính xác giúp ngành y tế: Nắm
đúng mô hình bệnh tật và tử vong của địa phƣơng. Nắm đúng và kịp thời
những vấn đề liên quan đến sức khỏe mà xã hội đang quan tâm. Từ đó xây

dựng đƣợc tốt hơn những chƣơng trình, dự án phòng bệnh, chống bệnh và
chăm sóc sức khỏe.
Nhận thấy vấn đề chẩn đoán đúng bệnh và tầm quan trọng trong việc ghi chẩn
đoán đúng là rất quan trọng. Đề tài nghiên cứu, cài đặt, đánh giá các phƣơng pháp xếp
hạng dựa trên dữ liệu chẩn đoán theo danh mục bệnh tật quốc tế lựa chọn phƣơng pháp
xếp hạng tốt nhất vận dụng cho việc tìm kiếm chẩn đoán đúng bệnh.
Xét trên dữ liệu chẩn đoán với dữ liệu là các bản ghi danh mục bệnh tật quốc tế
là những câu hay đoạn (ngắn), đề tài lựa chọn phƣơng pháp xếp hạng để xác định
độ tƣơng đồng giữa các câu hay đoạn, sau đó chọn ra câu hay đoạn có độ liên quan
lớn nhất.
1.1.2 Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học:
Đề tài nghiên cứu các phƣơng pháp xếp hạng, đánh giá kết quả tìm kiếm trên cơ sở
dữ liệu bệnh viện.
Ý nghĩa thực tiễn:
Ứng dụng nhằm trợ giúp đáp ứng đƣợc nhu cầu tìm kiếm cho ngƣời sử dụng tìm
kiếm thông tin dễ dàng nhìn thấy giá trị phù hợp mong muốn.
1.1.3 Tầm quan trọng
Kết quả xếp hạng giảm dần thứ tự độ quan trọng của chẩn đoán để ngƣời dùng dễ
dàng nhìn thấy chẩn đoán phù hợp, nâng cao chất lƣợng khám chữa bệnh, có thể kết
luận đƣợc ngay từ thời kì đầu của quá trình bệnh rất có lợi cho điều trị và phòng bệnh.
Đƣa ra những hƣớng điều trị, đặt ra những giai đoạn điều trị và có thể đƣa ra thêm
những thông tin về bệnh.
1.1.4 Mục đích
Mục đích của đề tài là tìm hiểu các phƣơng pháp xếp hạng, cài đặt, đánh giá, thực
nghiệm các phƣơng pháp xếp hạng lựa chọn phƣơng pháp xếp hạng phù hợp vận dụng
tốt nhất trong bài toán tìm kiếm trên cơ sở dữ liệu bệnh viện. Để đạt đƣợc mục đích đề
ra đề tài cần nghiên cứu:



8

Về mặt lý thuyết: Tìm hiểu kiến thức về tìm kiếm thông tin, xếp hạng trong hệ
thống tìm kiếm thông tin, các phƣơng pháp xếp hạng tài liệu, tiêu chí đánh giá kết quả
xếp hạng.
Về mặt thực nghiệm: Cài đặt, đánh giá các phƣơng pháp xếp hạng và chọn lựa thực
nghiệm đƣợc phƣơng pháp xếp hạng tốt nhất.
1.2 Truy tìm thông tin
1.2.1 Hệ thống tìm kiếm thông tin
Từ những năm 1940, vấn đề lƣu trữ và truy tìm thông tin [1] đã thu hút sự chú ý
của các nhà nghiên cứu. Hệ thống tìm kiếm đang trở nên cần thiết, vấn đề đó là: chúng
ta có một lƣợng thông tin rất lớn, yêu cầu truy tìm thông tin một cách chính xác và
nhanh chóng.
“Sự phù hợp”, đó là khái niệm trung tâm của truy tìm thông tin. Mục đích của
một chiến lƣợc truy tìm tự động là truy tìm tất cả các tài liệu phù hợp ở cùng thời
điểm truy tìm, có thể bao gồm một vài tài liệu không thỏa mãn. Tìm ra các đặc
trƣng của tài liệu để khi tài liệu phù hợp với truy vấn, nó cho phép tài liệu đƣợc
truy tìm để trả lời truy vấn.
Mục đích của hệ thống tìm kiếm thông tin là trả về các thông tin liên quan nhất
đến nhu cầu thông tin của ngƣời dùng. Nhu cầu thông tin của ngƣời dùng ở đây có thể
xem nhƣ một câu truy vấn. Thông tin liên quan ở đây có thể là một câu, một đoạn mà
ta gọi chung là tài liệu.
Hệ thống tìm kiếm thông tin thƣờng gặp phải vấn đề sự khác biệt giữa câu truy
vấn và tài liệu. Một ví dụ là câu truy vấn thì ngắn (có thể là hai từ và thậm chí các từ
này là những từ không thông dụng) trong khi tài liệu thì rất nhiều. Để khắc phục vấn
đề này các hệ thống tìm kiếm thông tin thƣờng tạo ra các hàm biểu diễn để xử lý câu
truy vấn và dữ liệu khác nhau sau đó áp dụng phƣơng pháp xếp hạng để xếp hạng kết
quả trả về.
Hệ thống tìm kiếm thông tin gồm có 3 bộ phận chính: bộ phận phân tích văn bản,
bộ phận lập chỉ mục, bộ phận so khớp và sắp xếp các tài liệu trả về.

 Bộ phận phân tích văn bản. bộ phận này có nhiệm vụ phân tích các văn bản
thu thập đƣợc thành các từ riêng biệt. Tƣơng tự, khi ngƣời dùng nhập câu
truy vấn thì câu truy vấn cũng đƣợc phân tích thành các từ riêng biệt.
 Bộ phận lập chỉ mục: các từ trích đƣợc từ các văn bản thu thập đƣợc sẽ đƣợc
bộ phận này lựa chọn để làm các từ chỉ mục. Các từ chỉ mục phải là các từ


9
thể hiện đƣợc nội dung của văn bản. Hai bộ phận phân tích văn bản và lập
chỉ mục thƣờng đi liền với nhau và thƣờng chỉ gọi là bộ phận lập chỉ mục.
 Bộ phận so khớp và sắp xếp các tài liệu trả về: Các từ trích đƣợc từ câu truy
vấn và các từ chỉ mục của văn bản sẽ đƣợc so khớp với nhau để tìm ra các
tài liệu liên quan đến câu truy vấn. Mỗi tài liệu có một độ tƣơng quan với
câu truy vấn. Các tài liệu này sẽ đƣợc sắp xếp theo độ tƣơng quan giảm dần
và trả về cho ngƣời sử dụng.
1.2.2 Các hệ thống thông tin khác
Hiện nay các hệ thống thông tin quan trọng nhất là: hệ quản trị cơ sở dữ liệu
(DBMS), hệ quản lý thông tin (MIS), hệ hỗ trợ ra quyết định (DSS), hệ trả lời câu hỏi
(QAS) và hệ tìm kiếm thông tin (IR). Việc hiểu biết sự khác nhau giữa hệ thống tìm
kiếm thông tin và các hệ thống thông tin khác giúp ta hiểu rõ các kỹ thuật tìm kiếm
văn bản.
 Hệ quản trị cơ sở dữ liệu (DBMS). DBMS đơn giản là một hệ thống đƣợc
thiết kế nhằm thao tác và duy trì điều khiển cơ sở dữ liệu. DBMS tổ chức
các dữ liệu của mình dƣới dạng các bảng. Mỗi một cơ sở dữ liệu đƣợc lƣu
trữ thành nhiều bảng khác nhau. Mỗi một cột trong bảng là một thuộc
tính, mỗi một dòng là một bộ dữ liệu cụ thể. Trong mỗi một bảng có một
thuộc tính duy nhất đại diện cho bảng, nó không đƣợc trùng lặp và ta gọi
đó là khóa chính. Các bảng có mối liên hệ với nhau thông qua các khóa
ngoại. DBMS có một tập các lệnh để hỗ trợ cho ngƣời sử dụng truy vấn
đến dữ liệu của mình. Vì vậy muốn truy vấn đến cơ sở dữ liệu trong hệ

quản trị cơ sở dữ liệu ta phải học hết các tập lệnh này. Nhƣng ngƣợc lại
nó sẽ cung cấp cho ta các dữ liệu đầy đủ và hoàn toàn chính xác. Hiện
nay DBMS đƣợc sử dụng rộng rãi trên thế giới. Một số DBMS thông
dụng nhƣ: Access, SQL Server, Oracle.
 Hệ quản lý thông tin (IMS): IMS là DBMS nhƣng có thêm nhiều chức năng
về việc quản lý. Những chức năng này phụ thuộc vào giá trị của nhiều kiểu
dữ liệu khác nhau. Nói chung bất kỳ hệ thống nào có mục đích đặc biệt phục
vụ cho việc quản lý thì ta gọi là IMS.
 Hệ hỗ trợ ra quyết định (DSS): DSS sẽ dựa vào các tập luật đƣợc học, từ
những luật đã học rút ra những luật mới, sau khi gặp một vấn đề nó sẽ
căn cứ vào tập các luật để đƣa ra những quyết định thay cho con ngƣời.
Hệ thống này đang đƣợc áp dụng nhiều cho công việc nhận dạng và chẩn
đoán bệnh.


10
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. PGS.TS. Đặng Văn Đức (2004-2008), Bài giảng Cơ sở dữ liệu đa phương tiện.
Tiếng Anh
2. Zdravko Markov, Daniel T. Laroso, Data Mining the Web: Uncovering
Patterns in Web Content, Structure, and Usage.
3. Teufel (2006, To Appear): Chapter An Overview of evaluation methods n
TREC Ad-hoc Information Retrieval and TREC Question Answering. In: L.
Dybkjaer, H. Hemsen, W. Minker (Eds.) Evaluation of Text and Speech
Systems. Springer, Dordrecht, The Netherlands.
4. Sahami, M., and Heilman, T. 2006. A web-base kernel function for
measuring the similarity of Short text snippets. In Proc. of WWW '06.
5. Metzler, D.; Dumais, S.; and Meek, C. 2007. Similarity measures for short
segments of text. In Proc. of ECIR-07.

6. Metzler, D., Bernstein , Y., Croft, W.B., Moffat, A., and Zobel, J. Similarity
measures for tracking information flow. In Proceedings of CIKM '05.
7. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze.
Introduction to Information Retrieval. Cambridge University Press, 2008.
Internet
8. />


×