Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.3 MB, 123 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG
NGHỆ
--------------------

Trần
Lâm
Quân

MỘT SỐ KỸ
THUẬT TÌM KIẾM
THỰC THỂ DỰA
TRÊN QUAN HỆ
NGỮ NGHĨA ẨN
VÀ GỢI Ý TRUY
VẤN HƯỚNG NGỮ
CẢNH

LUẬN ÁN TIẾN
SĨ TOÁN HỌC

Hà Nội –
2020

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG
NGHỆ
----------------------

Trần
Lâm
Quân

MỘT SỐ KỸ
THUẬT TÌM KIẾM
THỰC THỂ DỰA
TRÊN QUAN HỆ
NGỮ NGHĨA ẨN
VÀ GỢI Ý TRUY
VẤN HƯỚNG NGỮ
CẢNH
Chuyên
ngành: Cơ sở
toán học cho
tin học
Mã số:
9.46.01.10

LUẬN ÁN TIẾN
SĨ TOÁN HỌC

NGƯỜI
HƯỚNG DẪN
KHOA HỌC:
T
S.
V
ũ
T
ất
T
h
ắ
n
g

Hà Nội –
2020

i

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tơi, được hồn thành
dưới sự hướng dẫn của TS Vũ Tất Thắng. Các kết quả nêu trong luận án là trung thực
và chưa từng được công bố trong bất kỳ cơng trình nào khác.
Tơi xin chịu trách nhiệm về những lời cam đoan của mình.
Hà nội,

tháng 12 năm 2020
Tác giả

Trần Lâm Quân

ii

LỜI CẢM ƠN

Luận án này được hoàn thành với sự nỗ lực không ngừng của tác giả và sự giúp
đỡ hết mình từ thầy hướng dẫn, gia đình, bạn bè và đồng nghiệp.
Đầu tiên, tác giả xin bày tỏ lời tri ân tới TS Vũ Tất Thắng, Thầy đã tận tình
hướng dẫn tác giả hồn thành luận án này, Thày đã kiên trì và đặc biệt, đã định hướng
cho nghiên cứu sinh suốt quá trình nghiên cứu.
Tác giả xin gửi lời cảm ơn tới các Thầy, Cô và cán bộ của Viện Công nghệ
thông tin, Học viện Khoa học và Công nghệ (Viện Hàn lâm Khoa học và Công nghệ
Việt Nam) đã nhiệt tình giúp đỡ và tạo ra mơi trường nghiên cứu tốt để tác giả hồn
thành cơng trình nghiên cứu; đã có những góp ý chính xác để tác giả có được những
cơng bố như ngày hơm nay.
Tác giả xin cảm ơn tới Ban Lãnh đạo Tổng công ty Hàng không Việt Nam
(Vietnam Airlines), Trung tâm Nghiên cứu Ứng dụng và các đồng nghiệp nơi tác giả
công tác đã ủng hộ để luận án được hoàn thành.
Cuối cùng, xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình, các bạn
bè đã ln ủng hộ, chia sẻ, động viên và khích lệ tơi học tập, nghiên cứu
Hà Nội,

tháng 12 năm 2020

Trần Lâm Quân

iii

MỤC LỤC
Trang phụ bìa
Lời cam đoan
Lời cảm ơn
Mục lục
Danh mục các ký hiệu, các chữ viết tắt
Danh mục các bảng
Danh mục các hình vẽ, đồ thị
MỞ ĐẦU
CHƯƠNG 1: TỔNG QUAN
1.1.

Bài tốn tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn

1.2.

Các nghiên cứu liên quan đến tìm kiếm thực thể dựa trên ngữ nghĩa ẩ

1.2.1. Lý thuyết ánh xạ cấu trúc (Structure Mapping Theory – SMT)
1.2.2. Mơ hình khơng gian vector (Vector Space Model - VSM)
1.2.3. Phân tích quan hệ tiềm ẩn (Latent Relational Analysis - LRA)
1.2.4. Ánh xạ quan hệ tiềm ẩn (Latent Relational Mapping Engine - LRME)
1.2.5. Quan hệ ngữ nghĩa tiềm ẩn (Latent Semantic Relation – LSR)
1.2.6. Tương đồng quan hệ dựa trên Wordnet
1.2.7. Mơ hình học biểu diễn vector từ Word2Vec
1.3.

Phương pháp tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn với cá

liên quan
1.4.

Bài toán gợi ý truy vấn hướng ngữ cảnh

1.5. Các nghiên cứu liên quan đến gợi ý truy vấn
1.5.1. Kỹ thuật gợi ý truy vấn dựa trên phiên (Session-based)
1.5.2. Kỹ thuật gợi ý truy vấn dựa trên cụm (Cluster-based)
1.6.

Phương pháp gợi ý truy vấn dựa trên hướng ngữ cảnh với các nghiên

quan
1.7.

Các kết quả đạt được của luận án

CHƯƠNG 2: TÌM KIẾM THỰC THỂ DỰA TRÊN QUAN HỆ NGỮ NGHĨA ẨN
2.1.

Bài tốn

2.2.

Phương pháp tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn

iv

2.2.1. Kiến trúc – Mơ hình
2.2.2. Thành phần rút trích quan hệ ngữ nghĩa
2.2.3. Thành phần gom cụm các quan hệ ngữ nghĩa
2.2.4. Thành phần tính tốn độ tương đồng quan hệ giữa 2 cặp thực thể
2.3. Kết quả thực nghiệm - Đánh giá
2.3.1. Dataset
2.3.2. Kiểm thử - Điều chỉnh tham số
2.3.3. Đánh giá với độ đo MRR
2.3.4. Hệ thống thực nghiệm
2.4. Kết luận chương
CHƯƠNG 3: GỢI Ý TRUY VẤN HƯỚNG NGỮ CẢNH
3.1. Bài toán
3.2. Phương pháp hướng ngữ cảnh
3.2.1. Định nghĩa – Thuật ngữ
3.2.2. Đề dẫn – Ví dụ minh họa
3.2.3. Kiến trúc – Mơ hình
3.2.4. Offline phase
3.2.5. Online phase – Giải thuật gợi ý truy vấn
3.2.6. Phân tích ưu nhược điểm
3.2.7. Các đề xuất kỹ thuật
3.2.8. Kỹ thuật phân lớp kết quả tìm kiếm dựa trên dàn khái niệm
3.3. Kết quả thực nghiệm - Đánh giá
3.3.1. Dataset
3.3.2. Đánh giá, so sánh
3.3.3. Hệ thống thực nghiệm
3.4. Kết luận chương
CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ
4.1. Kết luận
4.2. Kiến nghị
DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ

TÀI LIỆU THAM KHẢO

v

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Ký hiệu
CBOW

C

C

C

CL

C

Dataset

D

FCA

F

Fe

F

FC

F

IRES

Im

S
IR

In

IRS

Im

LM

L

LRME

L

E
LRA

L

LSR

L

MRR

M

NE

N

PMI

P

In
q

Q

QLogs

Q

Q-suggest

Q

Re

R

RelSim

R

RR

R

SE

S

SL

S

Session

S

SR

S

SMT

S

term

T

mining

T

VS

V

VSM

V

Word2Vec

W

vii

DANH MỤC CÁC BẢNG
Bảng 1.1: Tìm tương quan giữa các thuật ngữ trong 2 danh sách
Bảng 1.2: Kết quả tương quan giữa các thuật ngữ trong 2 danh sách

Bảng 2.1: Kết quả giải thuật rút trích quan hệ ngữ nghĩa
Bảng 2.2: Các phân lớp NER (Location, Organization, Personal, Time)
Bảng 2.3: Các ví dụ kết quả thực nghiệm với input q = {A, B, C} và output D
Bảng 3.1: Cấu trúc rút gọn của phiên tìm kiếm
Bảng 3.2: Bảng ngữ cảnh 1
Bảng 3.3: Bảng so sánh tìm kiếm hướng ngữ cảnh và Lucene-Nutch

viii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Danh sách trả về từ Keyword-SE ứng với query: “Việt Nam”, “Hà Nội”,
“Pháp”
Hình 1.2: Danh sách trả về từ Keyword-SE ứng với q1, q2
Hình 1.3: Input: “Cuba”, “José Marti”, “Ấn Độ” (ngữ nghĩa ẩn: “anh hùng dân tộc”)
Hình 1.4: Tìm kiếm dựa trên quan hệ ngữ nghĩa với truy vấn đầu vào gồm 3 thực thể
Hình 1.5: Ánh xạ cấu trúc SMT
Hình 1.6: Quan hệ giữa từ mục tiêu và ngữ cảnh trong mơ hình Word2Vec
Hình 1.7: Word2Vec “học” quan hệ “ẩn” giữa từ mục tiêu và ngữ cảnh của từ
Hình 1.8: QFG sử dụng trọng số
Hình 1.9: Các phương pháp phân cụm
Hình 1.10: Các đối tượng Core, Border, Noise phân cụm DBSCAN
Hình 1.11: Khả năng Directly Density-reachable và Density-reachable
Hình 1.12: Gợi ý truy vấn bằng các kỹ thuật truyền thống
Hình 1.13: Ngữ cảnh truy vấn
Hình 1.14: Minh họa truy vấn “tiger”
Hình 2.1: Tìm kiếm dựa trên quan hệ ngữ nghĩa với đầu vào gồm 3 thực thể
Hình 2.2: Kiến trúc tổng qt mơ hình tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa
ẩn
Hình 2.3: Giá trị F-Score tương ứng với mỗi giá trị thay đổi của α, θ1

Hình 2.4: So sánh PMI với f: tần suất (số lần đồng hiện) dựa trên MRR
Hình 2.5: Thực nghiệm IRS với nhãn thực thể B-PER
Hình 2.6: Thực nghiệm IRS với thực thể kiểu thời gian
Hình 3.1: Ngữ cảnh truy vấn
Hình 3.2: Ví dụ minh họa với truy vấn “gladiator”
Hình 3.3: Ví dụ minh họa với truy vấn “tiger”
Hình 3.4: Mơ hình của tiếp cận gợi ý truy vấn hướng ngữ cảnh
Hình 3.5: Đồ thị 2 phía (tập đỉnh Q – tập đỉnh U)
Hình 3.6: Sử dụng cấu trúc dữ liệu mảng để phân cụm
Hình 3.7: Mơ phỏng trực quan tiến trình dựng cây hậu tố
Hình 3.8: Phase online: Tiến trình gợi ý truy vấn

ix

Hình 3.9: Áp dụng random walk cải thiện vấn đề dữ liệu thưa
Hình 3.10: Dựng dàn khái niệm từ bảng ngữ cảnh 1
Hình 3.11: Tìm kiếm và phân lớp kết quả với truy vấn “jaguar”
Hình 3.12: Tìm kiếm trên dàn
Hình 3.13: Mơ hình hệ thống thực nghiệm kỹ thuật tìm kiếm hướng ngữ cảnh
Hình 3.14: (a): Độ đo tính đa dạng; 14 (b): Độ đo tính thích đáng
Hình 3.15: Silverlight đề nghị truy xuất camera, microphone trên máy client
Hình 3.16: ARS Server thực hiện speech to text
Hình 3.17: Tìm kiếm hướng ngữ cảnh tương tác giọng nói
Hình 3.18: Gợi ý truy vấn (gõ khơng dấu)
Hình 3.19: Tìm kiếm áp dụng phương pháp hướng ngữ cảnh
Hình 3.20: Gợi ý nhanh
Hình 3.21: Phân loại kết quả

1

MỞ ĐẦU

1.

Tính cấp thiết của luận án
Trong kỷ nguyên big-data, trên không gian Internet, lượng dữ liệu mới sinh

ra không ngừng, Search Engine là cốt lõi để đáp ứng nhu cầu tìm kiếm thơng tin của
người sử dụng. Đồng thời, nhu cầu tìm kiếm thơng tin với u cầu cao ngày càng
cấp bách. Cơ chế tìm kiếm dựa vào từ khóa ít có khả năng suy diễn thơng tin chưa
biết. Ngoài ra, câu truy vấn người dùng đưa vào trên thực tế thường ngắn, mơ hồ và
đa nghĩa [1 – 6]. Do đó, cần thiết phải tập trung nghiên cứu cách thức cải tiến để
đưa ra các gợi ý truy vấn hiệu quả hơn, hoặc hình thái tìm kiếm mới như tìm ra tên
các thực thể dựa trên ngữ nghĩa ẩn.
Theo thống kê, xấp xỉ 71% câu tìm kiếm trên web có chứa tên thực thể [7],
[8]. Khi xét truy vấn chỉ gồm tên thực thể: “Việt Nam”, “Hà Nội”, “Pháp”, về trực

quan, ta thấy ngữ nghĩa tiềm ẩn sau truy vấn này. Nói cách khác, tiềm ẩn một quan
hệ tương tự giữa cặp tên thực thể “Việt Nam”:“Hà Nội” và cặp tên thực thể
“Pháp”:“?”. Nếu chỉ xét trực quan, đây là một trong những khả năng “tự nhiên” của
con người - khả năng suy ra thông tin/tri thức chưa biết bằng suy diễn tương tự. Với
truy vấn trên, con người có khả năng đưa ra đáp án tức thời, nhưng máy tìm kiếm
Search Engine (SE) chỉ tìm được những tài liệu chứa các từ khóa nói trên, SE khơng
đưa ngay ra được câu trả lời “Paris”.

Hình 1.1: Danh sách trả về từ Keyword-SE ứng với query=”Việt Nam”, “Hà
Nội”, “Pháp”.

2

Cũng như vậy, thế giới thực tồn tại những câu hỏi dạng: “nếu Fansipan cao
nhất Việt Nam, thì đâu là đỉnh của Tây Tạng?”, “biết Elizabeth là nữ hoàng Anh thì
quốc vương Nhật Bản là ai?”, .v.v. Đối với những truy vấn tồn tại quan hệ tương
đồng như trên, cơ chế tìm kiếm theo từ khóa khó khăn trong việc đưa ra đáp án,
trong khi con người có thể dễ dàng suy luận tương tự. Nghiên cứu, mô phỏng khả
năng tự nhiên của con người khi suy diễn từ một miền ngữ nghĩa quen thuộc (“Việt
Nam”, “Hà Nội”) sang một miền ngữ nghĩa không quen thuộc (“Pháp”, “?”) - là
mục đích của bài tốn thứ nhất.
Bài tốn thứ 2 về gợi ý truy vấn. Trong các phiên tìm kiếm, lượng kết quả trả
1

về nhiều nhưng phần lớn khơng thích hợp với ý định tìm kiếm của người sử dụng .
Từ đó, có nhiều hướng nghiên cứu đặt ra nhằm cải thiện kết quả, hỗ trợ người tìm
kiếm. Các hướng nghiên cứu này bao gồm: gợi ý truy vấn (query suggestion), viết
lại truy vấn (rewriting query), mở rộng truy vấn (query expansion), cá nhân hóa
(personalized recommendations), phân hạng kết quả (ranking/re-ranking search
results), .v.v.
Hướng nghiên cứu về gợi ý truy vấn thường áp dụng các kỹ thuật truyền
thống như gom cụm, đo độ tương đồng, .v.v. của các truy vấn [9], [10]. Tuy nhiên,
các kỹ thuật truyền thống có ba nhược điểm: Thứ nhất, chỉ đưa ra được các câu gợi
ý tương tự hoặc có liên quan với truy vấn vừa nhập - mà chất lượng chưa chắc đã tốt
hơn truy vấn vừa nhập. Thứ hai, không đưa ra được xu hướng mà tri thức số đông
thường hỏi sau truy vấn hiện hành. Thứ ba, những cách tiếp cận này không xét
chuỗi truy vấn một cách liền mạch từ người sử dụng để nắm bắt ý định tìm kiếm của
người dùng. Chẳng hạn, trên các Search Engine (SE) thông dụng, gõ 2 truy vấn liên
tiếp q1: “Joe Biden là ai”, q2: “Ông ấy bao nhiêu tuổi”, rõ ràng q1, q2 có liên quan
ngữ nghĩa. Tuy nhiên kết quả trả về của q1, q2 là 2 tập kết quả rất khác nhau. Điều

này cho thấy nhược điểm của cơ chế tìm kiếm theo từ khóa.
Nắm bắt chuỗi truy vấn liền mạch, nói cách khác, nắm bắt được ngữ cảnh tìm
kiếm, SE sẽ “hiểu” được ý định tìm kiếm của người sử dụng. Hơn nữa, nắm bắt
chuỗi truy vấn, SE có thể gợi ý truy vấn theo chuỗi, chuỗi gợi ý này là tri thức số
đông, cộng đồng thường hỏi sau q1, q2. Đây là mục đích của bài tốn thứ hai.

1

/>

3

Hình 1.2: Danh sách trả về từ SE ứng với q1, q2.

2.

Mục tiêu của luận án
Mục tiêu tổng quát của luận án là tập trung nghiên cứu, xác định và thực

nghiệm các phương pháp, các nguyên lý nhằm giải quyết 2 bài toán nêu trên. Cài
đặt thực nghiệm các phương pháp và áp dụng các đề xuất cải thiện kỹ thuật. Phân
tích, đánh giá kết quả sau thực nghiệm. So sánh với các kỹ thuật khác.
3.

Đóng góp của luận án
Luận án nghiên cứu giải quyết vấn đề tìm kiếm thực thể dựa trên quan hệ ngữ

nghĩa và gợi ý truy vấn hướng ngữ cảnh. Đóng góp chính của luận án gồm:
1) Xây dựng kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn sử

dụng phương pháp phân cụm nhằm nâng cao hiệu quả tìm kiếm.
2) Đề xuất độ đo tương đồng tổ hợp trong bài toán gợi ý truy vấn

theo ngữ cảnh nhằm nâng cao chất lượng gợi ý.
3) Ứng dụng kỹ thuật hướng ngữ cảnh, xây dựng máy tìm kiếm chuyên

sâu áp dụng hướng ngữ cảnh trong miền cơ sở tri thức riêng (dữ liệu hàng
không).
4.

Đối tượng nghiên cứu
Thuộc lớp bài toán khai phá dữ liệu, khai phá ngữ nghĩa và xử lý ngôn ngữ
tự

nhiên, đối tượng nghiên cứu trong luận án gồm:
-

Phương pháp tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn.

-

Phương pháp gợi ý truy vấn hướng ngữ cảnh.

4

Phạm vi của luận án

5.

Với phương pháp tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn, bộ dữ liệu

thử nghiệm là các tập data-set trích rút từ Viwiki, Vn-news, dữ liệu ngành hàng
không (Vietnam Airlines). Miền ngôn ngữ tiếng Việt.
Với phương pháp gợi ý truy vấn hướng ngữ cảnh, đặt trọng tâm vào phương
pháp hướng ngữ cảnh nên các kỹ thuật chỉnh sửa, viết lại truy vấn không được đề
cập trong khuôn khổ luận án.
Phương pháp luận

6.

Luận án giải quyết các vấn đề nghiên cứu đặt ra theo cách tiếp cận sau:
-

Khảo sát các kết quả nghiên cứu của một số tác giả đã cơng bố.

-

Phân tích, đề xuất giải pháp cho từng vấn đề.

-

Công bố, trao đổi, thảo luận và báo cáo tại các buổi seminar, hội thảo, hội
nghị khoa học, .v.v.

-

Sử dụng phương pháp nghiên cứu lý thuyết, xây dựng và kiểm thử các mơ
hình đề xuất trên dữ liệu đã được công bố và dữ liệu tự thu thập.

-

Kết quả được báo cáo dưới dạng số liệu hoặc trực quan hóa để thuận tiện cho
việc đánh giá, kiểm chứng.

7.

Cấu trúc luận án
Ngoài phần mở đầu, luận án được tổ chức thành 4 chương có bố cục như sau:

Chương 1 giới thiệu tổng quan vấn đề nghiên cứu trong luận án, trình bày và phân
tích các vấn đề còn tồn tại trong các nghiên cứu liên quan để làm rõ câu hỏi nghiên
cứu. Khắc phục các vấn đề còn tồn tại trong các nghiên cứu liên quan, chương 2:
Tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa, mục đích giải quyết bài tốn thứ
nhất. Chương 3: Gợi ý truy vấn hướng ngữ cảnh trong bài tốn tìm kiếm, mục đích
giải quyết bài tốn thứ hai. So sánh đánh giá, kết quả thực nghiệm, kết quả nghiên
cứu của luận án được nêu ở cuối mỗi chương. Chương 4 kết luận, nêu ưu nhược
điểm, hướng phát triển của luận án và tài liệu tham khảo.

5

CHƯƠNG 1: TỔNG QUAN

1.1.

Bài tốn tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn

Luận án đặt mục tiêu nghiên cứu về tìm kiếm thực thể dựa trên quan hệ ngữ
nghĩa ẩn (Implicit Relational Search) mô phỏng khả năng suy ra thông tin/tri thức

chưa biết bằng suy diễn tương tự, như một khả năng “tự nhiên” của con người.
Xét truy vấn gồm các thực thể: “Kinh Qur’an”:“Đạo Hồi”, “sách Phúc
Âm”:”?”, con người có khả năng suy diễn tức thời cho dấu “?”, nhưng máy tìm
kiếm chỉ đưa ra kết quả là những tài liệu có chứa các từ khóa trên, không đưa ngay
được câu trả lời “Kitô giáo”. Do chỉ tìm thực thể, các kỹ thuật như mở rộng truy vấn
hoặc viết lại truy vấn không áp dụng với dạng quan hệ có ngữ nghĩa ẩn trong cặp
thực thể. Từ đó, một hình thái tìm kiếm mới được nghiên cứu, motive của câu truy
vấn tìm kiếm có dạng: {(A, B), (C, ?)}, trong đó (A, B) là cặp thực thể nguồn, (C, ?)
là cặp thực thể đích. Đồng thời, hai cặp (A, B), (C, ?) có quan hệ tương đồng về ngữ
nghĩa. Cụ thể, khi người sử dụng nhập vào truy vấn gồm 3 thực thể {(A, B), (C, ?)},
máy tìm kiếm có nhiệm vụ liệt kê, tìm kiếm trong danh sách ứng viên các thực thể
D (thực thể dấu ?), mỗi thực thể D thỏa điều kiện có quan hệ ngữ nghĩa với C, đồng
thời cặp (C, D) có quan hệ tương đồng với cặp (A, B). Quan hệ ngữ nghĩa - theo
nghĩa hẹp và dưới góc nhìn từ vựng - được biểu diễn bởi ngữ cảnh gồm các từ/cụm
từ (terms/patterns/context) xung quanh (trước, giữa và sau) cặp thực thể đã biết. Vì
quan hệ ngữ nghĩa, quan hệ tương đồng không nêu tường minh trong truy vấn (câu
truy vấn chỉ gồm 3 thực thể: A, B, C), nên hình thái tìm kiếm theo motive được gọi
là mơ hình tìm kiếm thực thể dựa trên ngữ nghĩa ẩn (Implicit Relational Entity
Search hay Implicit Relational Search, ngắn gọn: IRS).

Hình 1.3: Truy vấn: ”Cuba”, “José Marti”, “Ấn Độ” (ngữ nghĩa ẩn: “anh hùng dân
tộc”).

6

Tương tự, xét truy vấn chỉ gồm 3 thực thể query q = “Truyện Kiều”:“Nguyễn
Du”, “?”:“Victor Hugo”, truy vấn q không mô tả quan hệ ngữ nghĩa (“là kiệt tác”,
“tác phẩm nổi tiếng”, “sáng tác bởi” hay “di sản văn hóa”, .v.v.). Mơ hình tìm kiếm
thực thể dựa trên ngữ nghĩa có nhiệm vụ tìm ra thực thể “?”, thỏa điều kiện có quan

hệ ngữ nghĩa với thực thể “Victor Hugo”, đồng thời cặp “?”:“Victor Hugo” tương
đồng với cặp “Truyện Kiều”:“Nguyễn Du”.

Truyện Kiều là kiệt tác của
Nguyễn Du

Text Corpus

Notre-Dame de Paris là tác
phẩm nổi tiếng của Victor
Hugo

(Nguyễn Du, Truyện Kiều)

Implicit
output

input
(Victor Hugo, ?)

Hình 1.4: Tìm kiếm dựa trên quan hệ ngữ nghĩa ẩn với truy vấn đầu vào chỉ gồm
3 thực thể.
Tìm/tính tốn độ tương đồng quan hệ giữa 2 cặp thực thể là một bài tốn khó,
khó vì: Thứ nhất, độ tương đồng quan hệ biến đổi theo thời gian, xét 2 cặp thực thể
(Joe Biden, tổng thống Mỹ) và (Elizabeth, nữ hoàng Anh), độ tương đồng quan hệ biến
đổi theo nhiệm kỳ. Thứ hai, do yếu tố thời gian, 2 cặp thực thể có thể khơng chia sẻ
hoặc chia sẻ rất ít ngữ cảnh xung quanh cặp thực thể, như: Apple:iPod (vào 2010s) và
Sony:Walkman (vào 1980s), dẫn đến kết quả 2 cặp thực thể không tương đồng. Thứ ba,
trong một cặp thực thể, có thể có nhiều quan hệ ngữ nghĩa khác nhau, như: “Ổ dịch
Corona khởi phát từ Vũ Hán”; “Corona cô lập thành phố Vũ Hán”; “Số ca lây nhiễm

Corona giảm dần ở Vũ Hán”; .v.v. Thứ tư, cặp thực thể chỉ có một quan hệ ngữ nghĩa
nhưng có hơn một cách biểu đạt: “X was acquired by Y” và “X buys Y”. Thứ năm, khó
do nội tại thực thể có tên (tên cá nhân, tổ chức, địa danh, ..) vốn

7

khơng phải các từ thơng dụng hoặc có trong từ điển. Và cuối cùng, khó do thực thể
D chưa biết, thực thể D đang trong tiến trình tìm kiếm.
Một trường hợp khác, câu truy vấn theo motive: q = {(A, B), (C, ?)}, nhưng
thực tế quan hệ của cặp thực thể (A, B) khơng chỉ là đơn nghĩa mà có thể là đa nghĩa,
lúc này sẽ có nhiều quan hệ ngữ nghĩa khác nhau trong cùng một cặp thực thể. Ví dụ
cặp thực thể (Notre Dame:Paris) sẽ có các quan hệ ngữ nghĩa như “vụ cháy”, “biểu
tượng”, “tác phẩm văn học”, “chuyện tình thằng gù”, “vương miện gai”, .v.v.

Mơ hình IRS có nhiệm vụ giải bài tốn tìm kiếm như vậy. Mơ hình IRS là mơ
hình sử dụng quan hệ tương đồng từ miền ngữ nghĩa quen thuộc, từ đó suy luận, tìm
kiếm thơng tin/tri thức trong một miền ngữ nghĩa khơng quen thuộc.
1.2.

Các nghiên cứu liên quan đến tìm kiếm thực thể dựa trên ngữ nghĩa ẩn
Motive tìm kiếm của câu truy vấn có dạng: q = {(A, B), (C, ?)}, trong đó (A,

B) là cặp thực thể nguồn, (C, ?) là cặp thực thể đích, câu truy vấn chỉ gồm 3 thực

thể: A, B, C. Quan hệ ngữ nghĩa, quan hệ tương đồng không được nêu tường minh
trong truy vấn. Mơ hình tìm kiếm thực thể dựa trên ngữ nghĩa ẩn IRS có nhiệm vụ
tìm kiếm thực thể D (thực thể dấu hỏi chấm) chưa biết.
Xác định mối quan hệ tương đồng giữa cặp thực thể (A, B), (C, ?) là điều
kiện cần để xác định thực thể cần tìm. Thuộc lớp bài tốn xử lý ngơn ngữ tự nhiên,

độ tương đồng quan hệ là một trong những tác vụ quan trọng nhất của tìm kiếm dựa
trên ngữ nghĩa. Do đó, luận án liệt kê các hướng nghiên cứu chính về độ tương đồng
quan hệ.
1.2.1. Lý thuyết ánh xạ cấu trúc (Structure Mapping Theory – SMT)
Nghiên cứu trong [11] viết: AI và Khoa học nhận thức (Cognitive scientists)
cho rằng tương tự là cốt lõi của nhận thức. Nguyên lý có ảnh hưởng nhất đến mơ
hình tính tốn của lập luận tương tự là Lý thuyết ánh xạ cấu trúc (SMT).
SMT [12] coi độ tương đồng là ánh xạ “tri thức” (mapping of knowledge) từ
miền nguồn vào miền đích, theo luật ánh xạ: Loại bỏ các thuộc tính của đối tượng
nhưng vẫn duy trì được ánh xạ quan hệ giữa các đối tượng từ miền nguồn vào miền
đích.
Luật ánh xạ (Mapping rules): M: si
Loại bỏ thuộc tính: HOT(si) ↛HOT(ti); MASSIVE(si) ↛MASSIVE(ti); ...



ti; (trong đó s: source, t: target).

8

Duy trì ánh xạ quan hệ: Revolves(Planet, Sun)
Nucleus).



Revolves(Electron,

Hình 1.5: Ánh xạ cấu trúc SMT.
Hình 1.5 cho thấy do cùng các cấu trúc s (subject), o (object), nên SMT xét

các cặp: (Planet, Sun) và (Electron, Nucleus) là tương đồng quan hệ, dù cặp đối
tượng nguồn và đích - Sun và Nucleus, Planet và Electron rất khác nhau về thuộc
tính, như HOT, MASSIVE, …
Phân tích:
Tham chiếu với mục tiêu nghiên cứu, nếu câu truy vấn là: ((Planet, Sun),
(Electron, ?)), SMT sẽ kết xuất câu trả lời chính xác: “Nucleus”. Tuy nhiên, SMT
khơng khả thi với các cấu trúc bậc thấp (thiếu quan hệ). Vì vậy, SMT khơng khả thi
với bài tốn tìm kiếm thực thể dựa vào quan hệ ngữ nghĩa ẩn.
1.2.2. Mơ hình khơng gian vector (Vector Space Model - VSM)
Áp dụng mơ hình khơng gian vector, Turney [13] đưa ra khái niệm vector mẫu
– tần suất, trong đó mỗi vector được tạo thành bởi mẫu (pattern) chứa cặp thực thể (A,
B) và tần suất xuất hiện của mẫu. Mơ hình không gian vector thực hiện phép đo độ
tương đồng quan hệ như sau: Các mẫu được tạo thủ công, query đến Search Engine
(SE), số kết quả trả về từ SE là tần suất xuất hiện của mẫu. Từ đó, độ tương đồng quan
hệ của 2 cặp thực thể được tính bởi Cosine giữa 2 vector. Ví dụ, xét cặp (traffic, street)
và cặp (water, riverbed), 2 cặp này nhiều khả năng cùng xuất hiện trong câu,

9

như: “traffic in the street” và “water in the riverbed”. Độ đo Cosine giữa 2 vector
(traffic, street) và (water, riverbed) sẽ quyết định 2 vector có tương đồng hay khơng.
1.2.3. Phân tích quan hệ tiềm ẩn (Latent Relational Analysis - LRA)
Mở rộng VSM, Turney lai ghép VSM với LRA để xác định mức tương đồng
quan hệ [14], [15], [16]. Như VSM, LRA sử dụng vector được tạo thành bởi mẫu
(pattern/context) chứa cặp thực thể (A, B) và tần suất của mẫu, mẫu được xét theo
n-grams. Nói cách khác, phương pháp LRA xác định các n-grams thường xuyên
nhất để gắn mẫu với cặp thực thể (A, B). Đồng thời, LRA áp dụng thêm từ điển
đồng nghĩa để mở rộng các biến thể như: A bought B, A acquired B; X headquarters
in Y, X offices in Y,... Sau đó, LRA xây dựng ma trận mẫu - cặp thực thể, với mỗi

phần tử của ma trận biểu diễn tần suất xuất hiện cặp (A, B) thuộc mẫu. Tiến trình
LRA thực hiện tương tự với cặp (C, D). Nhằm giảm chiều ma trận, LRA áp dụng
SVD (Singular Value Decomposition) để giảm số cột. Cuối cùng, LRA áp dụng
phép đo Cosine trên các dòng của ma trận (row vectors) chứa các cặp (A, B) và (C,
D) để tính độ tương đồng quan hệ giữa 2 cặp thực thể.
Phân tích:
Tuy là cách tiếp cận hiệu quả để xác định độ tương đồng quan hệ, LRA đòi
hỏi thời gian tính tốn, xử lý khá dài, tham khảo trong [17] cho biết với 374 SAT
analogy questions (các câu hỏi loại suy của kỳ thi đánh giá năng lực SAT –
Scholastic Aptitude Test), kỹ thuật LRA cần 8 ngày để thực hiện. Điều này không
khả thi với một hệ tìm kiếm đáp ứng thời gian thực.
1.2.4. Ánh xạ quan hệ tiềm ẩn (Latent Relation Mapping Engine – LRME)
Để cải thiện việc dựng các luật ánh xạ, các cấu trúc s (subject), o (object) một
cách thủ công trong SMT, Turney áp dụng phép ánh xạ quan hệ tiềm ẩn LRME [11],
bằng cách kết hợp SMT và LRA. Mục đích: Tìm mối quan hệ giữa 2 terms A, B (xét
terms như là thực thể). Với đầu vào (bảng 1.1) là 2 danh sách các terms từ 2 miền
(nguồn và đích), đầu ra (bảng 1.2) là kết quả ánh xạ 2 danh sách:
Bảng 1.1: Tìm tương quan giữa các thuật ngữ (terms) trong 2 danh sách
Miền nguồn
planet
attracts
revolves

sun
gravity
solar system
mass
Bảng 1.2: Kết quả tương quan giữa các terms trong 2 danh sách
Miền nguồn

solar system
sun
planet
mass
attracts
revolves
gravity

Từ tập dữ liệu (corpus), đầu vào của LRME là 2 danh sách các terms được
rút trích từ corpus, sau đó xây dựng ánh xạ (song ánh) giữa 2 tập terms: A và B, các
terms có thứ tự tùy ý. Các terms a i, bj thuộc danh sách (A, B) có thể là một từ đơn
(planet), có thể là một cụm từ (solar system).
Do tính chất song ánh, A và B có cùng số term:
A = {a1, a2, …, am};
B = {b1, b2, …, bm};

Đầu ra (O) của LRME là song ánh M từ A đến B:
O={M:A→B}
M(ai) ϵ B



M(A) = {M(a1), M(a2), …, M(am)} = B







Do danh sách B có m phần tử m! hốn vị m! song ánh từ A B;
Ký hiệu P(A, B) là tập m! song ánh (A, B). Kết hợp độ đo tương đồng (sim r)
trong LRA, đầu ra của LRME là hàm mục tiêu:

11

Phân tích:
Đầu vào LRME là 2 dãy chứa terms, đầu vào của IRS là 1 cặp thực thể, có
thể nói IRS khó hơn LRME theo nghĩa ít thơng tin đầu vào hơn.
Có m! hốn vị nên LRME phải vét cạn m! trường hợp. Mơ hình tìm kiếm
thực thể dựa vào ngữ nghĩa ẩn IRS khơng áp dụng hốn vị để xác định mối quan hệ
tương đồng.
1.2.5. Quan hệ ngữ nghĩa tiềm ẩn (Latent Semantic Relation – LSR)
Bollegala, Duc. et al. [17], [18], Kato [19] sử dụng giả thuyết phân phối
(Distributional hypothesis) ở mức context: Trong corpus, nếu 2 context p i, pj khác
nhau nhưng thường đồng hiện với các cặp thực thể w m, wn thì 2 context pi, pj tương
tự về ngữ nghĩa. Khi pi, pj tương tự về ngữ nghĩa, các cặp thực thể w m, wn tương
đồng về quan hệ.
Phân tích:
Giả thuyết phân phối địi hỏi các cặp thực thể phải luôn “đồng hiện” với các
context, đồng thời giải thuật gom cụm Bollega đề xuất ở mức context (mức câu,
theo nghĩa câu thường đồng hiện với cặp thực thể) chứ không thực hiện gom cụm ở
mức terms trong câu. Độ tương đồng chỉ dựa trên giả thuyết phân phối mà không
dựa trên tương đồng về term sẽ ảnh hưởng không nhỏ đến chất lượng của kỹ thuật
gom cụm, từ đó ảnh hưởng đến chất lượng của hệ tìm kiếm.
Ngồi ra, các tác giả của [17], [18], [19] không xét số quan hệ của cặp thực
thể nguồn và đích là khơng chắc chắn, theo nghĩa ánh xạ quan hệ. Ví dụ, ta có quan
hệ 1-1 khi xét cặp thực thể (Mặt trăng, Trái đất). Xét cặp thực thể (Mặt trời, Vệ
tinh), ta có quan hệ 1-nhiều. Xét cặp thực thể (Nhà sản xuất-Cơng ty) ta có quan hệ

nhiều-nhiều. Nếu áp dụng 3 loại ánh xạ quan hệ vào tìm kiếm thực thể, xét thêm
yếu tố thời gian, kết quả tìm kiếm sẽ chính xác và cập nhật hơn.
1.2.6. Tương đồng quan hệ dựa trên hệ thống phân loại tương đồng Wordnet

Cao [20] và Agirre [21] đề xuất độ đo tương đồng quan hệ dựa trên hệ phân
loại tương đồng trong Wordnet, tuy nhiên như các phương pháp trên, Wordnet
khơng chứa thực thể có tên (Named Entity), vì vậy Wordnet khơng thích hợp với mơ
hình tìm kiếm thực thể.

12

1.2.7. Mơ hình học biểu diễn vector từ Word2Vec
Mơ hình Word2Vec do Mikolov và các đồng sự đề xuất [22], là mơ hình học
biểu diễn mỗi từ thành một vector (ánh xạ một từ thành một one-hot vector), mơ
hình có mục đích diễn tả mối quan hệ (xác suất) giữa từ với ngữ cảnh của từ. Mơ
hình Word2Vec có 2 kiến trúc mạng nơ-ron đơn giản: Continous Bag-Of-Words
(CBOW) và Skip-gram. Áp dụng với Skip-gram, ở mỗi bước huấn luyện, mô hình
Word2Vec dự đốn các ngữ cảnh trong vịng skip-gram nhất định. Khi các mơ hình
vector từ như Count vector hay TF-IDF chỉ xét đến tần số xuất hiện của một từ hay
cụm từ mà không quan tâm đến ngữ cảnh, ưu điểm của Skip-gram là duy trì mối
quan hệ ngữ nghĩa giữa các từ trong một cửa sổ trượt (context window). Giả sử từ
huấn luyện input là “banking”, với cửa sổ trượt skip = m = 2, output ngữ cảnh trái
sẽ kết xuất là “turning into”, output ngữ cảnh phải là “crises as”:

Hình 1.6: Quan hệ giữa từ mục tiêu và ngữ cảnh trong mơ hình Word2Vec.
Để dự đốn, hàm mục tiêu trong Skip-gram thực hiện tối đa hóa xác suất. Với một chuỗi từ huấn luyện w1, w2, …, wT, Skip-gram áp dụng
Maximum Likelihood:

()=

trong đó

T:
m: window-side (skip); : vector biểu diễn;

Quá trình huấn luyện áp dụng giải thuật lan truyền ngược (back-propagation);

Xác suất đầu ra p(wt+j|wt) xác định bởi hàm kích hoạt softmax:

( | )=

trong đó
W: Vocabulary;
c: từ được huấn luyện (input/center); o: output của c;
u: Vector biểu diễn của o; v: Vector biểu diễn của c;

Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnh

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về