Học cấu trúc mạng logic Markov và ứng dụng
trong bài toán phân lớp
Phạm Đình Hiệu
Trường Đại học Khoa học Tự nhiên
Luận văn ThS. ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán
Mã số: 60 46 35
Người hướng dẫn: TS. Nguyễn Thị Minh Huyền
Năm bảo vệ: 2012
Abstract. Trình bày về một số kiến thức cơ bản được sử dụng trong cấu trúc mạng
logic markov và ứng dụng trong bài toán phân lớp liên quan tới lý thuyết đồ thị,
logic và xác suất thống kê. Tìm hiểu các kiến thức về mạng Markov, mạng logic
Markov và một số vấn đề về học máy với mạng logic Markov như suy diễn, học
tham số và đặc biệt là học cấu trúc. Nghiên cứu ứng dụng mạng logic Markov trong
bài toán gán nhãn vai nghĩa: trình bày về bài toán gán nhãn vai nghĩa, vấn đề xây
dựng dữ liệu huấn luyện trong công cụ Thebeast cho bài toán gán nhãn vai nghĩa và
đánh giá kết quả.
Keywords. Toán học; Bài toán phân lớp; Mô hình Markov
Content
Trong sự phát triển về Công nghệ thông tin hiện nay vấn đề xử lý, tính toán không còn
thuần túy là tính toán trên các dữ liệu kiểu số biểu diễn dưới dạng cấu trúc, bảng biểu hay véc
tơ, vv. Nó đã được phát triển mở rộng xử lý trên dữ liệu kiểu hình ảnh, âm thanh, văn bản, đồ
thị và nhiều kiểu khác nữa. Trong sự phát triển đó của Công nghệ, học máy được xem là một
lĩnh vực của trí tuệ nhân tạo với mục tiêu là nghiên cứu các thuật toán cho phép máy tính có
thể học được các khái niệm. Thường học máy được phân làm hai phương pháp: phương pháp
quy nạp và phương pháp suy diễn. Đến nay học máy có ứng dụng rộng khắp trong các ngành
khoa học, sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ. Một số
ứng dụng thường thấy: Rôbốt, trò chơi, phân tích thị trường chứng khoán, phát hiện gian lận
tài chính, phân tích ảnh thiên văn, phân loại chuỗi gene, quá trình hình thành gene, phân tích
ảnh X-quang, các hệ chuyên gia chẩn đoán tự động, tìm kiếm, nhận dạng hay nhiều ứng dụng
liên quan tới xử lý ngôn ngữ tự nhiên.
Học quan hệ thống kê cũng là một trong các lĩnh vực của học máy, nó hướng tới sự kết
hợp giữa học theo quan hệ và học theo thống kê nhằm xử lý các dữ liệu không chắc chắn với
cấu trúc quan hệ phức tạp. Có nhiều mô hình được phát triển gần đây cho học quan hệ thống
kê như mô hình quan hệ xác suất (Probabilistic Relational Model) sử dụng logic kết hợp với
các mạng Bayes hay Markov. Trong đó các mạng MLN (Markov Logic Network) mang tính
tổng quát cao nhất, có thể chuyển đổi sang các mô hình khác và ngày càng có nhiều nghiên
cứu về các mạng này. Mạng logic Markov có thể được xem như là một sự kết hợp hữu cơ
giữa học logic và học thống kê. Mục đích của MLN là mô tả một minh họa cho trước với một
tập các công thức logic có trọng số. Nó cho phép sử dụng những ưu điểm của logic tân từ cấp
một là khả năng biểu diễn tri thức và các mối quan hệ phức tạp của tri thức, cùng với ưu điểm
của mạng Markov có thể xử lý một cách hiệu quả sự không chắc chắn và giải quyết tri thức
một cách đối lập và thiếu thông tin.
Mục tiêu của luận văn là tìm hiểu các mạng MLN và phương pháp học cấu trúc cho
mạng MLN. Luận văn cũng triển khai một ứng dụng giải quyết bài toán phân lớp với mạng
MLN sử dụng phần mềm Thebeast. Cụ thể ở đây là bài toán gán nhãn vai nghĩa trong lĩnh
vực xử lý ngôn ngữ. Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là dữ liệu ngôn ngữ,
tức là dữ liệu kiểu văn bản hay tiếng nói. Các dữ liệu liên quan đến ngôn ngữ viết (văn bản)
và tiếng nói đang dần trở nên kiểu dữ liệu chính con người có và lưu trữ dưới dạng điện tử.
Việc xây dựng ngữ liệu mẫu cho bài toán gán nhãn vai nghĩa tương đối phức tạp, nên bước
đầu thực hiện chúng tôi chỉ dùng giới hạn bài toán ở 2 vai nghĩa “tác thể” và “bị thể” trong
câu.
Bố cục luận văn được chia làm 3 chương:
Chƣơng I: Cơ sở toán học
Trong chương này sẽ trình bày về một số kiến thức cơ bản được sử dụng trong luận văn
liên quan tới lý thuyết đồ thị, logic và xác suất thống kê.
Chƣơng II: Mạng logic Markov
Chương này sẽ trình bày các kiến thức về mạng Markov, mạng logic Markov và một số
vấn đề về học máy với mạng logic Markov như suy diễn, học tham số và đặc biệt là học cấu
trúc.
Chƣơng III: Ứng dụng mạng logic Markov trong bài toán gán nhãn vai nghĩa
Chương này sẽ trình bày về bài toán gán nhãn vai nghĩa, vấn đề xây dựng dữ liệu huấn
luyện trong công cụ Thebeast cho bài toán gán nhãn vai nghĩa và đánh giá kết quả.
CHƢƠNG 1. CƠ SỞ TOÁN HỌC
1.1 Lý thuyết đồ thị
Định nghĩa 1.1.1. Đồ thị là cặp , trong đó A là tập đỉnh, F là ánh xạ từ
[3].
Ta cũng có thể định nghĩa đồ thị là cặp: , trong đó là tập đỉnh và
là tập cung. Về thực chất đồ thị là một tập hợp các đối tượng được biểu
diễn bằng các đỉnh và giữa các đối tượng có quan hệ (nhị nguyên) biểu diễn bằng các
cung[3].
Cho đồ thị . Nếu có thì ta nói rằng là một cung và gọi là
đỉnh đầu, gọi là đỉnh cuối của cung đó.
Hai đỉnh kề nhau là hai đỉnh của cùng một cung. Đỉnh nút là đỉnh kề với chính nó.
Định nghĩa 1.1.2. Đồ thị với được gọi là đồ thị con của đồ thị
nếu [3].
Định nghĩa 1.1.3. Hai đỉnh gọi là liên thông với nhau nếu chúng trùng nhau hoặc có
xích nối với nhau[3].
Đồ thị đối xứng gọi là đồ thị vô hướng tức là ta luôn có
.
Định nghĩa 1.1.4. Đồ thị vô hướng được gọi là đầy đủ nếu hai đỉnh bất kỳ đều có cung
nối với nhau[3].
Định nghĩa 1.1.5. Clic (Clique) của đồ thị là một đồ thị con đầy đủ[3].
1.2 Logic tân từ cấp một
1.2.1 Các khái niệm và ký hiệu
Logic tân từ cấp một là một ngôn ngữ rất mạnh để biểu diễn những thông tin có quan
hệ phức tạp, cho phép ta mô tả thế giới với các đối tượng, các thuộc tính của đối tượng và các
mối quan hệ giữa các đối tượng[9].
Một cơ sở tri thức xây dựng trên logic tân từ cấp một (KB) là một tập các câu hay các
công thức trong logic tân từ cấp một. Công thức được xây dựng bằng cách sử dụng 4 loại ký
hiệu: hằng, biến, hàm và vị từ[9], [12].
Ký hiệu hằng: dùng để chỉ các đối tượng trên một miền (Ví dụ miền chỉ người: Nga,
Hùng,…).
Ký hiệu biến: dùng để biểu diễn các đối tượng trong miền (ví dụ x, y).
Ký hiệu vị từ: biểu diễn mối quan hệ giữa các đối tượng trong miền (ví dụ Bạn(x,y)
biểu diễn quan hệ x là bạn của y) hay là thuộc tính của các đối tượng (ví dụ
Hútthuốc(x) biểu diễn thuộc tính có hút thuốc của đối tượng x (x có hút thuốc)).
Các ký hiệu phép toán logic: (hội), (tuyển), (kéo theo), (phủ định),
(tương đương).
Các ký hiệu lượng từ: (với mọi), (tồn tại).
1.2.2 Công thức trong logic tân từ cấp một
Các hạng thức là các biểu thức mô tả các đối tượng. Các hạng thức xác định đệ quy như
sau:
Các hằng, biến là hạng thức.
Nếu là các hạng thức và là hàm thì là hạng thức.
Một hạng thức không chứa biến được gọi là một hạng thức nền. Ví dụ: Nga là ký hiệu
hằng, MotherOf là ký hiệu hàm một biến, thì MotherOf (Nga) là một hạng thức nền.
Một công thức nguyên tử được định nghĩa là:
Nếu P là vị từ n biến và là các hạng thức thì là công thức
nguyên tử.
Các công thức được xây dựng một cách đệ quy từ các công thức nguyên tử bằng cách
sử dụng các phép toán logic và các lượng từ. Nếu và là các công thức thì những ký
hiệu sau đây cũng là công thức: : F1, F1^F2, F1 F2, F1 F2, F1 F2, F1 và
F1[9].
1.2.3 Dạng chuẩn hội
Mọi công thức trong logic tân từ cấp một có thể chuyển thành một công thức tương
đương trong dạng chuẩn hội (CNF) , trong đó Q là lượng từ, là biến
và là hội của các mệnh đề.
1.3 Xác suất – thống kê
1.3.1 Các khái niệm
Định nghĩa 1.3.1. Xác xuất của biến cố A là một số không âm bằn trong khoảng [0;1],
ký hiệu là P(A), biểu thị khả năng xảy ra biến cố A và được xác định như sau:
Trong đó là số trường hợp thuận lợi cho , là số trường hợp có thể có khi phép thử
thực hiện .
Định nghĩa 1.3.2. Xác suất có điều kiện của biến cố với điều kiện biến cố đã xảy
ra là một con số không âm, được ký hiệu là , nó biểu thị khả năng xảy ra của biến cố
trong tình huống biến cố đã xảy ra khi đó:
Định nghĩa 1.3.3. Biến ngẫu nhiên: Một biến nhận các giá trị của nó ứng với một xác
suất nào đấy gọi là biến ngẫu nhiên[1].
Định nghĩa 1.3.4. Hai biến ngẫu nhiên và là độc lập nếu và
.
Định nghĩa 1.3.5. Phân phối đồng thời (joint distribution): Cho hai biến ngẫu nhiên
và được định nghĩa trên cùng một không gian xác suất, phân phối đồng thời của và là
xác suất của các biến cố được định nghĩa trong véc tơ ngẫu nhiên của và .
Định nghĩa 1.3.6. Phân phối biên (marginal distribution): Cho hai biến ngẫu nhiên
và , và là phân phối đồng thời của chúng. Phân phối biên của là phân phối của
mà được bỏ qua.
1.3.2 Công thức Bayes
Cho biến cố và các biến cố sao cho[8]:
- Có tập rời nhau từng đôi một.
-
Thì ta có công thức tổng:
Công thức Bayes [1]:
Trong đó:
A
1
, …, A
n
là hệ đầy đủ : A
1
+ …+ A
n
= Ω - không gian mẫu.
là xác suất xảy ra biến cố A
k
: Xác suất để biến cố B xảy ra. P(B)>0.
P(B| A
i
) là xác suất để B xảy ra biết rằng A
i
đã xảy ra rồi ( tỉ lệ xảy ra B trong A
i
)
CHƢƠNG 2. MẠNG LOGIC MARKOV
2.1 Giới thiệu
Logic tân từ cấp một là ngôn ngữ rất mạnh để biểu diễn những thông tin có quan hệ
phức tạp, cho phép chúng ta mô tả một cách đầy đủ rộng lớn của tri thức.
Xác suất là một cách thức thông thường để biểu diễn những sự kiện hoặc kiến thức
không chắc chắn.
Kết hợp logic tân từ cấp một và xác suất sẽ cho phép xây dựng các mối quan hệ dựa
trên xác suất phức tạp của dữ liệu nằm trong miền được quan tâm. Vấn đề này được quan tâm
và phát triển trong một số năm gần đây trong các nghiên cứu về học quan hệ thống kê, khai
phá dữ liệu nhiều quan hệ, vv.
Mô hình đồ họa: Là mô hình biểu diễn sự kết hợp giữa lý thuyết xác suất và lý thuyết
đồ thị. Nó cung cấp một công cụ tự nhiên để giải quyết hai vấn đề xảy ra trong toán học ứng
dụng và trong kỹ thuật: Không chắc chắn và phức tạp. Đặc biệt nó đóng vai trò quan trọng
trong việc phân tích và thiết kế các thuật toán học máy. Về mặt cơ bản thì ý tưởng của mô
hình đồ họa là dựa vào khái niệm của mô đun: Một hệ thống phức tạp được xây dựng bằng
việc kết nối các phần đơn giản hơn. Về phía lý thuyết đồ thị cung cấp cả giao diện trực quan
mà con người có thể mô hình các tập hợp của các biến cũng như cấu trúc dữ liệu để thiết kế
các thuật toán mục đích chung hiệu quả.
Chương này sẽ giới thiệu một mô hình kết hợp xác suất với logic tân từ cấp một, mới
được đưa ra năm 2004[16]. Đó là mạng logic Markov, mô hình biểu diễn cơ sở tri thức dựa
trên logic tân từ cấp một với một trọng số kèm theo cho mỗi công thức và nó có thể được coi
như là một mẫu cho việc xây dựng các mạng Markov. Nội dung trình bày bao gồm: Mạng
Markov, mạng logic Markov, suy diễn trên mạng logic Markov, học tham số và đặc biệt là
học cấu trúc cho mạng logic Markov.
2.2 Mạng Markov
Mạng Markov[12] (hay còn gọi là trường ngẫu nhiên Markov) là mô hình cho phân
phối đồng thời (joint distribution) của một tập hợp các biến . Nó bao gồm
một đồ thị vô hướng và một tập các hàm tiềm năng . Đồ thị có một nút cho mỗi biến, và
có một hàm tiềm năng cho mỗi clique trong đồ thị. Hàm tiềm năng là hàm giá trị thực không
âm xác định cho từng trạng thái của các clique. Phân phối đồng thời được biểu diễn bởi mạng
Markov cho bởi công thức sau:
(2.1)
Trong đó là trạng thái của clique thứ (nghĩa là trạng thái của các biến mà xuất
hiện trong clique). Z được gọi là hàm phân hoạch (partition function), cho bởi công thức
.
2.3 Mạng logic Markov
Cơ sở tri thức (KB- knowledge base) dựa trên logic tân từ cấp một được xem như là tập
các ràng buộc chặt trên tập các minh họa có thể: Nếu một minh họa chỉ vi phạm một công
thức thì nó có xác suất bằng không. Ý tưởng đơn giản trong mạng logic Markov là để nới
lỏng ràng buộc này: Khi một minh họa vi phạm một công thức trong cơ sở tri thức thì nó có
xác suất thấp, nhưng không phải là không thể có. Càng ít công thức mà minh họa đó vi phạm
thì xác suất xảy ra của minh họa đó càng lớn. Mỗi công thức có một trọng số kèm theo phản
ánh hạn chế đó mạnh như thế nào: trọng số càng cao thì sự khác biệt trong xác suất giữa một
minh họa thỏa mãn công thức và một minh họa không thỏa mãn càng lớn.
Định nghĩa 2.2.1. Một mạng logic Markov là một tập các cặp , trong đó là
công thức trong logic tân từ cấp một và là một số thực. Cùng với tập hữu hạn các hằng số
, nó định nghĩa một mạng Markov như sau:
a. chứa một nút nhị phân cho mỗi công thức nguyên tử nền có thể của mỗi vị từ
xuất hiện trong . Giá trị của nút đó bằng 1 nếu công thức nguyên tử nền là đúng và
bằng 0 nếu ngược lại.
b. chứa một đặc trưng cho mỗi công thức nguyên tử nền có thể của mỗi công
thức xuất hiện trong L. Giá trị của đặc trưng này là 1 nếu như công thức nguyên
tử đúng và sai nếu ngược lại. Trọng số của đặc trưng đó là tương ứng với
trong L.
Một mạng logic Markov được xem như là một mẫu cho việc xây dựng các mạng
Markov. Cho các tập hằng khác nhau thì sẽ cho ra các mạng khác nhau và các mạng này có
thể có kích thước rất lớn, nhưng tất cả chúng đều có những quy tắc nào đó trong cấu trúc và
các tham biến cho bởi mạng logic Markov (ví dụ tất cả các công thức nền sẽ có cùng một
trọng số). Chúng ta gọi mỗi một mạng Markov này là mạng Markov nền để phân biệt nó với
mạng logic Markov. Luận văn này sẽ tập trung vào mạng logic Markov mà các công thức của
nó là các mệnh đề không có hàm (function free clause) và nó cũng được giả thiết trên miền
đóng đảm bảo rằng các mạng Markov được sinh ra là hữu hạn. Trong trường hợp này các
công thức nền được xác định bằng cách thay thế các biến của nó bằng tất cả các hằng có
thể[12], [16], [17].
2.4 Suy diễn
Trong phần này sẽ trình bày về suy diễn trên mô hình qua 2 bài toán suy diễn, suy diễn
MAP/MPE và suy diễn điều kiện.
2.4.1 Suy diễn MAP/MPE
Suy diễn MAP/MPE (MPE – the most probable explaination) [12], [13], [14] là: Tìm
trạng thái (giá trị chân lý) có khả năng xảy ra lớn nhất của tập các biến đầu ra (output) cho bởi
trạng thái của các biến đầu vào (input).
Trạng thái MAP (Maximum a posteriori) là trạng thái mà tổng các trọng số của các công
thức nền thỏa được đạt cực đại.
trong đó là số các mệnh đề nền có giá trị chân lý đúng thứ bao gồm các công
thức nguyên tử của tập chưa biết. Nhìn vào phương trình 2.4 thì ta nhận thấy suy diễn
MAP/MPE sẽ phải tìm những giá trị chân lý cho các công thức nguyên tử nền (hay các nút)
(không tính những công thức nguyên tử nằm trong giả thiết, nghĩa là ) bằng việc làm cực đại
tổng trọng số của các mệnh đề thỏa được (hay các đặc trưng). Thuật toán sau có tên là
MaxWalkSAT được sử dụng cho suy diễn MAP/MPE để tìm ra các trạng thái MAP trong mạng
logic Markov.
2.4.2 Suy diễn điều kiện
Suy diễn điều kiện trong các mô hình đồ thị bao gồm việc tính toán xác suất của các
biến truy vấn cho bởi các biến giả thiết.
Mạng logic Markov là một mô hình quan trọng giúp chúng ta giải quyết nhiều vấn đề
phức tạp và không chắc chắn. Cụ thể thì các mạng logic Markov có thể trả lời bất kỳ câu hỏi
nào có dạng sau: “Tính xác suất mà công thức đúng khi biết đúng?”.
2.5 Học tham số và học cấu trúc
Việc học mô hình từ cơ sở dữ liệu là vấn đề quan trọng và phức tạp nhưng đây cũng là
yếu tố quyết định để áp dụng mô hình vào thực tế thông qua các bộ dữ liệu thực. Việc học mô
hình bao gồm 2 vấn đề là: học tham số và học cấu trúc.
2.5.1 Học tham số
Học tham số của mạng logic Markov bao gồm tìm các trọng số mà tối ưu một hàm khả
năng (likehood) cho bởi dữ liệu huấn luyện. Đây là nhiệm vụ khó vì tính toán hàm hợp lý và
các thành phần trong véc tơ đạo hàm riêng (gradient) của nó yêu cầu xử lý suy diễn và có chi
phí là hàm mũ trong trường hợp xấu nhất. Một cách tối ưu được sử dụng thay thế là phương
pháp pseudo-likelihood (dùng hàm tựa hàm khả năng) tính toán xác suất chỉ bao gồm các
biến trong phủ Markov (được định nghĩa phía dưới) trong dữ liệu. Tuy nhiên phương pháp
pseudo-likehood bỏ qua sự tương tác không cục bộ giữa các biến, và có thể giảm mức độ xử
lý khi chúng cần được xét ở lần suy diễn.
Cả hàm khả năng và pseudo-likehood đều là những cách tiếp cận nhằm tối ưu hóa phân
phối đồng thời của tất cả các biến. Ngược lại, cách tiếp cận tách biệt sẽ tối đa hóa hàm hợp lý
điều kiện của một tập các dữ liệu đầu ra cho bởi tập dữ liệu đầu vào[17].
2.5.2 Học cấu trúc
Học cấu trúc mạng logic Markov có thể từ một mạng rỗng hoặc từ một cơ sở tri thức đã
tồn tại. Chúng ta xây dựng bắt đầu bằng việc thêm tất cả các mệnh đề đơn vị (các vị từ đơn)
vào mạng logic Markov. Trọng số của các mệnh đề đơn này có thể thu được từ các phân phối
biên của các vị từ[12].
Các vấn đề của việc học cấu trúc bao gồm chọn cách ước lượng, các tính toán xây dựng
mệnh đề, chiến lược tìm kiếm và các phương pháp làm cho nhanh hơn.
CHƢƠNG 3. ỨNG DỤNG MẠNG LOGIC MARKOV
TRONG BÀI TOÁN GÁN NHÃN VAI NGHĨA
3.1 Bài toán gán nhãn vai nghĩa
- Định nghĩa: Gán nhãn vai nghĩa là việc xác định vai trò các từ tham gia vào hoạt
động của động từ chính trong câu. Vai nghĩa thường có:
- Vai tác thể (Agent, viết tắt là Agt): Biểu thị người hay động vật gây ra một hành động,
tác động nào đó. Ví dụ: Tôi
Agt
đánh nó.
- Vai chủ sở hữu (Possessor, viết tắt là Poss): Biểu thị chủ sở hữu của sự vật. Ví dụ:
Tôi
Poss
còn tiền.
- Vai bị thể (Patient, viết tắt là Pa): Biểu thị người hoặc vật chịu sự tác động. Ví dụ: Tôi
đánh nó
Pa
.
- Vai tiếp thể (Recipient, viết tắt là Rec): Biểu thị người tiếp nhận trong hành động trao
tặng. Ví dụ: Tôi tặng mẹ
Rec
- v.v…
Trong luận văn này mới chỉ dừng lại ở quá trình gán nhãn cho vai tác thể gán “A0” và
vai bị thể gán “A1” trong câu tiếng Việt.
3.2 Mô tả dữ liệu sử dụng
Dữ liệu được sử dụng ở đây là kho ngữ liệu 10.000 cây cú pháp của vnTreebank. Dữ
liệu văn bản được thu thập từ chuyên mục Chính trị - Xã hội của báo Tuổi trẻ Online. Kho
văn bản được chia làm ba tập tương ứng với ba mức gán nhãn là tách từ, gán nhãn từ loại và
gán nhãn cú pháp. Tập được gán nhãn cú pháp là tập con của tập được gán nhãn từ loại; tập
được gán nhãn từ loại là tập con của tập được tách từ.
3.3 Giới thiệu công cụ Thebeast
“Markov Thebeast” là một công cụ phần mềm phiên bản 0.0.2 được đưa ra bởi
Sebastian Riedel – June 14, 2008. Nó là một phần mềm học quan hệ thống kê trên logic
Markov. Nó cho phép chúng ta thực hiện học quan hệ và dự đoán cấu trúc các vấn đề như
thực thể, dự đoán liên kết, phân tích cú pháp phụ thuộc, nhãn ngữ nghĩa, nén câu, vv bằng
định nghĩa một mô hình đơn giản và cung cấp dữ liệu huấn luyện cho nó. Học tập và suy diễn
đều được xử lý bởi Thebeast. Thebeast sử dụng logic Markov như là ngôn ngữ để mô tả
mạng Markov phức tạp. So với công cụ khác, thebeast sử dụng một kỹ thuật suy diễn MAP.
3.4 Các bƣớc thực hiện bài toán
3.4.1 Dữ liệu và cấu trúc dữ liệu trong Thebeast
3.4.2 Xây dựng dữ liệu huấn luyện
3.5 Đánh giá kết quả thực nghiệm
References
Tiếng Việt
[1] Đào Hữu Hồ (2006), Xác suất thống kê, Nhà xuất bản Đại học Quốc gia Hà Nội.
[2] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003). “Sử dụng bộ
gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt”, Báo cáo hội thảo
ICT.rda.
[3] Nguyễn Hữu Ngự (2001), Lý thuyết đồ thị, Nhà xuất bản Đại học Quốc gia Hà Nội.
[4] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà,
“Trích rút tự động văn phạm LTAG cho tiếng Việt”, Tạp chí Tin học và Điều khiển
học, số 26, tập 2 (2010) tr. 153-171.
[5] Từ Minh Phương, Trí tuệ nhân tạo, Học viện Công nghệ Bưu chính Viễn thông,
(2010).
[6] Nguyễn Nhật Quang, Khai phá dữ liệu, Viện Công nghệ Thông tin và Truyền thông
trường Đại học Bách Khoa Hà Nội (2010).
[7] Đặng Hùng Thắng (2007), Quá trình ngẫu nhiên và tính toán ngẫu nhiên, Nhà xuất
bản Đại học Quốc gia Hà Nội, Hà Nội.
[8] Nguyễn Duy Tiến và Vũ Viết Yên (2001), Lý thuyết xác suất, Nhà xuất bản Giáo
dục, Hà Nội (2001).
[9] Đinh Mạnh Tường, Trí tuệ nhân tạo, Nhà xuất bản Khoa học Kỹ thuật, Hà Nội
(2002).
[10] Lê Đức Vĩnh, Giáo trình xác suất thống kê, Trường Đại học Nông nghiệp I, Hà
Nội (2006).
Tiếng Anh
[11] Hassan Khosravi and Oliver Schulte and Tong Man and Xiaoyuan Xu and Bahareh
Bina (2010), “Structure Learning for Markov Logic Networks with Many
Descriptive Attributes”, in Proceedings of the Twenty-Fourth AAAI Conference on
Artificial Intelligence (AAAI-10), pages. 487-493.
[12] Stanley Kok and Pedro Domingos (2005), “Learning the Structure of Markov
Logic Networks”, in Proceedings of the 22
nd
internatrional conference on Machine
learning, pages 441 – 448.
[13] Pedro Domingos and Daniel Lowd, “Markov logic: An interface layer for
artificial intelligence”. Synthesis Lectures on Artificial Intelligence and Machine
Learning, Morgan & Claypool Publishers, 2009, vol 3, No.1, pages 1-155.
[14] Stanley Kok and Pedro Domingos (2009), “Hypergraph Lifting for Structure
Learning in Markov Logic Networks”, Proceedings of the 26
th
Annual
International Conference on Machine Learning, pages 505 - 512.
[15] Stanley Kok and Pedro Domingos (2010), Learning Markov Logic Networks Using
Structural Motifs, in Proceedings of the 27th International Conference on
Machine Learning, Haifa, Israel.
[16] Matthew Richardson and Pedro Domingos (2006), Markov Logic Networds,
Machine Learning, vol 62, no 1-2, pages 107-136.
[17] Đinh Quang Thắng (2011), Apprentissage Statistique Relationnel: Apprentissage
de Structures de Réseaux de Markov Logiques, The University of Orléans.
[18] Marenglen Biba, Integrating Logic and Probability: Algorithmic Improvements in
Markov Logic Networks, Department of Computer Science University or Bari,
Italy (2009).