Tải bản đầy đủ (.doc) (50 trang)

Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang ngôn ngữ đặc tả với mô hình COKB

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (669.32 KB, 50 trang )

Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
MỤC LỤC
PHẦN 1: TỔNG QUAN VỀ TIẾP NHẬN VÀ 3
BIỄU DIỄN TRI THỨC 3
1. Khảo sát bài toán xây dựng và phát triển các mô hình biểu diễn tri thức cho các hệ giải toán tự động 3
1.1 Giới thiệu 3
1.2. Vấn đề biểu diễn tri thức 4
1.3. Mô hình tri thức các đối tượng tính toán 5
1.4.2 Tổ chức cơ sở tri thức COKB 10
1.5. Bài toán giải toán một C-Object 11
1.6. Bài toán hình học phẳng 12
1.7. Ví dụ 12
2. Vấn đề còn tồn tại trong bài toán 13
3. Vấn đề cần tập trung nghiên cứu và giải quyết 13
PHẦN 2: CƠ SỞ LÝ THUYẾT 14
1. Tìm hiểu về ngôn ngữ tự nhiên 14
1.1. Định nghĩa 14
1.2. Bản chất của ngôn ngữ 15
1.3. Tính hệ thống của ngôn ngữ 15
1.4. Đặc điểm của ngôn ngữ tự nhiên tiếng Việt và Tiếng Anh 17
2. Các phương pháp xử lý ngôn ngữ tự nhiên ứng dụng trong dịch tự động 18
2.1. giới thiệu các ứng dụng của xử lý ngôn ngữ tự nhiên 18
2.2. Một số hệ dịch máy 19
2.3. Các bài toán trong dịch máy 19
PHẦN 3: NGHIÊN CỨU THỰC NGHIỆM 27
1. Mô tả bài toán cần xử lý 27
2. Giải quyết bài toán dịch ngôn ngữ tự nhiên sang ngôn ngữ đặc tả 28
2.1. Quy ước chung cho bài toán 29
2.2. Mô hình đặc tả tổng quát 31
3.2.3. Giải quyết vấn đề chuyển mẫu câu thành dạng tiền đặc tả 34


2.4. Chuyển văn bản từ ngôn ngữ tự nhiên sang dạng ngôn ngữ tiền đặc tả 37
3.2.5. Chuyển từ ngôn ngữ tiền đặc tả sang ngôn ngữ đặc tả bài toán 39
3. Thiết kế và cài đặt bài toán 43
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
1
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
3.1. Thiết kế giao diện 43
3.2. Các chức năng chính 44
3.3. Công nghệ sử dụng 48
3.4. Nhận xét 48
PHẦN 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49
1. Kết luận 49
1.1. Vấn đề đạt được 49
1.2. Vấn đề chưa đạt được 49
2. Hướng phát triển 50
TÀI LIỆU THAM KHẢO 50
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
2
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
PHẦN 1: TỔNG QUAN VỀ TIẾP NHẬN VÀ
BIỄU DIỄN TRI THỨC
1. Khảo sát bài toán xây dựng và phát triển các mô hình biểu diễn tri thức cho
các hệ giải toán tự động
Trong phần này ta sẽ bàn luận các công trình lý thuyết cũng như ứng dụng đã có liên
quan đến mục tiêu của đề tài từ đó nêu ra mục tiêu cụ thể mà đề tài tập trung nghiên cứu
và giải quyết.
1.1 Giới thiệu
Công nghệ tri thức là một lĩnh vực khoa học máy tính nhằm nghiên cứu và xây dựng

các hệ thống ngày càng thông minh hơn và qua đó hỗ trợ tốt hơn cho việc xử lý thông tin
và xử lý tri thức, tính toán điều khiển. Hai vấn đề lớn cần quan tâm trong việc phân tích và
phát triển hệ thống thông minh, đặc biệt là hệ giải toán tự động là:
- Biểu diễn tri thức
- Phương pháp và kỹ thuật tìm kiếm hay suy diễn
Bài toán xây dựng và phát triển các mô hình biểu diễn tri thức cho các hệ giải toán tự
động giữ một vị trí rất quan trọng trong khoa học máy tính cũng như trong lĩnh vực trí tuệ
nhân tạo. Mục tiêu của bài toán này là nhằm xây dựng và phát triển một số mô hình biểu
diễn tri thức và các thuật giải tự động cho các dạng bài toán khác nhau dựa trên tri thức.
Trong bài toán này ta chỉ quan tâm khảo sát đến việc xây dựng và phát triển một số
mô hình biểu diễn tri thức cho hệ giải toán tự động. Các mô hình này được xây dựng và
phát triển dựa trên các phương pháp biểu diễn tri thức đã có với những phát triển nhất định
để tạo ra một số mô hình biểu diễn tri thức mới thể hiện được nhiều dạng kiến thức đa dạng
hơn.
Theo PGS.TS. Đỗ Văn Nhơn đã đưa ra một số mô hình biểu diễn tri thức như: mô
hình mạng suy diễn và tính toán, mô hình một đối tượng tính toán (C-Object), mô hình tri
thức về các C-Object, và mô hình mạng các C-Object. Các mô hình này được sử dụng
trong thiết kế và cài đặt một số chương trình giải tự động, một số lớp bài toán về các tam
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
3
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
giác, các tứ giác, các bài toán hình học phẳng, các bài toán hình học giải tích và một số bài
toán trên các phản ứng hóa học.
Trước hết ta cần phải biết cấu trúc của một hệ giải toán thông minh như thế nào và
mô hình biểu diễn tri thức đóng vai trò ra sao. Cấu trúc cơ bản của một hệ giải toán tự động
dựa trên tri thức bao gồm các thành phần được chỉ ra trên hình 1.1 bên dưới.
Hình 1.1 cấu trúc của một hệ giải toán thông
minh
Có thể thấy rằng cơ sở tri thức giữ vai trò như bộ não của hệ thống trong đó chứa các

kiến thức cần thiết cho việc giải một bài toán. Bộ suy diễn sẽ áp dụng các kiến thức trong
cơ sở tri thức để tìm lời giải cho bài toán.
1.2. Vấn đề biểu diễn tri thức
Biểu diễn tri thức đóng vai trò rất quan trọng trong hệ giải toán thông minh. Theo
tổng kết thì có 4 loại biểu diễn tri thức khác nhau: biểu diễn dựa trên logic hình thức, biểu
diễn tri thức thủ tục, biễu diễn dạng mạng, và biểu diễn cấu trúc. Mỗi phương pháp này chỉ
biểu diễn được một khía cạnh nào đó của tri thức trong khi tri thức cần được biểu diễn da
dạng trong các hệ ứng dụng.
Các phương pháp biểu diễn tri thức nêu trên đều có ưu điểm nhất định trong biểu diễn
từng dạng tri thức. Nhưng tất cả các phương pháp này đều có một nhược điểm chung là chỉ
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
Người sử dụng
Giao
Diện
Hệu chỉnh cơ sở tri
thức
Bộ suy diễn
Hệ thống con giải
thích
Cơ sở tri thức
4
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
biểu diễn một khía cạnh tri thức rất đa dạng và chưa hướng tới biểu diễn một tri thức bao
hàm nhiều dạng thông tin, nhiều dạng sự kiện khác nhau. Các hệ giải toán như: các chương
trình tính toán hình học trong bộ phần mềm Engineering 2000, chương trình StudyWorks,
chương trình Math Express chúng đều có một hạn chế lớn nhất là không cho ta những mô
hình biểu diễn tri thức tốt giúp xây dựng một cơ sở tri thức, bộ suy diễn và các thành phần
khác của hệ thống. Từ đó ông nêu ra các mô hình biểu diễn tri thức như: mô hình một đối
tượng tính toán (C-Object), mô hình tri thức về các C-Object, và mô hình mạng các C-

Object và các ứng dụng của chúng vào các bài toán giải toán một C-Object, các bài toán
hình học phẳng, giải các bài toán hình học giải tích ba chiều, và giải một số các bài toán về
phản ứng hóa học.
Ta sẽ đi vào nghiên cứu cách biểu diễn tri thức của các hệ giải toán này.
1.3. Mô hình tri thức các đối tượng tính toán
Để giúp hệ giải toán tự động tối ưu có thể ứng dụng rộng rãi cho nhiều bài toán phức
tạp, PGS.TS Đỗ Văn Nhơn và GS.TSKH.Hoàng Kiếm đã nêu ra mô hình tri thức gọi là mô
hình tri thức các đối tượng tính toán.
Trước hết ta cần tìm hiểu thế nào là một đối tượng tính toán (C-Object): là một đối
tượng O có cấu trúc bao gồm:
– Một danh sách các thuộc tính Attr(O) ={x1, x2, , xn} và giữa các thuộc tính có liên
hệ qua các sự kiện, các luật suy diễn hay công thức tính toán.
– Các hành vi liên quan đến sự suy diễn và tính toán trên các thuộc tính của đối tượng
như:
o Xác định bao đóng của một tập thuộc tính A.
o Xét tính giải được của một bài toán suy diễn tính toán có dạng A → B, với A và
B là con của Attr(O).
o Thực hiện các tính toán.
o Thực hiện gợi ý bổ sung giả thiết cho bài toán
o Xem xét tính xác định của đối tượng
Một C-Object có thể được mô hình hóa bởi một bộ:
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
5
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
(Attrs, F, Facts, Rules)
Trong đó: Attrs là tập thuộc tính của đối tượng, F là các quan hệ suy diễn tính toán,
Facts là tập hợp các tính chất vốn có của đối tượng, và Rules là tập hợp các luật suy diễn
trên các sự kiện.
Mô hình tri thức các đối tượng tính toán có thể dùng biểu diễn cho một dạng cơ sở tri

thức bao gồm các khái niệm về các đối tượng có cấu trúc cùng với các loại quan hệ và các
công thức tính toán liên quan.
Ta gọi một mô hình tri thức các C-Object, viết tắt là một mô hình COKB
(Computational Objects Knowledge Base), là một hệ thống (C, H, R, Ops, Rules) gồm:
– Một tập hợp C các khái niệm về C-Object: mỗi khái niệm là một lớp C-Object có
cấu trúc bên trong như sau:
o Kiểu đối tượng
o Danh sách các thuộc tính
o Quan hệ trên cấu trúc thiết lập
o Tập hợp các điều kiện ràng buộc trên các thuộc tính
o Tập hợp các tính chất nội tại trên thuộc tính.
o Tập hợp các quan hệ suy diễn - tính toán
o Tập hợp các luật suy diễn có dạng:
{các sự kiện giả thiết} → {các sự kiện kết luận}
– Một tập H các quan hệ phân cấp giữa các loại đối tượng: có thể nói rằng H là một
biểu đồ Hasse khi xem quan hệ phân cấp trên là một quan hệ thứ tự trên C.
– Một tập R các loại quan hệ trên các đối tượng: mối quan hệ được xác định bởi <tên
quan hệ> và các loại đối tượng của quan hệ, và quan hệ có thể có một số tính chất
nhất định.
– Một tập Ops các toán tử: các toán tử cho ta một số phép toán nhất định trên các biến
thực cũng như trên các đối tượng
– Một tập hợp Rules gồm các luật được phân lớp: mỗi luật cho ta một qui tắc suy luận
để đi đến các sự kiện mới từ các sự kiện nào đó, và về mặt cấu trúc mỗi luật r có thể
được mô hình dưới dạng
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
6
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
r : {sk
1

, sk
2
, , sk
n
} → {sk
1
, sk
2
, , sk
m
}
Một số loại sự kiện:
o Sự kiện thông tin về loại của một đối tượng.
o Sự kiện về tính xác định của một đối tượng (các thuộc tính coi như đã biết) hay
của một thuộc tính.
o Sự kiện về xác định của một thuộc tính hay một đối tượng thông qua một biểu
thức hằng.
o Sự kiện về phụ thuộc của một đối tượng hay của một thuộc tính theo những đối
tượng hay các thuộc tính khác thông qua một công thức tính toán
o Sự kiện về một quan hệ trên các đối tượng hay trên các thuộc tính của đối tượng.
1.4 Mô hình cơ sở tri thức COKB
1.4.1 Mô hình
Ta gọi một mô hình tri thức về các đối tượng tính toán, viết tắt là một mô hình COKB
(Computational Objects Knowledge Base), là một hệ thống (C, H, R, Ops, Funcs, Rules)
gồm:
° Một tập hợp C các khái niệm về các đối tượng tính toán:
– Mỗi khái niệm là một loại đối tượng tính toán có cấu trúc và được phân mức theo sự
thiết lập của cấu trúc đối tượng, gồm: biến thực, đối tượng cơ bản, đối tượng mức 1
và đối tượng mức 2.
– Các đối tượng cơ bản có cấu trúc rỗng hoặc có cấu trúc gồm một số thuộc tính thuộc

kiểu thực. Các đối tượng loại nầy có thể làm nền cho sự thiết lập các đối tượng ở
mức cao hơn.
– Các đối tượng tính toán mức 1 có một thuộc tính loại <real> và có thể được thiết lập
từ một danh sách nền các đối tượng cơ bản.
– Các đối tượng tính toán mức 2 có các thuộc tính loại real và các thuộc tính thuộc
loại đối tượng mức 1, và đối tượng có thể được thiết lập trên một danh sách nền các
đối tượng cơ bản.
° Một tập hợp H các quan hệ phân cấp giữa các loại đối tượng
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
7
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
– Trên tập hợp C ta có một quan hệ phân cấp theo đó có thể có một số khái niệm là sự
đặc biệt hóa của các khái niệm khác, chẳng hạn như một tam giác cân cũng là một
tam giác, một hình bình hành cũng là một tứ giác. Có thể nói rằng H là một biểu đồ
Hasse khi xem quan hệ phân cấp trên là một quan hệ thứ tự trên C.
° Một tập hợp R các khái niệm về các loại quan hệ trên các loại đối tượng
– Mỗi quan hệ được xác định bởi <tên quan hệ> và các loại đối tượng của quan hệ, và
quan hệ có thể có một số tính chất trong các tính chất sau đây: tính chất phản xạ,
tính chất đối xứng, tính chất phản xứng và tính chất bắc cầu.
° Một tập hơp Ops các toán tử
– Các toán tử cho ta một số phép toán trên các biến thực cũng như trên các đối tượng,
chẳng hạn các phép toán số học và tính toán trên các đối tượng đoạn và góc tương tự
như đối với các biến thực.
° Một tập hợp Funcs các chức năng:
– bao gồm các chức năng trên Com-Objects. Chức năng cũng là một loại kiến thức
phổ biến trong các lĩnh vực thực tế, đặc biệt là lĩnh vực khoa học tự nhiên như các
lĩnh vực của toán học, lĩnh vực vật lý.
– Trong hình học phân tích, chúng ta có các chức năng: khoảng cách giữa hai điểm,
khoảng cách từ một điểm đến một đường thẳng hoặc một máy bay, dự báo của một

điểm hoặc một dòng lên máy bay, yếu tố quyết định của ma trận vuông cũng là một
chức năng trên ma trận vuông trong đại số tuyến tính.
° Một tập hơp Rules gồm các luật
– Các luật thể hiện các tri thức mang tính phổ quát trên các khái niệm và các loại sự
kiện khác nhau. Mỗi luật cho ta một qui tắc suy luận để đi đến các sự kiện mới từ
các sự kiện nào đó, và về mặt cấu trúc nó gồm 2 thành phần chính là: phần giả thiết
của luật và phần kết luận của luật. Phần giả thiết và phần kết luận đều là các tập hợp
sự kiện trên các đối tượng nhất định.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
8
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Ví dụ:
Phần kiến thức về các tam giác và các tứ giác trong hình học phẳng có thể được biểu
diễn theo mô hình tri thức về các đối tượng tính toán như dưới đây.
° Các khái niệm về các đối tượng gồm :
– Điểm.
– Đoạn thẳng.
– Góc.
– Các loại tam giác và các loại tứ giác.
° Các quan hệ phân cấp giữa các loại đối tượng :
Giữa các khái niệm về các loại tam giác và các loại tứ giác có các quan hệ phân cấp
theo sự đặc biệt hóa của các khái niệm, được thể hiện bởi các biểu đồ sau đây:
° Các khái niệm về các loại quan hệ giữa các loại đối tượng :
Các quan hệ giữa các khái niệm bao gồm các loại quan hệ như:
– Quan hệ thuộc về của 1 điểm đối với một đoạn thẳng.
– Quan hệ trung điểm của một điểm đối với một đoạn thẳng.
– Quan hệ song song giữa 2 đoạn thẳng.
– Quan hệ vuông góc giữa 2 đoạn thẳng.
– Quan hệ bằng nhau giữa 2 tam giác.

° Các toán tử :
Các toán tử số học và các hàm sơ cấp cũng áp dụng đối với các đối tựng loại “đoạn
thẳng” và các đối tượng loại “góc”.
° Các luật :
Các luật thể hiện các định lý hay qui tắc suy diễn trên các loại sự kiện khác nhau.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
9
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Ví dụ: Một tam giác ABC có 2 cạnh AB và AC bằng nhau thì tam giac là tam giác cân
tại A. Với 3 đoạn thẳng a, b và c, nếu a // b và a ⊥ c thì ta có b ⊥ c.
1.4.2 Tổ chức cơ sở tri thức COKB
Cơ sở tri thức COKB có thể được tổ chức bởi một hệ thống tập tin văn bản có cấu
trúc như sau:
– Tập tin “Objects.txt” lưu trữ các định danh cho các loại đối tượng C-Object.
– Tập tin “RELATIONS.txt” lưu trữ thông tin về các loại quan hệ khác nhau
trên các loại C-Object.
– Tập tin “Hierarchy.txt” lưu lại các biễu đồ Hasse thể hiện quan hệ phân cấp
trên các khái niệm.
– Các tập tin với tên tập tin để lưu trữ các cấu trúc của loại đối tượng.
– Tập tin “Operators.txt” lưu trữ các thông tin về các toán tử trên các đối
tượng.
– Tập tin “FACTS.txt” lưu trữ thông tin về các loại sự kiện khác nhau.
– Tập tin “RULES.txt” lưu hệ luật của cơ sở tri thức.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
Cấu trúc đối tượng
Các loại sự kiện
Biểu đồ phân cấp
khái niệm
Các quan

hệ
Các loại đối tượng
Các luật
Các toán tử
.

.

.
Cấu trúc đối tượng
10
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Hình 1.2 : biểu đồ liên hệ giữa các thành
phần trong mô hình COKB
Do cách tổ chức tri thức trong mô hình COKB rõ ràng và rành mạch với đầy đủ các
thông tin cùng với các liên hệ khác nhau rất đa dạng. Và cũng chính vì thế ta phải phân tích
đầu vào rành mạch giống như các thành phần trong mô hình cơ sở tri thức quy định. Do đó
đề bài toán sẽ được quy định với cấu trúc đặc biệt được gọi là ngôn ngữ đặc tả bài toán. Ta
đi vào xem xét ngôn ngữ đặc tả đề bài toán của hai hệ giải toán tự động: giải toán một C-
Object và giải bài toán hình học phẳng.
1.5. Bài toán giải toán một C-Object
Hoạt động của chương trình giải toán C-Object dựa trên cơ sở tri thức các C-Object
được tổ chức theo mô hình COKB
Hình 1.3 sơ đồ hoạt động giải một đề bài toán
Để đưa đầu vào cho chương trình giải toán C-Object dựa trên cơ sở tri thức các C-
Object được tổ chức theo mô hình COKB thì cấu trúc của một đề bài toán có dạng như sau:
begin_hypothesis
parameters: <các tham biến>
objects:

<các đối tượng> : <kiểu đối tượng>
facts:
<các sự kiện>

end_hypothesis
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
Đề
Phân tích đề
Giả thiết: A
Kết luận: B
Giải đề
Tri thức
Lời giải
Dịch vụ tri thức
11
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
begin_goal
<mục tiêu của bài toán>
end_goal
Cấu trúc đề bài toán này sẽ được người dùng phân tích và đưa vào cho hệ và hệ giải
toán sẽ dựa vào một số thủ tục chính phân tích đề bài và tìm lời giải.
1.6. Bài toán hình học phẳng
Đầu vào của hệ này cũng cần một ngôn ngữ đặc tả cho đề bài toán: bài toán được khai
báo theo cấu trúc sau:
begin_hypothesis
parameters: <các tham biến>
objects:
<các đối tượng> : <kiểu đối tượng>
facts:

<các sự kiện>

end_hypothesis
begin_goal
<mục tiêu của bài toán>
end_goal
Công việc đưa ra ngôn ngữ đặc tả cho đề bài toán cũng phải được người sử dụng tự
đưa ra theo mẫu quy định mà chưa có hệ thống nào làm tự động thay cho việc này.
1.7. Ví dụ
Đề bài toán theo ngôn ngữ tự nhiên: Cho tam giác ABC, cân tại A, và cho biết trước
góc đỉnh A bằng α, cạnh đáy a bằng m. Bên ngoài tam giác có hai hình vuông ABDE và
ACFG. Tính độ dài EG.
Đặc tả bài toán:
begin_hypothesis
parameters: A, B, C, D, E, F, G: DIEM;
objects:
O1 : TAM_GIAC[A, B, C];
O2 : TAM_GIAC[A, G, E];
O3 : HINH_VUONG[A, E, D, B];
O4 : HINH_VUONG[A, C, F, G];
facts:
O1.GOC[C, A, B];
O1.DOAN[B, C];
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
12
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
O1.A = Pi – O2.A
end_hypothesis
begin_goal

determine: O2.DOAN[E, G];
end_goal
2. Vấn đề còn tồn tại trong bài toán
Bài toán trên đã đưa ra mô hình biểu diễn tri thức khá tốt phục vụ cho giải bài toán
một cách tự động, tuy nhiên dữ liệu đầu vào của hệ không phải là đề bài toán theo ngôn
ngữ tự nhiên mà là theo một định dạng cho trước, một ngôn ngữ đặc tả bài toán. Vì thế,
vấn đề gặp phải ở bài toán này là khi ta muốn giải một bài toán thì trước hết chúng ta phải
làm một cách thủ công để đưa ra dạng đặc tả của chúng rồi mới đưa vào hệ để giải. Điều
đó làm cho dữ liệu đầu vào của hệ giải toán không được tự nhiên và gây khó khăn cho
người sử dụng.
3. Vấn đề cần tập trung nghiên cứu và giải quyết
Để giải quyết vấn đề đầu vào cho hệ giải toán tự động được tự nhiên hơn, trong đề tài
này em sẽ đi sâu vào nghiên cứu và xây dựng hệ thống “Dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả”. Vấn đề ở đây có nghĩa là: khi ta nhập một đề bài toán bằng ngôn ngữ tự
nhiên thì hệ thống sẽ tự động xử lý để đưa ra dạng ngôn ngữ đặc tả của bài toán để làm
đầu vào cho hệ giải toán thông minh.
Hướng giải quyết vấn đề:
– Dựa trên bộ từ điển toán học có ngữ nghĩa đã được xây dựng và các xử lý trên ngôn
ngữ tự nhiên như tách từ, tách câu, tách đoạn.
– Lấy kết quả từ việc tách câu theo từ loại chuyển thành dạng tiền đặc tả cho từng
mẫu câu.
– Từ dạng tiền đặc tả của từng loại mẫu câu ta đưa chúng về dạng đặc tả chi tiết và
lưu xuống file XML để làm dữ liệu đầu vào của các hệ giải toán thông minh.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
13
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
PHẦN 2: CƠ SỞ LÝ THUYẾT
1. Tìm hiểu về ngôn ngữ tự nhiên
Trước hết ta cần phân biệt thuật ngữ ngôn ngữ tự nhiên ( Natural Language), như

tiếng Việt, tiến Anh, tiếng Pháp, tiếng Nga…với ngôn ngữ nhân tạo (Artificial Language),
như: ngôn ngữ máy tính (C, Pascal, C# ).
Có khoảng 5600 ngôn ngữ trên thế giới, được phân bố không đồng đều , có ngôn ngữ
được hàng trăm triệu người sử dụng như : Quan Thoại, Anh, Tây Ban Nha, Nga, Pháp…
tiếng Việt đứng hàng thứ 20, nhưng chỉ có ngôn ngữ có vài chục người sử dụng (chủ yếu là
ngôn ngữ của các bộ tộc ít người và hiện nay các loại ngôn ngữ này đang dần bị mất đi).
Trong số 5600 ngôn ngữ đó, chỉ có một số ít các ngôn ngữ là có chữ viết.
1.1. Định nghĩa
Cũng như các phạm trù khác, ngôn ngữ cũng vậy có rất nhiều khái niệm, sau đây
chúng ta sẽ tìm hiểu một số khái niệm về ngôn ngữ:
– Ngôn ngữ: là một hệ thống những đơn vị vật chất và những quy tắc hoạt động của
chúng, dùng làm công cụ giao tiếp của con người, được phản ánh trong ý thức cộng
đồng trừu tượng khỏi bất kỳ một tư tưởng, cảm xúc và ước muốn cụ thể nào.
– Ngôn ngữ: là hệ thống tín hiệu quan trọng và độc đáo nhất trong giao tiếp của loài
người; là phương tiện để biểu hiện và phát triển tư duy, bảo lưu và chuyển giao có hiệu
lực nhất các truyền thống lịch sử - văn hoá của một dân tộc.
– Ngôn ngữ là một loại hệ thống tín hiệu bao gồm mặt hình thức và mặt nội dung.
– Ngôn ngữ là âm thanh có ý nghĩa và hệ thống mà loài người dùng để liên lạc, cảm
thông và diễn đạt tư tưởng với nhau.
– Ngôn ngữ tự nhiên là ngôn ngữ sử dụng hằng ngày trong giao tiếp, có thể là tiếng
Anh, Pháp, Nhật, Việt,…Nó có thể lưu trữ lại trên máy tính dưới dạng văn bản, email,
…hoặc thu âm lại giọng nói.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
14
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Tóm lại, ngôn ngữ có thể được hiểu là hệ thống những âm, những từ và những quy
tắc kết hợp chúng mà những người trong cùng một cộng đồng dùng làm phương tiện để
giao tiếp với nhau.
1.2. Bản chất của ngôn ngữ

Ngôn ngữ là một hiện tượng xã hội: không là hiện tượng tự nhiên, cá nhân, sinh vật
(di truyền) và là hiện tượng xã hội đặc biệt.
Ngôn ngữ là phương tiện giao tiếp quan trọng nhất của con người : các phương tiện
khác được diễn giải qua ngôn ngữ.
Ngôn ngữ là hiện tượng trực tiếp của tư tưởng: ngôn ngữ là phương tiện của tư duy.
Quan hệ “ngôn ngữ - tư duy (ý thức) – hiện thực” tương đương với quan hệ “từ - khái niệm
– sự vật”.
Ngôn ngữ là một hệ thống tín hiệu nó có bản chất tín hiệu: giống như tín hiệu có hai
mặt: mặt biểu hiện vật chất (âm, chữ) và mặt được biểu hiện (nghĩa). Hai mặt cái biểu hiện
và cái được biểu hiện của tín hiệu ngôn ngữ có quan hệ gắn bó với nhau như hai mặt của
một tờ giấy, nhưng hai mặt lại có quan hệ võ đoán với nhau, nghĩa là quan hệ mà không
giải thích được lý do, quan hệ chỉ do quy ước, thoái quen của cộng đồng.
Vậy “ngôn ngữ là hệ thống ký hiệu đặc biệt dùng để làm phương tiện giao tiếp quan
trọng nhất của con người”.
1.3. Tính hệ thống của ngôn ngữ
 Các cấp độ trong ngôn ngữ
Theo trình tự nhỏ đến lớn, có thể kể ra các đơn vị của ngôn ngữ là: âm vị, hình vị, từ,
ngữ, câu và văn bản.
– Âm vị: đơn vị âm thanh nhỏ nhất đê cấu tạo và khu biệt về mặt biểu hiện vật chất
(âm thanh) của các đơn vị khác.
– Hình vị: đơn vị nhỏ nhất mang nghĩa được cấu tạo bởi các âm vị.
– Từ: đơn vị mang nghĩa độc lập, được cấu tạo bởi hình vị, có chức năng định danh.
– Ngữ: gồm hai hay nhiều từ có quan hệ ngữ pháp hay ngữ nghĩa với nhau.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
15
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
– Câu: gồm các từ/ngữ có quan hệ ngữ pháp hay ngữ nghĩa với nhau và có chức năng
cơ bản là thông báo.
– Văn bản: hệ thống các câu liên kết với nhau về mặt hình thức, ngữ pháp, ngữ nghĩa

và ngữ dụng.
 Các quan hệ trong ngôn ngữ
Mỗi loại đơn vị kể trên làm thành một tiểu hệ thống trong một hệ thống lớn là hệ
thống ngôn ngữ. Người ta gọi mỗi tiểu hệ thống của ngôn ngữ là một cấp độ. Vì các tiểu hệ
thống có quan hệ chi phối với nhau.
Ví dụ: cấp độ câu, cấp độ từ, cấp độ hình vị, cấp độ âm vị.
Các đơn vị của ngôn ngữ quan hệ với nhau rất phức tạp và theo nhiều kiểu. Có 3 quan
hệ cốt lõi nhất là:
– Quan hệ cấp bậc : đơn vị cấp bậc cao hơn bao giờ cũng bao hàm đơn vị của cấp độ
thấp hơn và ngược lại:
– Ví dụ: Câu sẽ bao hàm từ,
– Quan hệ ngữ đoạn (syntagmatical relation): nối kết các đơn vị ngôn ngữ thành chuỗi
khi ngôn ngữ đi vào hoạt động còn gọi là tính hình tuyến của ngôn ngữ.
– Ví dụ: This book; this book is interesting
– Quan hệ liên tưởng (associative relation): là quan hệ xâu chuỗi ; một yếu tố xuất
hiện với những yếu tố khiếm diện “đứng sau lưng” nó, về nguyên tắc có thể thay thế
cho nó
VD: I read book (newspaper, magazine ) thì các từ newspaper, magazine là tương
đương với book có thể thay thế được.
 Các phương diện trong ngôn ngữ
Ở mỗi cấp độ (hình vị, từ, ngữ, câu), các đơn vị ngôn ngữ thường có các phương diện
sau:
– Hình thái: mối quan hệ giữa đơn vị ngôn ngữ với hình thức cấu tạo của đơn vị đó.
– Ngữ pháp: mối quan hệ giữa đơn vị ngôn ngữ này với các đơn vị ngôn ngữ hữu
quan.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
16
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
– Ngữ nghĩa: mối quan hệ giữa đơn vị ngôn ngữ với nội dung (về mặt ý nghĩa) của

đơn vị đó.
– Ngữ dụng: mối quan hệ giữa đơn vị ngôn ngữ với mục đích sử dụng của đơn vị đó.
1.4. Đặc điểm của ngôn ngữ tự nhiên tiếng Việt và Tiếng Anh
 Đặc điểm của tiếng Anh
Tiếng Anh được xếp vào loại hình biến cách hay còn gọi là loại hình khuất chiết với
những đặc điểm chính như sau :
– Trong hoạt động ngôn ngữ, từ có biến đổi hình thái. Ý nghĩa ngữ pháp nằm ở trong
từ.
– Hiện tượng cấu tạo từ bằng cách ghép thêm phụ tố vào gốc từ rất phổ biến.
– Kết hợp giữa các hình vị là chặt chẽ. Ranh giới giữa các hình vị là khó xác định.
Ranh giới từ được nhận diện bằng khoảng trắng hoặc dấu câu.
 Đặc điểm của tiếng Việt
Tiếng việt được xếp vào loại hình đơn lập hay còn gọi là loại hình phi hình thái,
không biến hình, đơn tiết với những đặc điểm chính như sau :
– Trong hoạt động ngôn ngữ, từ không biến đổi hình thái. Ý nghĩa ngữ pháp nằm ở
ngoài từ.
– Phương thức ngữ pháp chủ yếu là: trật tự từ và từ hư.
– Tồn tại một loại đơn vị đặc biệt, đó là “hình tiết” mà ngữ âm của chúng trùng khít
với âm tiết, và đơn vị đó cũng chính là “hình vị tiếng việt” hay còn gọi “tiếng”.
– Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng như các tiếng biến
hình khác.
Điều này khiến cho việc phân biệt hình thái tiếng việt trở nên khó khăn. Việc nhận
diện ranh giới từ là quan trọng làm tiền đề cho các xử lý tiếp theo sau đó như: kiểm tra lỗi
chính tả, gán nhãn từ loại, thống kê tần suất từ,
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
17
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
– Tồn tại loại từ đặc biệt “từ chỉ loại” hay còn gọi là phó danh từ chỉ loại danh từ đi
kèm với danh từ.

– Về mặt ngữ âm học, các âm tiết tiếng việt đều mang một trong 6 âm điệu : ngang,
sắc, huyền, hỏi, ngã, nặng. Đây là âm vị siêu đoạn tính.
– Tiếng việt còn hiện tượng láy như: lấp lánh, lung linh…
 Tóm tắt các điểm khác biệt giữa tiếng Anh và tiếng Việt.
Đặc điểm Tiếng Việt Tiếng Anh
Đơn vị cơ bản Tiếng Từ
Tiền tố/hậu tố Không có có
Từ loại Không định nghĩa rõ Được định nghĩa rõ
Ranh giới từ
Tổ hợp có nghĩa dựa vào ngữ
cảnh của các tiếng
Dựa vào khoảng trắng hoặc
dấu câu.
Bảng 3.1: sự khác nhau về đặc điểm tiếng Anh và Tiếng Việt
2. Các phương pháp xử lý ngôn ngữ tự nhiên ứng dụng trong dịch tự động
2.1. giới thiệu các ứng dụng của xử lý ngôn ngữ tự nhiên
Nghiên cứu xử lý ngôn ngữ tự nhiên là nhằm mục đích làm cho máy tính có thể tự xử
lý ngôn ngữ tự nhiên, hiểu được ngôn ngữ tự nhiên. Hiện nay kết quả của xử lý ngôn ngữ
tự nhiên được ứng dụng vào rất nhiều bài toán như: dịch tự động (MACHINE
TRANLATION), xử lý văn bản (kiểm tra lỗi chính tả, kiểm lỗi văn phạm, phân loại văn
bản, tóm tắt văn bản ), nhận dạng ký tự (ORC) và các ứng dụng khác như: kiểm tra thông
tin theo ngữ nghĩa, truy vấn cơ sở dữ liệu Trong đó vấn đề dịch máy là vấn đề khó khăn
nhất trong việc ứng dụng của trí tuệ nhân tạo vào thực tế và cũng là vấn đề được tranh
luận và bàn cải nhiều nhất từ trước đến nay. Gần đây vấn đề dịch máy đang được quan tâm
mạnh mẽ và đạt được một số kết quả đáng khích lệ. Kết quả này đạt được là do có được
các nghiên cứu mới về lý thuyết ngôn ngữ học và sự ra đời của thế hệ máy tính mới mạnh
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
18
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB

hơn. Tuy nhiên việc dịch máy cũng chỉ hạn chế đến việc dịch các tài liệu kỹ thuật, từ tiếng
Anh sang tiếng Việt, Anh – Pháp,
2.2. Một số hệ dịch máy
Đến nay trên thế giới có nhiều nhóm/công ty dịch máy khác nhau: nhóm SYSTRAN
của Mỹ, CETA ở Pháp nhưng nổi tiếng và hiệu quả nhất là hệ dịch Anh – Pháp METÉO
chuyên dịch các bản tin dự báo thời tiết ở Canada.
Ở Nam Á, có dự án Nghiên cứu và triển khai hệ dịch đa ngôn ngữ giữa Nhật và các
nước Châu Á. Trong những năm gần đây Nhật là nước đầu tư nhiều nhất vào những hệ
dịch thương mại (trên máy tính cá nhân PC và máy cầm tay PDA) để dịch Nhật – Anh
Tại Việt Nam, cũng có nhiều đề tài nghiên cứu, phần mềm thực hiện việc dịch tự
động từ Anh sang Việt như hệ dịch tài liệu Tin Học EVT của khoa CNTT, trường ĐH
Khoa Học Tự Nhiên – ĐH Quốc Gia TPHCM (GS.Hoàng Kiếm – TS.Đinh Điền), đề tài
dịch máy của khoa CNTT, trường ĐH Bách Khoa – ĐH Quốc Gia TPHCM (PGS.Phan
Thị Tươi), phần mềm dịch Anh – Việt EVTRAN của Viện Công Nghệ vi điện tử (TS.Lê
Khánh Hùng), trang Web dịch Anh – Việt, Pháp – Việt của TS.Đoàn Nguyên Hải Thậm
chí cón có nhóm nghiên cứu kết hợp với bộ nhận dạng và tổng hợp tiếng nói để thực hiện
robot phiên dịch tiếng nói giống như người thật (hệ MOBIL).
Nhìn chung tất cà các hệ dịch trên cũng chỉ dừng ở chổ dịch từ tiếng nước này sang
tiếng nước khác thôi: Anh – Việt, Anh – Pháp, Việt – Anh, nhưng chưa có hệ dịch nào là
dịch tự động nào dịch từ ngôn ngữ tự nhiên sang ngôn ngữ đặc tả của bài toán để làm đầu
vào cho các hệ giải toán tự động mà những đặc tả đó phải do con người làm bằng tay.
Trong đề tài này, em sẽ sử dụng kết quả của xử lý ngôn ngữ tự nhiên ứng dụng vào hệ
dịch tự động, nhưng không phải để xây dựng phần mềm dịch từ tiếng nước này sang tiếng
nước khác mà là xây dựng phần mềm dịch từ ngôn ngữ tự nhiên sang ngôn ngữ đặc tả để
làm đầu vào cho các hệ giải toán tự động.
2.3. Các bài toán trong dịch máy
Để thực hiện việc dịch văn bản ta cần phải giải quyết một số bài toán chính như sau:
– Tiền xử lý: tách câu, tách đoạn
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
19

Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
– Phân tích hình thái ngôn ngữ: tách từ nhận diện tên riêng, từ viết tắt.
– Phân tích từ pháp ngôn ngữ nguồn: gán nhãn từ loại
– Phân tích cú pháp ngôn ngữ nguồn: xây dựng cây cú pháp, quan hệ ngữ pháp.
– Phân tích ngữ nghĩa ngôn ngữ nguồn: gán nhãn ngữ nghĩa cho các từ trong câu.
– Chuyển đổi cây cú pháp từ ngôn ngữ nguồn sang ngôn ngữ đích.
– Hình thành câu của ngôn ngữ đích từ cây cú pháp ngôn ngữ đích.
 Tiền xử lý
Khi đầu vào của hệ thống là một đoạn văn bản ta phải tiến hành xử lý sơ bộ văn bản
đầu vào rồi phân tích chúng thành các đơn vị rõ ràng để cho hệ thống chính dễ xử lý. Bài
toán tiền xử lý sẽ bao gồm các bước sau:
– Trước hết xử lý sơ bộ văn bản đầu vào là làm sạch văn bản bằng cách xóa bỏ những
ký tự, những vùng không cần thiết cho hệ thống.
– Mỗi đoạn văn bản đầu vào sẽ được bộ phận tiền xử lý nhận diện ra các chú thích,
tiêu đề, đoạn văn trong văn bản số thứ tự và gạch đầu dòng.
– Giai đoạn quan trọng và trọng tâm nhất của tiền xử lý là phân tích đoạn văn thành
các câu. Và hơn nữa là tách các câu thành các mệnh đề để giảm tính phức tạp cho hệ
thống cũng như chất lượng và tốc độ xử lý của hệ thống.
 Giai đoạn xử lý sơ bộ đoạn văn bản: đầu tiên đoạn văn bản đầu vào sẽ được
bộ phận tiền xử lý nhận diện các ký tự đặc biệt, các định dạng của văn bản sau đó xóa
bỏ chúng hoặc thay thế bằng ký tự định dạng riêng do hệ thống quy định hoặc lưu lại
thông tin của chúng. Sau đó văn bản gốc sẽ được đưa về dạng theo quy định của hệ
thống. Dựa vào các định dạng riêng của hệ thống thì việc xử lý sẽ dể dàng hơn.
 Giai đoạn tách văn bản thành đoạn: Do sự đa dạng về trình bày và định
dạng văn bản của người dùng đặc biệt là trong văn bản dạng text. Do đó, đây là một vấn
đề khó khăn trong xử lý tách văn bản thành từng đoạn
Đây là một khó khăn rất lớn cho hệ tiền xử lý vì không thể lường trước được hết tất
cả khả năng định dạng của người dùng.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150

20
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Ngoài ra trong các đoạn văn text thông thường cũng có nhiều cách trình bày khác
nhau.
VD: Đoạn văn có thể thụt vào ở dòng đầu tiên, có thể vừa thụt ở dòng đầu tiên và thụt
dòng cả ở các dòng còn lại; đầu văn bản có thể đánh số 1, 2, 3, ; A, B, C, I, II, III,
Cũng do sự đa dạng trong cách trình bày văn bản như vậy, việc phân tích kết cấu của
văn bản để phân tách đoạn gặp nhiều khó khăn và việc đưa ra những thông tin chính xác về
vị trí của câu cho hệ dịch chỉ có thể đạt được một kết quả tương đối.
Để giảm bớt độ phức tạp bài toán gặp phải ta cần đưa ra quy ước trình bày văn bản
như sau: Do sự đa dạng trong cách trình bày văn bản cần dịch, mà cơ sở cùa tiền xử lý lại
dựa trên cách trình bày nên cần phải có một quy cách trình bày chuẩn, để theo đó phân hệ
tiền xử lý có thể phân biệt các thành phần trong văn bản. Quy cách này cũng cần phải được
sử dụng rộng rãi và tương đối linh hoạt để có thể phù hợp với một lượng lớn các văn bản
cần dịch.
Vì vậy, quy cách trình bày được đề nghị dựa trên cách trình bày văn bản tiếng Anh
thông thường, được sử dụng nhiều trong các văn bản hành chính, sách báo, các tài liệu điện
tử Đây chỉ là một cách trình bày phổ biến được sử dụng nhiều nên không thể bao hết tất
cả các cách trình bày khác nhau có thể có. Tuy nhiên cách trình bày này dựa trên những
đặc điểm chung nhất của văn bản tiếng Anh để cố gắng tránh nhầm lẫn khi xử lý các loại
văn bản kiểu khác chuẩn.
Ngoài ra, việc tách đoạn còn chú ý đến dấu hiệu bắt đầu đoạn như: viết hoa đầu
dòng, thụt đầu dòng và dấu hiệu kết thúc đoạn như dấu chấm câu
 Tách câu:
Trong một đoạn văn bản tiếng Anh hay đa số các ngôn ngữ thông dụng khác, thông
thường thì người ta dùng dấu chấm (.), chấm than (!), chấm hỏi (?) và một số sấu khác nữa
để nhận biết kết thúc câu. Ta gọi những dấu này là những dấu báo hiệu kết thúc câu hay
dấu chấm câu.
Tuy nhiên do tính nhập nhằng của dấu báo hiệu kết thúc câu, nên việc xác định ranh

giới câu không còn đơn giản như chúng ta nghĩ.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
21
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
VD: dấu chấm, có thể biểu thị như một dấu chấm thập phân, một cụm từ viết tắt, sự
kết thúc câu văn hoặc ngay cả từ viết tắt nằm ở cuối câu văn. Một dấu chấm hỏi hay dấu
chấm than có thể xuất hiện trong dấu ngoặc đơn, ngoặc kép hay cũng như ở cuối câu.
Để nhận diện dấu chấm câu, người ta có thể dùng các heuristics hoặc các mô hình học
phức tạp hơn: mạng neural,
 Phân tích hình thái ngôn ngữ
 Nhận diện tên riêng: tên riêng chắc chắn là những chuỗi ký tự mà trong đó
ký tự đầu tiên phải được viết hoa, nhưng cũng có những chuỗi ký tự được viết hoa chữ
đầu (đầu câu, viết tắt, nhấn mạnh ) nhưng chúng không phải là tên riêng.
Ví dụ ta xem xét các trường hợp sau: IBM, CNTT, I.T., Hanoi, Thanh, Lan, Reading
is, trong đó tất cả không phải là tên riêng (như CNTT, Information Technology, Reading).
Vì vậy, bài toán nhận diện tên riêng nhằm giải quyết các nhập nhằng nói trên.
Quan phân tích trên ta thấy: trong một văn bản, việc xác định đâu là tên riêng (có thể
gọi là danh từ riêng) không chỉ đơn thuần là dựa vào viết hoa hay không viết hoa, mà phải
dựa vào các thông tin ngữ cảnh chung quanh với nhiều cấp độ (hình thái, ngữ pháp và thậm
chí cả ngữ nghĩa).
Để nhận diện được tên riêng, thì ngoài việc dựa trên hình thái bên ngoài (viết hoa,
đầu dòng, tiêu đề ) ta thường xây dựng một danh sách các tên riêng có thể có (tên người,
địa danh, ) và danh sách này được gọi là gazetteer. (việc xây dựng danh sách như thế đòi
hỏi thời gian và công sức rất lớn). Đến nay, để giải quyết bài toán này, người ta sử dụng
các phương pháp sau:
– Dựa trên các heuristics: chẳng hạn đi với các danh hiệu (title), các từ thường viết
tắt, (như Dr., TS., ) là những từ riêng.
– Dựa trên danh sách các tên riêng (gazetteer): tên riêng có thể là tên của người, của
tổ chức, của địa danh, của sản phẩm, và hiện nay trên thế giới (có trên Internet) người

ta đã xây dựng một danh sách như thế.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
22
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Bài toán nhận diện tên riêng có liên hệ chặt chẻ với bài toán nhận diện dấu chấm câu.
Vì khi ta biết dấu chấm đó là thành phần thuộc tên riêng trong các trường hợp: Dr., TS.,
thì ta suy ra ngay dấu chấm đó không phải là dấu chấm câu.
Việc nhận diện tên riêng rất cần thiết trong việc phân tích văn bản để gán nhãn từ
loại, phân tích cú pháp, phân tích ngữ nghĩa, dịch tự động, tóm tắt văn bản, hiểu văn bản,
 Nhận diện ranh giới từ:
Nhận diện ranh giới từ (word boundary identification) hay còn gọi là phân đoạn từ
(word segmentation) là một công đoạn tiên quyết đối với hầu hết các hệ xử lý ngôn ngữ tự
nhiên. Đối với các ngôn ngữ biến hình (tiếng Anh, tiếng Nga, ) thì ranh giới từ được xác
định chủ yếu bằng khoảng trắng hay dấu câu, còn đối với các ngôn ngữ đơn lập (tiếng Việt,
tiếng Hoa, tiếng Thái, ) thì khoảng trắng không phải là tiêu chí nhận diện từ. Muốn xác
định được ranh giới từ trong các ngôn ngữ này, chúng ta phải dựa vào các thông tin ở mức
cao hơn, nhu hình thái, từ pháp, cú pháp, hoặc ngữ nghĩa hoặc và thậm chí cả ngữ dụng.
Trong bài toán tách từ, chúng ta cần phải nắm vững các tiêu chí ranh giới từ tiếng
Việt được xây dựng dựa trên cơ sở ngôn ngữ học. Thật vậy, ta phải biết: xe đạp, cuốn sách,
vì sao, tìm ra, có phải là từ hay không để từ đó mới đưa cho máy cách nhận diện từ một
cách tự động.
Để nhận diện ranh giới từ, người ta đã sử dụng một số mô hình như: MM (Maximum
Matching: forward / backward hay còn gọi LRMM: Left Right)
Theo phương pháp LRMM, để phân đoạn từ tiếng Việt trong một ngữ/câu , ta đi từ
trái sang phải và chọn từ có nhiều âm nhất mà có mặt trong từ điển, rồi cứ tiếp tục cho từ
kế tiếp cho đến hết câu. Với cách này, ta dễ dàng tách chính xác các ngữ/câu như: “nhân
dân | Việt Nam | anh hùng”; “thành lập | nước | Việt Nam | dân chủ | cộng hòa”, Tuy
nhiên phương pháp này sẽ tách từ sai trong các trường hợp: “học sinh | học sinh | học”,
“một | ông | quan tài | giỏi”,

Có nhiều cách giải quyết vấn đề này, nhưng phương pháp WFST của Richard W.
Sproat được xem là phương pháp hiệu quả nhất và độ chính xác của nó đến 95% khi áp
dụng cho tiếng Hoa. Nhưng khi hệ đưa ra nhiều kết quả có độ chính xác xấp xỉ như nhau
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
23
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
thì việc chọn lời giải tối ưu là một vấn đề khó khăn. Các tác giả Hoàng Kiếm, Đinh Điền đã
đưa ra cách giải quyết cho vấn đề này là kết hợp mạng neural để tối ưu bài toán này.
 Phân tích từ pháp ngôn ngữ nguồn: gán nhãn từ loại
Đề xác định loại từ của từ một cách tự động, chủ yếu ta phải giải quyết trường hợp
nhập nhằng từ loại vì một từ có nhiều từ loại, nhưng trong câu cụ thể nó chỉ có thể có một
từ loại đúng mà thôi. Danh sách các từ loại có thể có của một ngôn ngữ được gọi là bộ
nhãn từ loại (POS-tagset) của ngôn ngữ đó.
Để gán nhãn từ loại người ta có thể sử dụng nhiều phương pháp khác nhau như: mô
hình Markov ẩn (HMM), dựa trên bộ nhớ (memory-based), TBL, mạng Neural, cây quyết
định, trong đó phương pháp TBL tỏ ra rất hiệu quả và được sử dụng phổ biến nhất hiện
nay. Ngoài ra, phương pháp này còn có ưu thế là khả năng sửa sai trên đầu ra của hệ thống
gán nhãn từ loại cho tiếng Anh bằng giải thuật học fast-TBL tên là fTBL-toolkit được công
bố rộng rãi trên thế giới.
 Phân tích cú pháp ngôn ngữ nguồn
 Gán nhãn ranh giới ngữ nghĩa: gán nhãn ranh giới ngữ nghĩa là bài toán
đánh dấu đâu là bắt đầu (dấu [) đâu là kết thúc (dấu ]) của các ngữ nghĩa (phrases), như:
danh ngữ (Noun Phrase), động ngữ (Verb Phrase), dạng đánh dấu này còn gọi là dạng
ngoặc (brackets). Ví dụ: [I]
NP
[enter
V
[a
Det

new
Adj
bank
N
]
NP
]
VP
. Nếu trong một ngữ không
bao hàm một ngữ nào khác thì ngữ đó được gọi là ngữ cơ sở (base phrase). Việc xác
định rang giới ngữ phụ thuộc vào kết quả gán nhãn từ loại trước đó.
 Gán nhãn quan hệ ngữ pháp: gán nhãn quan hệ ngữ pháp (grammatical
relations) là công đoạn được thực hiện sau công đoạn gán nhãn từ loại và gán nhãn ranh
giới ngữ. Ví dụ: trong câu “I enter an old bank”, sau khi qua hai phần gán nhãn trên ta
được: [I]
NP
[enter
V
[an
Det
old
Adj
bank
N
]
NP
]
VP
. Bước tiếp theo là xác định một cách tường
minh các quan hệ ngữ pháp có thể có giữa các thành phần cú pháp đã được xác định,

chẳng hạn quan hệ S-V (Subject-Verb), V-O, như hình sau:
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
24
Nghiên cứu xây dựng hệ thống dịch từ ngôn ngữ tự nhiên sang
ngôn ngữ đặc tả với mô hình COKB
Hình 2.1 các quan hệ ngữ pháp
 Gán nhãn cây cú pháp: gán nhãn cây cú pháp hay còn gọi là phân tích cú
pháp là nhằm phân tích một câu thành những thành phần văn phạm có liên quan với
nhau và được thể hiện thành cây cú pháp. Khi nhập câu, ta phải phân thành các thành
phần như: chủ ngữ, vị ngữ; gán vai trò chủ từ/đối từ của động từ chính, bổ nghĩa,
Ví dụ: nhập câu “I enter the bank”, nó sẽ phân tích thành dạng như sau: [I]
NP
[enter
V
[an
Det
old
Adj
bank
N
]
NP
]
VP
và cây cú pháp tương ứng:
Hình 2.2: cây cú pháp của cây “I enter the
bank”
Để phân tích cú pháp, ta có thể dùng cách tiếp cận dựa trên luật (rule-based) hoặc dựa
trên thống kê từ kho ngữ liệu (corpus):
Với cách tiếp cận dựa trên luật, ta cần có bộ luật văn phạm và giải thuật phân tích cú

pháp.
GVHD: PGS.TS. ĐỖ VĂN NHƠN HVTH: LÊ NHỰT TRƯỜNG – CH1101150
I enter an old bank
S-V
V-O
A-N
D-N
S
NP
P
P
NP
VP
I
V
enter
the bank
25

×