Tải bản đầy đủ (.pdf) (49 trang)

Kiểm tra lỗi tự động từ dữ liệu được gán nhãn trong tiếng Việt: Luận văn ThS. Công nghệ thông tin: 60 48 01 04

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (791.07 KB, 49 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
-------------------------------------------

ĐẶNG HỒNG HẠNH

KIỂM TRA LỖI TỰ ĐỘNG TỪ DỮ LIỆU ĐƢỢC
GÁN NHÃN TRONG TIẾNG VIỆT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. NGUYỄN PHƢƠNG THÁI

Hà Nội - 2014


2

LỜI CẢM ƠN
Lời cảm ơn đầu tiên tôi xin gửi đến đến TS. Nguyễn Phƣơng Thái. Thầy là
ngƣời đƣa ra ý tƣởng chọn đề tài và cung cấp cho tôi phƣơng pháp khi nghiên
cứu một vấn đề mang tính khoa học. Thầy thƣờng xuyên đƣa ra và giúp tôi có
những ý tƣởng khi làm luận văn. Tôi xin chân thành cảm ơn NCS.Nguyễn Hồng
Quân về sự hỗ trợ nhiệt tình của anh trong suốt thời gian qua.
Tôi xin chân thành cảm ơn các thầy trong Khoa Công nghệ thông tin Phòng Đào tạo sau đại học - Nghiên cứu Khoa học, Trƣờng Đại học Công nghệ
- Đại học Quốc gia Hà Nội đã tạo mọi điều kiện tốt nhất để tôi hoàn thành khóa
học này. Đồng thời, tôi cũng xin cảm ơn gia đình, bạn bè, những ngƣời luôn


khuyến khích và giúp đỡ tôi trong mọi hoàn cảnh khó khăn.
Hà Nội, ngày …. tháng … năm 2014
Học viên

Đặng Hồng Hạnh


3

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu độc lập của riêng tôi thực
hiện dƣới sự hƣớng dẫn của TS. Nguyễn Phƣơng Thái, không sao chép ở bất kỳ
một công trình hoặc một luận văn, luận án của các tác giả khác. Các số liệu, kết
quả nêu trong luận văn này là trung thực và chƣa đƣợc công bố trong bất kỳ
công trình nào khác. Các trích dẫn, các số liệu và kết quả tham khảo dùng để so
sánh đều có nguồn trích dẫn rõ ràng.

Hà Nội, ngày … tháng … năm 2014
Tác giả

Đặng Hồng Hạnh


4

MỤC LỤC
LỜI CẢM ƠN ...................................................................................................... 1
LỜI CAM ĐOAN ................................................................................................ 3
MỤC LỤC ............................................................................................................ 4
DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT .......................................................... 6

DANH MỤC HÌNH VẼ ...................................................................................... 7
DANH MỤC BẢNG ............................................................................................ 8
MỞ ĐẦU .............................................................................................................. 9
CHƢƠNG 1: GIỚI THIỆU CHUNG .............................................................. 11
1.1. Khái quát về gán nhãn dữ liệu ............................................................... 11
1.1.1. Khái niệm về Dữ liệu đƣợc gán nhãn ............................................. 11
1.1.2. Giới thiệu bài toán gán nhãn cú pháp ............................................. 12
1.2. Khái quát về lỗi trong gãn nhãn dữ liệu ................................................ 12
1.2.1. Nhập nhằng ở mức từ loại............................................................... 12
1.2.2. Nhập nhằng ở mức phân tích cú pháp ............................................ 13
1.3. Giới thiệu bài toán Kiểm tra lỗi tự động từ dữ liệu đƣợc gán nhãn ...... 15
CHƢƠNG 2: GIỚI THIỆU VỀ TREEBANK ................................................ 17
2.1. Giới thiệu về Penn Treebank ................................................................. 17
2.1.1. Các lƣợc đồ chú giải ....................................................................... 17
2.1.2. Phƣơng pháp ................................................................................... 22
2.2. Treebank tiếng Việt ............................................................................... 24
2.2.1. Các đặc trƣng tiếng Việt ................................................................. 24
2.2.2. Treebank tiếng Việt ........................................................................ 25
2.2.3. Một số hƣớng dẫn gán nhãn cụm trong tiếng Việt ......................... 29
2.2.4. Công cụ gán nhãn............................................................................ 31
2.2.4. Quá trình gán nhãn .......................................................................... 31
CHƢƠNG 3: PHƢƠNG PHÁP PHÁT HIỆN LỖI DICKINSON ............... 34
3.1. Lớp tƣơng đƣơng ................................................................................... 34
3.2. Các bƣớc xác định lớp tƣơng đƣơng ..................................................... 34
3.3. Tính điểm theo vế phải (Whole daughters scoring - WDS).................. 35
3.4. Tính điểm theo Bigram (Bigram scoring- BGS) ................................... 36
3.5. Đánh giá ................................................................................................ 36
CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ....................... 38



5

4.1. Thực nghiệm.......................................................................................... 38
4.1.1. Tiền xử lý ........................................................................................ 38
4.1.2. Trích rút luật từ bộ dữ liệu .............................................................. 38
4.1.3. Thực hiện tính điểm của luật theo phƣơng pháp WDS .................. 39
4.1.4. Thực hiện tính điểm của luật theo phƣơng pháp BGS ................... 39
4.2. Đánh giá kết quả .................................................................................... 39
4.2.1. Một số ví dụ .................................................................................... 40
4.2.2. Đánh giá kết quả ............................................................................. 45
CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TIẾP THEO ........ 46
5.1. Kết luận ................................................................................................. 46
5.2. Hƣớng phát triển tiếp theo của đề tài .................................................... 47
TÀI LIỆU THAM KHẢO ................................................................................ 48


6

DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT

Từ/cụm từ

Từ viết tắt

Từ tiếng Anh

Gán nhãn từ loại

POS


part-of-speech

Treebank tiếng Việt

VTB

Việt Treebank

Luật dị thƣờng

Adhoc

Tính điểm Bigram

BGS

Bigram Scoring

Tính điểm theo toàn vế phải

WDS

Whole daughters scoring


7

DANH MỤC HÌNH VẼ

Hình 1.1


Giới từ bổ nghĩa cho động từ

12

Hình 1.2

Giới từ bổ nghĩa cho danh từ “cô gái”

13

Hình 1.3

Các cây cú pháp của câu “Hôm nay trời mƣa”

14

Hình 2.1

Quá trình gán nhãn từ loại

31

Hình 4.1

Mối quan hệ giữa câu và luật trích rút đƣợc

37



8

DANH MỤC BẢNG
Bảng 2.1

Tập nhãn POS của Penn Treebank

17

Bảng 2.2

Tập nhãn cú pháp của Penn Treebank

19

Bảng 2.3

Nhãn chức năng

20

Bảng 2.4

Bốn nhãn đính kèm

20

Bảng 2.5

Chú giải gián đoạn


21

Bảng 2.6

Nhãn từ loại Việt Treebank

25

Bảng 2.7

Nhãn cụm từ

25

Bảng 2.8

Nhãn mệnh đề

26

Bảng 2.9

Nhãn chức năng cú pháp

26

Bảng 2.10 Nhãn phân loại phụ ngữ của động từ

27


Bảng 2.11 Nhãn thành phần rỗng

28

Bảng 3.1

Áp dụng tính điểm WDS trên Penn Treebank

36

Bảng 3.2

Áp dụng tính điểm BGS trên Penn Treebank

36

Bảng 4.1

Kết quả khi áp dụng tính điểm WDS

38

Bảng 4.2

Kết quả khi áp dụng tính điểm BGS

38

Bảng 4.3


Một số lỗi tìm thấy trong tập ứng viên B3

43

Bảng 4.4

Một số lỗi tìm thấy trong tập ứng viên T2

43

Bảng 4.5

Kết quả đánh giá lỗi

37


9

MỞ ĐẦU
1. ĐẶT VẤN ĐỀ
Phân tích cú pháp là nhiệm vụ quan trọng trong việc xử lý ngôn ngữ tự
nhiên. Trong đó, việc gán nhãn từ loại là trọng tâm hơn cả. Kho dữ liệu tiếng
Anh đƣợc gán nhãn thành công là kho dữ liệu Peen Treebank. Kho dữ liệu này
đã đƣợc gán nhãn nhờ sử dụng ba lƣợc đồ chú thích cơ bản: Gán nhãn từ loại,
Gán nhãn cú pháp, Gán nhãn gián đoạn. Tuy đã sử dụng nhiều hình thức gán
nhãn để đảm bảo độ chính xác cao, nhƣng vẫn không thể tránh việc xảy ra lỗi.
Đối với văn bản tiếng Việt, ngày nay cũng đã có nhiều đề tài nghiên cứu
phục vụ cho việc gán nhãn tiếng Việt. Đề tài phân tích cú pháp tiếng Việt đƣợc

nhiều ngƣời biết đến là Đề tài VLSP của nhóm tác giả Hồ Tú Bảo, Nguyễn
Phƣơng Thái và các đồng nghiệp.
Do việc gán nhãn có thể thực hiện tự động hoặc bằng tay, nên vấn đề hiện
nay các nhà nghiên cứu gặp phải trong phân tích cú pháp đó là lỗi gán nhãn.
Những lỗi này có thể là lỗi do nhận dạng từ vựng sai, lỗi do cú pháp. Kho dữ
liệu cần nghiên cứu là rất lớn nên việc phát hiện lỗi bằng phƣơng pháp thủ công
là rất khó khăn.
2. MỤC ĐÍCH CỦA LUẬN VĂN
Từ các đặc điểm nguyên nhân gây lỗi đa dạng, tập luật trong văn bản là rất
lớn, ta thấy việc phát hiện lỗi bằng phƣơng pháp thủ công là vô cùng khó khăn.
Do đó cần có những phƣơng pháp phát hiện lỗi tự động hỗ trợ con ngƣời tìm ra
lỗi, từ đó tìm cách khắc phục lỗi làm cho tập nhãn ngày càng chính xác.
Theo Dickinson, khi xem xét văn phạm, có những luật không có trong
treebank, chúng là những luật lạ - gọi là những luật adhoc. Những luật này kỳ lạ
vì nó không giống các luật trong treebank nhƣng nó chƣa chắc đã là lỗi, chúng
đƣợc xếp vào cùng lớp khi nghiên cứu. Trong nghiên cứu của mình, Dickinson
đƣa ra hai phƣơng pháp tính điểm cho các luật, từ những điểm số đƣợc tính toán
sẽ xác định những luật có nguy cơ chứa lỗi – là những luật có tần suất xuất hiện
thấp.
Trong luận văn này, tôi xây dựng công cụ phát hiện lỗi tự động dựa trên
việc phát hiện các luật Adhoc áp dụng cho treebank tiếng Việt theo hai phƣơng
pháp tính điểm cho tập luật của Dickinson đề xuất.


10

3. BỐ CỤC CỦA LUẬN VĂN
Luận văn đƣợc trình bày trong 5 chƣơng, có phần mở đầu, phần kết luận,
phần mục lục, phần tài liệu tham khảo. Các nội dung cơ bản của luận văn đƣợc
trình bày theo cấu trúc nhƣ sau:

Chương 1: Giới thiệu chung
Trong chƣơng này, trình bày các khái niệm cơ bản: Dữ liệu đƣợc gán nhãn,
Lỗi trong gán nhãn dữ liệu. Bên cạnh đó, cũng trình bày chi tiết các nguyên
nhân gây ra lỗi trong gán nhãn dữ liệu. Đồng thời, chúng tôi giới thiệu bài toán
Kiểm tra lỗi dữ liệu đƣợc gán nhãn.
Chương 2: Giới thiệu về Treebank
Trong chƣơng 2, giới thiệu cụ thể Penn Treebank và VietTreebank. Với
Penn Treebank, trình bày khái quát khái niệm và phƣơng pháp thực hiện đối với
ba kiểu lƣợc đồ chú giải. Cùng với việc giới thiệu tổng quan về VietTreebank,
chúng tôi cũng trình bày chi tiết bảng nhãn và hƣớng dẫn gán nhãn cho
VietTreebank.
Chương 3: Phương pháp phát hiện lỗi của Dickinson
Đây là chƣơng trình bày cơ sở để giải quyết bài toán đặt ra. Đầu tiên, chúng
tôi trình bày các khái niệm của Dickinson về Lớp tƣơng đƣơng, Lớp tƣơng
đƣơng hẹp. Tiếp theo là hai phƣơng pháp tính điểm cho các luật trong tập dữ
liệu do Dickinson đề xuất lần lƣợt đƣợc trình bày cụ thể.
Chương 4: Kết quả thực nghiệm
Trong chƣơng này, trình bày quá trình chúng tôi thực nghiệm trên bộ dữ
liệu VietTreebank và kết quả thu đƣợc sau khi thực nghiệm.
Chương 5: Kết luận và hướng phát triển
Kết luận đánh giá về phƣơng pháp phát hiện lỗi do Dickinson đề xuất và
nêu hƣớng phát triển tiếp theo của đề tài.


11

CHƢƠNG 1: GIỚI THIỆU CHUNG
1.1. Khái quát về gán nhãn dữ liệu
1.1.1. Khái niệm về Dữ liệu đƣợc gán nhãn
Dữ liệu trong xử lý ngôn ngữ tự nhiên là tập các văn bản của một ngôn ngữ

nào đó đƣợc lấy từ nhiều nguồn khác nhau: báo chí, các tác phẩm, ấn phẩm đƣợc
phát hành, ngoài ra còn có dữ liệu đƣợc xây dựng từ các cuộc hội thoại. Công
việc quan trọng của xử lý ngôn ngữ tự nhiên là gán nhãn cho nội dung dữ liệu
nghiên cứu để tạo ra dữ liệu đƣợc gán nhãn.
Dữ liệu đƣợc gán nhãn là tập các văn bản, trong đó mỗi từ, cụm từ đều
đƣợc chú giải với một nhãn từ loại hoặc nhãn chức năng tƣơng ứng.
Nhãn từ loại là gì? Trong một câu, mỗi từ đóng một vai trò nhất định. Để
thể hiện chức năng ngữ pháp của mỗi từ, ngƣời ta xác định cho mỗi từ đó một
nhãn thuộc một từ loại xác định nhƣ tính từ, danh từ, động từ, đại từ, ...
Ví dụ 1.1: (P Tôi)(V đi)(V học).
Chú thích: P là nhãn đại từ, V là nhãn động từ. Trong ví dụ 1.1, các từ loại
trong câu đều đƣợc gán nhãn từ loại.
Nhãn chức năng là gì? Nhãn chức năng của một thành phần cú pháp cho
biết vai trò của nó trong thành phần cú pháp mức cao hơn. Nhãn chức năng cú
pháp đƣợc gán cho thành phần chính trong câu nhƣ chủ ngữ, vị ngữ, tân ngữ.
Ví dụ 1.2:
(S
(NP-TPC (N-H Bom) (N-H mìn)
(PP-LOC (E-H trong)
(NP (N-H lòng) (N đất))))
(, ,)
(NP-SUB *E*)
(VP (V-H vận động)
(NP-DOB (N-H dân)
(VP (V-H tháo gỡ))))
(... ...))
Trong ví dụ 1.2, các từ trong câu không chỉ đƣợc gán nhãn từ loại mà còn
đƣợc gán nhãn chức năng để thể hiện vai trò của mình trong câu (nhãn chủ ngữ
SUB), trong cụm từ (nhãn trung tâm H, nhãn tân ngữ DOB).
Các nhãn trong ví dụ 1.2 đƣợc chú thích trong phần 2.2.2.2

Trong luận văn này, chúng tôi nghiên cứu trên bộ dữ liệu đã đƣợc gán nhãn
cú pháp.


12

1.1.2. Giới thiệu bài toán gán nhãn cú pháp
Công việc gán nhãn cú pháp cho một văn bản là xác định từ loại và chức
năng cú pháp của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành
các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ.
+ Input: Câu hoặc chuỗi câu văn bản chƣa gán nhãn và tập nhãn.
Ví dụ: Có thể ngƣời yêu Liên sẽ bỏ cô ta.
+ Output: Các cây cú pháp tốt, các từ trong chuỗi đều đƣợc gán nhãn.
Ví dụ 1.3: (S (R Có thể)
(NP-SUB (N-H ngƣời yêu)
(Np Liên))
(VP (R sẽ)
(V-H bỏ)
(NP-DOB
(N-H cô)
(P ta))))
1.2. Khái quát về lỗi trong gãn nhãn dữ liệu
Khi xem xét tập dữ liệu đƣợc gán nhãn, ta gặp phải các loại lỗi phổ biến
sau:
- Lỗi chính tả: đây là những lỗi do đánh máy gây ra. Ví dụ: Eb, F, Vb,…
các lỗi này thƣờng đƣợc phát hiện và sửa dễ dàng.
- Lỗi từ vựng: những lỗi gán nhãn sai loại từ. Ví dụ: gán nhãn động từ cho
danh từ, gán nhãn danh từ cho tính từ, …
- Lỗi cú pháp: là những lỗi sinh ra do việc xác định sai cây cú pháp.
Trong các lỗi trên, ngoài Lỗi chính tả do quá trình đánh máy gây ra, còn lại

xảy ra do các nguyên nhân sau:
1.2.1. Nhập nhằng ở mức từ loại
Nhập nhằng trong việc phân đoạn từ: Việc phân đoạn từ trong tiếng Anh
dựa vào khoảng trống giữa 2 từ, nhƣng trong tiếng Việt, khoảng trống không xác
định sự phân đoạn của từ. Ví dụ trong câu “học sinh học sinh học”, các từ đƣợc
xác định: học_sinh học sinh_học nhƣng cũng có thể đƣợc xác định: học_sinh
học_sinh học [6].
Nhập nhằng do sự đa nghĩa của từ. Bất kỳ ngôn ngữ nào cũng có từ đa
nghĩa, một từ có thể hiểu theo nhiều nghĩa khác nhau dẫn đến nghĩa của câu
khác nhau. Ví dụ “ông cụ đi nhanh quá”, từ “đi” có thể hiểu là bƣớc đi hoặc
cũng có thể hiểu là chết.


13

Nhập nhằng ở ngữ nghĩa khi sử dụng các từ đồng âm: Từ đồng âm là
những từ có cùng âm tiết nhƣng ngữ nghĩa và chức năng khác nhau. Ví dụ “Con
ngựa đá đá con ngựa đá”, từ “đá” thứ nhất và thứ ba có cùng chức năng ngữ
pháp, cùng là danh từ, từ “đá” thứ hai lại là động từ. Sự nhập nhằng này là một
trong những nguyên nhân gây lỗi trong hệ thống gán nhãn tự động từ loại.
1.2.2. Nhập nhằng ở mức phân tích cú pháp
Ở mức phân tích cú pháp, chúng ta xem xét hai loại nhập nhằng chính.
Loại thứ nhất, nhập nhằng do câu có thể hiểu theo nhiều nghĩa khác nhau
dẫn đến các cây cú pháp khác nhau. Ví dụ câu “Tôi mua căn hộ đắt” có thể hiểu:
tôi mua căn hộ với giá đắt hoặc cũng có thể hiểu: tôi mua căn hộ loại đắt tiền.
Với cách hiểu thứ nhất, tính từ “đắt” bổ nghĩa cho “tôi mua”. Cách hiểu thứ 2,
tính từ “đắt” bổ nghĩa cho “căn hộ”.
Một câu có thể hiểu theo nhiều cách khác nhau nên một câu cũng có thể có
nhiều cây cú pháp đúng.
Ví dụ 1.4: Tôi nhìn cô gái với ống nhòm.

Với ví dụ trên, có thể sinh ra hai cây cú pháp đúng:
Câu

Chủ ngữ

Vị ngữ

Danh từ

Cụm động từ

Tôi

Động từ

Danh từ

nhìn

cô gái

Cụm giới từ

Giới từ

với
Hình 1.1: cây (1)- Giới từ bổ nghĩa cho động từ.

Danh từ


ống nhòm


Câu

14

Chủ ngữ

Vị ngữ

Danh từ

Cụm động từ

Tôi

Cụm danh từ

Động từ
Danh từ
nhìn
cô gái

Cụm giới từ

Giới từ

Danh từ


với

ống nhòm

Hình 1.2: cây (2)- Giới từ bổ nghĩa cho danh từ “cô gái”.

Cả hai cây cú pháp trên đều đúng.
Loại nhập nhằng thứ hai, câu chỉ có một nghĩa nhƣng bộ phân tích cú pháp
vẫn tạo ra nhiều cây cú pháp, trong đó chỉ có một cây đúng. Lý do của sự nhập
nhằng này là quá trình phân tích cú pháp đã lƣợc bỏ ngữ nghĩa từ/ngữ mà chỉ
quan tâm đến nhãn cú pháp của chúng, dẫn đến nhiều luật cú pháp có thể áp
dụng để phân tích câu.
Ví dụ 1.5: Hôm nay trời mƣa.
Tập luật cú pháp thuộc văn phạm phi ngữ cảnh (Context Free Grammar –
CFG) cần để phân tích câu này là:
1. <Câu> → <Chủ ngữ><Vị ngữ>
2. <Câu> → <Trạng ngữ><Chủ ngữ><Vị ngữ>
3. <Trạng ngữ> → <Phó từ>
4. <Danh ngữ> → <Danh từ><Danh từ>
5. <Chủ ngữ> → <Danh ngữ>
6. <Chủ ngữ> → <Danh từ>
7. <Vị ngữ> → <Động ngữ>
8. <Vị ngữ> → <Động từ>
9. <Danh từ> → trời
10. <Danh từ> → Hôm nay


15

11. <Phó từ> → Hôm nay

12. <Động từ> → mƣa
Trong từ điển từ, Hôm nay là danh từ hoặc phó từ, trời là danh từ, còn mưa
là động từ. Với tập luật cú pháp trên, các cây cú pháp có thể sinh ra cho câu này
đƣợc biểu diễn ở hình 1.3.
Câu

Câu
Chủ ngữ
Trạng ngữ Chủ ngữ

Vị ngữ

Phó từ

Danh từ

Động từ

Danh từ

Hôm nay

trời

mƣa

Hôm nay

(a)


Vị ngữ

Danh từ

Danh từ

trời

Động từ

mƣa

(b)

Hình 1.3: Các cây cú pháp của câu “Hôm nay trời mƣa”

Trong hai cây trên, cây (a) đúng, cây (b) cần đƣợc loại bỏ hoặc không sinh
ra trong quá trình phân tích cú pháp.
1.3. Giới thiệu bài toán Kiểm tra lỗi tự động từ dữ liệu đƣợc gán nhãn
Bài toán Kiểm tra lỗi tự động dữ liệu đƣợc gán nhãn đƣợc nghiên cứu
nhằm giải quyết việc phát lỗi trên kho dữ liệu lớn, khó có thể làm thủ công.
+ Input: kho dữ liệu đã đƣợc gán nhãn
+ Output: tập ứng viên chứa lỗi.
Đối với ngữ liệu tiếng Anh, nghiên cứu của Gertjan van Noord đã thực
nghiệm trên kho dữ liệu lớn [10]. Năm 2004, Gertjan van Noord thực hiện trên
kho ngữ liệu Twente Nieuws Corpus chứa một bộ sƣu tập lớn các bài bài báo tin
tức từ báo chí Hà Lan khác nhau trong giai đoạn 1994-2001. Ngoài ra, tác giả
cũng sử dụng tất cả các tin tức bài viết từ Volkskrant 1997 (có sẵn trên đĩa CDROM). Ý tƣởng của ông là sau khi đƣa ngữ liệu vào phân tích cú pháp, thực
hiện phân tích cú pháp những câu mà chƣơng trình không phân tích thành công.
Nhóm tác giả so sánh các chuỗi từ và câu trong những câu không phân tích

thành công với chuỗi những từ và câu tƣơng tự trong những câu đã phân tích
thành công. Kết quả mang lại rất hữu ích cho các kho ngữ liệu lớn.


16

Đối với tiếng Việt, nhóm tác giả Nguyễn Phƣơng Thái đã sử dụng entropy
của nhãn để phát hiện lỗi trên Treebank. Phƣơng pháp của nhóm tác giả thực
hiện xếp hạng theo tên và tìm kiếm chùm để từ đó phát hiện ra những trƣờng
hợp lỗi trong từng biến thể n-gram trong dữ liệu Treebank. Kết quả của nghiên
cứu áp dụng cho bộ dữ liệu VietTreebank đã cho thấy entropy của nhãn đƣợc
giảm xuống sau khi lỗi đƣợc sửa. Và bằng hai phƣơng pháp sử dụng xếp hạng
theo tên và tìm kiếm chùm thì các trƣờng hợp đƣợc kiểm tra có thể đƣợc giảm
mạnh. Với việc áp dụng phƣơng pháp phát hiện lỗi dựa trên entropy của nhãn,
việc thử nghiệm trên bộ dữ liệu VietTreebank đã thể hiện phƣơng pháp này hiệu
quả. Đặc biệt, với phƣơng pháp này có thể giảm hai phần ba kích thƣớc ứng viên
lỗi và entropy thực sự giảm sau mỗi lần sửa lỗi. Nhóm tác giả có dự định sử
dụng phƣơng pháp này áp dụng cho các bộ dữ liệu khác trong tƣơng lai.
Trong luận văn này, chúng tôi nghiên cứu một phƣơng pháp Kiểm tra lỗi tự
động dựa trên đề xuất của Dickinson về các luật dị thƣờng Adhoc. Nhƣ chúng ta
đã biết, dữ liệu đƣợc sinh ra bởi tập các quy tắc (luật), các luật này có thể đƣợc
sử dụng một hay nhiều lần trong cùng bộ dữ liệu. Theo Dickinson, các luật ít
xuất hiện là những luật có hai khả năng xảy ra: có thể nó đơn giản chỉ là một
luật đặc biệt, nhƣng cũng có thể nó là một luật lỗi. Vì vậy, tƣ tƣởng của
Dickinson là tập trung khai thác các luật ít xuất hiện (dị thƣờng). Dựa trên tƣ
tƣởng này, cùng với các khái niệm và đề xuất của Dickinson, chúng tôi áp dụng
thực nghiệm trên bộ dữ liệu đã gán nhãn tiếng Việt.
Kết quả sau khi áp dụng thực nghiệm, chúng tôi thu đƣợc tập các ứng viên
lỗi. Những ứng viên này để kiểm tra xem có phải là lỗi thực sự hay không thì
chúng tôi đã tiến hành khảo sát bằng tay. Kết quả đƣợc trình bày cụ thể trong

chƣơng 4 của luận văn.


17

CHƢƠNG 2: GIỚI THIỆU VỀ TREEBANK
2.1. Giới thiệu về Penn Treebank
Dự án Penn Treebank là dự án xây dựng với bộ ngữ liệu tiếng Anh, đƣợc
thực hiện trong bảy năm (1989-1996), xây dựng đƣợc khoảng bảy triệu từ gán
nhãn từ loại (POS), ba triệu từ của văn bản gán nhãn cú pháp, hơn hai triệu từ
của văn bản phân tích cú pháp cho cấu trúc ngữ đối số, và 1,6 triệu từ đƣợc gán
nhãn dựa trên phƣơng pháp phân tích gián đoạn từ văn nói.
2.1.1. Các lƣợc đồ chú giải
2.1.1.1. Gán nhãn từ loại (POS)
Gán nhãn từ loại đƣợc sử dụng gán nhãn cho văn bản trƣớc khi Penn
Treebank đƣợc đƣa vào sử dụng. Lý do đằng sau sự phát triền to lớn với tập
nhãn khổng lồ đó là để tiếp cận “ý tƣởng của sự cung cấp những mã khác nhau
cho tất cả các từ có ngữ pháp khác nhau” (Garside, Leech, and Sampson 1987).
Tập nhãn của Penn Treebank giống với nhiều tập nhãn khác, về cơ bản nó dựa
trên Brown Corpus nhƣng khác ở một số điểm cơ bản:
Đầu tiên, định hƣớng ngẫu nhiên của Penn Treebank và kết quả cùng với
dữ liệu ban đầu khiến nhóm tác giả thay đổi gán nhãn Brown Corpus (Francis,
1964, Francis và Kucera, 1982) bằng cách tinh giản nó xuống đáng kể. Các
chiến lƣợc quan trọng trong việc giảm này là để loại bỏ dƣ thừa từ vựng và cú
pháp. Vì vậy, trong khi nhiều thẻ POS trong tập nhãn Brown Corpus là duy nhất
cho một loại từ vựng thì gán nhãn Penn Treebank phấn đấu để loại bỏ trƣờng
hợp làm dƣ thừa từ vựng. Ví dụ, Brown Corpus phân biệt các hình thức của
động từ đã, đƣợc, và làm từ động từ chính khác bằng thẻ khác nhau. Ngƣợc lại,
khi sự phân biệt giữa các hình thức của những động từ này là từ vựng phục hồi,
nó đƣợc loại bỏ trong Penn Treebank và tất cả các động từ chính nhận đƣợc

cùng một bộ thẻ. Phân biệt phục hồi có sử dụng cấu trúc cú pháp cũng đã đƣợc
loại bỏ. Ví dụ, gán nhãn Penn Treebank không phân biệt đại từ chủ đề từ đại từ
đối tƣợng ngay cả trong trƣờng hợp sự khác biệt là không thể phục hồi từ hình
thức của đại từ, nhƣ với từ “you”, vì sự khác biệt là thu hồi trên cơ sở vị trí của
đại từ trong cây phân tích cú pháp trong phiên bản phân tích của đoạn văn.
Một sự khác biệt thứ hai giữa Penn Treebank và Brown Corpus liên quan
đến tầm quan trọng dành cho bối cảnh cú pháp. Trong Brown Corpus, từ có
khuynh hƣớng đƣợc gắn độc lập với chức năng cú pháp của chúng. Ví dụ, trong
các cụm từ the one, one luôn luôn gắn thẻ nhƣ là CD (số đếm), trong khi trong
số nhiều cụm từ tƣơng ứng với the ones, ones luôn luôn gắn thẻ nhƣ là NNS (số
nhiều danh từ chung), mặc dù chức năng song song của one và ones là cụm danh


18

từ đầu tiên. Ngƣợc lại, khi một trong những vai trò chính của phiên bản đƣợc
gắn thẻ của corpus Penn Treebank là để phục vụ cho một phiên bản ngoặc của
corpus, chúng ta mã hóa chức năng cú pháp của một từ trong thẻ POS của mình
bất cứ khi nào có thể. Vì vậy, one đƣợc gắn thẻ nhƣ NN (số ít danh từ chung)
chứ không phải là CD (số đếm) khi đó là ones đứng đầu của một cụm danh từ.
Thứ ba, vì một mối quan tâm lớn của Treebank là để tránh yêu cầu chú
thích đƣa ra quyết định tùy ý, chúng ta cho phép từ có liên quan đến nhiều hơn
một thẻ POS. Nhiều gắn thẻ nhƣ vậy chỉ có thể là một phần của lời phát biểu
đơn giản là không thể đƣợc quyết định hoặc là chú thích không chắc chắn mà
các thẻ thay thế là đúng.
Các gán nhãn Penn Treebank đƣợc đƣa ra trong Bảng 2.1. Nó bao gồm 36
thẻ POS và 12 thẻ khác (đối với dấu chấm câu và biểu tƣợng tiền tệ). Mô tả chi
tiết các hƣớng dẫn về việc sử dụng các gán nhãn có thể đƣợc tìm thấy ở
Santorini (1990) hoặc trên trang web Penn Treebank
Bảng 2.1: Tập nhãn POS của Penn Treebank

CC
Coordinating conj.
TO
infinitival to
CD
Cardinal number
UH
Interjection
DT
Determiner
VB
Verb, base form
EX
Existential there
VBD
Verb, past tense
FW
Foreign word
VBG
Verb, gerund/present pple
IN
Preposition
VBN
Verb, past participle
JJ
Adjective
VBP
Verb, non-3rd ps. sg.
present
JJR

Adjective, comparative
VBZ
Verb, 3rd ps. sg. present
JJS
Adjective, superlative
WDT Wh-determiner
LS
List item marker
WP
Wh-pronoun
MD
Modal
WP$
Possessive wh-pronoun
NN
Noun, singular or mass
WRB Wh-adverb
NNS Noun, plural
#
Pound sign
NNP Proper noun, singular
$
Dollar sign
NNPS Proper noun, plural
Sentence-final
.
punctuation
PDT Predeterminer
,
Comma

POS Possessive ending
:
Colon, semi-colon
PRP
Personal pronoun
(
Left bracket character
PP$
Possessive pronoun
)
Right bracket character
RB
Adverb
Straight double quote
RBR Adverb, comparative

Left open single quote
RBS Adverb, superlative

Left open double quote
RP
Particle

Right close single quote
SYM Symbol

Right close double quote


19


2.1.1.2. Gán nhãn cú pháp
Phân tích khung: Trong suốt quá trình thực hiện Penn Treebank, hai kiểu
gán nhãn cú pháp đƣợc thực hiện. Trong giai đoạn đầu của dự án, chú giải đƣợc
sử dụng nhƣ một khung dấu ngoặc văn phạm phi ngữ cảnh với sự giới hạn các
loại rỗng và không có sự chỉ dẫn của các cấu trúc liền kề và độc lập.
Ví dụ 2.1:
( (S (NP Martin Marietta Corp.)
was
(VP given
(NP a
$ 29.9
million Air Force contract
(PP for
(NP low-altitude navigation
and
targeting equipment)))))
.)
Tập nhãn cú pháp và những phần tử kết thúc đƣợc sử dụng trong dấu ngoặc
đƣợc mô tả trong bảng 2.2. Thông tin chi tiết gán nhãn cú pháp và hƣớng dẫn sử
dụng.
Theo đó, liên quan đến bộ dữ liệu đầu tiên của Penn Treebank, nhiều ngƣời
sử dụng đã chỉ ra rằng họ mong muốn những dạng chú thích phong phú hơn kết
quả của pha đầu tiên của dự án cũng nhƣ tính thống nhất của các cụm tiền đề.
Một vài ngƣời cũng thể hiện sự quan tâm đến một dạng khung yếu của sự chú
giải, mở rộng cho việc phân tích bản chất văn phạm phi ngữ cảnh của treebank
để chỉ ra những cấu trúc không liền kề và phần phụ thuộc. Điều quan trọng nhất
là có một sự cảm nhận rằng Treebank có thể đƣợc sử dụng nhiều hơn nếu nó
cung cấp nhiều hơn các dạng cấu trúc đối số vị ngữ. Ở mức mong muốn của
dạng thể hiện sẽ làm rõ hơn ít nhất ở chủ ngữ logic và tân ngữ logic của động từ

và chỉ ra ít nhất trong các trƣờng hợp chính xác, các thành phần ngữ nghĩa học
liên quan với vị ngữ nhƣ thế nào? Vì vậy trong giai đoạn thứ hai của dự án, một
kiểu chú giải mới - Treebank II đã đƣợc giới thiệu.


20

Bảng 2.2: Tập nhãn chức năng cú pháp của Penn Treebank
ADJP
Adjective phrase
ADVP
Adverb phrase
NP
Noun phrase
PP
Prepositional phrase
S
Simple declarative clause
SBAR
Subordinate clause
SBARQ
Direct question introduced by wh – element
SINV
Declartavie sentence with subject- auxinversion
SQ
Yes/no questions and subconstituent of SBARQ
excluding wh-element
VP
Verb phrase
WHADVP Wh – adverb phrase

WHNP
Wh – noun phrase
WHPP
Wh - prepositional phrase
X
Constituent of unknown or uncertain category
*
“understood” subject of infinitive or imperative
0
Zezo variant of that in subordinate clause
T
Trace of wh-Contituent
Cấu trúc đối số vị ngữ: Đây là kiểu chú giải mới cung cấp ba loại thông
tin không có trong pha đầu tiên của dự án.
1. Thể hiện rõ ràng sự khác biệt giữa đối số động từ và bổ ngữ.
2. Một cơ chế chú giải cho phép cấu trúc của những thành phần không liên
tục trở nên dễ khôi phục.
3. Một tập các phần tử rỗng nằm trong các cấu trúc cơ bản nhƣ câu hỏi bắt
đầu wh, bị động, và các đối tƣợng khởi tạo cấu trúc, tổ hợp chỉ dẫn với các thành
phần ngôn ngữ thích đáng.
Mục tiêu của giải pháp vị ngữ chuẩn đƣợc khai triển để gán nhãn cho mỗi đối số
của vị ngữ với một nhãn ngữ nghĩa thích hợp để xác định vai trò của nó đối với
vị ngữ (chủ ngữ, bổ ngữ, vv), cũng nhƣ phân biệt các vị ngữ chuẩn, và bổ ngữ
của vị ngữ. Thật không may, trong khi nó rất dễ dàng để phân biệt cặp đối và bổ
ngữ trong các trƣờng hợp đơn giản, nó cũng tỏ ra là rất khó khăn để phân biệt
hai loại này cho nhiều động từ trong các ngữ cảnh thực tế. Vì vậy, nhóm xây
dựng Treebank quyết định đặt tên một tập nhỏ các vai trò khác biệt rõ ràng, xây
dựng dựa trên sự phân biệt cú pháp chỉ khi trực giác về ngữ nghĩa là rõ ràng.
Trong phƣơng pháp Treebank II, mỗi thành phần có ít nhất một nhãn hiệu nhƣng
có đến bốn thẻ, bao gồm các chỉ số số, lấy từ bộ các thẻ chức năng đƣợc đƣa ra



21

trong Bảng 2.3.
Bảng 2.3: Nhãn chức năng

Loại văn bản:
HLN
headlines and datelines
LST
list markers
TTL
titles
Chức năng ngữ pháp:
CLF
true clefts
NOM
non NPs that function as NPs
ADV
clausal and NP adverbials
LGS
logical subjects in passives
PRD
non VP predicates
SBJ
surface subject
TPC
topicalized and fronted constituents
CLR

closely related -see text
Vai trò phụ ngữ
VOC
vocatives
DIR
direction & trajectory
LOC
location
MNR
manner
PRP
purpose and reason
TMP
temporal phrases
Penn Treebank II cũng thêm vào các phần tử rỗng, các phần tử CLR cùng với
việc thêm vào bốn giả đoạn đính kèm đƣợc trình bày trong bảng 2.4
Bảng 2.4: Bốn nhãn đính kèm
*ICH*
Interpret Constituent Here
*PPA*
Permarent Predictable Ambiguity
*RNR* Right Node Raising
*EXP*
Expletive
2.1.1.3. Chú giải gián đoạn
Các công việc cuối cùng của dự án Treebank (1995-1996) là sản xuất
một phiên bản gán nhãn và phân tích cú pháp của các cụm từ nhận đƣợc từ các
cuộc điện đàm thông qua tổng đài. Đặc điểm của các cuộc hội thoại này cùng
đặc điểm chung của văn nói: nói tắt, câu không hoàn chỉnh, ngắt quãng, nhấn



22

mạnh… Vì thế khi gán nhãn những cụm từ thu đƣợc, ngƣời ta đã sử dụng kiểu
chú giải gián đoạn.
Hệ thống chú thích gián đoạn (dựa trên Shriberg (1994)) đƣa ra cách nói
hoàn thiện, rõ ràng từ những câu không đầy đủ, gán nhãn một loạt các câu
không hoàn thiện dựa vào việc lọc và chú thích từ đầu. Bảng 2.5 giải thích các
chú giải gián đoạn.
Bảng 2.5: Chú giải gián đoạn
F
fillers (uh, um, huh, oh, etc.)
E
explicit editing term (I mean, sorry, etc.)
D
discourse marker (you know, well, etc.)
C
coordinating conjunction (and, and then, but, etc.)
A
aside
Restarts
[RM +RR]
restart with repair (see text)
[RM++]
restart without repair
2.1.2. Phƣơng pháp
Ba kiểu chú giải của Treebank: gán nhãn từ loại (POS), Gán nhãn cú pháp
và Chú giải gián đoạn, tất cả đều đƣợc thực hiện với hai bƣớc: chú giải tự động
và hiệu chỉnh thủ công. Việc hiệu chỉnh lại từng loại chú giải đƣợc thực hiện với
sự trợ giúp của một gói mouse-base đƣợc viết bằng GNU Emacs Lisp nhúng

trong trình soạn thảo GNU Emacs (Lewis và Laliberte 1990). Gán nhãn POS và
chú giải gián đoạn cung cấp đầu vào cho Dấu ngoặc cú pháp, nhƣng hai công
việc đầu tiên độc lập với nhau và có thể đƣợc thực hiện song song, với hai dòng
kết quả sau đó có thể tự động sát nhập.
2.1.2.1. Gán nhãn từ loại (POS)
Trong những năm đầu của dự án Penn Treebank, nhãn POS khởi tạo đƣợc
cung cấp bởi PARTS (Church 1988) nhờ thuật toán ngẫu nhiên xây dựng tại
phòng thí nghiệm AT&T Bell. PARTS thực hiện sử đổi các thẻ Brown Corpus
gán nhãn cho POS với tỉ lệ lỗi 3-5%. Kết quả của PARTS tự động đƣợc gán
nhãn và nhãn đƣợc gán bởi PARTS đƣợc tự động ánh xạ lên tập nhãn của Penn
Treebank có tỷ lệ lỗi là 4%. Sau đó, việc gán nhãn POS tự động đƣợc cung cấp
bởi một chuỗi các ngẫu nhiên và quy tắc gán nhãn định hƣớng phát triển trên cơ
sở kinh nghiệm có trƣớc của nhóm tác giả, việc này làm giảm tỷ lệ lỗi xuống
còn 2-6%. Cuối cùng, khi thực hiện gán nhãn cho các cuộc điện đàm tách từ
tổng đài, nhóm tác giả thực hiện gán nhãn theo Brill (Brill 1993).
Kết quả của giai đoạn trên sẽ đƣợc chuyển cho bộ phận chú giải để kiểm tra
và sửa lỗi. Giao diện của phần mềm cho phép trỏ chuột vào những nhãn chƣa


23

chính xác, cho phép sửa nhãn mới. Phần mềm này cho phép tự động kiểm tra
các nhãn chính xác, nếu chính xác thì gán thêm dấu hoa thị, còn lại các thẻ chƣa
chính xác đƣợc phát hiện và cho phép sửa lại.
Ta xem xét ví 2.2:
Kết quả của quá trình gán nhãn tự động
Battle-tested/NNP Japanese/NNP industrial/JJ managers/NNS here/RB
always/RB buck/VB up/IN nervous/JJ newcomers/NNS with/IN the/DT tale/NN
of/IN the/DT first/JJ of/IN their/PP$ countrymen/NNS to/TO visit/VB
Mexico/NNP ,/, a/DT boatload/NN of/IN samurai/NNS warriors/NNS

blown/VBN ashore/RB 375/CD years/NNS ago/RB ./.
Chính xác hóa bằng tay trên bộ chú giải
Battle-tested/NNP*/JJ Japanese/NNP*/JJ industrial/JJ managers/NNS
here/RB always/RB buck/VB*/VBP up/IN*/RP nervous/JJ newcomers/NNS
with/IN the/DT tale/NN of/IN the/DT first/JJ of/IN their/PP$ countrymen/NNS
to/TO visit/VB Mexico/NNP ,/, a/DT boatload/NN of/IN samurai/NNS*/FW
warriors/NNS blown/VBN ashore/RB 375/CD years/NNS ago/RB ./.
Kết quả cuối cùng
Battle-tested/JJ Japanese/JJ industrial/JJ managers/NNS here/RB
always/RB buck/VBP up/RP nervous/JJ newcomers/NNS with/IN the/DT
tale/NN of/IN the/DT first/JJ of/IN their/PP$ countrymen/NNS to/TO visit/VB
Mexico/NNP ,/, a/DT boatload/NN of/IN samurai/FW warriors/NNS
blown/VBN ashore/RB 375/CD years/NNS ago/RB ./.
2.1.2.2. Gán nhãn cú pháp
Các phƣơng pháp đóng ngoặc ngữ liệu là hoàn toàn song song giữa hai
việc: kiểm tra thủ công và xử lý tự động. Một công cụ phân tích cú pháp
Fidditch đã đƣợc phát triển đầu tiên bởi Donald Hindle tại Đại học Pennsylvania
và sau đó tại AT & T Bell Labs (Hindle 1988, Hindle 1989). Công cụ này sử
dụng để cung cấp một phân tích ban đầu của dữ liệu. Bộ phận chú giải sẽ thực
hiện chỉnh sửa thủ công kết quả bằng giao diện mouse-base nhúng trong GNU
Emacs Lisp. Fidditch có ba đặc tính mà làm cho nó lý tƣởng để đóng vai trò nhƣ
một tiền xử lý đƣợc điều chỉnh tay:
- Nó luôn luôn cung cấp một cách chính xác việc phân tích cho bất kỳ câu
nào, để bộ phận chú giải không cần phải tìm kiếm thông qua nhiều phân tích.
- Nó không bao giờ gắn bất kỳ thành phần có vai trò trong cấu trúc lớn hơn
mà nó có thể không xác định một cách chắc chắn. Trong trƣờng hợp không chắc
chắn, Fidditch nhóm đầu vào thành một chuỗi cây, chỉ cung cấp một cấu trúc
cho một phần với mỗi câu.



24

- Nó có phạm vi ngữ pháp khá tốt, do đó các khối ngữ pháp mà nó xây
dựng thƣờng khá chính xác.
Tuy nhiên, kết quả của Fidditch khá phức tạp với từ X-bar và ở mức các
cụm từ đại diện. Do đó, nó đã đƣợc trình bày với một phân tích của pháp đơn
giản chỉ chứa các nhãn cụm từ đã đƣợc chính xác hóa.
Ví dụ 2.3:
((S(NP-SBJ-2 Her eyes)
(VP were
(VP glazed
(NP*-2)
(SBAR-ADV as if
(S
(NP-SBJ she)
(VP didn‟t
(VP
(VP hear
(NP *RNR*-1))
or
(VP
(ADVP even)
see
(NP *RNR*-1))
(NP-1 him)))))))
.))
2.2. Treebank tiếng Việt
2.2.1. Các đặc trƣng tiếng Việt
Các tài liệu về Penn Treebank đã đƣợc nghiên cứu và ứng dụng thành công
trên ngôn ngữ tiếng Anh. Tuy nhiên, tiếng Việt là một ngôn ngữ có khá nhiều

điểm khác biệt với tiếng Anh. Do các điểm khác biệt đó, nên cần có sự nghiên
cứu riêng dựa trên nền tảng của Penn Treebank để ứng dụng hiệu quả việc phân
tích cú pháp cho tiếng Việt. Trong phần này, luận văn trình bày một số điểm đặc
trƣng thu đƣợc khi tìm hiểu về tiếng Việt:
Đầu tiên, tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết)
đƣợc phát âm tách rời nhau và thể hiện bằng một chữ viết. Đặc điểm này thể
hiện ở tất cả các mặt từ vựng, ngữ pháp.
Thứ hai, đặc điểm từ vựng: trong tiếng Việt, mỗi tiếng là một yếu tố có
nghĩa và đƣợc viết bằng một chữ, các chữ đƣợc phân tách nhau bởi khoảng


25

trống. Từ vựng trong tiếng Việt có thể gồm một tiếng hoặc ghép bởi hai hay
nhiều tiếng. Nhƣ vậy, các từ trong tiếng Việt không phân cách nhau bởi một
khoảng trống nhƣ trong tiếng Anh hay tiếng Trung. Do đó việc xác định từ trong
tiếng Việt khá phức tạp và là nguyên nhân trong sự nhập nhằng phân đoạn từ
loại.
Thứ ba, đặc điểm ngữ pháp: Từ của tiếng Việt không biến đổi hình thái, do
đó động từ không đƣợc chia theo ngôi và đƣợc viết nhƣ danh từ. Đặc điểm này
sẽ chi phối các điểm ngữ pháp khác. Khi kết hợp thành các kết cấu nhƣ ngữ,
câu, tiếng Việt rất coi trọng phƣơng thức trật tự từ, khi thứ tự bị thay đổi thì
nghĩa của câu cũng bị thay đổi theo. Ví dụ: “Nam đang cƣời” khác với “đang
cƣời Nam”.
Thêm hƣ từ hoặc thay đổi hƣ từ thì cấu trúc ngữ pháp và cả ý nghĩa ngữ
pháp của câu cũng thay đổi. Vì vậy, hƣ từ có vai trò đặc biệt quan trọng trong
tiếng Việt, nhất là về mặt ngữ pháp.
2.2.2. Treebank tiếng Việt
2.2.2.1. Giới thiệu VietTreebank
Cũng giống nhƣ Penn Treebank, VietTreebank là kho ngữ liệu dành cho

Tiếng Việt, bao gồm các câu đƣợc biểu diễn dƣới dạng cấu trúc cú pháp (cây cú
pháp). VTB đƣợc xây dựng nhằm đáp ứng những yêu cầu về dữ liệu đối với
những nghiên cứu trong xử lý ngôn ngữ tự nhiên. Ví dụ đƣợc dùng để xây dựng
các hệ phân tích cú pháp chất lƣợng cao. Các hệ phân tích cú pháp này lại đƣợc
sử dụng trong các ứng dụng quan trọng nhƣ truy vấn thông tin, dịch máy, v.v…
Dự án xây dựng kho dữ liệu cho VTB nằm trong đề tài cấp nhà nƣớc VLSP
(2007-2009). Mục tiêu dự án là xây dựng 10000 câu tiếng việt dƣới dạng cây cú
pháp. Theo tài liệu của nhóm xây dựng của VTB [3], phƣơng hƣớng tiếp cận để
xây dựng cây cú pháp tƣơng tự với phƣơng pháp của nhóm xây dựng Penn
Treebank (chia làm hai quá trình gán nhãn tự động và chỉnh sửa thủ công).
2.2.2.2. Danh sách từ loại và các nhãn cú pháp
Trong quá trình xây dựng cây cú pháp, nhóm xây dựng VietTreebank tiếp
cận theo quan điểm phân từ loại (quan điểm đối lập là không phân từ loại, phủ
nhận sự tồn tại của từ loại – Lê Quang Trinh, Nguyễn Hiển Lê, Hồ Hữu Tùng).
Thông qua nhãn từ loại ta có thể biết đƣợc một số thông tin nhƣ: từ loại (động
từ, danh từ…), chức năng của ngữ pháp của từ (chủ ngữ, vị ngữ, …)
Trong phần này chúng tôi liệt kê toàn bộ nhãn từ loại đã đƣợc hƣớng dẫn
gán nhãn trong tài liệu của nhóm tác giả Nguyễn Phƣơng Thái.


×