Tải bản đầy đủ (.ppt) (32 trang)

slide bài giảng xử lý ngôn ngữ tự nhiên - đại học bách khoa hà nội chương 2 tách từ tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (607.96 KB, 32 trang )

Giảng viên:
Hoàng Anh Việt

2011
Nội dung chương 02
17/10/14
2

Tiếng Việt – Đặc điểm và tính chất

Các phương pháp tách từ

Từ điển

Aaaaaa

Demo
Yêu cầu

Sinh viên cần có kiến thức:

Lý thuyết tính toán / Chương trình dịch

Xác suất thống kê
17/10/14
3
Tiếng Việt

Các nghiên cứu về Tiếng Việt:

Nước ngoài:



Thompson (1965)

Shum (1965)

Beatty (1990)

Việt Nam:

Nguyễn Tài Cẩn (1975)

Hồ Lê (1992)

Nguyễn Kim Thản (1997)

Diệp Quang Ban (1999)
17/10/14
4
Thompson (1965)
17/10/14
5
Cấu trúc cụm danh từ tiếng Việt của Thompson
Shum (1965)
17/10/14
6
Nom  NP Mod
NP  Nu N Dem
NP  Pron
NP  Npr
Nu  PL CL

Nu  Q CL
Nu  Num CL
N  N’ N”
Trong đó:
Nom : Chủ ngữ
Mod :bổ ngữ
Nu : Số đếm
Dem : Chỉ định từ
Pron : Đại từ
Npr : Danh từ riêng
N: Danh từ
N’: Danh từ phân loại
PL : số nhiều
Q: Lượng tử
Cấu trúc cụm danh từ tiếng Việt của Shum
Beatty (1990)
17/10/14
7
Cấu trúc cụm danh từ tiếng Việt của Beatty
Nguyễn Tài Cẩn (1975)
Phần đầu Phần trung
tâm
 Phần sau
17/10/14
8
Ví dụ:
Ba người này
Cả hai tỉnh nhỏ ấy
Tất cả những cái chủ trương chính xác đó
Trong thực tế danh ngữ còn có thể xuất hiện cả dưới dạng những dạng chỉ định có

hai phần :
Nguyễn Tài Cẩn (1975)

Phần trung tâm: cấu tạo bởi 2 thành phần chính: T1T2

Có đầy đủ : T1T2, ví dụ : con mèo (này)

Dạng thiếu T1 : -T2, ví dụ : - mèo (này)

Dạng thiếu T2: T1-, ví dụ : con – (này)

Phần đầu của danh ngữ có tất cả 3 loại thành tố
phụ (3 loại định tố) :

Định tố “cái”, ví dụ : cái cậu học sinh ấy

Định tố chỉ số lượng, ví dụ : mấy cái cậu học sinh ấy

Định tố chỉ ý nghĩa toàn bộ, ví dụ : tất cả mấy cái cậu
học sinh ấy
17/10/14
9
Hồ Lê (1992)
Số lượng
từ
D1 D2 Sự kiện từ
(trừ đại từ chỉ định)
Đại từ chỉ
định
17/10/14

10
Trong đó:
D1: gồm những danh từ như : con, cái, …; ông, bà…; loại, thứ, hạng,
…; phía, bên, nơi, chốn, buổi, hôm, ngày, giờ, khi, lúc….
D2: gồm những danh từ còn lại.
Ví dụ:
- Con mèo đen lớn rồi
- Cô y tá
- Phía ngoài sân
Diệp Quang Ban (1999)
Phần phụ trước Phần phụ trung
tâm
Phần phụ sau
-3 -2 -1 0 1 2
17/10/14
11
tất
cả
những con mèo đen ấy
-3 -2 -1 0 1 2
Ví dụ:
- vị trí 0 là vị trí của danh từ chính
- vị trí -1 là vị trí của từ chỉ xuất cái
- vị trí -2 là vị trí của từ chỉ số lượng, ví dụ: một, hai,…; vài, ba, dăm, dăm
ba ; mỗi, từng, mọi…; những, các, một…; mấy
- vị trí -3 là vị trí của từ chỉ tổng lượng, ví dụ : hết thảy, tất cả, cả…
-
vị trí 1 là vị trí của từ nêu đặc trưng miêu tả có thể gặp nhiều loại từ khác
nhau như : danh từ, động từ, tính từ, số từ, đại từ và thời vị từ, ví dụ: phòng
tạp chí, phòng đọc, phòng hẹp, phòng chúng tôi….

-
vị trí 2 là vị trí của từ chỉ định, ví dụ: cái máy này, quả táo kia…
Các hướng tiếp cận

Tiếp cận dựa trên từ điển

Tiếp cận theo phương pháp thống kê

Tiếp cận theo phép lai
17/10/14
12
Các phương pháp

So khớp từ dài nhất (Longest Matching)

Học dựa trên sự cải biến (Transformation-based Learning – TBL)

Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite State
Transducer – WFST)

Độ hỗn loạn cực đại (Maximum Entropy – ME)

Học máy sử dụng mô hình Markov ẩn (Hidden Markov Models-
HMM)

Học máy sử dụng vectơ hỗ trợ (Support Vector Machines)


17/10/14
13

Từ điển tiếng Việt

Theo thống kê trên trang Vdict.com
17/10/14
14
Tần suất xuất hiện độ dài từ trong từ điển
Từ điển tiếng Việt
Mã hóa từ điển

Mỗi mục từ bao gồm thông tin:

Từ

Từ loại

Nhằm tốn ít bộ nhớ và thuận tiện cho tìm
kiếm
17/10/14
15
Phân trang theo hai chữ cái đầu của từ, sắp tăng. Với mỗi trang,
các từ lại được sắp theo vần ABC.
Dựa Từ Điển

So khớp từ trái sang (*)
Học sinh/ học sinh/ học

So khớp từ phải sang
Học / sinh học /sinh học

Kết hợp cả hai

???
17/10/14
16
Automat tách từ Tiếng Việt

Một bài toán trong automat là nhận diện chuỗi
w có thuộc về ngôn ngữ L hay không.

Chuỗi nhập được xử lý tuần tự từng ký hiệu
một từ trái sang phải

Trong quá trình thực thi, automat cần phải
nhớ thông tin đã qua xử lý
17/10/14
17
Ví dụ Automat
17/10/14
18
Ví dụ Automat Tiếng Anh
17/10/14
19
Automat Tiếng Việt
1. Xây dựng ôtômát âm tiết đoán nhận tất cả
các âm tiết tiếng Việt
2. Xây dựng ôtômát từ vựng đoán nhận tất cả
các từ vựng tiếng Việt.
3. Dựa trên các ôtômát nêu trên, xây dựng đồ
thị tương ứng với câu cần phân tích và sử dụng
thuật toán tìm kiếm trên đồ thị để liệt kê các
cách phân tích có thể.

17/10/14
20
Ví dụ Automat âm tiết TV
17/10/14
21
Automat của 3 âm tiết: phương, pháp, trình
Phương pháp đồ thị

Biểu diễn chuỗi âm tiết s1,s2, sn

Trường hợp nhập nhằng thường xuyên nhất là 3 từ liền nhau
s1s2s3 trong đó s1s2 và s2s3 đều là từ.

BIểu diễn 1 đoạn bằng đồ thị có hướng tuyến tính G = (V,E), V
= {v0, v1, . . . , vn, vn+1}

Nếu các âm tiết si+1, si+2, . . . , sj tạo thành 1 từ -> trong G có cạnh
(vi,vj)

Các cách tách từ = các đường đi ngắn nhất từ v0 đến vn+1
17/10/14
22
Nhập nhằng Đồ thị
17/10/14
23
Giải quyết???
Xem lại

Lý thuyết xác suất


Lý thuyết thông tin
17/10/14
24
Phương pháp thống kê

Thông qua Search Engine thu được:

DF - document frequency, đó là tần số tài liệu, số
lượng các tài liệu đã được lập chỉ mục có chứa từ
cần xét.

MAX- là số lượng các tài liệu tiếng Việt đã được
lập chỉ mục (thường lấy khoảng 10
9
)
17/10/14
25
Xấp xỉ xác suất xuất hiện một từ trên internet

×