Tải bản đầy đủ (.pdf) (74 trang)

Nhận dạng thực thể tên cho ngôn ngữ nói tiếng việt và ứng dụng trong tương tác với điện thoại thông minh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.12 MB, 74 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN PHƢƠNG NAM

NHẬN DẠNG THỰC THỂ TÊN CHO NGÔN NGỮ
NÓI TIẾNG VIỆT VÀ ỨNG DỤNG TRONG TƢƠNG
TÁC VỚI ĐIỆN THOẠI THÔNG MINH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI – 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN PHƢƠNG NAM

NHẬN DẠNG THỰC THỂ TÊN CHO NGÔN NGỮ
NÓI TIẾNG VIỆT VÀ ỨNG DỤNG TRONG TƢƠNG
TÁC VỚI ĐIỆN THOẠI THÔNG MINH

Ngành:

Công nghệ thông tin

Chuyên ngành:

Hệ thống thông tin


Mã số:

60 48 01 04

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. PHAN XUÂN HIẾU

HÀ NỘI - 2015


i

Lời cam đoan
Tôi xin cam đoan báo cáo luận văn này được viết bởi tôi dưới sự hướng dẫn của
cán bộ hướng dẫn khoa học, thầy giáo, TS. Phan Xuân Hiếu. Tất cả các kết quả đạt
được trong luận văn này là quá trình tìm hiểu, nghiên cứu của riêng tôi. Trong toàn bộ
nội dung của luận văn, những điều được trình bày là của cá nhân tôi hoặc là được tổng
hợp từ nhiều nguồn tài liệu khác. Các tài liệu tham khảo đều có xuất xứ rõ ràng và
được trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời
cam đoan của mình.
Hà Nội, ngày …… tháng ..… năm 2015
Người cam đoan

Trần Phương Nam


ii


Mục lục
Lời cam đoan ....................................................................................................................i
Mục lục ........................................................................................................................... ii
Bảng từ viết tắt ................................................................................................................v
Danh sách bảng biểu .......................................................................................................vi
Danh sách hình vẽ......................................................................................................... vii
Lời cảm ơn ................................................................................................................... viii
MỞ ĐẦU .........................................................................................................................1
Chương 1. Nhận dạng tiếng nói và nhận dạng thực thể tên cho ngôn ngữ nói ...............4
1.1. Sự phát triển và ứng dụng của công nghệ nhận dạng tiếng nói............................4
1.2. Nhận dạng thực thể tên .........................................................................................4
1.2.1. Tại sao cần nhận dạng thực thể tên?..............................................................4
1.2.2. Định nghĩa thực thể tên và nhận dạng thực thể tên .......................................5
1.3. Bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt và những khó khăn
thách thức ....................................................................................................................7
1.3.1. Bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt ......................7
1.3.2. Những khó khăn và thách thức đặc thù của bài toán và dữ liệu....................9
1.4. Ứng dụng của nhận dạng thực thể tên ................................................................ 11
1.5. Ý nghĩa của bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt ứng
dụng trong tương tác với điện thoại thông minh .......................................................12
Chương 2. Các cách tiếp cận và phương pháp nhận dạng thực thể tên .........................14
2.1. Các hướng tiếp cận và các kỹ thuật chính áp dụng trong nhận dạng thực thể tên
...................................................................................................................................14
2.2. Cơ sở lý thuyết phương pháp học máy Maximum Entropy ...............................16
2.3 Cơ sở lý thuyết mô hình Conditional Random Fields .........................................18
2.4. Các phương pháp đánh giá nhận hệ thống dạng thực thể tên .............................19
2.4.1 Độ chính xác, độ hồi tưởng, độ đo F ............................................................20
2.4.2. Giá trị trung bình Macro, Micro và độ đo F ................................................20
2.4.3 Kiểm tra đánh giá chéo k – tập (k-fold cross-validation) .............................21
2.5 Các phương pháp lặp và tối ưu số trong ước lượng tham số mô hình ................21



iii
2.5.1 Thuật toán Generalized Iterative Scaling (GIS) ...........................................21
2.5.2 Thuật toán Improved Iterative Scaling (IIS) ................................................22
2.5.3 Các kỹ thuật tối ưu số ...................................................................................22
2.6. Một số nghiên cứu liên quan với bài toán nhận dạng thực thể tên cho ngôn ngữ
nói tiếng Việt .............................................................................................................23
2.6.1. Các nghiên cứu liên quan ............................................................................23
2.6.2. Tìm hiểu Google Now – một phần mềm có xử lý cho ngôn ngữ nói tiếng
Việt trên các điện thoại thông minh ......................................................................24
Chương 3. Nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt sử dụng phương pháp
học máy..........................................................................................................................26
3.1. Hệ thống trợ lý ảo cho người Việt trên điện thoại thông minh ..........................26
3.2. Nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt .........................................30
3.2.1. Mô hình hóa bài toán nhận dạng thực thể tên ngôn ngữ nói tiếng Việt ứng
dụng trong tương tác với điện thoại thông minh ...................................................30
3.2.2. Xây dựng tập dữ liệu huấn luyện ................................................................ 32
3.3. Xây dựng mô hình dựa trên phương pháp tiếp cận học máy .............................37
3.3.1. Xây dựng mô hình cực đại hóa Entropy......................................................38
3.3.2. Lựa chọn thuộc tính .....................................................................................39
3.4. Huấn luyện mô hình ...........................................................................................45
3.4.1. Quá trình huấn luyện mô hình nhận dạng thực thể tên ...............................45
3.4.2. Các tham số huấn luyện khi sử dụng mô hình MaxEnt ..............................46
3.4.3. Các tham số huấn luyện khi sử dụng mô hình CRFs ..................................46
Chương 4. Thực nghiệm và đánh giá mô hình nhận dạng thực thể tên cho ngôn ngữ nói
tiếng Việt .......................................................................................................................47
4.1. Dữ liệu thực nghiệm và cài đặt ...........................................................................47
4.2. Kết quả thực nghiệm và phân tích ......................................................................48
4.2.1 Kết quả thực nghiệm sử dụng MaxEnt .........................................................48

4.2.2 Kết quả thực nghiệm sử dụng CRFs.............................................................51
4.3. Hệ điều hành Android trên các thiết bị thông minh ...........................................53
4.4. Kết quả ứng dụng mô hình nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt
trên điện thoại thông minh chạy hệ điều hành Android ............................................53


iv
Chương 5. Kết luận........................................................................................................58
5.1. Những vấn đề giải quyết được trong luận văn này ............................................58
5.2. Công việc nghiên cứu trong tương lai ................................................................ 59
Danh mục công trình khoa học của tác giả liên quan đến luận văn ..............................61
Tài liệu tham khảo .........................................................................................................62


v

Bảng từ viết tắt
Từ hoặc cụm từ
Điện thoại thông minh
Thiết bị thông minh
Phần mềm trợ lý ảo cho người Việt
Cực đại hóa Entropy
Trường điều kiện ngẫu nhiên

Từ viết tắt
ĐTTM
TBTM
VAV
MaxEnt
CRFs


Từ tiếng Anh
Smartphones
Smart device
Virtual Assistant for Vietnamese
Maximum Entropy
Conditional Random Fields


vi

Danh sách bảng biểu
Bảng 3.1: Một số mẫu câu lệnh ngôn ngữ nói mà ứng dụng phần mềm trợ lý ảo cho
người Việt (VAV) có thể xử lý......................................................................................27
Bảng 3.2: Các loại thực thể tên áp dụng trong phạm vi tương tác với điện thoại thông
minh ...............................................................................................................................30
Bảng 3.3: Một số mẫu câu lệnh ngôn ngữ nói tự nhiên với gán nhãn thực thể tên .......31
Bảng 3.4: Ví dụ gán nhãn cho các câu theo định dạng IOB2........................................39
Bảng 3.5: Các mẫu ngữ cảnh từ vựng theo N-Grams ...................................................39
Bảng 3.6: Ví dụ về mẫu ngữ cảnh được sinh khi sử dụng N-Grams.............................40
Bảng 3.7: Các mẫu ngữ cảnh khi sử dụng biểu thức chính quy ....................................40
Bảng 3.8: Các mẫu ngữ cảnh khi sử dụng từ điển.........................................................41
Bảng 3.9: Ví dụ các mẫu ngữ cảnh khi tìm kiếm trong từ điển cho tên đường phố .....42
Bảng 3.10: Ví dụ các mẫu ngữ cảnh khi tìm kiếm trong từ điển cho kiểu ngày ...........42
Bảng 3.11: Các thuộc tính sử dụng kết hợp giữa biểu thức chính quy và từ điển ........43
Bảng 3.12: Ví dụ các mẫu ngữ cảnh khi kết hợp sử dụng cả biểu thức chính quy và từ
điển ................................................................................................................................ 43
Bảng 3.13: Danh sách các mẫu biểu thức chính quy.....................................................44
Bảng 3.14: Các tham số trong quá trình huấn luyện bằng MaxEnt...............................46
Bảng 3.15: Các tham số trong quá trình huấn luyện bằng CRFs ..................................46

Bảng 4.1: Đánh giá theo Chunk của fold cho kết quả tốt nhất bằng MaxEnt ...............48
Bảng 4.2: Kết quả đánh giá chéo của cả 4 lần thực nghiệm bằng MaxEnt ...................48
Bảng 4.3: Đánh giá theo Chunk của fold cho kết quả tốt nhất CRFs ............................51
Bảng 4.4: Kết quả đánh giá chéo của cả 4 lần thực nghiệm bằng CRFs .......................51


vii

Danh sách hình vẽ
Hình 1.1: Quá trình nhận dạng tiếng nói tự động chuyển sang dạng văn bản ngôn ngữ
nói ....................................................................................................................................7
Hình 1.2: Quá trình phân tích để hiểu văn bản ngôn ngữ nói .........................................8
Hình 1.3: Quá trình nhận dạng thực thể tên sử dụng mô hình đã được huấn luyện ........9
Hình 3.1: Mô hình tổng thể hệ thống của VAV ............................................................29
Hình 3.2: Số lớp thực thể được chú thích trên toàn bộ tập dữ liệu đầu vào ..................33
Hình 3.3: Dữ liệu cho từng nhóm tính năng ..................................................................35
Hình 3.4: Dữ liệu từ điển cho từng phục vụ tìm kiếm các thực thể tên ........................37
Hình 3.5: Quá trình huấn luyện tạo ra mô hình nhận dạng thực thể tên .......................45
Hình 4.1: Kết quả trung bình của độ chính xác, độ hồi tưởng, độ đo F1 của 4 lần kiểm
tra đánh giá chéo các kết quả thực nghiệm dùng MaxEnt .............................................50
Hình 4.2: Kết quả trung bình của độ chính xác, độ hồi tưởng, độ đo F1 của 4 lần kiểm
tra đánh giá chéo các kết quả thực nghiệm dùng CRFs ................................................52
Hình 4.3: Tính năng hỏi ngày âm lịch ...........................................................................54
Hình 4.4: Tính năng tìm đường đi từ vị trí A tới vị trí B trên bản đồ ...........................54
Hình 4.5: Kết quả trả về sau khi mô hình nhận dạng được hai địa điểm cần tìm trên
bản đồ ............................................................................................................................55
Hình 4.6: Tính năng thiết lập lịch họp ...........................................................................55
Hình 4.7: Kết quả thiết lập lịch theo đúng đối số mà người dùng yêu cầu ...................56
Hình 4.8: Tính năng đặt chuông báo thức .....................................................................56
Hình 4.9: Kết quả đặt chuông báo thức .........................................................................57



viii

Lời cảm ơn
Đầu tiên, tôi muốn gửi lời cảm ơn sâu sắc nhất đến cán bộ hướng dẫn khoa học,
thầy giáo, TS. Phan Xuân Hiếu, người đã đưa tôi đến lĩnh vực nghiên cứu này và đã
trực tiếp giảng dạy trong suốt quá trình tôi học tập, nghiên cứu tại trường Đại học
Công Nghệ - Đại học Quốc Gia Hà Nội. Thầy luôn truyền cho tôi nguồn cảm hứng,
nhiệt huyết nghiên cứu khoa học và hết sức tận tình hướng dẫn tôi, cho tôi những lời
khuyên quý báu. Mặc dù thầy rất bận với công việc giảng dạy và nghiên cứu nhưng
thầy đã dành cho tôi nhiều thời gian thảo luận các ý tưởng nghiên cứu, chỉ dẫn cách
nghiên cứu, giải đáp thắc mắc và động viên tôi vượt qua những vấn đề khó khăn cũng
như hướng tôi tới nhiều vấn đề có giá trị khác khiến tôi muốn tìm hiểu và nghiên cứu
trong tương lai.
Tôi xin bày tỏ lời cảm ơn chân thành tới các thầy cô giáo đã giảng dạy tôi trong
suốt thời gian tôi học tại trường như PGS, TS. Hà Quang Thụy, PGS, TS. Trịnh Nhật
Tiến, PGS, TS. Đỗ Trung Tuấn, PGS, TS. Nguyễn Ngọc Hóa, TS. Bùi Quang Hưng,
TS. Nguyễn Văn Vinh, TS. Nguyễn Thị Hậu, TS. Võ Đình Hiếu, TS. Trần Trúc Mai
cùng các thầy cô giáo khác trong khoa.
Tôi cũng muốn gửi lời cảm ơn tới những thành viên trong nhóm seminar về “Học
máy, khai phá dữ liệu và xử lý ngôn ngữ tự nhiên” như NCS. Lương Thái Lê, NCS.
Ngô Thị Lan, ThS. Trương Thị Minh Ngọc, ThS. Nguyễn Minh Thưa, ThS. Trần Thị
Hạnh, CN. Nguyễn Thạc Thống, CN. Trương Quốc Tuấn, CN. Vương Thị Hải Yến,
CN. Nguyễn Văn Hợp, CN. Dương Quang Vũ, CN. Phí Thị Thu, vv... Họ là những
người bạn đã sát cánh bên tôi trong lĩnh vực nghiên cứu này, có những góp ý chuyên
môn trong học máy và xử lý ngôn ngữ tự nhiên cũng như sự có động viên tinh thần với
tôi rất đáng trân trọng.
Cuối cùng tôi xin gửi lời cảm ơn sâu sắc tới Bố, Mẹ, Vợ, cùng các Con và tất cả
những người thân trong gia đình, bạn bè tôi. Họ đã luôn ủng hộ tôi với tình yêu lớn và

không ngừng khuyến khích, động viên tôi vượt qua tất những khó khăn trong cuộc
sống.
Học viên thực hiện luận văn

Trần

Phương

Nam


1

MỞ ĐẦU
Hiện nay, với những thế mạnh vượt trội của công nghệ nhận dạng tiếng nói, việc sử
dụng ngôn ngữ tự nhiên để giao tiếp và tương tác với các thiết bị thông minh ngày nay
càng trở nên phổ biến. Gần đây, các ứng dụng phần mềm trợ lý ảo cho người dùng đã
xuất hiện trên các thiết bị thông minh gồm điện thoại thông minh và máy tính bảng
như: Siri của Apple, Cortana của Microsoft hay Google Now của Google. Các ứng
dụng này phục vụ các mục đích khác nhau nhưng tất cả chúng đều có chung hai giai
đoạn chính: nhận dạng tiếng nói tự động (Automatic Speech Recognition – ASR) và
hiểu văn bản ngôn ngữ nói. Nhận dạng thực thể tên (Named Entity Recognition –
NER) cho văn bản ngôn ngữ nói là một trong những vấn đề cơ bản và cần thiết để giúp
có thể hiểu biết về ngôn ngữ.
Nhận dạng thực thể tên được giới thiệu trong các hội nghị Message Understanding
Conferences – MUC. Trong đó, nhận dạng thực thể tên cho văn bản viết được nghiên
cứu khá kỹ lưỡng trong suốt hai thập kỷ qua. Tuy nhiên nhận dạng thực thể tên cho
văn bản ngôn ngữ nói mới chỉ ở những giai đoạn nghiên cứu đầu tiên. Có một số khó
khăn và thách thức trong vấn đề nhận dạng thực thể tên cho văn bản ngôn ngữ nói như:
các câu trong văn bản ngôn ngữ nói thường ngắn hơn các câu văn trong văn bản viết

thông thường. Ngữ pháp trong câu văn nói chưa được chặt chẽ, thêm nữa tất cả các từ
trong văn bản ngôn ngữ nói đều ở dạng chữ thường, không có chữ hoa và thậm chí nó
không có cả các dấu câu trong văn bản. Các cụm từ như: địa chỉ hòm thư điện tử
(email) hay các siêu liên kết (hyperlinks) bị nhận dạng thành các từ rời rạc, không liền
mạch và đôi khi các kiểu chữ số trong văn bản còn bị nhận dạng thành kiểu chữ cái.
Những đặc điểm này thực sự là những khó khăn trở ngại để hiểu được văn bản ngôn
ngữ nói.
Ý thức được đây là một lĩnh vực nghiên cứu có nhiều triển vọng nên tôi đã chọn
hướng nghiên cứu Nhận dạng thực thể tên (Named Entity Recognition) cho văn bản
ngôn ngữ nói tiếng Việt cho đề tài luận văn. Trong luận văn của mình, tôi trình bày
một cách tiếp cận đơn giản sử dụng mô hình học máy để nhận dạng thực thể tên cho
văn bản ngôn ngữ nói vượt qua được các khó khăn và thách thức như đã nêu ở trên.
Tôi đã đưa vào mô hình nhiều thuộc tính phong phú sử dụng biểu thức chính quy, tìm
kiếm trong từ điển để huấn luyện ra mô hình có hiệu suất tốt. Không giống như các
nghiên cứu trước đây, mô hình của tôi không cần sử dụng tách từ và dựa vào các thông
tin ranh giới từ, thông tin từ loại vì nó rất tốn thời gian để xử lý. Mô hình của tôi được
đánh giá cẩn thận trên một tập dữ liệu có kích thước trung bình gồm 4409 câu về nội
dung tương tác giữa người sử dụng và điện thoại thông minh đạt được kết quả độ đo
trung bình F1 94.63 (sử dụng MaxEnt) và 93.88 (sử dụng CRFs) cho 4 lần kiểm tra
đánh giá chéo. Đây là kết quả rất ý nghĩa mà không dễ đạt được trong nhiệm vụ nhận
dạng thực thể tên cho văn bản ngôn ngữ nói với nhiều khó khăn như đã nói ở trên. Do


2
vậy trong luận văn của mình tôi mạnh dạn trình bày về bài toán nhận dạng thực thể tên
cho ngôn ngữ nói tiếng Việt với tên “Nhận dạng thực thể tên cho ngôn ngữ nói tiếng
Việt và ứng dụng trong tương tác với điện thoại thông minh”.
Luận văn được tổ chức thành 5 chương như sau:
Chương 1 trình bày tổng quan về sự phát triển vượt trội của công nghệ nhận dạng
tiếng nói trong một vài năm trở lại đây và những ứng dụng của nó trong thế giới công

nghệ hiện nay. Ở chương này cũng trình bày về nhận dạng thực thể tên trong văn bản
viết thông thường và trong văn bản ngôn ngữ nói cũng như định nghĩa thế nào là nhận
dạng thực thể tên, nêu một số khó khăn thách thức đặc thù của dữ liệu và bài toán nhận
dạng thực thể tên cho ngôn ngữ nói tiếng Việt. Chương này cũng đề cập tới việc tại
sao cần nhận dạng thực thể tên, nêu bật được ý nghĩa của bài toán nhận dạng thực thể
tên cho ngôn ngữ nói tiếng Việt.
Chương 2 trình bày khái quát một số phương pháp điển hình đã được áp dụng trong
bài toán nhận dạng thực thể tên và một số kiến thức cơ bản trong việc đánh giá kết quả
của hệ thống nhận dạng thực thể tên, một số hướng tiếp cận, kỹ thuật tối ưu trong việc
ước lượng tham số mô hình học máy, từ đó tìm hiểu chi tiết cơ sở lý thuyết mô hình
học máy Cực đại hóa Entropy (Maximum Entropy) và Trường điều kiện ngẫu nhiên
(Conditional Random Fields). Trên cơ sở bài toán và lý thuyết đi tìm hiểu những
nghiên cứu có liên quan cả trong văn bản viết thông thường và ngôn ngữ nói đối với
bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt.
Chương 3 trình bày sơ lược về tổng thể hệ thống trợ lý ảo cho người dùng tương
tác với điện thoại thông minh bằng ngôn ngữ nói của con người và mô tả rõ cách tích
hợp thành phần nhận dạng thực thể tên cho văn bản ngôn ngữ nói trong hệ thống
VAV. Tại chương này cũng trình bày chi tiết về cách giải quyết bài toán nhận dạng
thực thể tên cho ngôn ngữ nói tiếng Việt sử dụng phương pháp học máy Cực đại hóa
Entropy (Maximum Entropy - MaxEnt) do Berger cùng các cộng sự giới thiệu lần đầu
vào những năm 1996. Đây cũng là chương chính trình bày cụ thể mô hình hóa bài toán
và các bước thực hiện bài toán, kỹ thuật lựa chọn thuộc tính, huấn luyện mô hình dựa
trên tập dữ liệu mẫu có nội dung giao tiếp, tương tác giữa người sử dụng và điện thoại
thông minh qua ngôn ngữ nói tiếng Việt, nhấn mạnh việc chọn sử dụng phương pháp
MaxEnt huấn luyện mô hình ứng dụng trên ĐTTM và các chiến lược trích chọn thuộc
tính hiệu quả nhất với bài toán đã đề ra. Bên cạnh đó cũng đưa ra thêm một cách đánh
giá nữa sử dụng phương pháp Trường điều kiện ngẫu nhiên (Conditional Random
Fields –CRFs) do Lafferty cùng các cộng sự giới thiệu năm 2001 nhằm đánh giá kết
quả mô hình nhận dạng thực thể tên cho ngôn ngữ nói được khách quan hơn.
Chương 4 trình bày các kết quả thực nghiệm cụ thể, một cách chi tiết và cẩn thận

cho cả hai phương pháp MaxEnt và CRFs, phân tích và đánh giá từng kết quả trung


3
bình của 4 lần kiểm tra và đánh giá chéo có được cho mỗi loại thực thể tên, bên cạnh
đó cũng lý giải rõ vì sao từng loại thực thể đó đã đạt được kết quả như vậy.
Chương 5 tổng kết bằng cách nêu lại các việc đã thực hiện và kết quả đạt được,
chưa đạt được trong luận văn này. Ngoài ra chương này cũng đề cập tới hướng phát
triển nghiên cứu của đề tài trong tương lai.


4

Chƣơng 1. Nhận dạng tiếng nói và nhận dạng thực thể tên
cho ngôn ngữ nói
1.1. Sự phát triển và ứng dụng của công nghệ nhận dạng tiếng nói
Hiện nay, với những thế mạnh vượt trội [8, 11, 12] của công nghệ nhận dạng tiếng
nói tự động, việc sử dụng ngôn ngữ tự nhiên để giao tiếp và tương tác với các thiết bị
thông minh (TBTM) ngày nay càng trở nên phổ biến. Đây là xu thế phát triển mới và
tiềm năng trong tương lai gần. Chúng ta có thể dễ dàng thấy được một trong số các
công cụ đã thực hiện thành công ứng dụng công nghệ nhận dạng tiếng nói tự động.
Thứ nhất phải kể đến đó là công cụ dịch tự động từ ngôn ngữ nói sang ngôn ngữ nói
[2] của Microsoft1 và AT&T2 là Microsoft Skype Translator hay AT&T Speech – to –
Speech Translator. Thứ hai, các ứng dụng trong các trung tâm cuộc gọi tự động (call
center) và trong nghành công nghiệp ô tô hiện đại như: điều khiển ô tô tự hành… Bên
cạnh đó, gần đây sự xuất hiện của các phần mềm trợ lý ảo cho người dùng trên các
TBTM gồm điện thoại thông minh (ĐTTM), máy tính bảng như: Siri3 của Apple,
Cortana4 của Microsoft hay Google Now5 của Google là 3 hãng công nghệ lớn nhất và
nổi tiếng trên thế giới đã tiên phong hiện thực hóa việc giao tiếp và tương tác bằng
giọng nói giữa con người với các TBTM. Mới đây nhất, một hãng công nghệ nổi tiếng

ở Châu Á - hãng Sharp của Nhật đã giới thiệu một sản phẩm công nghệ cao là chú
robot có tên RoboHon6 có thể giao tiếp trực tiếp với con người thông qua ngôn ngữ nói
của con người trong mọi lĩnh vực. Chú robot đó có khả năng hết sức ấn tượng, có thể
thực hiện các công việc như: nhắc nhở, đánh thức, thực hiện cuộc gọi cho ai đó theo
yêu cầu của người dùng hay giúp người sử dụng trình chiếu các slides, chụp ảnh, quay
phim, tìm kiếm thông tin. Không dừng lại ở đó chú còn có thể hội thoại trực tiếp với
người sử dụng, thực hiện các mệnh lệnh do người sử dụng đưa ra với độ chính xác cực
cao. Tất cả các ứng dụng này phục vụ với nhiều mục đích khác nhau nhưng tất cả
chúng đều có hai giai đoạn chính: nhận dạng tiếng nói tự động (Automatic Speech
Recognition – ASR) và hiểu văn bản ngôn ngữ nói (spoken texts understanding)
[21]. Nhận dạng thực thể tên (Named Entity Recognition) cho văn bản ngôn ngữ nói
chính là một trong những vấn đề cơ bản và cần thiết để giúp cho việc hiểu được ngôn
ngữ tự nhiên một cách dễ dàng hơn.

1.2. Nhận dạng thực thể tên
1.2.1. Tại sao cần nhận dạng thực thể tên?
1

Microsoft Skype Translator: />AT&T:
Speech–to–speech
translation,
with
no
latency.
/>3
/>4
/>5
/>6
/>2



5
Chúng ta đang sống trong thời đại thông tin, trong mọi thời điểm một lượng lớn
thông tin được tạo ra trên Internet và một số nguồn khác đã làm gia tăng kích thước
thông tin khổng lồ và nhanh chóng. Muốn truy cập và sử dụng lượng thông tin này,
chúng ta cần phải thực sự thay đổi hoàn toàn cách làm việc và nghiên cứu với số lượng
thông tin khổng lồ đó.
Đối với một tổ chức, doanh nghiệp hay công ty việc sở hữu và sử dụng có hiệu quả
các thông tin được coi là một phần quan trọng của chiến lược cạnh tranh. Mặt khác,
quy mô và phạm vi của các thông tin hữu ích trong lượng thông tin khổng lồ kia mà
người sử dụng cần phải xử lý, thao tác tại một thời điểm nhất định là điều vô cùng khó
khăn nếu như không có phương pháp hoặc kỹ thuật tốt. Hơn nữa, việc truy cập thông
tin sẽ không được sử dụng nhiều nếu không có cách tiếp cận cũng như kỹ thuật phù
hợp để xử lý và trích chọn các thông tin hữu ích đó. Vậy đâu là câu trả lời cho những
thách thức khó khăn như vậy? Chính là kỹ thuật trích chọn thông tin (Information
Extraction) [23], kỹ thuật này cho phép biến đổi dữ liệu văn bản không có cấu trúc
biểu diễn thành dữ liệu có cấu trúc và được hiểu bằng máy. Trích chọn thông tin được
nghiên cứu từ nhiều thập kỷ trước và nó có rất nhiều nhánh chủ đề khác nhau được
cộng đồng xử lý ngôn ngữ tự nhiên giải quyết một cách nghiêm túc và thấu đáo. Một
trong những hội nghị quan trọng nhất về xử lý ngôn ngữ tự nhiên được đánh giá cao
đó là hội nghị Message Understanding Conferences. Cũng ở hội nghị này vào năm
1996 (MUC-67), Grishman và Sundheim lần đầu tiên trình bày nghiên cứu của mình về
nhiệm vụ xác định tên cho các thực thể từ các văn bản ngôn ngữ tự nhiên. Do đó
nhiệm vụ này còn có tên nhận dạng thực thể tên [4, 5, 20].
Với lượng thông tin lớn và đa dạng phong phú như vậy sẽ là không khả thi cho con
người xử lý các dữ liệu đó để xác định tìm kiếm các thông tin. Máy tính và các TBTM
hiện nay là cần thiết để thực hiện các công việc tìm kiếm xác định các thông tin hữu
ích, có giá trị giúp con người. Nhận dạng thực thể tên (Named Entity Recognition) là
một phương pháp chính đóng vai trò quan trọng cho việc tìm kiếm xác định, trích chọn
những thông tin và giúp hiểu hơn về các thông tin đó.


1.2.2. Định nghĩa thực thể tên và nhận dạng thực thể tên
Nhận dạng thực thể tên được nhiều nhà khoa học nghiên cứu rất nhiều trong suốt
gần 20 năm qua. Lần đầu tiên được giới thiệu tại hội nghị MUC6 [6, 9] bởi Grishman
và Sundheim và sau đó 2 năm, vào năm 1998 tại MUC7 Chinchor và Robinson cũng
có thêm những trình bày mở rộng hơn cho lĩnh vực nghiên cứu này. Ban đầu nhận
dạng thực thể tên tập trung vào một số ngôn ngữ như: tiếng Anh, tiếng Trung, tiếng
Tây Ban Nha, tiếng Nhật và một số ngôn ngữ khác.
Không có một định nghĩa chính thức “Thế nào là một thực thể tên” từ góc nhìn
ngôn ngữ học. Thuật ngữ thực thể tên được chính hai tác giả là Sundheim và Grishman
giới thiệu lần đầu tiên tại hội nghị MUC-6. Ý tưởng cơ bản của vấn đề này là tìm kiếm
7

/>

6
trong văn bản các tên người, tên tổ chức, tên các vị trí, thời gian, tiền tệ, biểu thức tỉ lệ
phần trăm … Mục tiêu là trích chọn trong văn bản ngôn ngữ tự nhiên tất cả các từ,
cụm từ có cùng loại thực thể. Theo hai tác giả Grishman & Sundheim thuật ngữ nhận
dạng thực thể tên được định nghĩa đầy đủ như sau:
“Nhận dạng thực thể tên (Named Entity Recognition) là một quá trình xác định tìm
kiếm các từ hoặc cụm từ có nghĩa từ văn bản ngôn ngữ tự nhiên phân loại thành các
nhóm duy nhất được định nghĩa trước đó như: tên người (person), tên tổ chức
(organization), ngày giờ (datetime), địa điểm (location), con số (number), tiền tệ… ”.
Tại hội nghị MUC đã có bảy nhóm thực thể được chia thành 3 lớp chính gồm:
- ENAMEX
o ORGANIZATION: tên công ty, tổ chức, chính phủ…
o PERSON: tên người, tên gia đình
o LOCATION: vị trí địa lý (tỉnh, thành phố, vùng quốc tế…)
- TIMEX

o DATE: ngày
o TIME: giờ
- NUMEX
o MONEY: tiền
o PERCENT: phần trăm
Ví dụ: “Hà Nội là thủ đô của nước Việt Nam”. Trong câu này ta có thể dễ dàng gán
nhãn từ Hà Nội cho thẻ LOCATION như sau:
<ENAMEX TYPE=”LOCATION”>Hà Nội</ENAMEX> là thủ đô của nước
<ENAMEX TYPE=”LOCATION”>Việt Nam</ENAMEX>
Kể từ sau hội nghị MUC-6, chủ đề này đã được mở rộng và dành được nhiều quan
tâm nghiên cứu hơn. Trong hội thảo tính toán ngôn ngữ học chính là nơi tổ chức các
cuộc thi đặc biệt nhằm cải tiến và phát triển ổn định cho những nghiên cứu về nhận
dạng thực thể tên và công bố trong suốt những năm qua. Trong một vài sự kiện, các
nhà khoa học đưa thêm ra các nghiên cứu của mình để bổ sung cho nhiệm vụ nhận
dạng thực thể tên. Như tại MUC-78 Chinchor (1998) đã định nghĩa thêm hai loại thực
thể nữa là: thời gian và ngày tháng năm. Ông cũng giới thiệu thêm việc nhận dạng
thực thể tên cho đa ngôn ngữ khác nhau.
Đây là kỹ thuật chính thường được sử dụng trong trích chọn thông tin (information
extraction) để ứng dụng trong các lĩnh vực như: xây dựng hệ thống hỏi đáp tự động
(question answering), công nghệ web ngữ nghĩa (semantic web), máy dịch tự động
(automatic translation)... Ngoài ra nó cũng là một thành cơ bản của các ứng dụng trong
quá trình xử lý ngôn ngữ tự nhiên như: phân cụm văn bản (text clustering), phát hiện
chủ đề (topic detection) và rút gọn văn bản (text summarization).

8

/>

7


1.3. Bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt
và những khó khăn thách thức
1.3.1. Bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt
Trong luận văn của mình, tôi nghiên cứu về bài toán nhận dạng thực thể tên cho
ngôn ngữ nói tiếng Việt và ứng dụng trong tương tác với ĐTTM. Người dùng sẽ sử
dụng ngôn ngữ nói đưa ra các câu hỏi, câu lệnh cho ĐTTM thực thi như: tìm kiếm bản
đồ, chỉ dẫn đường đi từ điểm A tới điểm B, thiết lập báo thức, thiết lập lịch, thêm nhắc
nhở hay thực hiện các cuộc gọi, nhắn tin cho danh bạ hoặc số điện thoại nào đó.
Không những vậy người dùng còn có thể hỏi những thông tin về thời tiết với thời gian,
địa điểm cụ thể hay yêu cầu mở các ứng dụng đã được cài đặt trong ĐTTM và nhiều
nội dung khác.
Để có thể hiểu được các câu hỏi, câu lệnh, các yêu cầu của người dùng ta cần phải
thực hiện nhiều giai đoạn nhưng trong đó có hai giai đoạn chính là: nhận dạng tiếng
nói tự động để chuyển sang văn bản ngôn ngữ nói và hiểu đƣợc văn bản ngôn ngữ
nói.

Hình 1.1: Quá trình nhận dạng tiếng nói tự động chuyển sang dạng văn bản ngôn
ngữ nói


8

Hình 1.2: Quá trình phân tích để hiểu văn bản ngôn ngữ nói
Để hiểu được các câu nói trong văn bản ngôn ngữ nói thì cần phải xác định được ý
định và các đối số trong câu. Xác định ý định của người dùng là một bài toán khác,
trong bài toán mà tôi cần phải giải quyết là xác định các đối số trong câu lệnh của
người dùng hay nói cách khác chính là nhận dạng các thực thể tên trong câu văn nói
đầu vào. Đây là một nhiệm vụ chính và cần thiết giúp thêm hiểu biết về ngôn ngữ tự
nhiên. Do vậy tôi đã đi nghiên cứu và xây dựng mô hình nhận dạng thực thể tên cho
ngôn ngữ nói tiếng Việt. Mô hình này là một thành phần chính của hệ thống trợ lý ảo

cho người Việt (VAV9) để tìm ra các đối số trong các câu lệnh như: thời gian, địa
điểm… (như biểu diễn trong hình 1.2 được đánh dấu bằng ô vuông có viền màu xanh)
mà người sử dụng đưa ra bằng ngôn ngữ nói.

9

/>

9
Quá trình tìm và nhận dạng được các thực thể tên bởi mô hình học máy sau khi đã
huấn luyện mà trong luận văn của tôi nghiên cứu cho văn bản ngôn ngữ nói được thể
hiện chi tiết từng bước bằng hình 1.3 dưới đây.
Câu nói, mệnh
lệnh

Nhận dạng tiếng
nói tự động

Văn bản ngôn
ngữ nói

Từ điển

Biểu thức chính
quy

Trích chọn các thuộc
tính

Mô hình nhận

dạng thực thể tên

Thực thể tên

Hình 1.3: Quá trình nhận dạng thực thể tên sử dụng mô hình đã đƣợc huấn luyện
Đầu vào là một câu nói (Speech) có nội dung tương tác giữa người sử dụng và điện
thoại thông minh. Tín hiệu âm thanh của câu nói đầu vào sẽ được công nghệ nhận
dạng tiếng nói tự động (Automatic Speech Recognition – ASR) chuyển sang các câu
văn bản ngôn ngữ nói (Spoken text sentences). Sử dụng mô hình sau khi huấn luyện
(Trained NER) nhận dạng các thực thể tên đoán nhận từ văn bản ngôn ngữ nói đầu vào
sử dụng việc lựa chọn các thuộc tính (Features selection) được cung cấp bởi biểu thức
chính quy (Regular expression) và từ điển (Dictionary). Sau khi được mô hình đoán
nhận và đưa ra kết quả là các thực thể tên (Named entities – Nes) nếu trong các câu
văn nói đầu vào có các đối số.

1.3.2. Những khó khăn và thách thức đặc thù của bài toán và dữ liệu
Nhận dạng thực thể tên cho văn bản viết thông thường đã được nghiên cứu kỹ
lưỡng trong suốt gần hai thập kỷ qua và đạt được nhiều kết quả rất quan trọng. Tuy
nhiên, nhiệm vụ nhận dạng thực thể tên cho ngôn ngữ nói vẫn chỉ được nghiên cứu ở
những giai đoạn đầu tiên đặc biệt là trong ngôn ngữ tiếng Việt. Bằng những tìm hiểu
nghiên cứu kỹ lưỡng của mình về bài toán nhận dạng thực thể tên cho ngôn ngữ nói
tiếng Việt, tại thời điểm thực hiện luận văn của mình tôi thấy vẫn chưa có một nghiên
cứu nào được công bố rộng rãi. Mặc dù các nghiên cứu về nhận dạng thực thể tên cho


10
ngôn ngữ nói trong tiếng Anh, tiếng Pháp, tiếng Trung, tiếng Nhật… đã được một số
nhà khoa học trên thế giới nghiên cứu song song với việc nhận dạng thực thể tên từ
văn bản viết và ứng dụng trong một số lĩnh vực của cuộc sống. Không giống như trong
bài toán nhận dạng thực thể tên cho văn bản viết thông thường, từ trước tới giờ luôn

đạt được những kết quả rất khả quan. Trong ngôn ngữ nói có những khó khăn đặc thù
của cả dữ liệu văn bản ngôn ngữ nói và bài toán đã tạo ra một nhiệm vụ không dễ dàng
với nhiều thách thức và khó khăn. Đây cũng đang là vấn đề còn nhiều gợi mở cho các
nghiên cứu trong tương lai trong bài toán nhận dạng thực thể tên cho văn bản ngôn
ngữ nói.
Rõ ràng văn bản ngôn ngữ nói có nhiều khó khăn hơn so với văn bản viết thông
thường, bằng những nghiên cứu của mình tôi xin đưa ra một vài lý do như sau:
-

-

-

-

-

Thứ nhất, các câu trong văn bản ngôn ngữ nói thường ngắn hơn các câu trong
văn bản viết thông thường. Ví dụ trong câu người dùng nói ngã tư sở ở đâu, đây
là một câu rất ngắn, gần như khi nói người dùng muốn nói trực tiếp vấn đề mình
cần không dài và nhiều ý diễn đạt như trong văn bản viết thông thường. Thành
phần của câu như chủ ngữ hoặc tân ngữ trong câu đôi khi bị bỏ qua, bỏ sót. Ví
dụ đánh thức lúc 7 giờ kém 15 sáng. Thậm chí trong câu không tồn tại bất kỳ
một loại dấu câu nào, đây thực sự là một khó khăn và không dễ dàng để phân
đoạn hoặc phân tích câu văn nói được chính xác.
Thứ hai, ngữ pháp trong các câu văn nói chưa được chặt chẽ như trong các câu
văn viết. Thông tin ngữ pháp là thông tin quan trọng giúp ích cho quá trình nhận
dạng thực thể tên được tốt hơn nhưng với ngôn ngữ nói nó không còn đủ tin cậy
khi dựa vào thông tin này.
Thứ ba, văn bản đầu ra được nhận dạng bởi công nghệ nhận dạng tiếng nói tự

động (Automatic Speech Recognition – ASR) có thể bị sai hoặc chưa đúng với
người nói do nhiều lý do như: người nói không tự tin, có thể ngập ngừng hoặc
do bộ nhận dạng tiếng nói tự động (ASR) chưa có đủ thông tin mà người dùng
đưa vào. Hơn nữa, toàn bộ văn bản đầu ra đều ở dạng chữ thường, không có chữ
hoa trong câu. Điều này tạo thêm sự khó khăn, đặc biệt trong trường hợp để
nhận dạng được đúng danh từ hay các tên riêng trong câu bởi hầu hết đây là các
thuộc tính tin cậy giúp nhận dạng thực thể tên cho các tên riêng đã không còn.
Thứ tư, kiểu chữ số đôi khi bị nhận dạng thành kiểu chữ cái bởi công nghệ nhận
dạng tiếng nói tự động (ASR). Ví dụ như người dùng nói về thời gian là 8:25’
hoặc 8h25’ thì đôi khi bị ASR nhận dạng thành cụm từ là 8 giờ hai mươi lăm
phút, một cụm từ rất dài và số 25 bị nhận dạng thành cụm từ “hai mươi lăm” rất
khó xử lý để có thể nhận biết được đúng.
Điểm khó khăn cuối cùng là địa chỉ email hoặc địa chỉ website hay các siêu liên
kết thường là một cụm từ một liên tục và có quy chuẩn nhưng với văn bản ngôn
ngữ nói bị ASR nhận dạng thành các từ rời rạc không liền mạch. Do vậy rất khó


11
khăn có thể nhận dạng được các đối tượng này một cách chính xác. Ví dụ như
địa chỉ website dantri.com.vn bị nhận thành dân trí chấm com chấm vn, đôi khi
phần mở rộng của địa chỉ website còn bị nhận thành chấm com.vn hoặc chấm
com chấm vi en – cụm từ không tuân theo quy tắc chuẩn nào, hơn nữa các cụm
từ này rất dài, rời rạc, không định dạng đúng cấu trúc của địa chỉ website. Với
địa chỉ email cũng bị tương tự như địa chỉ website, thậm chí trong địa chỉ email
có ký tự đặc biệt là @ mà khi người Việt nói thành phận nhận dạng tiếng nói tự
động đã không thể nhận được đúng. Đôi lúc bị nhận thành “a còng”. Ví dụ khi
người dùng nói gửi email cho , ASR nhận thành
gửi email cho nguyễn thạc thống gmail chấm com.
Năm khó khăn trên thực sự là một thách thức vô cùng lớn mà tôi cần phải vượt qua
và xử lý được. Không những vậy, trong văn bản ngôn ngữ nói tiếng Việt không chỉ có

những khó khăn chung như vừa nêu mà còn có một số khó khăn khác như: người dùng
nói theo cách nói địa phương vẫn còn phổ biến, dùng các từ địa phương khi nói, nói
theo nhiều cách khác nhau nhưng cùng thể hiện một nội dung của yêu cầu. Bên cạnh
đó tính đa dạng và sự nhập nhằng của ngôn ngữ con người làm cho nhiệm vụ này càng
trở nên khó khăn hơn và nó vẫn còn là một vấn đề còn nhiều gợi mở nghiên cứu cho
bài toán nhận dạng thực thể tên cho ngôn ngữ nói. Do đó để nhận dạng các thực thể
tên trên dữ liệu là văn bản ngôn ngữ nói tiếng Việt sẽ phức tạp và khó khăn nhiều hơn
so với nhận dạng thực thể tên cho văn bản viết thông thường.

1.4. Ứng dụng của nhận dạng thực thể tên
Nhận dạng thực thể tên là một kỹ thuật quan trọng được áp dụng cho rất nhiều các
ứng dụng và lĩnh vực nghiên cứu khác. Nó thường được sử dụng như một quá trình
tiền xử lý dữ liệu trong nhiều quá trình xử lý phức tạp khác như trong lĩnh vực truy hồi
thông tin (Information Retrieval – IR), trích chọn thông tin (Information Extraction –
IE) và hỏi đáp (Question Answering – QA). Sau đây tôi xin trình bày tóm tắt một vài
nhiệm vụ được ứng dụng quá trình nhận dạng thực thể tên như sau:
Trích chọn quan hệ: Trích chọn quan hệ là nhiệm vụ nhận dạng quan hệ ngữ nghĩa.
Như vậy để xác định được quan hệ ngữ nghĩa giữa các thực thể ta cần phải xác định
được đâu là các thực thể tham gia vào mối quan hệ đó. Do vậy cần phải xác định được
thực thể tên trước khi đi xác định các quan hệ giữa chúng.
Công nghệ Web ngữ nghĩa (Semantic Web): để cải thiện việc tìm kiếm ngữ nghĩa.
Đây là công nghệ tìm kiếm ngược hẳn với cách tìm kiếm thông thường, tìm kiếm ngữ
nghĩa trả về một danh sách kết quả khớp với câu truy vấn gồm một bộ các từ khóa cần
tìm, hơn nữa tìm kiếm ngữ nghĩa với mục đích hiểu được ý định và các đối số trong
đầu vào của người dùng cần tìm. Ví dụ như khi người dùng cần tìm với câu truy vấn
“ngôn ngữ lập trình hướng đối tượng” thì kết quả của tìm kiếm ngữ nghĩa sẽ trả về cho
người dùng như: “C++, Java, C#...”


12

Máy dịch thuật: dịch thuật chính xác các thực thể có tên đóng vai trò quan trọng
việc dịch các văn bản tổng thể. Do vậy quá trình xác định được thực thể tên là quan
trọng và cần thiết.
Hệ thống hội thoại (Dialog systems): trong hệ thống hội thoại, việc xác định các
thực thể tên là rất quan trọng bởi khi xác định được thực thể tên mới có thể xây dựng
được câu hội thoại đúng.
Ngoài ra có rất nhiều ngữ cảnh cụ thể, nhận dạng thực thể tên cho các ngữ cảnh cụ
thể là kỹ thuật chính cho việc xây dựng các nguồn tài nguyên. …

1.5. Ý nghĩa của bài toán nhận dạng thực thể tên cho ngôn ngữ nói
tiếng Việt ứng dụng trong tƣơng tác với điện thoại thông minh
Trong đề tài nghiên cứu luận văn của mình tôi đi tìm hiểu và nghiên cứu bài toán
nhận dạng thực thể tên trong một phạm vi tương đối khác biệt, không giống với các
nghiên cứu về nhận dạng thực thể tên trước đây như: văn bản viết thông thường hoặc
nội dung văn bản của website. Đây là một bài toán nghiên cứu về nhận dạng thực thể
tên cho văn bản ngôn ngữ nói tiếng Việt được áp dụng cho người dùng trong tương tác
với ĐTTM và TBTM. Bằng những kiến thức tốt nhất mà tôi có, nghiên cứu này là một
trong những nghiên cứu đầu tiên về nhận dạng thực thể tên cho ngôn ngữ nói tiếng
Việt. Do đó kết quả nghiên cứu này đã mở ra một hướng nghiên cứu mới giúp cho các
nghiên cứu sau này về nhận dạng thực thể tên cho ngôn ngữ nói và có thể dựa trên các
kết quả nghiên cứu của tôi. Hơn nữa, nghiên cứu của tôi có thể được coi như một trong
những nghiên cứu cơ bản về hiểu ngôn ngữ nói tiếng Việt. Bởi tôi phải xử lý và vượt
qua rất nhiều khó khăn và thách thức đặc thù của dữ liệu trong văn bản ngôn ngữ nói
tiếng Việt. Ngoài ra với bài toán của mình, tôi cũng trình bày được một phương pháp
xử lý để nhận dạng các thực thể tên cho văn bản ngôn ngữ nói dựa trên cách tiếp cận
phương pháp học máy (Machine Learning). Để xử lý được tốt, tránh việc nhận dạng
nhập nhằng trong ngôn ngữ nói của con người, tôi đã đưa ra được nhiều cách tạo ra
các thuộc tính phong phú nhằm có tính phân biệt cao để giúp mô hình nhận dạng thực
thể tên được mạnh với hiệu suất cao.
Ngoài ra, ngày nay ĐTTM xuất hiện đã len lỏi từng bước rõ nét và thầm lặng vào

cuộc sống của mỗi chúng ta. Do sự tiện dụng, hữu ích và đa năng, ĐTTM đã trở thành
vật bất ly thân, là một trợ lý riêng trong cuộc sống của những người sử dụng điện
thoại. Tưởng tượng một ngày nào đó, người sử dụng có thể giao tiếp trực tiếp với
ĐTTM bằng ngôn ngữ tự nhiên, điều này sẽ giúp người sử dụng sẽ tiết kiệm được thời
gian cũng như giảm bớt những thao tác rườm rà khi sử dụng trong các ngữ cảnh đặc
biệt mà người dùng khó có thể thao tác bằng tay vì đang tập trung làm việc khác như:
trong trường hợp đang lái xe trên đường hoặc đang làm bếp hay trợ giúp cho những
người khuyết tật về tay mà vẫn đem lại hiệu quả mong muốn. Do đó bài toán này có
thể trở thành một thành phần hữu ích hỗ trợ cho các phần mềm xử lý liên quan đến văn
bản ngôn ngữ nói trong phạm vi giữa người dùng tương tác với ĐTTM như: quay số


13
bằng giọng nói, tìm kiếm vị trí trên bản đồ, ghi chú lịch hẹn, thiết lập các cài đặt cơ
bản, đặt báo thức, hỏi thời tiết, tìm đường đi, … cho ĐTTM. Tương tác ở đây có thể
hiểu rằng người dùng sẽ đưa ra yêu cầu hoặc mệnh lệnh hoặc những câu hỏi bằng
giọng nói, từ đó ĐTTM sẽ thực thi các yêu cầu từ người dùng hoặc tìm đưa ra được
các kết quả câu trả lời sao cho kết quả đúng với yêu cầu người dùng nhất trong khoảng
thời gian ngắn nhất có thể. Về cơ bản người sử dụng ĐTTM không cần sử dụng các
ngón tay để chạm vào bàn phím hay màn hình mà thông qua giọng nói, ĐTTM sẽ hiểu
được người sử dụng muốn thực hiện gì từ đó sẽ cho kết quả tốt nhất có thể.


14

Chƣơng 2. Các cách tiếp cận và phƣơng pháp nhận dạng
thực thể tên
2.1. Các hƣớng tiếp cận và các kỹ thuật chính áp dụng trong nhận
dạng thực thể tên
Hiện nay, có rất nhiều phương pháp đã được dùng để giải quyết bài toán nhận dạng

thực thể tên, các phương pháp được chia theo cách sử dụng. Phương pháp dựa trên hệ
luật được coi như một cách xác định thủ công, còn đối với phương pháp sử dụng mô
hình học máy thống kê được coi như phương pháp tự động để tìm các tham số tốt nhất
cho mô hình để mô hình có thể đoán nhận được thực thể tên tốt nhất. Một số phương
pháp học máy tiêu biểu sử dụng cho bài toán nhận dạng thực thể tên như: Trường điều
kiện ngẫu nhiên (Conditional Random Fields - CRFs) [13], Máy hỗ trợ véc tơ (Support
Vector Machine - SVMs), Cực đại hóa Entropy (Maximum Entropy - MaxEnt) [3]...
Dưới đây tôi sẽ liệt kê, trình bày sơ lược qua về một số phương pháp cả thủ công và tự
động được áp dụng trong bài toán nhận dạng thực thể tên.
 Từ điển & biểu thức chính quy: Một phương pháp đơn giản nhất đó là sử dụng
từ điển. Nhận dạng thực thể tên dựa trên từ điển là cố gắng tìm các thực thể có tên
bằng cách tìm kiếm trong từ điển sao cho các từ hoặc cụm từ đầu vào khớp với các
thực thể tên được định nghĩa trong từ điển. Nếu tìm được thực thể tên sẽ được đánh
dấu lại, thực hiện phương pháp này tương đối đơn giản. Tuy nhiên từ điển thường phải
chứa rất nhiều các thực thể tên nhưng đôi khi chỉ một số ít thực thể tên sẽ được sử
dụng vì các thực thể tên có thể ở nhiều hình thức khác nhau, không chỉ biểu diễn ở
dạng cơ bản mà thực thể có thể là dạng đầy đủ, do vậy từ điển rất cần liệt kê hết các
hình thức của thực thể tên. Phương pháp này thường không sử dụng riêng biệt mà nó
được kết hợp với các phương pháp khác trong các hệ thống nhận dạng thực thể tên.
Một trong các công cụ được sử dụng rộng rãi trong việc xử lý văn bản (không chỉ
dành riêng cho nhiệm vụ nhận dạng thực thể tên) là sử dụng biểu thức chính quy
(regular expressions). Các biểu thức chính quy là ngữ pháp cho phép xử lý tự động hạn
chế trạng thái rất nhanh. Biểu thức chính quy được sử dụng trong rất nhiều hệ thống
bởi các luật đơn giản. Tại hội nghị MUC-6, trường đại học New York đã giới thiệu hệ
thống Proteous [25]. Hệ thống được viết bằng Lisp và được hỗ trợ bởi một số lượng
lớn các luật. Tuy nhiên trên thực tế mỗi luật đều chứa một lượng lớn các ngoại lệ.
Ngay cả khi người thiết kế tìm cách giải quyết hết các ngoại lệ mà họ nghĩ đến thì vẫn
tồn tại những trường hợp chỉ xuất hiện khi hệ thống được đưa vào thực nghiệm thực tế.
Hơn nữa, việc xây dựng một hệ thống trích chọn thông tin dựa trên hệ luật là rất tốn
công sức, hiệu suất đem lại sẽ không được cao, công việc phải làm là rất nhiều vì liên

quan đến ngôn ngữ học, do vậy cần nhân lực có nhiều kinh nghiệm trong lĩnh vực
ngôn ngữ học. Với mỗi ngôn ngữ khác nhau ta cần phải tăng thời gian cho công việc
lên nhiều lần. Đây là trở ngại vô cùng lớn cho một hệ thống trích chọn thông tin.


15
 Máy hỗ trợ véc tơ (Support Vector Machines – SVMs): Phương pháp máy hỗ
trợ véc tơ được ra đời từ lý thuyết học thống kê do Vapnik và Chervonekis [1, tr. 268]
đưa ra vào năm 1995. Phương pháp máy hỗ trợ vector xây dựng một siêu phẳng hoặc
một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có
thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác. Mục tiêu của
phương pháp là xác định xem một điểm dữ liệu mới sẽ thuộc về lớp nào. Mỗi điểm dữ
liệu được biểu diễn dưới dạng một vector n – chiều, và ta muốn biết liệu có thể chia
tách hai lớp dữ liệu bằng một siêu phẳng n – 1 chiều. Đây gọi là phân loại tuyến tính.
 Mô hình Markov ẩn (Hidden Markov Models – HMMs): Mô hình Markov [26]
ẩn được giới thiệu lần đầu tiên vào đầu những năm 1970, cho đến nay phương pháp
này vẫn được coi là mô hình có hiệu năng rất cao và được ứng dụng trong nhiều lĩnh
vực khác nhau như: nhận dạng tiếng nói tự động (Automatic Speech Recognition –
ASR), tin sinh học, xử lý ngôn ngữ tự nhiên, nhận dạng thực thể. HMMs là mô hình
học máy trạng thái hữu hạn (probabilistic finite sate machine) với các tham số biểu
diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái. Các
trạng thái trong mô hình HMMs được xem là bị ẩn đi bên dưới dữ liệu quan sát sinh ra
mô hình. Quá trình sinh ra chuỗi dữ liệu quan sát trong HMMs thông qua một số các
bước chuyển trạng thái xuất phát từ một trong các trạng thái bắt đầu và dừng lại ở một
trạng thái kết thúc. Tại mỗi trạng thái, mỗi thành phần của chuỗi quan sát được sinh ra
trước khi chuyển sang các trạng thái tiếp theo. Trong bài toán nhận dạng thực thể tên
quá trình huấn luyện và suy luận của HMMs dựa trên tính năng quan sát trình tự các từ
trong chuỗi và các trạng thái trong dữ liệu huấn luyện. Mô hình tạo ra một ánh xạ cho
một chuỗi với các quan sát để dự đoán xác suất trạng thái nhất định.
 Trường điều kiện ngẫu nhiên (Conditional Random Fields – CRFs): CRFs [13]

được giới thiệu lần đầu vào năm 2001 bởi Lafferty cùng các cộng sự. CRFs là một mô
hình đồ thị vô hướng sử dụng tính toán xác suất điều kiện được sử dụng cho bài toán
gán nhãn dữ liệu chuỗi. Về cơ bản CRFs cũng giống như phương pháp HMMs. CRFs
định nghĩa phân phối xác suất trên toàn bộ chuỗi trạng thái với điều kiện chuỗi quan
sát cho trước. Điểm mạnh của CRFs là nó có khả năng xử lý dữ liệu có tính chất chuỗi,
có thể tích hợp hàng trăm, nghìn thậm chí hàng triệu đặc điểm từ dữ liệu hết sức đa
dạng nhằm hỗ trợ cho quá trình phân lớp.
 Cực đại hóa Entropy (Maximum Entropy – MaxEnt): Maximum Entropy [3] là
mô hình thống kê linh hoạt, mềm dẻo do Berger cùng các cộng sự giới thiệu lần đầu
tiên vào năm 1996 và một năm sau vào năm 1997, Della Pietra cùng các cộng sự tiếp
tục làm rõ về mô hình này. Tư tưởng chính của Maximum Entropy là “ngoài việc thỏa
mãn một số ràng buộc nào đó thì mô hình càng đồng đều càng tốt”. Maximum Entropy
là một phương pháp thống kê để xây dựng nên mô hình phân lớp xung quanh một phân
phối ước lượng. Nguyên tắc cơ bản của MaxEnt là sử dụng tất cả mọi thứ đã biết từ dữ
liệu và giả định không có gì khác về những thứ chưa biết. Nói cách khác, đưa ra một
tập các sự kiện, chọn một mô hình sao cho phù hợp với tất cả các sự kiện đó. Điều này


×