Giảng viên:
Hoàng Anh Việt
2011
Nội dung chương 01
17/10/14
2
Tổng quan
Các hướng nghiên cứu trong XLNN
Những khó khăn trong XLNN
Các ứng dụng cụ thể
Tổng quan
17/10/14
3
Máy tính trung tâm- Trí tuệ
ảo
17/10/14
4
Ngôn ngữ tự nhiên
Ngôn ngữ dùng giao tiếp hằng ngày
17/10/14
5
C++, java, c#?
Xử lý ngôn ngữ tự nhiên
(NLP)
Xử lý ngôn ngữ tự nhiên (natural
language processing - NLP) là một trong
những lĩnh vực khó nhất của trí tuệ nhân
tạo, tập trung vào các ứng dụng "dạy"
máy tính hiểu được ý nghĩa và tương tác,
giao tiếp bằng chính ngôn ngữ con người.
Kết quả trên thế giới >> Việt Nam.
‘Xử lý tiếng Việt’ phải do người Việt thực
hiện.
17/10/14
6
Chúng ta nên quan tâm
NLP?
Xu hướng:
Lượng lớn tri thức tồn tại ở dạng ngôn ngữ
tự nhiên trên các thiết bị điện tử, máy tính
Các phương tiện giao tiếp giữa con người
ngày càng đóng vai trò quan trọng. Trong
đó máy tính là trung gian.
17/10/14
7
Tiềm năng
Ngành công nghiệp IT (Số liệu năm 2005):
Yahoo, Google, AltaVista ($100-$1,000) mil./yr.
Information Retrieval
Monster.com, HotJobs.com (Job finders) – a market
expected to reach $4,5 billions in 2004
Information
Extraction + Information Retrieval
Systran powers Babelfish AltaVista, (€ 24 mil./yr.)
Machine Translation
Ask Jeeves ($60 mil./yr.)
Question Answering
Nghiên cứu
Các tập đoàn, công ty lớn có phòng thí nghiệm NLP:
IBM, Microsoft, AT&T, Xerox, Sun, etc.
Phòng nghiên cứu, nhóm nghiên cứu tại các trường đại học.
17/10/14
8
Thế giới thương mại
17/10/14
9
Slide from: Speech and Language Processing Jurafsky and Martin
Google Translate
Slide from: Speech and Language Processing Jurafsky and Martin
Google Translate
Slide from: Speech and Language Processing Jurafsky and Martin
Web Q/A
Slide from: Speech and Language Processing Jurafsky and Martin
Xây dựng Máy tính trung tâm – Trí tuệ
ảo
Các thử thách chính:
Nhận dạng giọng nói
Hiểu ngôn ngữ tự nhiên
Truy vấn, trích rút thông tin
Suy luận
Sinh tiếng nói.
…
17/10/14
13
Các chủ đề nghiên cứu
Các ứng dụng
Các mức phân tích
Các bài toán con
Các thuật toán và cách tiếp cận
17/10/14
14
Các chủ đề nghiên cứu
Các Ứng dụng:
Phân loại văn bản (Classify text into categories)
Đánh chỉ số và tìm kiếm (Index and search large texts)
Dịch tự động (Automatic translation)
Hiểu tiếng nói (Speech understanding):
Hiểu nội dung hội thoại qua điện thoại.
Khai phá thông tin (Information extraction)
Trích rút các thông tin quan trọng
Tóm tắt văn bản (Automatic summarization)
Cô đọng 1 quyển sách trên một trang giấy
Hỏi đáp (Question answering)
Thu tri thức (Knowledge acquisition)
Sinh ngôn ngữ (Text generations / dialogs)
Kiểm tra cú pháp văn bản (grammar checking)
…
17/10/14
15
NLP trong Computer
Science
Computers
Artificial Intelligence AlgorithmsDatabases Networking
Robotics
Search
Natural Language Processing
Information
Retrieval
Machine
Translation
Language
Analysis
Semantics Parsing
Nhiệm vụ của NLP
Computer
Language
Language
Understanding
Generation
Các chủ đề nghiên cứu
Các bài toán con:
Tách từ
Gán nhãn từ loại
Phân cụm từ
Phân tích cú pháp
Phân giải nhập nhằng
Phân tích ngữ nghĩa
Phân tích thực nghĩa
…
Các thuật toán và phương pháp tiếp cận:
Dựa từ điển, tập ngữ liệu (corpus)
Dựa trên tri thức
Thống kê
Học máy
….
17/10/14
18
Các chủ đề nghiên cứu
Các mức phân tích:
Phonology (âm vị): Âm, chữ cái và cách phát âm
Morphology (hình thái học): Cách từ được xây dựng, các
tiền tố và hậu tố cũng như thành tố chính.
Syntax (cú pháp): Mối liên hệ giữa các từ và ngữ để tạo
nên cấu trúc của câu.
Semantics (ngữ nghĩa): Ý nghĩa của một từ hay một cụm
từ, câu.
Discourse (Diễn ngôn): Quan hệ giữa các ý hoặc các câu.
Pragmatic (Thực chứng):
mục đích phát ngôn, cách sử dụng
ngôn ngữ trong giao tiếp
World Knowledge (tri thức thế giới): các tri thức về thế giới, các tri
thức ngầm
17/10/14
19
!"#
$! $%&
!!'
(!)(%
**
#
!
!+
!,
!
-.
-.
/012&3
/012&3
✓
✗
4
4
#5#5$6$0%&/#0
%!6$7
%!6$7
%&$&2
8-+
9: *;<=>?@
8-+
9: *;<=>?@
*;<
/,:.
/,:.
;@!4
;@!4
*", -4
*", -4
( "A!mouse4
( "A!mouse4
1?
(:!:+3
1?
(:!:+3
第 13 届上海国际电影节开幕…
第 13 届上海国际电影节开幕…
#5
#5
B
B
%!
%!
4BC+"
+"D
4BC+"
+"D
('! .
('! .
E8FG /
E8FG /
/",+"E8F
/",+"E8F
'H:D
'H:D
<>?@4#
,D
<>?@4#
,D
IJ@@K!
IJ@@K!
NLP thực sự khó?
Máy tính thiếu:
Tri thức
Khả năng suy luận
Kinh nghiệm
Những thực tế khó khăn tại Việt Nam:
Bản thân ngôn ngữ: nhiều NHẬP NHẰNG
Thiếu các tập ngữ liệu cần thiết
Nghiên cứu rời rạc
Chưa nhiều ứng dụng thực tế
Baomoi.com, VnDOCR
17/10/14
21
Hình thái học
Âm tiết là một đơn vị cấu tạo nên một sự phối
hợp trong tiếng nói. Ví dụ, từ
Latinh
được kết hợp
từ hai âm tiết:
la
và
tinh
.
Một âm tiết được cấu tạo từ một nhân âm tiết
(thông thường nhất là một nguyên âm) và giới
hạn trước và sau không bắc buộc (điển hình là
các phụ âm)
Tiếng Anh: Ngôn ngữ biến hình, đơn âm tiết
Google, Facebook, Apple
Tiếng Việt: Không biến hình và đa âm tiết
Việt Nam, Lập trình, => khó xác định đâu là một từ
17/10/14
22
Tách từ
Tách từ là một quá trình xử lý nhằm mục đích
xác định ranh giới của các từ trong câu văn
Là đầu vào cho các bài toán xử lý khác trong hệ
thống XLNNTN
Tiếng Trung Quốc, Nhật, Thái, Việt Nam
Ví dụ:
Con ngựa đá con ngựa đá
Con ngựa | đá | con ngựa | đá
Con ngựa đá | con ngựa đá|
Con ngựa đá | con ngựa | đá
17/10/14
23
N
h
ậ
p
n
h
ằ
n
g
r
a
n
h
g
i
ớ
i
Tách từ (tiếp)
Có n trường hợp tách cho một câu nhưng
chỉ có 1 cách đúng trong từng ngữ cảnh
Ông già | đi | nhanh | quá
Ông | già | đi | nhanh | quá
Cách tiếp cận:
Tiếp cận dựa vào từ điển cố định
Tiếp cận dựa vào thống kê thuần túy
Tiếp cận dựa trên cả hai phương pháp trên
17/10/14
24
N
h
ậ
p
n
h
ằ
n
g
đ
a
n
g
h
ĩ
a
Tách từ (tiếp)
Các phương pháp tách từ:
So khớp từ dài nhất (Longest Matching)
So khớp cực đại (Maximum Matching)
Mô hình Markov ẩn (Hidden Markov Models- HMM)
Học dựa trên sự cải biến (Transformation-based Learning –
TBL)
Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite
State Transducer – WFST)
Độ hỗn loạn cực đại (Maximum Entropy – ME)
Máy học sử dụng vectơ hỗ trợ (Support Vector Machines)
Kết hợp những phương pháp trên
17/10/14
25