Tải bản đầy đủ (.ppt) (46 trang)

giới thiệu tổng quan về xử lý ngôn ngữ tự nhiên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.61 MB, 46 trang )

Giảng viên:
Hoàng Anh Việt

2011
Nội dung chương 01
17/10/14
2

Tổng quan

Các hướng nghiên cứu trong XLNN

Những khó khăn trong XLNN

Các ứng dụng cụ thể
Tổng quan
17/10/14
3
Máy tính trung tâm- Trí tuệ
ảo
17/10/14
4
Ngôn ngữ tự nhiên

Ngôn ngữ dùng giao tiếp hằng ngày
17/10/14
5
C++, java, c#?
Xử lý ngôn ngữ tự nhiên
(NLP)


Xử lý ngôn ngữ tự nhiên (natural
language processing - NLP) là một trong
những lĩnh vực khó nhất của trí tuệ nhân
tạo, tập trung vào các ứng dụng "dạy"
máy tính hiểu được ý nghĩa và tương tác,
giao tiếp bằng chính ngôn ngữ con người.

Kết quả trên thế giới >> Việt Nam.

‘Xử lý tiếng Việt’ phải do người Việt thực
hiện.
17/10/14
6
Chúng ta nên quan tâm
NLP?

Xu hướng:

Lượng lớn tri thức tồn tại ở dạng ngôn ngữ
tự nhiên trên các thiết bị điện tử, máy tính

Các phương tiện giao tiếp giữa con người
ngày càng đóng vai trò quan trọng. Trong
đó máy tính là trung gian.
17/10/14
7
Tiềm năng

Ngành công nghiệp IT (Số liệu năm 2005):


Yahoo, Google, AltaVista ($100-$1,000) mil./yr.


Information Retrieval

Monster.com, HotJobs.com (Job finders) – a market
expected to reach $4,5 billions in 2004

Information
Extraction + Information Retrieval

Systran powers Babelfish AltaVista, (€ 24 mil./yr.)


Machine Translation

Ask Jeeves ($60 mil./yr.)

Question Answering

Nghiên cứu

Các tập đoàn, công ty lớn có phòng thí nghiệm NLP:

IBM, Microsoft, AT&T, Xerox, Sun, etc.

Phòng nghiên cứu, nhóm nghiên cứu tại các trường đại học.
17/10/14
8
Thế giới thương mại

17/10/14
9
Slide from: Speech and Language Processing Jurafsky and Martin
Google Translate
Slide from: Speech and Language Processing Jurafsky and Martin
Google Translate
Slide from: Speech and Language Processing Jurafsky and Martin
Web Q/A
Slide from: Speech and Language Processing Jurafsky and Martin
Xây dựng Máy tính trung tâm – Trí tuệ
ảo

Các thử thách chính:

Nhận dạng giọng nói

Hiểu ngôn ngữ tự nhiên

Truy vấn, trích rút thông tin

Suy luận

Sinh tiếng nói.


17/10/14
13
Các chủ đề nghiên cứu

Các ứng dụng


Các mức phân tích

Các bài toán con

Các thuật toán và cách tiếp cận
17/10/14
14
Các chủ đề nghiên cứu

Các Ứng dụng:

Phân loại văn bản (Classify text into categories)

Đánh chỉ số và tìm kiếm (Index and search large texts)

Dịch tự động (Automatic translation)

Hiểu tiếng nói (Speech understanding):

Hiểu nội dung hội thoại qua điện thoại.

Khai phá thông tin (Information extraction)

Trích rút các thông tin quan trọng

Tóm tắt văn bản (Automatic summarization)

Cô đọng 1 quyển sách trên một trang giấy


Hỏi đáp (Question answering)

Thu tri thức (Knowledge acquisition)

Sinh ngôn ngữ (Text generations / dialogs)

Kiểm tra cú pháp văn bản (grammar checking)


17/10/14
15
NLP trong Computer
Science
Computers
Artificial Intelligence AlgorithmsDatabases Networking
Robotics
Search
Natural Language Processing
Information
Retrieval
Machine
Translation
Language
Analysis
Semantics Parsing
Nhiệm vụ của NLP
Computer
Language
Language
Understanding

Generation
Các chủ đề nghiên cứu

Các bài toán con:

Tách từ

Gán nhãn từ loại

Phân cụm từ

Phân tích cú pháp

Phân giải nhập nhằng

Phân tích ngữ nghĩa

Phân tích thực nghĩa



Các thuật toán và phương pháp tiếp cận:

Dựa từ điển, tập ngữ liệu (corpus)

Dựa trên tri thức

Thống kê

Học máy


….
17/10/14
18
Các chủ đề nghiên cứu

Các mức phân tích:

Phonology (âm vị): Âm, chữ cái và cách phát âm

Morphology (hình thái học): Cách từ được xây dựng, các
tiền tố và hậu tố cũng như thành tố chính.

Syntax (cú pháp): Mối liên hệ giữa các từ và ngữ để tạo
nên cấu trúc của câu.

Semantics (ngữ nghĩa): Ý nghĩa của một từ hay một cụm
từ, câu.

Discourse (Diễn ngôn): Quan hệ giữa các ý hoặc các câu.

Pragmatic (Thực chứng):
mục đích phát ngôn, cách sử dụng
ngôn ngữ trong giao tiếp

World Knowledge (tri thức thế giới): các tri thức về thế giới, các tri
thức ngầm
17/10/14
19





  !"#

$! $%&

!!'
(!)(%
**
#
!
!+
!, 

! 
-.
-.
/012&3
/012&3


 4
 4
#5#5$6$0%&/#0
%!6$7
%!6$7
%&$&2
8-+  
9: *;<=>?@

8-+  
9: *;<=>?@

*;<

/,:.
/,:.
 ;@!4
 ;@!4
 *", -4
 *", -4
( "A!mouse4
( "A!mouse4
1?

(:!:+3
1?

(:!:+3
第 13 届上海国际电影节开幕…
第 13 届上海国际电影节开幕…
#5
#5
B
B
%!

%!

4BC+" 

+"D
4BC+" 
+"D
('! .
('! .
E8FG / 
E8FG / 
/",+"E8F
/",+"E8F
'H:D
'H:D
<>?@4#
,D
<>?@4#
,D
IJ@@K!
IJ@@K!
NLP thực sự khó?

Máy tính thiếu:

Tri thức

Khả năng suy luận

Kinh nghiệm

Những thực tế khó khăn tại Việt Nam:

Bản thân ngôn ngữ: nhiều NHẬP NHẰNG


Thiếu các tập ngữ liệu cần thiết

Nghiên cứu rời rạc

Chưa nhiều ứng dụng thực tế

Baomoi.com, VnDOCR
17/10/14
21
Hình thái học

Âm tiết là một đơn vị cấu tạo nên một sự phối
hợp trong tiếng nói. Ví dụ, từ
Latinh
được kết hợp
từ hai âm tiết:
la

tinh
.

Một âm tiết được cấu tạo từ một nhân âm tiết
(thông thường nhất là một nguyên âm) và giới
hạn trước và sau không bắc buộc (điển hình là
các phụ âm)

Tiếng Anh: Ngôn ngữ biến hình, đơn âm tiết

Google, Facebook, Apple


Tiếng Việt: Không biến hình và đa âm tiết

Việt Nam, Lập trình, => khó xác định đâu là một từ
17/10/14
22
Tách từ

Tách từ là một quá trình xử lý nhằm mục đích
xác định ranh giới của các từ trong câu văn

Là đầu vào cho các bài toán xử lý khác trong hệ
thống XLNNTN

Tiếng Trung Quốc, Nhật, Thái, Việt Nam

Ví dụ:

Con ngựa đá con ngựa đá

Con ngựa | đá | con ngựa | đá

Con ngựa đá | con ngựa đá|

Con ngựa đá | con ngựa | đá


17/10/14
23
N

h

p

n
h

n
g

r
a
n
h

g
i

i
Tách từ (tiếp)

Có n trường hợp tách cho một câu nhưng
chỉ có 1 cách đúng trong từng ngữ cảnh

Ông già | đi | nhanh | quá

Ông | già | đi | nhanh | quá

Cách tiếp cận:


Tiếp cận dựa vào từ điển cố định

Tiếp cận dựa vào thống kê thuần túy

Tiếp cận dựa trên cả hai phương pháp trên
17/10/14
24
N
h

p

n
h

n
g

đ
a

n
g
h
ĩ
a
Tách từ (tiếp)

Các phương pháp tách từ:


So khớp từ dài nhất (Longest Matching)

So khớp cực đại (Maximum Matching)

Mô hình Markov ẩn (Hidden Markov Models- HMM)

Học dựa trên sự cải biến (Transformation-based Learning –
TBL)

Chuyển đổi trạng thái trọng số hữu hạn (Weighted Finite
State Transducer – WFST)

Độ hỗn loạn cực đại (Maximum Entropy – ME)

Máy học sử dụng vectơ hỗ trợ (Support Vector Machines)

Kết hợp những phương pháp trên
17/10/14
25

×