Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 3 - Lê Thanh Hương

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (447.06 KB, 7 trang )

(1)<div class='page_container' data-page=1>

Gán nhãn t

ừ

lo

ạ

i

Lê Thanh Hương

Lê Thanh Hương
Bộ môn Hệ thống Thông tin
Viện CNTT &TT – Trường ĐHBKHN
Email:

Đị

nh ngh

ĩ

a

z Gán nhãn từ loại (Part of Speech tagging - POS

tagging): mỗi từ trong câu được gán nhãn thẻ từ loại
tương ứng của nó

z Vào : 1 đoạn văn bản đã tách từ + tập nhãn
z Ra: cách gán nhãn chính xác nhất

2
z Ra: cách gán nhãn chính xác nhất

Ví dụ 1
Ví dụ 2
Ví dụ 3
Ví dụ 4
Ví dụ5

¾Gán nhãn làm cho việc phân tích văn bản dễ dàng hơn

T

ạ

i sao c

ầ

n gán nhãn?

z Dễ thực hiện: có thể thực hiện bằng nhiều phương pháp

khác nhau

z Các phương pháp sử dụng ngữ cảnh có thểđem lại
kết quả tốt

Mặ dù ê th hiệ bằ hâ tí h ă bả

3
z Mặc dù nên thực hiện bằng phân tích văn bản

z Các ứng dụng:

z Text-to-speech: record - N: [‘reko:d], V: [ri’ko:d]; lead –
N [led], V: [li:d]

z Tiền xử lý cho PTCP. PTCP thực hiện việc gán nhãn
tốt hơn nhưng đắt hơn

z Nhận dạng tiếng nói, PTCP, tìm kiếm, v.v…

z Dễ đánh giá (có bao nhiêu thẻđược gán nhãn đúng?)

T

ậ

p t

ừ

lo

ạ

i ti

ế

ng Anh

z Lớp đóng (các từ chức năng): số lượng cốđịnh

z Giới từ (Prepositions): on, under, over,…

z Tiểu từ (Particles): abroad, about, around, before, in,

instead, since, without,…

4
z Mạo từ (Articles): a, an, the

z Liên từ (Conjunctions): and, or, but, that,…
z Đại từ (Pronouns): you, me, I, your, what, who,…
z Trợđộng từ (Auxiliary verbs): can, will, may, should,…
z Lớp mở: có thể có thêm từ mới

L

ớ

p t

ừ

m

ở

trong ti

ế

ng Anh

open class
verbs

Proper nouns: IBM, Colorado
nouns

common nouns

count nouns: book, ticket
mass nouns: snow, salt
auxiliaries

Color: red, white
. . .

5
p

adverbs

adjectives Age: old, young
Value: good, bad

Degree adverbs: extremely, very, somewhat
Manner adverbs: slowly, delicately
Temporal adverbs: yesterday, Monday
Locatives adverbs: home, here, downhill

T

ậ

p nhãn cho ti

ế

ng Anh

t

ậ

p ng

ữ

li

ệ

u Brown: 87 nhãn

3 t

ậ

p th

ườ

ng

đượ

c s

ử

d

ụ

ng:

¾ Nhỏ: 45 nhãn - Penn treebank (slide sau)

</div>
(2)<div class='page_container' data-page=2>

7
I know that blocks the sun.

He always books the violin concert tickets early.
He says that book is interesting.

Penn Treebank – ví d

ụ

The grand jury commented on a number of

Ư

The/DT

grand/JJ

jury/NN

commented/VBD

on/IN

a/DT

number/NN

of/IN

other/JJ

topics/NNS

./.

Khó kh

ă

n trong gán nhãn t

ừ

lo

ạ

i?

… là xử lý nhập nhằng

Các ph

ươ

ng pháp gán nhãn t

ừ

lo

ạ

i

D

ự

a trên xác su

ấ

t

: d

ự

a trên xác su

ấ

t l

ớ

n

nh

ấ

t, d

ự

a trên mơ hình Markov

ẩ

n (hidden

markov model – HMM)

Pr (Det N) > Pr (Det Det)

Pr (Det-N) > Pr (Det-Det)

D

ự

a trên lu

ậ

t

If <m

ẫ

u>

Then … <gán nhãn th

ẻ

t

ừ

lo

ạ

i>

Các cách ti

ế

p c

ậ

n

S

ử

d

ụ

ng HMM :

“S

ử

d

ụ

ng t

ấ

t c

ả

thơng tin

đ

ã

có và

đ

ốn”

D

ự

a trên ràng bu

ộ

c ng

ữ

pháp:

“khơng

ự

g

ộ

g p

p

g

đ

oán, ch

ỉ

lo

ạ

i tr

ừ

nh

ữ

ng kh

ả

n

ă

ng sai”

D

ự

a trên chuy

ể

n

đổ

i:

“

Đ

ốn tr

ướ

c, sau

đ

ó

có th

ể

thay

đổ

i”

Gán nhãn d

ự

a trên xác su

ấ

t

Cho câu hoặc 1 xâu các từ, gán nhãn từ loại
thường xảy ra nhất cho các từ trong xâu đó.

Cách thực hiện:

z Hidden Markov model (HMM):
Chọn thẻ từ loại làm tối đa xác suất:

P(từ|từ loại)•P(từ loại| n từ loại phía trước)
The/DTgrand/JJjury/NNcommented/VBDon/INa/DT

</div>
(3)<div class='page_container' data-page=3>

Ví d

ụ

-HMMs

Thực hiện học có giám sát, sau đó suy diễn để xác
định thẻ từ loại

Gán nhãn HMM

z Công thức Bigram HMM: chọn ti cho wicó nhiều

khả năng nhất khi biết ti-1 và wi :

ti = argmaxjP(tj | ti-1 , wi) (1)

z Giảthiếtđơn giản hóa HMM:vấnđềgán nhãn

14
z Giả thiết đơn giản hóa HMM: vấn đề gán nhãn

có thể giải quyết bằng cách dựa trên các từ và
thẻ từ loại bên cạnh nó

ti = argmaxjP(tj | tj-1 )P(wi | tj ) (2)

xs chuỗi thẻ

(các thẻđồng xuất hixs tệừn) thường xuất hiện với thẻ tj

Ví d

ụ

1. Secretariat/NNPis/VBZexpected/VBNto/TOrace/VB

tomorrow/NN

2. People/NNS continue/VBP to/TOinquire/VB the/DT

reason/NNfor/INthe/DTrace/NNfor/INouter/JJ

15
space/NN

z Không thểđánh giá bằng cách chỉđếm từ trong tập ngữ
liệu (và chuẩn hóa)

z Muốn 1 động từ theo sau TOnhiều hơn 1 danh từ(to
race, to walk). Nhưng 1 danh từ cũng có thể theo sau
TO (run to school)

Gi

ả

s

ử

chúng ta có t

ấ

t c

ả

các t

ừ

lo

ạ

i tr

ừ

t

ừ

race

z Chỉ nhìn vào từđứng trước(bigram):

to/TO race/??? NN or VB?

the/DT race/???

I/PP know/VBP that/WDT block/NN blocks/NNS?VBZ?the/DT
sun/NN.

z Áp dụng (2):

z Chọn thẻ có xác suất lớn hơn giữa 2 xác suất:

P(VB|TO)P(race|VB) hoặc P(NN|TO)P(race|NN)

xác suất của 1 từ là race khi biết từ loại là VB.
ti = argmaxjP(tj | tj-1 )P(wi | tj )

Tính xác su

ấ

t

Xét P(VB|TO) và P(NN|TO)

z Từ tập ngữ liệu Brown
P(NN|TO)= .021

P(VB|TO)= .340

17
P(race|NN)= 0.00041

P(race|VB)= 0.00003

z P(VB|TO)P(race|VB) = 0.00001
z P(NN|TO)P (race|NN) = 0.000007

¾ racecần phải là động từ nếu đi sau“TO”

Bài t

ậ

p

z I know that blocks the sun.

z He always books the violin concert tickets early.
z He says that book is interesting.

z I/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN.

z He/PP always/RB books/VBZ the/DT violin/NN

concert/NN tickets/NNS early/RB.

z I know that block blocks the sun.

z I/PP know/VBP that/DT block/NN blocks/NNS?VBZ?

the/DT sun/NN.

z He/PP says/VBZ that/WDT book/NN is/VBZ

</div>
(4)<div class='page_container' data-page=4>

Mơ hình

đầ

y

đủ

z Chúng ta cần tìm chuỗi thẻ tốt nhất cho tồn xâu
z Cho xâu từW, cần tính chuỗi từ loại có xác suất lớn

nhất

T=t1,t2 ,…, tn hoặc,

(nguyên lý Bayes)

ˆ

arg max ( |

)

T

P T W

τ
∈

=

M

ở

r

ộ

ng s

ử

d

ụ

ng lu

ậ

t chu

ỗ

i

P(A,B) = P(A|B)P(B) = P(B|A)P(A)

20
P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..)

1 1 1 1 1 1 1 1

( ) (

| )

(

|

...

) ( |

...

)

n

i i i i i i i

i

P T P W T

P w w t

w t t P t w t

− −

w t

− −

=

∏

lịch sử nhãn
pr từ

Gi

ả

thi

ế

t trigram

Xác su

ấ

t 1 t

ừ

ch

ỉ

ph

ụ

thu

ộ

c vào nhãn c

ủ

a nó

1 1 1

(

i

|

...

i i

)

(

i

| )

i

P w w t

t t

=

P w t

Ta l

ấ

y l

ị

ch s

ử

nhãn thông qua 2 nhãn g

ầ

n

nh

ấ

t (trigram: 2 nhãn g

ầ

n nh

ấ

t + nhãn hi

ệ

n

t

ạ

i)

1 1 1

(

i

|

...

i i

)

(

i

| )

i

P w w t

t t

−

P w t

1 1 1 2 1

( |

i

...

i

)

( |

i i i

)

P t w t

t

−

=

P t t t

− −

Thay vào công th

ứ

c

n n

P(T)P(W|T) =

1 2 1 2 1

3 1

( ) ( | )

( |

i i i

)[

(

i

| )]

i

i i

P t P t

t

P t t t

− −

P w t

= =

∏

Đ

ánh giá xác su

ấ

t

z Sử dụng quan hệ xác suất từ tập ngữ liệu để

đánh giá xác suất:

2 1

(

)

( |

)

c t t t

i i i

P t t t

− −

23
2 1
1 2
2 1

(

)

( |

)

(

)

i i i

i i

P t t t

c t t

− −
− −

=

(

, )

(

| )

( )

i i
i i
i

c w t

P w t

c t

=

Bài toán

C

ầ

n gi

ả

i quy

ế

t

ˆ

arg max ( ) (

| )

T

=

P T P W T

Bây gi

ờ

ta có th

ể

tính

đượ

c t

ấ

t c

ả

các tích

P(T)P(W|T)

arg max ( ) (

| )

T

P T P W T

∈

</div>
(5)<div class='page_container' data-page=5>

Ví d

ụ

NNS

DT

NNS

the dog

VB

saw
VBP

ice-cream

Tìm đường đi tốt nhất?

Tìm

đườ

ng

đ

i có

đ

i

ể

m cao

nh

ấ

t

NNS NNS

75

30

NNS
1

1 2 1 2 1

3 1

( ) ( | )

( |

)[

(

| )]

n n

i i i i i

i i

P t P t

t

P t t t

− −

P w t

= =

∏

the dog

VB
DT

saw
VBP

ice-cream
75

1

60

30
1

NNS
1

52

Cách tìm

đườ

ng

đ

i có

đ

i

ể

m

cao nh

ấ

t

z Sử dụng tìm kiếm kiểu best-first (A*)

1. Tại mỗi bước, chọn k giá trị tốt nhất ( ) . Mỗi giá

trị trong k giá trị này ứng với 1 khả năng kết hợp
nhãn của tất cả các từ

ế ấ

2. Khi gán từ tiếp theo, tính lại xác suất. Quay lại

bước 1

z Ưu: nhanh (không cần kiểm tra tất cả các khả năng

kết hợp, chỉ k cái tiềm năng nhất)

z Nhược: có thể khơng trả về kết quả tốt nhất mà chỉ

chấp nhận được

Độ

chính xác

> 96%

Cách

đơ

n gi

ả

n nh

ấ

t?

90%

zGán mỗi từ với từ loại thường xuyên nhất của
nó

28
nó

zGán từ chưa biết = danh từ

Ng

ườ

i:

97%+/- 3%

; n

ế

u có th

ả

o lu

ậ

n:

100%

Cách ti

ế

p c

ậ

n th

ứ

2: gán nhãn

d

ự

a trên chuy

ể

n

đổ

i

Transformation-based Learning (TBL):

z Kết hợp cách tiếp cận dựa trên luật và cách tiếp

ậ á ất ửd h á để hỉ h l i thẻ

cận xác suất: sử dụng học máy để chỉnh lại thẻ
thông qua vài lần duyệt

z Gán nhãn sử dụng tập luật tổng quát nhất, sau đó

đến tập luật hẹp hơn, thay đổi một số nhãn, và tiếp
tục

Transformation-based painting

</div>
(6)<div class='page_container' data-page=6>

Transformation-based painting

</div>
(7)<div class='page_container' data-page=7>

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 3 - Lê Thanh Hương

<b>Gán nhãn t</b>

<b>ừ</b>

<b> lo</b>

<b>ạ</b>

<b>i</b>

<b>Đị</b>

<b>nh ngh</b>

<b>ĩ</b>

<b>a</b>

<b>T</b>

<b>ạ</b>

<b>i sao c</b>

<b>ầ</b>

<b>n gán nhãn?</b>

<b>T</b>

<b>ậ</b>

<b>p t</b>

<b>ừ</b>

<b> lo</b>

<b>ạ</b>

<b>i ti</b>

<b>ế</b>

<b>ng Anh</b>

<b>L</b>

<b>ớ</b>

<b>p t</b>

<b>ừ</b>

<b> m</b>

<b>ở</b>

<b> trong ti</b>

<b>ế</b>

<b>ng Anh</b>

<b>T</b>

<b>ậ</b>

<b>p nhãn cho ti</b>

<b>ế</b>

<b>ng Anh</b>

t

ậ

p ng

ữ

li

ệ

u Brown: 87 nhãn

3 t

ậ

p th

ườ

ng

đượ

c s

ử

d

ụ

ng:

<b>Penn Treebank – ví d</b>

<b>ụ</b>

The grand jury commented on a number of

other topics.

Ư

The/DT

grand/JJ

jury/NN

commented/VBD

on/IN

a/DT

number/NN

of/IN

other/JJ

topics/NNS

./.

<b>Khó kh</b>

<b>ă</b>

<b>n trong gán nhãn t</b>

<b>ừ</b>

<b>lo</b>

<b>ạ</b>

<b>i?</b>

<b>Các ph</b>