Tải bản đầy đủ (.pdf) (44 trang)

Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.1 MB, 44 trang )

I H C QU C GIA HÀ N I
I H C CÔNG NGH

NGHIÊN C U XÂY D NG NG D NG X
N LU T GIAO THÔNG



KHÓA LU N T T NGHI
I H C H CHÍNH QUY
Ngành: Công ngh thông tin

2015


I H C QU C GIA HÀ N I
I H C CÔNG NGH

NGHIÊN C U XÂY D NG NG D NG X
N LU T GIAO THÔNG

KHÓA LU N T T NGHI

I H C H CHÍNH QUY

Ngành: Công ngh thông tin

Cán b




ng d n: PGS TS. Nguy n Vi t Hà

- 2015


VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Nguyen Ha Thanh

RESEARCH AND PROPOSE
VIETNAMESE TRAFIC LAW PROCESSING METHOD

A THESIS PRESENTED FOR THE DEGREE BACHELOR
Major: Information Technology

Supervisor: Assoc Prof. Nguyen Viet Ha

HA NOI - 2015


TÓM T T

Tóm t t: M c dù nhu c u pháp lý c a xã h i ngày m t cao, h th ng pháp lu t c a Vi t Nam v n
còn nhi
m ch ng chéo, liên t
c ti p c n, áp d ng, s d ng
và th c thi pháp lu t. Ngày nay v i s phát tri n nhanh chóng c a các k thu t h c máy c bi t
là k thu t s d ng m ng
nhân t o, nhi u ng d ng thông min

i và giúp ích r t
nhi u cho cu c s
i. Trong gi i h n c a m t khóa lu n t t nghi p c a sinh viên
tài
nghiên c u gi i quy
t ra là xây d
n các câu lu t
giao thông có hình thái khác nhau
u hi
ng nhau.
ng ti p c
gi i quy t v
là s d ng k thu
o trong h c máy. Cách th c ti n hành th c
nghi m c
tài phù h
ch ng minh tính kh thi c
c nh ng k t
qu
u khá
ng, m ra tri n v ng cho các ng d ng ch
ng cao trong x lý các
v
pháp lý.
T khóa: M

, x lý ti ng vi t, lu t giao thông


SUMARY


Sumary: Nowadays, the demands for legal services in our society are rising sharply. However,
the legal system in Vietnam is still greatly overlapping and constantly changing, which creates
considerable difficulties for people in accessing, applying and using the law for legitimate
reasons. Today, with the rapid development of machine learning, especially the technical uses of
artificial neural network, many smart applications were born and became very helpful for human
life. Within the scope of a graduation paper for the bachelor degree, this research aims at
studying related knowledge and building a program having the capacity to detect the traffic law
sentences which are in different morphology but express similar meaning. The main approach to
achieve these aims is to use techniques in machine learning artificial neurons. Experimental
methods proposed in this research are suitable for proving the method. Initial results are rather
impressive, opening up prospects for high quality applications in handling legal issues.
Keyword: Artificial neural network, Vietnamese processing, traffic law


L

nh
c trình bày m t cách chính xác và
trung th c, t t c các tài li u tham kh o, công trình nghiên c u c
i
c s d ng
c ghi rõ ngu
c li t kê t
im
t trong
danh m c các tài li u tham kh o c a khóa lu n.

nh


Nh ng c i ti
thu t l
nc a
nh th c nghi m t thi t k không có s sao chép công trình c
i khác. N
th t, tôi xin ch u hình th c k lu t cao nh t c
ng.

Hà N i, ngày 30/4/2015
Sinh viên

Nguy n Hà Thanh


L IC

c tiên, em mu n g i l i c
c nh
n th y Nguy n Vi t Hà, th y Nguy n
g i ý cho em m
ng nghiên c u r t thú v và t
ng d n
ng l i
khuyên và kinh nghi m quý báu cho em trong trong quá trình th c hi n khóa lu n.
l ic
n các th y là tác gi
tài "Nghiên c u phát
tri n m t s s n ph m thi t y u v x lí ti
n ti ng Vi t" (VLSP), nh
t o n n móng quan tr ng cho vi c ti p c n x lý ngôn ng ti ng Vi t.

E
cg il ic
i các tác gi c a các bài báo, nghiên c u có liên quan.
Trong khoa h c nói chung và trong khoa h
th c nào là tuy
it
s nghiên c u nghiên túc và t n tâm c a các tác gi , các
cách ti p c n, x lý v
it
i cách ti p t n hi u qu
trên th gi i hi n nay.

Hà N i, ngày 30/4/2015
Sinh viên

Nguy n Hà Thanh


M CL C

M

TV

................................................................... 1

1.1. B I C NH NGHIÊN C U ....................................................................................................1
1.2. NHI M V C A KHÓA LU N ............................................................................................2
1.3. CÁC N I DUNG C A KHÓA LU N ...................................................................................3


LÝ THUY T ............................................................................... 5
2.1. T NG QUAN V M
2.2. S

O .................................................................5

D NG VÀ HU N LUY N M

O............................................7

2.3.

....8

2.4.

M C A NGÔN NG

TI NG VI T .....................................................................10

XU T M

.................... 12

3.1. BÀI TOÁN.............................................................................................................................12
3.2. CÁC NGHIÊN C

C K TH A ..............................................................................13

3.3. XÂY D NG KHÔNG GIAN VECTOR T ........................................................................14


3.3.1.

T ng quan cách ti p c n...............................................................................14

3.3.2.

Thu th p và ti n x lý d li u ......................................................................15

3.3.3.

Xây d ng m

3.3.4.

Hu n luy n m ng và hi u ch nh vector t ....................................................17

................................................................................15

3.4. M

........................................................................18

3.4.1.

Phân tách cú pháp b ng cây ph thu c ........................................................18

3.4.2.

Xây d ng m


3.4.3.

Hu n luy n m

3.5.

thu c ...................19
m...............................................................21

M M NH, H N CH

3.5.1.
3.5.2.

m m nh c
H n ch c

.................................................21

......................................................................21
............................................................................22

TH C NGHI M, K T QU

................ 23


4.1. CÔNG C


NG TH C NGHI M ...............................................................23

4.1.1.

Win web crawler -

4.1.2.

vnTokenizer - công c tách t ti ng Vi t .....................................................23

4.1.3.

vndp - công c khai tri n cây ph thu c ti ng Vi t .....................................24

4.1.4.

c nghi m t thi t k và tri n khai .....................................25

4.1.5.

ng th c nghi m ..............................................................................27

4.2. D

y n i dung c a các trang web ...............23

LI U DÙNG CHO TH C NGHI M ............................................................................27

4.3. CÁCH TH C T CH C TH C NGHI M.........................................................................28
4.4. K T QU TH C NGHI M .................................................................................................29

4.5.

T QU TH C NGHI M .....................................................30

K T LU N ............................................................................................. 32
TÀI LI U THAM KH O...........................................................................................................34


M
1.1.

TV

B I C NH NGHIÊN C U

Xã h i càng phát tri n, ch
ng cu c s ng c
cao thì nhu c u s d ng pháp lu t c a các cá nhân, t ch
c C ng hòa xã h i ch
quy n co

i, quy
i hi

pháp lu

n c a công dân
t l n n a cho th y v trí và vai trò c a

is


theo pháp lu

c nâng
t gia
nh v

c kh
cho m t s phát tri n nhanh và

nh, m t xã h i ho

ng

nh.

có th s d ng và áp d ng pháp lu t, nh
i làm trong ngành ph
cr t
nhi u và liên t c c p nh t các thông tin t
n pháp lu t m
c thông qua. Các
n pháp lu
i sau có hi u l c thay th , ph
nh ho c b
n
c này hi n nay di n ra r
ng xuyên và liên t c gây tr ng i l n cho
nh
i ho

ng pháp lý. Nh
i dù hành ngh
tin nh ng gì mình bi t v m t v
pháp lý
a hay không n u
h
không tra c u v
này trong m t th i gian dài. Bên c
b o hi n c a h
th ng pháp lu t Vi t Nam còn nhi u b t c p cho nên v n còn nh
m ch ng chéo
mâu thu n gi a các
n quy ph m pháp lu t. T i th
m khóa lu
c hoàn
n quy ph m pháp lu t v thu
cs
i. Th i báo
kinh t
n vi t:
n v thu
o ra h th
b n quy ph m pháp lu t ch ng chéo, ch
ng th c
hi n. Ch ng h
bi
nh nào c a Lu t Thu TNDN còn hi u l c thi hành và quy
nh c th
ng th c hi n ph i so sánh Lu t Thu
Lu t S

i, b sung m t s
u c a Lu t Thu
tS
i, b sung
m ts
u t i các lu t thu
c ngh

nh s a nhi u ngh

1

a nhi

1

/>
1


V i nh ng thành t u r
c a
H c máy, X lý ngôn ng t nhiên trong nh
x

ng nghiên c u Trí tu nhân t
c áp d ng Công ngh

n Lu t h a h n s t
c m t cu c cách m ng v

m ph c v cho vi c so n th o, s d ng, áp d ng và th c thi pháp

lu t. Các h th ng thông minh còn có th giúp phát hi n ra nh
chéo trong h th ng pháp lu
p ki n th
v

m mâu thu n, ch ng
gi i quy t m t

pháp lu t.

1.2. NHI M V C A KHÓA LU N
Trong gi i h n c a m t khóa lu n t t nghi p c a sinh viên, n i dung nghiên c u
t p trung gi i quy t m t bài toán nh
th
n pháp lu t ch ng chéo (ví d

nx
n lu t. Trong m t h
th ng các quy ph m v thu trong ph n

c), s có nh ng câu lu
c vi t theo cách s p x p t
l
ng nh t. Vi c phát hi
c nh ng c p câu có
tính ch
ys
c a r t nhi u các ng d ng x lý pháp lu t sau này. Nhi m

v c
tài là khái quát c s lý thuy t, k th a các nghiên c u ã có, xu t gi i pháp
và xây d
cm
phát hi
c nh ng c p câu lu
v y trong m t ng c
c gi i h n là các quy ph m pháp lu
nh v giao thông
Vi t Nam.
tài có th
c s d ng cho các ng d ng góp ph
pc
nh v giao thông cho m
tìm ki m nh
u
lu
n công vi c c a các lu
h m phán, nh ng cá nhân, t ch
d ng, thi hành, s d ng pháp lu t và phát hi n s ch ng chéo

n lu t.

H ng ti p c n chính
gi i quy t v
là s d ng k thu t
nhân t o
trong h c máy. C th , công trình s d ng hai m ng
th c hi n hai nhi m v chính,
m t là vector hóa các t và hai là phát hi n s

a các câu lu t
c vi t
v i c u trúc s p x p t ng u nhiên. Công trình ch y u h c t
ng c a
Richard Socher, Andrej Karpathy, Quoc V. Le*, Christopher D. Manning, Andrew Y. Ng.
trong bài báo Grounded Compositional Semantics for Finding and Describing Images
with Sentences
c a công trình là
xu
cm
c
ti n và xây d
c m t h th ng ho
ng m
i hi u qu v i d li u là
ti ng Vi t d a trên nh ng công c , nghiên c
à m t s c i ti n v k
thu t.
2


1.3. CÁC N I DUNG C A KHÓA LU N
Khóa lu
b i c nh nghiên c

m cung c p m t cái nhìn t ng th v
lý thuy t có liên quan, quy trình, k t

qu ti n hành th c nghi m và m t s so sánh v
u nói v


trí c

gi i.
tài trong b i c nh chung xét trên

ng phát tri n c a xã h
thu t Trí tu nhân t o mà c th
c máy. Ph n cu

ng phát tri n c a các k
tb c cc a

khóa lu n nh m giúp cho các th y cô, các b n và các em d theo dõi, ti n cho vi
i sánh và tham kh o.
lý thuy t quan tr
u
tiên là nh ng lý thuy t v m
o, ph n này nh m cung c p cho nh ng
c không cùng chuyên ngành có th d dàng n m b
ng và ti p t c
hi
c nh ng ph n ti p theo c a khóa lu n. Ti p
là cách th c s d ng và hu n
luy n m
n sai s
c và c p nh t tr ng s m ng b ng gi i
thu t Gradient descent và c i ti n k thu t c a nó (Stochastic gradient descent). Cu i
n trình bày m t s
m c a ngôn ng ti ng Vi

t trong
nh

quan tr

gi

t qu th c nghi m.

a khóa lu n nói v
xu
gi i quy t bài toán
th c nghi m c th là s d ng m
phát hi n các câu lu t mang cùng
này, bài toán th c nghi
c phát bi u m t cách rõ ràng, chính
xác b ng ngôn ng t nhiên, ngôn ng ký hi u và có ví d minh h a. Ti
ng
nghiên c
c k th
xu
gi i quy t bài toán c th
i
v i các câu lu t giao thông Vi
n cu
v
n nh
m m nh, h n ch và nguyên nhân c a
chúng.
l i quy trình và cách th c th c nghi m bao g m công c , môi

ng, d li
áp t ch c th c nghi
t qu c a th c
nghi
c trình bày b ng b ng th ng kê và m t s ví d trong t p ki m th . Cu i cùng
các k t qu th c nghi
t cách t ng th d
ng
rút ra nh ng
c, nh
m còn h n ch
ng gi i
quy t các h n ch
tài có nêu lên m t s các k t qu c a nh ng nghiên c u có liên
3


th

c ch

sánh, có th th

ng c

xu t trong công trình. Thông qua so

c k t qu kh

uc


ng k t l i toàn b nh
c

ng và súc tích nh t, ph c v cho vi
i v i nh
n

n i dung v xu t x c
nh
c a khóa lu
nh ng v

xu t.
c làm rõ trong khóa lu n m t cách

ng quan c
tài nghiên c

a k t qu nghiên c

c nêu ra và cu i c

t qu th c nghi m, k t lu n l i
tm
m h n ch
ng nghiên c u ti

còn t n t i và nâng c p công trình.


4

tài và h tr vi c tra
c l i các

gi i quy t


C
2.1.

LÝ THUY T

T NG QUAN V M

O

Xây d ng và s d ng m
(Machine learning) nó có th
c. M ng
toán) có liên k t v

o là m t k thu t trong H c máy
c giá tr
u ra c a các b d li u có
nhân t
c t o nên t
ng truy n tín hi u có tr ng s , tùy vào d li u

s d ng trong hu n luy n m

am
nó có kh
v
u
m

ng s

c c p nh t và hình thành
c hu n luy n thành công,

c v i các d li u cùng lo i v i d li
c hu n luy
c. M ng
nhân t
c phát minh d a trên
c (h th ng th

ng c a

ng v t, ch y u là não b ).

Gi i thi

c v m ng
sinh h c,
u trúc
c c u t o ph c t p
n ba thành ph n chính là Soma, Dendrite và Axon. Soma là nhân
c

u trách nhi m chính cho vi c tính toán và phát ra nh ng xung th n kinh.
Dendrite và Axon là các dây dài và m nh, làm nhi m v d n truy n xung th
ên g

i. Hai lo i dây này khác nhau
n cho nhân Soma x lý còn Axon truy

Dendrite truy
n th

t quá m

Hình 2.1. M

sinh h c

5

ch
nt


nh

Hi u m
c và phát ra m

ng b ng cách l y t
n th


n khác n

tm

n nó
ng

n truy n gi a các
thông qua các kh p có tính truy n khác
nhau. Các kh p m nh có kh
n thông tin r t d dàng trong khi các kh p y u
làm c n tr thông tin truy n qua.
c l y c m h ng t m ng
và cách ho

ng t

sinh h c, m ng

nhân t

ut o

y.

Hình 2.2. M

M i thành ph n tính toán (

o


) trong m ng

nhân t

a ngõ

nh n thông tin gi ng Dendrite và Axon. T
c truy n gi a các
này là các
s th c, trên m i m i n i có m t tr ng s
mô ph ng tính truy n c a m ng
sinh h c. T i m i
, các tín hi
c công d n và truy n qua hàm
kích ho t, hàm kích ho
o ra m
ng tín hi u cho
nhân t o. Khi
t ng c
u vào th
u ki n v
l n,
nhân t o m i có th
phát tín hi u sang
k ti p nó l p ti p theo v i m
c ki m soát. Các
hàm kích ho t ph i th
-


u ki n:
u

- B ch n trên và ch

i

- Có tính liên t
Các hàm kích ho
tính còn ph i th

c dùng trong m ng
nhân t
n trong vi
6

c tri n khai trên máy
ng các


hàm kích ho
c s d
ng, Hàm tuy n tính t
n và các hàm
Hyperbolic. Trong công trình s d ng hàm tanh (thu c h hàm Hyperbolic). Công th c
c a hàm tanh(x)

o hàm c

2.2. S


c tính r

n b i công th c:

D NG VÀ HU N LUY N M

O

Theo Giáo trình tin h
c a th
n Qu c và th
Thu n, vi c x
ng tin mà ch
ng hi u
2
bi t c
i vào nh ng khía c nh h u ích trong ho
ng th c ti n .
cx
lý thông tin trên máy tính có th quy v
bi t và m
u ra là nh ng thông tin có th suy lu
c và phù h p v i nhu c u s
d ng c
i. Trong t p h p t t c các bài toán x lý d li u, t n t i nh ng bài toán
n và có th
iv
ng, ví d
c, bài toán

s ngày công
hay bài toán chuy
i ti n t . T n t i song song v i nó là nh
tìm ra m t hàm tính toán chính xác v i m
u vào quá l n so v
c hi n t i c a
i, ví d
nh n di n ch vi t tay, nh n di n khuôn
m t, d
lý ngôn ng t nhiên ph c t
gi i quy t
ph n nào các bài toán này, khoa h c v
i v i nhi m v
c
hàm tính toán x p x
t t so v i hàm tính toán chính xác, các hàm này g i là hàm gi
thi t (hypothesis).
M
on
nx
t hàm
tính toán v
u các tr ng s gi a các liên k
c t o ng u nhiên nên khi m
u vào b t k
c truy n cho m
t qu
u ra s là m t giá tr ng u nhiên. C u trúc m
t ch , nó có th


2

Giáo trình tin h

-

n Qu

n 6-2010

7


t
li

ng c p nh t các tr ng s liên k
x p x hàm tính toán g
c bi
c (g i là t p d li u h

m
v im

im tt pd
i tr ng s
y,

hình thành ra nh ng lu t x lý d li u có kh
án k t qu

ng bi
c. Cách th c h c c a máy v i m ng

t

ng v i cách th c h c c

ng v

s d ng kinh nghi

g lai.

n các bài toán M
tính toán th
, v i
,m

o ho

ng d a trên 3 hành vi chính là

nh sai s và tái c u trúc m ng. V i m t t p d li u h c


u ra c a ví d th
tính toán giá tr

u ra ng v i


trong t p d li u h c

. Ti

tái c u

trúc b ng cách c p nh t l i các tr ng s liên k t b
(back propagation) v i m c tiêu t i thi u hóa sai s v i k t qu
vi

u ra
nhân

c
u ra c a m ng, công

c công th c hóa b ng vi c t

2.3.
GRADIENT DESCENT
M

o là s liên k t gi
t cách có th t , giá tr tính
toán c
sau s ph thu c vào giá tr c
n
c th c hi n d
ng các sai s c
c p

nh t tr ng s liên k
nh giá tr sai s c a
Có r t nhi
th c hi n lan truy
c sai s
n hình v
ng c
u ch nh các tr ng s d a trên vi phân hàm
giá

n khi giá tr c a sai s h i t , thu t toán s l

là t p các tr ng s
(learning rate) c a m ng

,

p l i công th c sau:

c a m ng

,

là h s

h c

là vi phân c a hàm giá theo tr ng s

8



. V i vi c l p l i s c p nh t này, hàm giá s h i t và sai s c a hàm gi thi t s

t giá

tr c c ti u. Hình 3 mô ph ng s h i t c a hàm giá v

Hình 2.3. Minh h a v s

h i t c a hàm giá

M c dù v
i v i t p d li u có l
ng l
ra không hi u qu vì chi phí tính toán hàm giá l n d
n th i gian h i t lâu. Gi s v i
t p d li u v i 100.000.000 ph n t , m i l n c p nh t 1 giá tr tr ng s , máy tính s ph i
tính toán
th c t là m t m ng
gi ng viên t i Stanford hi

v i m=

là m t chi phí r t l n khi

ng s . Theo Andrew Ng,
ng d y Machine Learning trên website h c t p uy tín

coursera.org, trung bình s h i t c a hàm giá s di n ra trong 1.000 l n l p cu i cùng c a

quá trình h
y th
máy tính thi t l
c m ng
ng t t v i
bài toán này s r t l n và b t kh

t.
i và h n ch

m trên c a
Gradient Descent. V
i l n l p s tính
t t c t ng các sai s r i m i c p nh t giá tr tr ng s
i v i Stochastic Gradient
Descent, m i l n l p, máy tính s c p nh t ngay tr ng s d a trên sai s c a m t c
u
ra và k t qu ki m tra b t k . Hàm giá c
c bi u di n

9


V i Stochastic Gradient Descent, t
h i t di
ng yêu c u v k thu

u l n so v i
m b o k t qu chính xác


- T p d li u ph

mb

c xáo tr

cm il nl

ng xác su t

c a m i ví d hu n luy n.
-

c m i l n c p nh t tr ng s c n có thao tác ki m tra tính h i t c a ví d v a

hu n luy n.
- Ph
t gi

ki m soát s bùng n c a giá tr tr ng s
c tính c a hàm kích ho t.

- C n có chi n thu t ch n h s h c
ch

2.4.

ng h p h i

ng h i t , t i thi


thích h

cân b ng gi a t

h i t và

m h i t t i c c ti

M C A NGÔN NG

TI NG VI T

ng nghiên c u là các quy ph m pháp lu t v giao thông Vi t Nam,
c vi t b ng ti ng Vi t, do v y vi c hi
m c a ngôn
ng là m t công vi c h t s c quan tr
m chính c a ti ng
Vi t khi n vi c áp d
ng nghiên c
gi i v x lý ngôn
ng t nhiên cho ngôn ng c a chúng ta là b t kh thi.
M t là v
tách t trong ti ng Vi t. Do ti ng Vi
ng v t lo i (t
ph c, t ghép, thành ng ...) nên vi
nh ranh gi i c a m t t không th d a vào
hình th c c
n. m t s ngôn ng khác, vi
nh ranh gi i c a m t t

gi n là s d ng các d u câu, d u cách, ký t xu ng dòng trong m
n còn trong
ti ng Vi
c m t t c n ph i hi
a t trong ng c nh. Ví d
n
I am
ng Anh, g m 4 t
c cách nhau b ng các d u cách,
cùng
c t o thành b i 3 t
giáo
nh t

n là vi c s d ng d

ng

n.

Hai là s
a t trong ti ng Vi t. Ti ng Vi t là m t ngôn ng phong phú,
trong t p h p t v ng ti ng Vi t có r t nhi u các t mà cách vi t gi
i ch ti ng Vi t m i có, cu n
p
môn ngôn ng h
c a tác gi
Ng
nh hi
10



ng ph bi n trong m i ngôn ng . M c dù v y, vi c x lý ngôn ng ti ng
ch có các t vi t gi ng h
i thu c các lo i t khác nhau

Vi
t

ng t trong ti ng vi t thì không h tha
ng d
hi

bào g c trong ch a b
d ng l c tin nh

i hình thái trong m i ng c nh. Ví d
c ng d ng công ngh t

i là danh t

a cho ra m t ng

n tho i di

Th ba, ch vi t c a ti ng Vi t là ch ghi âm, lo i ch không bi u hi
c a t mà tái hi n chu i âm thanh ti p n i c a t . Ng
khi ph thu c vào cách ng t ngh
u tr m b ng c
câu mà ngay c m


i th o ti ng Vi

a m t câu ti ng Vi
i nói vì th t n t i nh ng
hi u n u không

gi

c sinh h c r

11

c nghe tác
.


XU T M
3.1. BÀI TOÁN
Nhi m v c
tài là khái quát c s lý thuy t, k th a nh ng nghiên c u ã có,
xu t gi i pháp và xây d
cm
n ra nh ng c p
câu lu t giao thông Vi
tài s d ng lu
c nh, gi i h

c th hi
cb t v


ng nhau.
ng áp d ng nghiên c u nh m gi i h n ng
c th i gian hu n luy n các h

phù h p

v i ph m vi khóa lu n t t nghi p c a sinh viên.
ti n cho vi c trình bày các k t qu nghiên c u, bài toán th c nghi m
t

c mô

:
u vào c a h th ng là m t t p các câu phát bi u v các ch
nh trong lu t giao
ng b Vi t Nam ch
c xáo tr n tr t t t
mb

và b o t

.

u ra c a h th ng: V i m i câu trong t

u vào, h th ng c

ct p


n v i nó nh t.

=
Ví d : Trong t p các câu nói v lu
th ng. T
u ki
ng ng v
ng

u vào c a h
c ml

m:
cl
iv

u khi

u khi

cl

12


3.2. CÁC NGHIÊN C U

C K TH A

cách ti p c n này có s tham kh o, h c t p t nh ng

nghiên c u v X lý ngôn ng t nhiên, H c máy v i m t s
ng l n các công vi c liên
quan khác.

ng chính c a gi i pháp này là s d

bi u th ng

c a m t t và s k t h p c a chúng trong câu lu t giao thông.
ph

lý thuy t v

m c a ti ng Vi

c

m
c m t h th ng hi u qu làm vi c v i d li u ti ng Vi t, c n s d
ch giúp gi m thi u s nh p nh ng trong ti ng Vi t gây ra b
a các t
khác nhau. Theo cu n
Cân
c nh, nói m
xu t hi n v i m
nh ng y u t h n ch ph m

p môn ngôn ng h
c a tác gi
n, là tình hu ng, b i c nh ngôn ng


c

th c a nó. Thông qua ng c nh, ta có th

c

at

c s d ng n

3

.

n y u t ng c nh khi làm vi c v i các t ti ng Vi t, trong công trình nghiên
c u, không gian vector mô t ng
at
c xây d ng d
ng c a Eric
H. Huang, Richard Socher, Christopher D. Manning và Andrew Y. Ng trong bài báo
(2012)4

c có giám sát có th h c ng

a vector t c ng c nh

c c b và ng c nh toàn c c.
Trong m i quan h v ng
nh nh t c u t

c a các vector t , m ng
phát hi n s
a
c xây d ng theo ý
xu t trong bài báo
c a Richard Socher, Andrej Karpathy, Quoc V. Le,
Christopher D. Manning, Andrew Y. Ng (2013) 5. M

t tên là M ng

n ron h i quy d a trên cây ph thu c (DT-RNN) s d ng m t m ng
h i quy
(Recursive Neural Network)
c tri n khai trên n n c a cây ph thu c (Dependency
tree) khi khai tri n các câu. Cây ph thu c là m t trong nh
ng nghiên c u l n c a
x lý ngôn ng t nhiên, công trình này s d ng k t qu nghiên c u c a Dat Quoc
Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen và Minh Le Nguyen
3

Nh p môn ngôn ng h c. Hà N i, 2009
cC n
H. Huang, R. Socher, C. D. Manning, and A. Y. Ng.2012. Improving Word Representations via Global
Context and Multiple Word Prototypes. In ACL
5
Richard Socher, Andrej Karpathy, Quoc V. Le*, Christopher D. Manning, Andrew Y. Ng. Grounded
Compositional Semantics for Finding and Describing Images with Sentence
4

13



tài
(2014), m

n khi xây d

c cây Ph thu c t

6

Treebank ti ng Vi t .

3.3. XÂY D NG KHÔNG GIAN VECTOR T
3.3.1. T ng quan cách ti p c n
Mô hình không gian vector mô t
a t s th hi
c c nh ng thông tin
v ng
c c a t . Nh ng mô t
c dùng cho vi
ng
ng v m
ng cách gi a các vector th hi n các t .
u g c c a nhi u ng d ng h
n ron h i quy d a trên cây ph thu c (DT-RNN) bi u th ng

xây d ng M ng
a câu trong công


trình này.
Trong k thu t s d ng không gian vector mô t ng
các t
n th i
m hi n t
ng c a Eric H. Huang và các ng tác gi
c
xu t s d ng c ng c nh c c b và ng c nh toàn c c k t h p trong
m c tiêu hu n luy
c hu n luy n s
t mà v n gi
c hình th c c a nó, các hi

m b o th hi n t

ngh a c a
c gi i

quy t.

Hình 3.1

c nh do Eric H. Huang và các
2012

6

ng tác gi

tài KC01.01/06-10 "Nghiên c u phát tri n m t s s n ph m thi t y u v x lí ti

ti ng Vi t" (VLSP)

14

xu t

n


Cho m t chu i t s
n d ch a chu
xác t cu i cùng trong s i v i các t ng u nhiên khác.

c tiêu là phân bi
c chính
g(s,d) và g(sw,d)
c

tính toán, v i sw là chu i s
c thay t cu i b ng t w, g(.,.)
s d ng. Chúng ta mong mu n g(s,d) s l
g(sw,d) v i biên t

m mà m ng

m c tiêu hu n luy n là t i thi u hóa hàm giá:

3.3.2. Thu th p và ti n x lý d li u
Trong th i gian và gi i h n c a khóa lu n t t nghi


i h

h n ch kích

cc
m b o tính ph c a t p các vector t
i v i các câu v
lu t giao thông, corpus hu n luy
c l y t ngu n c a Lu t giao thông bao g m B
lu t giao thông (2008), các ngh nh c a chính ph
a các b và các
7

.

ph

lý thuy
ti ng Vi t, mu n xây d
c m t b vector bi u th
mô t lu t giao thông Vi t Nam, c n ti n hành tách t cho d li
8

t ti ng Vi t s d

tài là vnTokenizer c a tác gi Lê H

này s d ng k t h p t
treebank ti ng Vi
T p d li

t
ng t

vi c phân tách t c a
trong các câu
u vào.Công c tách
c hu n luy n s d ng

c tách t ) v

chính xác trên 97%9.

c thu th p và tách t
ng 10,9MB, ch a 4,290
m ký t ch a s
c chuy
i chung thành t
tránh
chính xác c a vector t

c sinh ra.

3.3.3. Xây d ng m
M ng
m cho m t chu i t (có th hi u là m t câu) thông qua hai
c là tính trên ng c nh c c b và ng c nh toàn c
m s cu i cùng cho

7


, http:// www.gttm.go.vn,,
/>9
thu
tài KC01.01/06-10 "Nghiên c u phát tri n m t s s n ph m thi t y u v x lí
n ti ng Vi t" (VLSP)
8

ti

15


m i chu i t là t ng
mc
d ng chu i t c c b s. Chu i s

c tính toán trên.
m ng v i ng c nh c c b s
c mô t
i d ng m
cs px pg m

các vector x = (x1, x2,..., xm) v i xi là vector bi u th t th i trong chu i. T t c các vector
bi u th các t trong T p t v ng t o thành ma tr n L.

là s chi u c a vector t ,

là l

m c c b , m t m ng


,

g mm tl p



c s d ng:

là s ghép n i các vector t n m trong chu i s, hàm

m t hàm kích ho t, trong công trình s d ng hàm


ng c a t p t v ng

,





là ma tr n tr ng s ,

m i l p.

N u ng c nh c c b
c tính d a trên s ghép n i c a m t trong m t chu i thì
ng c nh toàn c
c tính d a trên s ghép n i c a giá tr tr ng s trung bình c

b n và t cu i cùng c a chu i. Giá tr tr ng s trung bình c
c tính theo
công th c:

là các vector t trong d
gi

là b t k m

ph c t p tính toán, công trình s d

ng s idf.

là t ng s
c
vì th
t

ng s

ng

i m u th c là s
n ch a t t. N u t
t hi n b t
n nào trong t p thì m u s s b ng 0 d n t i phép chia cho không không h p l ,
ng thay b ng 1+
lo i b các t
16


. Tr ng s này trong x lý ngôn ng
-word), nh ng t xu t hi n


×