Tải bản đầy đủ (.pdf) (26 trang)

Xử lý nhập nhằng tiếng việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 26 trang )

B GIÁO D C VÀ ÀO T O
I H C À N NG
-----

-----

PH M TH THÙY LINH

X


LÝ NH P NH NG TI NG VI T

NG D NG TRONG TRA C U TÀI LI U
PH C V GI NG D Y VÀ H C T P

Chuyên ngành: KHOA H C MÁY TÍNH
Mã s : 60.48.01

TĨM T T LU N VĂN TH C SĨ K THU T

à N ng - Năm 2013


Cơng trình ư c hồn thành t i
I H C À N NG
----

----

Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH



Ph n bi n 1: TS. HUỲNH H U HƯNG
Ph n bi n 2: TS. HOÀNG TH LANG GIAO

Lu n văn ã ư c b o v t i H i
nghi p th c sĩ k thu t t i

ng ch m Lu n văn t t

i h c à N ng vào ngày 23 tháng

02 năm 2013

Có th tìm hi u lu n văn t i:
- Trung tâm Thông tin -H c li u,
- Trung tâm H c li u,

i h c à N ng;

i h c Bách Khoa


1
M
1. Lý do ch n
Trong th i

U

tài


i hi n nay, công ngh thông tin ang tr thành

nhân t quan tr ng cho s phát tri n kinh t - xã h i. Vi c ng d ng
công ngh thông tin ngày càng tr nên ph bi n r ng rãi. M i lĩnh
v c, m i s n ph m trong xã h i

u mang d u n c a công ngh

thông tin. Hi n nay, nhu c u tra c u thơng tin h u ích r t c n thi t
i v i m i ngư i, có th tra c u thông tin trên sách báo, truy n
thông…, nh t là th i i m bùng n thông tin như hi n nay: thông tin
thay

i t ng ngày, t ng gi , luôn luôn c p nh p thông tin, tra c u

thông tin trên Internet ư c m i ngư i quan tâm. Công c tra c u
ch y u trên Internet s d ng ngôn ng Châu Âu (ti ng Anh, ti ng
Pháp…),

i v i ti ng Vi t các công c này tra c u tìm ki m kém

hi u qu , b i vì ti ng Vi t là th ti ng a nghĩa, m t t thư ng có
nhi u hơn m t nghĩa, r t d hi u nh m vì có tính nh p nh ng cao.
Vi c v n d ng công ngh thông tin vào ngành Giáo D c
khơng cịn xa l , h u như t t c các trư ng h c
vào gi ng d y và h c t p. Trư ng Cao
Ph m Thành ph

u ng d ng tin h c


ng Lương Th c-Th c

à N ng là trư ng tr ng i m c a B Nông nghi p

và Phát tri n nông thôn. Trư ng ào t o a d ng nhi u ngành ngh
b c Cao

ng, Trung c p, trong ó ngành ào t o tr ng tâm c a nhà

trư ng: ngành Ch bi n th c ph m, ngành ã ào t o ngu n nhân l c
l n cho các xư ng, xí nghi p, cơng ty ch bi n th c ph m…
Ngành Ch bi n th c ph m bao g m nh ng ki n th c cơ b n
v nguyên li u, kĩ thu t ch bi n m t s s n ph m t rau qu , th y
s n, bánh k o, bia, rư u, nư c gi i khát; quy trình cơng ngh ch
bi n, u c u cơng ngh và các thông s kĩ thu t c n thi t c a t ng


2
quá trình, nh ng y u t

nh hư ng

n quá trình ch bi n m t s s n

ph m t rau qu , s n ph m th y s n, bánh k o, bia, rư u, nư c gi i
khát ánh giá ư c ch t lư ng s n ph m
Ngành Ch bi n th c ph m b c cao
năm, sinh viên sau khi t t nghi p có th


ng ư c ào t o trong 3
m nh n các công vi c c a

cán b k thu t, t trư ng s n xu t, trư ng ca... các dây chuy n s n
xu t, ch bi n th c ph m t i các c s ch bi n, b o qu n và kinh
doanh th c ph m, các cơ quan ki m tra ch t lư ng và an toàn th c
ph m, các c s nghiên c u, tư v n và ào t o trong lĩnh v c th c
ph m
Tra c u tài li u là quá trình tìm tòi ki n th c qua các phương
ti n như sách, báo, Internet…nh m

t k t qu nào ó. Ki n th c

ngành Ch bi n th c ph m r t a d ng, phong phú, có r t nhi u b
mơn ịi h i tính th c t cao, do ó các ngu n sách v chuyên ngành,
giáo trình cũng ph i thư ng xuyên thay

i v i ki n th c hi n t i

phù h p nhu c u c a nhà s d ng lao

ng.

có tài li u ph c v

gi ng d y và h c t p, các giáo viên và sinh viên không ng ng tra c u
tài li u b ng nhi u phương th c khác nhau như các sách

thư vi n,


thu th p và t ng h p các ki n th c t Internet…
Tuy nhiên ki n th c tra c u các sách có
nh t so v i ki n th c hi n t i. Do ó, v n

thư vi n chưa c p

s d ng các công c h

tr tra c u tài li u trên Internet r t quan tr ng, c p nh t nh ng ki n
th c m i, có th b sung cho tài li u gi ng d y và h c t p.
Trong quá trình tra c u tài li u trên Internet, giáo viên và sinh
viên thư ng g p khó khăn trong v n

thu th p và t ng h p các ki n

th c sao cho phù h p v i yêu c u s d ng, vì ki n th c sau khi tra
c u r t nhi u, òi h i ph i t mình
th c liên quan

c và trích l c ra nh ng ki n

n các n i dung c n tra c u, và các ki n th c này


3
không phân lo i theo các ch

, th lo i. Và

c bi t là khi nh p n i


dung tra c u trên Internet thư ng x y ra hi n tư ng nh p nh ng.
Nh p nh ng là hi n tư ng mơ h , l p nhòe v ý tư ng làm m t
ranh gi i gi a cái này và cái n
X lý nh p nh ng nghĩa c a t là m t trong nh ng v n
ư c r t nhi u nhà nghiên c u trong lĩnh v c x lý ngôn ng t
n. V n

nhiên quan tâm
bi t l n

này ư c nêu lên như m t bài toán riêng

u tiên là vào nh ng năm cu i th p k 40 c a th k 20 và

ư c coi như là m t trong nh ng v n

lâu

i nh t c a lĩnh v c x

lý ngôn ng t nhiên. Nh n ư c nhi u s quan tâm và t s m như
v y là do x lý nh p nh ng nghĩa c a t

óng vai trị quan tr ng

trong r t nhi u các bài toán khác c a x lý ngơn ng t nhiên. Ta có
th th y s xu t hi n c a h x lý nh p nh ng nghĩa c a t trong các
h th ng tìm ki m thơng tin, khai phá d li u…
Và x lý nh p nh ng trong tra c u tài li u cũng ư c quan

tâm, và

c bi t là nh ng tài li u v ngành Ch bi n th c ph m

Ví d : trong môn Công ngh ch bi n rau qu , n u nh p n i
dung tra c u: “ch bi n rau qu ” này trên Internet s x y ra nh p
nh ng trong t “ch bi n”, có th phân tích “ch bi n = ch t o +
bi n hóa”, có th hi u là x lý, óng gói, có th hi u là chu n b s
d ng ngay…, nên k t qu sau khi tra c u t Internet là r t nhi u. Do
ó, c n ph i gi i thích ng nghĩa c a các t c n tra c u, c th là các
t liên quan

n ngành Ch bi n th c ph m và c n có m t công c

h tr tra c u tài li u ngành này

có th h n ch các hi n tư ng

nh p nh ng x y ra
Trong lu n văn này v i t a

:

“X lý nh p nh ng ti ng Vi t và ng d ng trong tra c u tài
li u gi ng d y và h c t p”


4
Chúng tôi s tri n khai th c nghi m gi i pháp b ng cách xây
d ng ng d ng x lý nh p nh ng trong tra c u tài li u gi ng d y và

h c t p ngành Ch bi n th c ph m Trư ng Cao

ng Lương Th c-

Th c Ph m.
2. Ý nghĩa khoa h c và th c t
- Ý nghĩa khoa h c
V khoa h c,

tài ã tìm hi u các hi n tư ng nh p nh ng

trong ti ng Vi t, nh p nh ng trong tra c u tài li u.

xu t gi i pháp

x nh p nh ng trong tra c u.
- Ý nghĩa th c t
V th c ti n,
trong tra c u tài li u

tài ã v n d ng k thu t x lý nh p nh ng
t

ó, xây d ng ng d ng có tính kh thi, áp

d ng lý thuy t vào th c t cu c s ng
3. M c tiêu nhi m v nghiên c u
- Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t
- Phân tích h th ng, tìm hi u ho t


ng v tra c u tài li u

gi ng d y và h c t p ngành Ch bi n th c ph m
-

xu t mơ hình x lý nh p nh ng trong tra c u tài li u

gi ng d y và h c t p ngành Ch bi n th c ph m
- Cài

t th nghi m

- ánh giá k t qu
4.

i tư ng và ph m vi nghiên c u

- Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t
- Nghiên c u mơ hình và phương pháp x lý nh p nh ng trong
tra c u tài li u gi ng d y và h c t p ngành ch bi n th c ph m
- Tài li u ph c v cho
viên trong trư ng Cao

i tư ng là h c sinh sinh viên, giáo

ng Lương Th c-Th c Ph m


5
5. Phương pháp nghiên c u

- Phương pháp nghiên c u tài li u:
• Ti n hành nghiên c u, thu th p tài li u liên quan v ng
pháp ti ng Vi t
• Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t
• Nghiên c u ngơn ng l p trình JSP, SQL Server 2008
- Phương pháp th c nghi m: gi i quy t bài toán x lý nh p
nh ng trong tra c u tài li u gi ng d y và h c t p ngành Ch bi n
th c ph m t i trư ng Cao

ng Lương Th c-Th c Ph m

6. B c c lu n văn
Chương 1: Tìm hi u các hi n tư ng nh p nh ng trong
ti ng Vi t. Trình bày khái quát v X lý ngôn ng t nhiên, các giai
o n hình thành ti ng Vi t,

c i m c a ti ng Vi t, tính nh p nh ng

trong ti ng Vi t.
Chương 2: Phân tích và thi t k h th ng x
nh ng.

lý nh p

ưa ra mô hình x lý nh p nh ng, phân tích và thi t k h

th ng x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p t i
Trư ng Cao

ng Lương Th c-Th c Ph m


Chương 3:

ng d ng x lý nh p nh ng trong tra c u tài

li u gi ng d y và h c t p ngành ch bi n th c ph m. Cài

t,

ki m th chương trình x lý nh p nh ng trong tra c u tài li u gi ng
d y và h c t p ngành Ch bi n th c ph m


6

CHƯƠNG 1
TÌM HI U CÁC HI N TƯ NG NH P NH NG TRONG
TI NG VI T
Trong chương này gi i thi u khái quát v X lý ngôn ng t
nhiên, các giai o n hình thành ti ng Vi t,
tính nh p nh ng trong ti ng Vi t. T

c i m c a ti ng Vi t,

ây chúng ta ưa ra các gi i

quy t tính nh p nh ng ti ng Vi t trong tra c u tài li u.
1.1. X

LÝ NGƠN NG


T

NHIÊN VÀ CÁC BÀI TỐN

NG D NG
X lý ngôn ng t nhiên (natural language processing – NLP)
là m t lĩnh v c nghiên c u c a Trí tu nhân t o nh m xây d ng m t
h th ng x lý cho máy tính, làm cho máy tính có th “hi u” ư c
ngôn ng c a con ngư i g m c ngơn ng nói và vi t. Nghĩa là, khi
chúng ta nói hay vi t thì máy tính hi u ư c là chúng ta ang nói gì,
vi t gì. Khơng ch v i m t lo i ngôn ng c a m t dân t c, c a m t
qu c gia máy tính có th hi u ư c, máy tính có th hi u ư c ngơn
ng c a t t c các dân t c, các qu c gia trên th gi i. Nh

ó, m i

ngư i trên th gi i d a vào máy tính cũng có th hi u, giao ti p ư c
v i nhau mà không c n h c, hi u ngôn ng c a nhau
Các bài toán ng d ng
NLP là m t lĩnh v c nghiên c u nh m giúp cho các h th ng
máy tính hi u và x lý ư c ngôn ng con ngư i. Các bài tốn và
ng d ng liên quan

nv n

x lý ngơn ng t nhiên hi n nay có

r t nhi u, dư i ây là m t s bài toán và ng d ng thư ng g p nh t.
-


Nh n d ng ch vi t

-

Nh n d ng ti ng nói

-

T ng h p ti ng nói

-

D ch t

ng (machine translate)


7
-

Tìm ki m thơng tin

-

Tóm t t văn b n

-

Khai phá d li u (data mining) và phát hi n tri th c


1.2. T NG QUAN V TI NG VI T
1.2.1. Quá trình hình thành ti ng Vi t
Ti ng Vi t có ngu n g c r t c xưa và ã tr i qua m t quá
trình phát tri n lâu dài.
a. Ti ng Vi t

giai o n dùng ch Nôm

b. Ti ng Vi t

giai o n dùng ch qu c ng

c. T Cách M ng Tháng 8

n nay

Cách M ng Tháng 8 thành công, Vi t Nam ã quy t
Ti ng Vi t

m i c p h c, b c h c,

1.2.2. Âm ti t và
a.

m i ngành ho t

nh dùng

ng.


c i m âm ti t trong ti ng Vi t

nh nghĩa

Âm ti t là ơn v phát âm t nhiên nh nh t trong ngôn ng .
Trong ti ng Vi t, m t âm ti t bao gi cũng ư c phát ra v i m t
thanh i u, và tách r i v i âm ti t khác b ng m t kho ng tr ng. M i
âm ti t ti ng Vi t ư c ghi thành m t “ch ”. Ví d : “hoa h c trò”
g m 3 ch ho c 3 âm ti t.
Trong Ti ng Vi t có 29 ch cái, g m 17 ph âm và 12 nguyên
âm.
Nguyên âm: a, ă, â, e, ê, i, o, ô, ơ, u, ư, y.
Ph âm: b, c, d, , g, h, k, l, m, n, p, q, r, s, t, v, x
Ngoài ra cịn có các bán ngun âm và ph âm ghép như sau:
Bán nguyên âm: oa, oe, uy
Ph âm ghép như sau: ch, gh, kh, ng, ngh, nh, ph, th, tr, gi và qu
b.

c i m âm ti t Ti ng Vi t

- Có tính

c l p cao


8
- Có kh năng bi u hi n ý nghĩa
- Có m t c u trúc ch t ch
1.2.3. T và phân lo i t trong ti ng Vi t

nh nghĩa

a.

T là ơn v nh nh t có nghĩa, có k t c u v ng âm b n
v ng, hồn ch nh, có ch c năng g i tên, ư c v n d ng
hi n t do trong l i nói

c l p, tái

t o câu

Ví d : nhà, ngư i, áo, cũng, s , thì,... ư ng s t, sân bay,
trư ng h c…
b. Phân lo i t trong ti ng Vi t
V m t c u t o t ti ng Vi t ư c phân lo i theo nhi u d ng
khác nhau, v i nh ng tiêu chí khác nhau,
- T

ơn

- T ghép
- T láy
- Nh ng t g c thu n Vi t:
- Nh ng t vay mư n g c Hán
1.3. X

LÝ TI NG VI T TRÊN MÁY TÍNH
H u h t các máy tính cá nhân


Vi t Nam

u cài

t nh ng

ph n m m h tr ti ng Vi t ví d như phông ch
1.3.1. T ng quan các b mã ti ng Vi t
1.3.2. M t s

c i m c a font Unicode

1.3.3. Ti ng Vi t trong b mã Unicode
1.4. M T S

GI I PHÁP XÁC

NH T

VI T
1.4.1. Gi i pháp xác

nh danh t riêng

1.4.2. Gi i pháp xác

nh danh t láy

TRONG TI NG



9
1.5. HI N TƯ NG NH P NH NG TRONG TI NG VI T
Ti ng Vi t là m t th ti ng a nghĩa, m t t có th mang
nhi u nghĩa, do ó thư ng x y ra các hi n tư ng nh p nh ng trong
khi nói, khi vi t…
Nh p nh ng là hi n tư ng mơ h , l p nhòe v ý tư ng làm m t
ranh gi i gi a cái này và cái n .
Nh p nh ng x y ra trên h u h t ngôn ng t nhiên ti ng Vi t
không tránh kh i quy lu t chung.
Nh p nh ng trong ngôn ng h c là hi n tư ng thư ng g p k
c trong giao ti p hàng ngày.

Hình 1.5 Các hi n tư ng nh p nh ng ti ng Vi t
1.5.1. Nh p nh ng khi nói
- Nh p nh ng v t lo i
- Nh p nh ng khi phát âm
- Nh p nh ng v t

ng âm và khác nghĩa

- Nh p nh ng v t

ng nghĩa nhưng khác âm

1.5.2. Nh p nh ng khi vi t
- Nh p nh ng khi vi t ti ng Vi t không d u
- Nh p nh ng v l i chính t khi vi t



10
- Nh p nh ng v vi c b d u
- Nh p nh ng v ranh gi i t
1.5.3. Nh p nh ng v c ch
1.5.4. Nh p nh ng v s v n d ng
1.6. HI N TƯ NG NH P NH NG TRONG TRA C U TÀI
LI U
Tra c u tài li u là gi i pháp nh m tìm ra các gi i pháp giúp
ngư i s d ng có th tìm th y các thơng tin mình c n trong m t kh i
lư ng l n d li u
Qua phân tích hi n tư ng nh p nh ng trong ti ng Vi t ta th y
r ng i u ó khơng th khơng x y ra trong tra c u tài li u, trong quá
trình tra c u thư ng x y ra tư ng nh p nh ng

các quá trình sau:

- Nh p nh ng trong lúc nh p yêu c u tra c u tài li u
+ Nh p nh ng do ch n sai ch

tra c u

+ Nh p nh ng do ch n sai b ng mã
+ Nh p nh ng khi ta nh p t vi t t t
- Nh p nh ng trong lúc tra c u tài li u
- Nh p nh ng khi phân lo i tài li u
K T LU N CHƯƠNG 1
Chương này t p trung, gi i thi u khái quát v X lý ngôn
ng t nhiên, t ng quan v ti ng Vi t, các giai o n hình thành ti ng
Vi t,


c i m c a ti ng Vi t, tính nh p nh ng trong ti ng Vi t. T

ây chúng ta ưa ra các gi i quy t tính nh p nh ng ti ng Vi t trong
tra c u tài li u.
Ph n ti p theo c a lu n văn này ó là phân tích bài toán x
lý nh p nh ng trong tra c u tài li u ph c v gi ng d y và h c t p
ngành Ch bi n th c ph m.


11
CHƯƠNG 2
PHÂN TÍCH VÀ THI T K H TH NG
X

LÝ NH P NH NG

2.1. PHÂN TÍCH HI N TR NG
2.1.1. Gi i thi u Ngành Ch bi n th c ph m Trư ng Cao
ng Lương Th c-Th c Ph m
a. Gi i thi u Trư ng Cao
Trư ng Cao

ng Lương Th c-Th c Ph m

ng Lương Th c-Th c Ph m là trư ng công l p

n m trong h th ng giáo d c

i h c Vi t Nam, tr c thu c B Nông


nghi p và PTNT. Tr i qua hơn 35 năm xây d ng và phát tri n,
Trư ng luôn là m t cơ s

ào t o n ng c t, cung c p ngu n nhân l c

cho s phát tri n c a ngành

khu v c

mi n Trung-Tây Nguyên và

trong c nư c, góp ph n th c hi n cơng nghi p hóa, hi n

i hóa

nư c. Trư ng ào t o a d ng nhi u ngành ngh b c Cao

t
ng,

Trung c p, trong ó ngành ào t o tr ng tâm c a nhà trư ng: ngành
Ch bi n th c ph m, ngành ã ào t o ngu n nhân l c l n cho các
xư ng, xí nghi p, công ty ch bi n th c ph m…
b. Gi i thi u ngành Ch bi n th c ph m
Ngành Ch bi n th c ph m bao g m nh ng ki n th c cơ b n
v nguyên li u, kĩ thu t ch bi n m t s s n ph m t rau qu , m t s
s n ph m th y s n, bánh k o, bia, rư u, nư c gi i khát. C th là c u
t o, thành ph n hóa h c c a nguyên li u và nh hư ng c a nh ng
thành ph n


n quá trình ch bi n; quy trình cơng ngh ch bi n, yêu

c u công ngh và các thông s kĩ thu t c n thi t c a t ng quá trình,
nh ng y u t

nh hư ng

n quá trình ch bi n m t s s n ph m t

rau qu , s n ph m th y s n, bánh k o, bia, rư u, nư c gi i khát ánh
giá ư c ch t lư ng s n ph m


12
2.1.2. Tình hình th c t
S lư ng h c sinh trúng tuy n vào ngành Ch bi n th c ph m
c a trư ng trong nh ng năm g n ây ch

t 2/3 s lư ng ch tiêu

c a nhà trư ng.

Hình 2.1 Bi u
Các

sinh viên trúng tuy n Ngành Ch bi n th c ph m

i tư ng thư ng xuyên tra c u tài li u trong thư vi n ó

là: giáo viên và sinh viên.

-

i v i các giáo viên,

c bi t là các giáo viên m i vào

trư ng, kinh nghi m gi ng d y còn chưa nhi u (t 1 3 năm), nhưng
năm nào cũng ph i t so n bài gi ng các mơn chun ngành

ph c

v cho q trình gi ng d y, theo yêu c u c a nhà trư ng các bài
gi ng ph i luôn c p nh t th c t , có như v y m i áp ng ư c vi c
h c c a h c sinh sinh viên và tuy n d ng c a nhà lao
Theo th ng kê c a thư vi n, v n

ng.

mư n sách chuyên ngành

c a các giáo viên h ng năm c a thư vi n ngày càng gi m, m c dù
năm nào cũng ph i so n giáo trình, giáo án, tài li u m i, b sung

Hình 2.2 Bi u

s lư ng giáo viên mư n sách ngành Ch bi n


13
c thù các môn c a ngành Ch bi n th c ph m c n nhi u

ki n th c th c t , mà các giáo viên tr ch y u l y các ngu n ki n
th c t sách thư vi n là chưa

, ngoài ra cịn tìm ki m, tra c u các

tài li u trên Internet, tuy nhiên quá trình tra c u tài li u không ph i
lúc nào cũng cho nh ng k t qu như mong mu n
Ví d : trong môn ch bi n rau qu , các giáo viên tra c u b ng
cơng c Google, gõ t khóa: ch bi n rau qu filetype:doc (nghĩa là
các giáo viên mu n tìm các tài li u có d ng file doc liên quan t i v n
nói trên)
K t qu nh n ư c r t nhi u, giáo viên c n có th i gian dài
ch n l c các tài li u có liên quan, ơi lúc l i khơng tìm ư c tài li u
c n tìm.

Hình 2.3 K t qu tìm ki m Google
- H u h t các giáo viên và sinh viên

u tra c u tài li u có s n

trên m ng Internet, như Google, Yahoo...Khi tra c u trên Internet, s
dĩ k t qu tìm ki m quá nhi u như v y là do x y ra nh p nh ng trong


14
t khóa tìm ki m. C n ph i gi i thích ng nghĩa các t ti ng Vi t cho
úng

có th x lý các hi n tư ng nh p nh ng, h n ch


ư c

nh ng k t qu tra c u không úng v i yêu c u.
Do ó,

thu n l i cho vi c gi ng d y và h c t p c a các giáo

viên và sinh viên vi c tra c u tài li u ti ng Vi t liên quan

n ngành

Ch bi n thì ph i tìm chính xác nh ng t khi ngư i s d ng nh p
vào ô tra c u, tìm úng ng vì ti ng Vi t là lo i ti ng ph c t p.
2.2.

XU T MƠ HÌNH GI I PHÁP

Hình 2.5 Mơ hình gi i pháp


15
2.3. TRI N KHAI THI T K H TH NG
2.3.1. Xây d ng ngu n d li u tra c u
Tài li u các giáo viên và sinh viên c n tra c u ó là tài li u thu
th p t sách, báo thư vi n, Internet và các ki n th c, giáo trình c a
các giáo viên có kinh nghi m
Trên cơ s
-

ó, chúng ta t xây d ng ngu n d li u như sau:


Các ngu n d li u t Internet, sách báo: s

ư c l yt

ng t Internet thơng qua chương trình t xây d ng, các
thông tin l y v

ã ư c phân lo i theo m c và lưu tr

trong CSDL (thông tin gì thì s lưu vào CSDL theo m c
ã ư c xây d ng s n)
-

Ngu n d li u nh p b ng tay: ó là các giáo trình, giáo án,
cương… c a các th y cơ có kinh nghi m trong trư ng
cũng như các trư ng khác có cùng ngành Ch bi n th c
ph m
i v i ngu n d li u này, chúng ta s t phân lo i s n.

Xây d ng ngu n d li u tra c u òi h i chúng ta ph i t p
trung nhi u công s c, th i gian
tra c u tài li u m i

u tư, ch n l c, có như v y k t qu

t hi u qu t t nh t

2.3.2. Xây d ng CSDL t


i v i ngư i s d ng

v ng lĩnh v c ch bi n th c

ph m
Trư c tiên tìm hi u các mơn chun ngành liên quan

n

ngành Ch bi n th c ph m như: công ngh s n xu t bia, công ngh
s n xu t ư ng, công ngh s n xu t s a và các s n ph m t s a,
công ngh s n xu t nư c gi i khát, công ngh s n xu t bánh k o,
công ngh ch bi n th y s n, công ngh ch bi n rau qu , dinh
dư ng và an tồn th c ph m, hóa h c và ph gia th c ph m, thi t b
th c ph m, công ngh ch bi n th c ph m, b o qu n th c ph m,


16
công ngh b o qu n và ch bi n lương th c, ki m nghi m lương th c
th c ph m, qu n lý ch t lư ng th c ph m, bao bì th c ph m…
Sau khi tìm hi u các mơn này, ta s có các t khóa là tên các
mơn, d a vào ây

xây d ng các t

ơn, t ghép theo các t khóa

liên quan này
T o b ng trong CSDL


lưu t t c các t ghép

Ví d : có t ghép “ki m nghi m”, ngồi ra cịn có các t ghép
như là: ki m tra, ki m
các t

nh…ta s xây d ng trên cơ s các t

ơn và

ơn ghép thành các t ghép có nghĩa.
2.3.3. Thi t k h th ng
a. Các tác nhân tham gia vào ng d ng
Các tác nhân tham gia tr c ti p vào ng d ng là m t ngư i

hay nhóm ngư i.

i v i ng d ng x lý nh p nh ng trong tra c u

tài li u gi ng d y và h c t p ngành ch bi n th c ph m thì tác nhân
tham gia vào ng d ng bao g m:
Ngư i s d ng: giáo viên, h c sinh sinh viên
Ngư i qu n tr :
+ C p quy n s d ng cho ngư i dùng, s a ch a, b o m t h
th ng…
+ C p nh p kho t

i n, kho d li u

b. Thi t k cơ s d li u

Xây d ng m t kho t v ng g m các t

ơn và t ghép mà m i

t này ph i úng ng nghĩa c a ti ng Vi t tránh nh p nh ng v ng
nghĩa ti ng Vi t; k thu t x lý nh p nh ng b t
ti ng Vi t t

ơn v nh nh t là ký t , ti p

u t vi c phân tích
n là t

ơn, t ghép,

ng và cu i cùng là câu. Ghép các nguyên âm và ph âm thành t
ơn có nghĩa. T các t
các t

ơn ghép thành t ghép. T các t

ghép, ghép l i thành ng , thành câu.

ơn và


17
T

ây lưu các t


ã ghép úng ng nghĩa vào t p tin

CSDL. Xây d ng k thu t x lý nh p nh ng cho các yêu c u tra c u
b ng ti ng Vi t, tránh nh ng l i nh p nh ng trong ti ng Vi t.
Do ó, thi t k cơ s g m có 2 b ng như sau: TUGOC và
TUGHEP
B ng 2.2 TUGOC
Tên trư ng

Ki u d li u

Mô t
Mã t g c (khóa

MaTuGoc

Int

TuGoc

nvarchar(50)

chính)
T g c

B ng 2.3 TUGHEP
Tên trư ng

Ki u d li u


Mơ t
Mã t g c (t

MaTuGoc

Int

TuGhep

nvarchar(50)

ơn)

(khóa ngo i)
T ghép (khóa
ngo i)

D li u cho q trình x lý ph i có các nguyên âm ghép v i
ph âm cùng các d u thanh

t o thành m t t

ơn. T nh ng t

ơn này ghép l i thành t ghép.
tránh nh p nh ng trong ti ng Vi t là t

ơn và t ghép sau


khi ghép xong ph i úng ng nghĩa c a ti ng Vi t và lưu l i dư i
d ng t p tin text. T p tin text này chính là t
t ghép.

i n g m các t

ơn và


18
T các t

ơn và t ghép ã ki m tra úng ng nghĩa, sau ó

ơn theo t

tách t

ơn, t ghép theo t ghép và ghi vào CSDL nh m

ph c v cho vi c tra c u tài li u.
V i kho d li u 1000 t ghép t m ph c v cho vi c tra c u tài
li u Ngành Ch bi n th c ph m ư c lưu trong CSDL SQL Server.
c. Thi t k các m i quan h gi a các b ng
Chúng ta có 2 b ng, m i quan h c a chúng như sau:

Hình 2.6 Mơ hình quan h th c th
2.4. K

THU T X


LÝ NH P NH NG TRONG TRA C U

TÀI LI U
Mu n xây d ng k thu t x lý nh p nh ng trong tra c u tài
li u ph c v gi ng d y và h c t p ph i áp ng nh ng yêu c u: xây
d ng m t kho t

i n t g m các t

ơn và t ghép mà m i t này

ph i úng ng nghĩa c a ti ng Vi t tránh nh p nh ng v ng nghĩa
ti ng Vi t. T kho t

i n này xây d ng k thu t x lý nh p nh ng

trong tra c u tài li u. K thu t x lý nh p nh ng b t
tích ti ng Vi t t

ơn v nh nh t là ký t , ti p

ghép, ng và cu i cùng là câu. Tr i qua các bư c sau:

u t vi c phân
n là t

ơn, t



19
- Li t kê các nguyên âm và ph âm có trong ti ng Vi t, trong
Ti ng Vi t có 29 ch cái, g m 17 ph âm và 12 nguyên âm (nguyên
âm: a, ă, â, e, ê, i, o, ô, ơ, u, ư, y; ph âm: b, c, d, , g, h, k, l, m, n, p,
q, r, s, t, v, x)
- Ghép các nguyên âm và ph âm thành t
các t

ơn ghép thành t ghép. T các t

l i thành ng , thành câu. T

ơn có nghĩa, t

ơn và các t

ây lưu các t

ghép, ghép

ã ghép úng ng

nghĩa vào t p tin CSDL. Xây d ng k thu t x lý nh p nh ng cho
các yêu c u tra c u b ng ti ng Vi t, tránh nh ng l i nh p nh ng
trong ti ng Vi t. Q trình trên ư c mơ ph ng qua sơ

sau:

Hình 2.7 Quy trình ghép t lưu vào CSDL
2.4.1. K thu t ghép t


ơn

Chúng ta s d ng b ng ch cái trong ti ng Vi t, t các nguyên
âm ta thêm các d u thanh vào s tr thành m t t m i, m t s t khi
ta thêm d u thanh vào ã có nghĩa ngay như: t

à nhưng m t s

nguyên âm khi thêm d u thanh v n chưa có nghĩa c a ti ng


20
Vi t, trư ng h p này ta ghép ti p v i ph âm

thành t

ơn hoàn

ch nh.
2.4.2. K thu t ghép t ghép
Ví d : T

ơn “Tài” ghép v i các t

ơn khác

thành các t

ghép.


Hình 2.11 Cách ghép các t
Ngoài các t
t c

ơn

ơn ghép v i nhau như trên cịn có th ghép ti p

có th có thêm nhi u t ghép như sau:
Sau khi có t ghép ta lưu các t ghép vào m t t p tin d ng

Text, t t p tin này chương trình s tách t ghép ưa vào CSDL
ph c v quá trình x lý

u vào c a các yêu c u tra c u.

K T LU N CHƯƠNG 2
N i dung chương này t p trung gi i thi u ngành Ch bi n th c
ph m, tình hình tra c u tài li u c a giáo viên và h c sinh viên t i
trư ng; trình bày k thu t x lý nh p nh ng, ưa ra mơ hình gi i
pháp
Ph n ti p theo s xây d ng x lý nh p nh ng trong tra c u tài
li u ph c v gi ng d y và h c t p ngành Ch bi n th c ph m t i
trư ng.


21
CHƯƠNG 3
NG D NG X


LÝ NH P NH NG TRONG TRA C U

TÀI LI U GI NG D Y VÀ H C T P NGÀNH
CH BI N TH C PH M
3.1. MÔI TRƯ NG VÀ CÔNG C
3.1.1. Gi i thi u JSP
3.1.2. Gi i thi u Microsoft SQL Server 2008
3.2. CÀI

T VÀ TH

NGHI M

B ng 3.1 Các ch c năng chính c a ng d ng
Trang
Ch c năng
1. Gi i thi u

Gi i thi u chung v thư vi n nhà trư ng

2. Tin t c

Nh ng thông tin v thư vi n trư ng,…

3. Thông báo

Nh ng thông báo v ho t

4. Tìm ki m


ng thư vi n

Tìm ki m các tên sách, mã sách có trong thư
vi n

thu n l i cho quá trình mư n

Giáo viên, h c sinh sinh viên tra c u các tài
5. Tra c u tài li u

li u ngành Ch bi n th c ph m ph c v cho
gi ng d y và h c t p

6.

ăng ký thành

viên

ăng ký thành viên c a thư vi n

i v i giao di n tra c u tài li u, các giáo viên c n nh p thơng tin:
-

Th lo i: giáo trình

-

Hình th c: doc


-

N i dung: ví d : q trình lên men bia


22

Hình 3.4 Giao di n tra c u tài li u

Hình 3.5 K t qu tra c u tài li u
Sau khi x lý nh p nh ng, k t qu tr v : 5
So sánh k t qu :
Chúng tôi ã chu n b s n m t s t
100 l n các t sau và cho ra k t qu th hi n

ki m nghi m, nh p
b ng sau:


23
B ng 3.2 So sánh trư c và sau khi áp d ng k thu t x lý
nh p nh ng
Trư c khi áp d ng k
T khóa tra c u

Sau khi áp d ng k thu t

thu t x lý nh p nh ng


x lý nh p nh ng

S l n gõ

S l n gõ
sai

S l n gõ

S l n gõ

sai

Quá trình

100

15

100

0

Quá trình lên men

100

30

100


15

100

35

100

10

Quá trình lên men
bia

D a vào b ng so sánh trên, ta th ng kê ư c k t qu thu ư c
trư c và sau khi áp d ng k thu t x lý nh p nh ng như sau: gi m
hơn 50% s sai sót trong t khóa tra c u tài li u
3.3.

ÁNH GIÁ K T QU
Vi t áp d ng k thu t x lý nh p nh ng trong tra c u tài li u

ph c v gi ng d y và h c t p ư c dùng cho ng d ng Thư vi n
Trư ng Cao

ng Lương Th c-Th c Ph m giúp cho website này tr

nên h u d ng nhi u. Giáo viên và h c sinh sinh viên là các

i tư ng


tr c ti p tham gia vào ng d ng, nên nh ng ý ki n óng góp sau khi
s d ng là r t quan tr ng, k t qu ki m th

b ng 3.4

t hơn 50%.

K T LU N CHƯƠNG 3
Trên cơ s lý thuy t

chương m t, k thu t x lý nh p nh ng

chương hai, chương ba tr c ti p xây d ng ng d ng x lý nh p
nh ng trong tra c u tài li u ph c v gi ng d y và h c t p. Các ch c
năng c a ng d ng ã ph n nào h tr cho giáo viên, h c sinh sinh
viên l a ch n ư c nh ng tài li u, ki n th c liên quan
ngành Ch bi n th c ph m.

n chuyên


×