B GIÁO D C VÀ ÀO T O
I H C À N NG
-----
-----
PH M TH THÙY LINH
X
VÀ
LÝ NH P NH NG TI NG VI T
NG D NG TRONG TRA C U TÀI LI U
PH C V GI NG D Y VÀ H C T P
Chuyên ngành: KHOA H C MÁY TÍNH
Mã s : 60.48.01
TĨM T T LU N VĂN TH C SĨ K THU T
à N ng - Năm 2013
Cơng trình ư c hồn thành t i
I H C À N NG
----
----
Ngư i hư ng d n khoa h c: PGS.TS. PHAN HUY KHÁNH
Ph n bi n 1: TS. HUỲNH H U HƯNG
Ph n bi n 2: TS. HOÀNG TH LANG GIAO
Lu n văn ã ư c b o v t i H i
nghi p th c sĩ k thu t t i
ng ch m Lu n văn t t
i h c à N ng vào ngày 23 tháng
02 năm 2013
Có th tìm hi u lu n văn t i:
- Trung tâm Thông tin -H c li u,
- Trung tâm H c li u,
i h c à N ng;
i h c Bách Khoa
1
M
1. Lý do ch n
Trong th i
U
tài
i hi n nay, công ngh thông tin ang tr thành
nhân t quan tr ng cho s phát tri n kinh t - xã h i. Vi c ng d ng
công ngh thông tin ngày càng tr nên ph bi n r ng rãi. M i lĩnh
v c, m i s n ph m trong xã h i
u mang d u n c a công ngh
thông tin. Hi n nay, nhu c u tra c u thơng tin h u ích r t c n thi t
i v i m i ngư i, có th tra c u thông tin trên sách báo, truy n
thông…, nh t là th i i m bùng n thông tin như hi n nay: thông tin
thay
i t ng ngày, t ng gi , luôn luôn c p nh p thông tin, tra c u
thông tin trên Internet ư c m i ngư i quan tâm. Công c tra c u
ch y u trên Internet s d ng ngôn ng Châu Âu (ti ng Anh, ti ng
Pháp…),
i v i ti ng Vi t các công c này tra c u tìm ki m kém
hi u qu , b i vì ti ng Vi t là th ti ng a nghĩa, m t t thư ng có
nhi u hơn m t nghĩa, r t d hi u nh m vì có tính nh p nh ng cao.
Vi c v n d ng công ngh thông tin vào ngành Giáo D c
khơng cịn xa l , h u như t t c các trư ng h c
vào gi ng d y và h c t p. Trư ng Cao
Ph m Thành ph
u ng d ng tin h c
ng Lương Th c-Th c
à N ng là trư ng tr ng i m c a B Nông nghi p
và Phát tri n nông thôn. Trư ng ào t o a d ng nhi u ngành ngh
b c Cao
ng, Trung c p, trong ó ngành ào t o tr ng tâm c a nhà
trư ng: ngành Ch bi n th c ph m, ngành ã ào t o ngu n nhân l c
l n cho các xư ng, xí nghi p, cơng ty ch bi n th c ph m…
Ngành Ch bi n th c ph m bao g m nh ng ki n th c cơ b n
v nguyên li u, kĩ thu t ch bi n m t s s n ph m t rau qu , th y
s n, bánh k o, bia, rư u, nư c gi i khát; quy trình cơng ngh ch
bi n, u c u cơng ngh và các thông s kĩ thu t c n thi t c a t ng
2
quá trình, nh ng y u t
nh hư ng
n quá trình ch bi n m t s s n
ph m t rau qu , s n ph m th y s n, bánh k o, bia, rư u, nư c gi i
khát ánh giá ư c ch t lư ng s n ph m
Ngành Ch bi n th c ph m b c cao
năm, sinh viên sau khi t t nghi p có th
ng ư c ào t o trong 3
m nh n các công vi c c a
cán b k thu t, t trư ng s n xu t, trư ng ca... các dây chuy n s n
xu t, ch bi n th c ph m t i các c s ch bi n, b o qu n và kinh
doanh th c ph m, các cơ quan ki m tra ch t lư ng và an toàn th c
ph m, các c s nghiên c u, tư v n và ào t o trong lĩnh v c th c
ph m
Tra c u tài li u là quá trình tìm tòi ki n th c qua các phương
ti n như sách, báo, Internet…nh m
t k t qu nào ó. Ki n th c
ngành Ch bi n th c ph m r t a d ng, phong phú, có r t nhi u b
mơn ịi h i tính th c t cao, do ó các ngu n sách v chuyên ngành,
giáo trình cũng ph i thư ng xuyên thay
i v i ki n th c hi n t i
phù h p nhu c u c a nhà s d ng lao
ng.
có tài li u ph c v
gi ng d y và h c t p, các giáo viên và sinh viên không ng ng tra c u
tài li u b ng nhi u phương th c khác nhau như các sách
thư vi n,
thu th p và t ng h p các ki n th c t Internet…
Tuy nhiên ki n th c tra c u các sách có
nh t so v i ki n th c hi n t i. Do ó, v n
thư vi n chưa c p
s d ng các công c h
tr tra c u tài li u trên Internet r t quan tr ng, c p nh t nh ng ki n
th c m i, có th b sung cho tài li u gi ng d y và h c t p.
Trong quá trình tra c u tài li u trên Internet, giáo viên và sinh
viên thư ng g p khó khăn trong v n
thu th p và t ng h p các ki n
th c sao cho phù h p v i yêu c u s d ng, vì ki n th c sau khi tra
c u r t nhi u, òi h i ph i t mình
th c liên quan
c và trích l c ra nh ng ki n
n các n i dung c n tra c u, và các ki n th c này
3
không phân lo i theo các ch
, th lo i. Và
c bi t là khi nh p n i
dung tra c u trên Internet thư ng x y ra hi n tư ng nh p nh ng.
Nh p nh ng là hi n tư ng mơ h , l p nhòe v ý tư ng làm m t
ranh gi i gi a cái này và cái n
X lý nh p nh ng nghĩa c a t là m t trong nh ng v n
ư c r t nhi u nhà nghiên c u trong lĩnh v c x lý ngôn ng t
n. V n
nhiên quan tâm
bi t l n
này ư c nêu lên như m t bài toán riêng
u tiên là vào nh ng năm cu i th p k 40 c a th k 20 và
ư c coi như là m t trong nh ng v n
lâu
i nh t c a lĩnh v c x
lý ngôn ng t nhiên. Nh n ư c nhi u s quan tâm và t s m như
v y là do x lý nh p nh ng nghĩa c a t
óng vai trị quan tr ng
trong r t nhi u các bài toán khác c a x lý ngơn ng t nhiên. Ta có
th th y s xu t hi n c a h x lý nh p nh ng nghĩa c a t trong các
h th ng tìm ki m thơng tin, khai phá d li u…
Và x lý nh p nh ng trong tra c u tài li u cũng ư c quan
tâm, và
c bi t là nh ng tài li u v ngành Ch bi n th c ph m
Ví d : trong môn Công ngh ch bi n rau qu , n u nh p n i
dung tra c u: “ch bi n rau qu ” này trên Internet s x y ra nh p
nh ng trong t “ch bi n”, có th phân tích “ch bi n = ch t o +
bi n hóa”, có th hi u là x lý, óng gói, có th hi u là chu n b s
d ng ngay…, nên k t qu sau khi tra c u t Internet là r t nhi u. Do
ó, c n ph i gi i thích ng nghĩa c a các t c n tra c u, c th là các
t liên quan
n ngành Ch bi n th c ph m và c n có m t công c
h tr tra c u tài li u ngành này
có th h n ch các hi n tư ng
nh p nh ng x y ra
Trong lu n văn này v i t a
:
“X lý nh p nh ng ti ng Vi t và ng d ng trong tra c u tài
li u gi ng d y và h c t p”
4
Chúng tôi s tri n khai th c nghi m gi i pháp b ng cách xây
d ng ng d ng x lý nh p nh ng trong tra c u tài li u gi ng d y và
h c t p ngành Ch bi n th c ph m Trư ng Cao
ng Lương Th c-
Th c Ph m.
2. Ý nghĩa khoa h c và th c t
- Ý nghĩa khoa h c
V khoa h c,
tài ã tìm hi u các hi n tư ng nh p nh ng
trong ti ng Vi t, nh p nh ng trong tra c u tài li u.
xu t gi i pháp
x nh p nh ng trong tra c u.
- Ý nghĩa th c t
V th c ti n,
trong tra c u tài li u
tài ã v n d ng k thu t x lý nh p nh ng
t
ó, xây d ng ng d ng có tính kh thi, áp
d ng lý thuy t vào th c t cu c s ng
3. M c tiêu nhi m v nghiên c u
- Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t
- Phân tích h th ng, tìm hi u ho t
ng v tra c u tài li u
gi ng d y và h c t p ngành Ch bi n th c ph m
-
xu t mơ hình x lý nh p nh ng trong tra c u tài li u
gi ng d y và h c t p ngành Ch bi n th c ph m
- Cài
t th nghi m
- ánh giá k t qu
4.
i tư ng và ph m vi nghiên c u
- Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t
- Nghiên c u mơ hình và phương pháp x lý nh p nh ng trong
tra c u tài li u gi ng d y và h c t p ngành ch bi n th c ph m
- Tài li u ph c v cho
viên trong trư ng Cao
i tư ng là h c sinh sinh viên, giáo
ng Lương Th c-Th c Ph m
5
5. Phương pháp nghiên c u
- Phương pháp nghiên c u tài li u:
• Ti n hành nghiên c u, thu th p tài li u liên quan v ng
pháp ti ng Vi t
• Tìm hi u các hi n tư ng nh p nh ng trong ti ng Vi t
• Nghiên c u ngơn ng l p trình JSP, SQL Server 2008
- Phương pháp th c nghi m: gi i quy t bài toán x lý nh p
nh ng trong tra c u tài li u gi ng d y và h c t p ngành Ch bi n
th c ph m t i trư ng Cao
ng Lương Th c-Th c Ph m
6. B c c lu n văn
Chương 1: Tìm hi u các hi n tư ng nh p nh ng trong
ti ng Vi t. Trình bày khái quát v X lý ngôn ng t nhiên, các giai
o n hình thành ti ng Vi t,
c i m c a ti ng Vi t, tính nh p nh ng
trong ti ng Vi t.
Chương 2: Phân tích và thi t k h th ng x
nh ng.
lý nh p
ưa ra mô hình x lý nh p nh ng, phân tích và thi t k h
th ng x lý nh p nh ng trong tra c u tài li u gi ng d y và h c t p t i
Trư ng Cao
ng Lương Th c-Th c Ph m
Chương 3:
ng d ng x lý nh p nh ng trong tra c u tài
li u gi ng d y và h c t p ngành ch bi n th c ph m. Cài
t,
ki m th chương trình x lý nh p nh ng trong tra c u tài li u gi ng
d y và h c t p ngành Ch bi n th c ph m
6
CHƯƠNG 1
TÌM HI U CÁC HI N TƯ NG NH P NH NG TRONG
TI NG VI T
Trong chương này gi i thi u khái quát v X lý ngôn ng t
nhiên, các giai o n hình thành ti ng Vi t,
tính nh p nh ng trong ti ng Vi t. T
c i m c a ti ng Vi t,
ây chúng ta ưa ra các gi i
quy t tính nh p nh ng ti ng Vi t trong tra c u tài li u.
1.1. X
LÝ NGƠN NG
T
NHIÊN VÀ CÁC BÀI TỐN
NG D NG
X lý ngôn ng t nhiên (natural language processing – NLP)
là m t lĩnh v c nghiên c u c a Trí tu nhân t o nh m xây d ng m t
h th ng x lý cho máy tính, làm cho máy tính có th “hi u” ư c
ngôn ng c a con ngư i g m c ngơn ng nói và vi t. Nghĩa là, khi
chúng ta nói hay vi t thì máy tính hi u ư c là chúng ta ang nói gì,
vi t gì. Khơng ch v i m t lo i ngôn ng c a m t dân t c, c a m t
qu c gia máy tính có th hi u ư c, máy tính có th hi u ư c ngơn
ng c a t t c các dân t c, các qu c gia trên th gi i. Nh
ó, m i
ngư i trên th gi i d a vào máy tính cũng có th hi u, giao ti p ư c
v i nhau mà không c n h c, hi u ngôn ng c a nhau
Các bài toán ng d ng
NLP là m t lĩnh v c nghiên c u nh m giúp cho các h th ng
máy tính hi u và x lý ư c ngôn ng con ngư i. Các bài tốn và
ng d ng liên quan
nv n
x lý ngơn ng t nhiên hi n nay có
r t nhi u, dư i ây là m t s bài toán và ng d ng thư ng g p nh t.
-
Nh n d ng ch vi t
-
Nh n d ng ti ng nói
-
T ng h p ti ng nói
-
D ch t
ng (machine translate)
7
-
Tìm ki m thơng tin
-
Tóm t t văn b n
-
Khai phá d li u (data mining) và phát hi n tri th c
1.2. T NG QUAN V TI NG VI T
1.2.1. Quá trình hình thành ti ng Vi t
Ti ng Vi t có ngu n g c r t c xưa và ã tr i qua m t quá
trình phát tri n lâu dài.
a. Ti ng Vi t
giai o n dùng ch Nôm
b. Ti ng Vi t
giai o n dùng ch qu c ng
c. T Cách M ng Tháng 8
n nay
Cách M ng Tháng 8 thành công, Vi t Nam ã quy t
Ti ng Vi t
m i c p h c, b c h c,
1.2.2. Âm ti t và
a.
m i ngành ho t
nh dùng
ng.
c i m âm ti t trong ti ng Vi t
nh nghĩa
Âm ti t là ơn v phát âm t nhiên nh nh t trong ngôn ng .
Trong ti ng Vi t, m t âm ti t bao gi cũng ư c phát ra v i m t
thanh i u, và tách r i v i âm ti t khác b ng m t kho ng tr ng. M i
âm ti t ti ng Vi t ư c ghi thành m t “ch ”. Ví d : “hoa h c trò”
g m 3 ch ho c 3 âm ti t.
Trong Ti ng Vi t có 29 ch cái, g m 17 ph âm và 12 nguyên
âm.
Nguyên âm: a, ă, â, e, ê, i, o, ô, ơ, u, ư, y.
Ph âm: b, c, d, , g, h, k, l, m, n, p, q, r, s, t, v, x
Ngoài ra cịn có các bán ngun âm và ph âm ghép như sau:
Bán nguyên âm: oa, oe, uy
Ph âm ghép như sau: ch, gh, kh, ng, ngh, nh, ph, th, tr, gi và qu
b.
c i m âm ti t Ti ng Vi t
- Có tính
c l p cao
8
- Có kh năng bi u hi n ý nghĩa
- Có m t c u trúc ch t ch
1.2.3. T và phân lo i t trong ti ng Vi t
nh nghĩa
a.
T là ơn v nh nh t có nghĩa, có k t c u v ng âm b n
v ng, hồn ch nh, có ch c năng g i tên, ư c v n d ng
hi n t do trong l i nói
c l p, tái
t o câu
Ví d : nhà, ngư i, áo, cũng, s , thì,... ư ng s t, sân bay,
trư ng h c…
b. Phân lo i t trong ti ng Vi t
V m t c u t o t ti ng Vi t ư c phân lo i theo nhi u d ng
khác nhau, v i nh ng tiêu chí khác nhau,
- T
ơn
- T ghép
- T láy
- Nh ng t g c thu n Vi t:
- Nh ng t vay mư n g c Hán
1.3. X
LÝ TI NG VI T TRÊN MÁY TÍNH
H u h t các máy tính cá nhân
Vi t Nam
u cài
t nh ng
ph n m m h tr ti ng Vi t ví d như phông ch
1.3.1. T ng quan các b mã ti ng Vi t
1.3.2. M t s
c i m c a font Unicode
1.3.3. Ti ng Vi t trong b mã Unicode
1.4. M T S
GI I PHÁP XÁC
NH T
VI T
1.4.1. Gi i pháp xác
nh danh t riêng
1.4.2. Gi i pháp xác
nh danh t láy
TRONG TI NG
9
1.5. HI N TƯ NG NH P NH NG TRONG TI NG VI T
Ti ng Vi t là m t th ti ng a nghĩa, m t t có th mang
nhi u nghĩa, do ó thư ng x y ra các hi n tư ng nh p nh ng trong
khi nói, khi vi t…
Nh p nh ng là hi n tư ng mơ h , l p nhòe v ý tư ng làm m t
ranh gi i gi a cái này và cái n .
Nh p nh ng x y ra trên h u h t ngôn ng t nhiên ti ng Vi t
không tránh kh i quy lu t chung.
Nh p nh ng trong ngôn ng h c là hi n tư ng thư ng g p k
c trong giao ti p hàng ngày.
Hình 1.5 Các hi n tư ng nh p nh ng ti ng Vi t
1.5.1. Nh p nh ng khi nói
- Nh p nh ng v t lo i
- Nh p nh ng khi phát âm
- Nh p nh ng v t
ng âm và khác nghĩa
- Nh p nh ng v t
ng nghĩa nhưng khác âm
1.5.2. Nh p nh ng khi vi t
- Nh p nh ng khi vi t ti ng Vi t không d u
- Nh p nh ng v l i chính t khi vi t
10
- Nh p nh ng v vi c b d u
- Nh p nh ng v ranh gi i t
1.5.3. Nh p nh ng v c ch
1.5.4. Nh p nh ng v s v n d ng
1.6. HI N TƯ NG NH P NH NG TRONG TRA C U TÀI
LI U
Tra c u tài li u là gi i pháp nh m tìm ra các gi i pháp giúp
ngư i s d ng có th tìm th y các thơng tin mình c n trong m t kh i
lư ng l n d li u
Qua phân tích hi n tư ng nh p nh ng trong ti ng Vi t ta th y
r ng i u ó khơng th khơng x y ra trong tra c u tài li u, trong quá
trình tra c u thư ng x y ra tư ng nh p nh ng
các quá trình sau:
- Nh p nh ng trong lúc nh p yêu c u tra c u tài li u
+ Nh p nh ng do ch n sai ch
tra c u
+ Nh p nh ng do ch n sai b ng mã
+ Nh p nh ng khi ta nh p t vi t t t
- Nh p nh ng trong lúc tra c u tài li u
- Nh p nh ng khi phân lo i tài li u
K T LU N CHƯƠNG 1
Chương này t p trung, gi i thi u khái quát v X lý ngôn
ng t nhiên, t ng quan v ti ng Vi t, các giai o n hình thành ti ng
Vi t,
c i m c a ti ng Vi t, tính nh p nh ng trong ti ng Vi t. T
ây chúng ta ưa ra các gi i quy t tính nh p nh ng ti ng Vi t trong
tra c u tài li u.
Ph n ti p theo c a lu n văn này ó là phân tích bài toán x
lý nh p nh ng trong tra c u tài li u ph c v gi ng d y và h c t p
ngành Ch bi n th c ph m.
11
CHƯƠNG 2
PHÂN TÍCH VÀ THI T K H TH NG
X
LÝ NH P NH NG
2.1. PHÂN TÍCH HI N TR NG
2.1.1. Gi i thi u Ngành Ch bi n th c ph m Trư ng Cao
ng Lương Th c-Th c Ph m
a. Gi i thi u Trư ng Cao
Trư ng Cao
ng Lương Th c-Th c Ph m
ng Lương Th c-Th c Ph m là trư ng công l p
n m trong h th ng giáo d c
i h c Vi t Nam, tr c thu c B Nông
nghi p và PTNT. Tr i qua hơn 35 năm xây d ng và phát tri n,
Trư ng luôn là m t cơ s
ào t o n ng c t, cung c p ngu n nhân l c
cho s phát tri n c a ngành
khu v c
mi n Trung-Tây Nguyên và
trong c nư c, góp ph n th c hi n cơng nghi p hóa, hi n
i hóa
nư c. Trư ng ào t o a d ng nhi u ngành ngh b c Cao
t
ng,
Trung c p, trong ó ngành ào t o tr ng tâm c a nhà trư ng: ngành
Ch bi n th c ph m, ngành ã ào t o ngu n nhân l c l n cho các
xư ng, xí nghi p, công ty ch bi n th c ph m…
b. Gi i thi u ngành Ch bi n th c ph m
Ngành Ch bi n th c ph m bao g m nh ng ki n th c cơ b n
v nguyên li u, kĩ thu t ch bi n m t s s n ph m t rau qu , m t s
s n ph m th y s n, bánh k o, bia, rư u, nư c gi i khát. C th là c u
t o, thành ph n hóa h c c a nguyên li u và nh hư ng c a nh ng
thành ph n
n quá trình ch bi n; quy trình cơng ngh ch bi n, yêu
c u công ngh và các thông s kĩ thu t c n thi t c a t ng quá trình,
nh ng y u t
nh hư ng
n quá trình ch bi n m t s s n ph m t
rau qu , s n ph m th y s n, bánh k o, bia, rư u, nư c gi i khát ánh
giá ư c ch t lư ng s n ph m
12
2.1.2. Tình hình th c t
S lư ng h c sinh trúng tuy n vào ngành Ch bi n th c ph m
c a trư ng trong nh ng năm g n ây ch
t 2/3 s lư ng ch tiêu
c a nhà trư ng.
Hình 2.1 Bi u
Các
sinh viên trúng tuy n Ngành Ch bi n th c ph m
i tư ng thư ng xuyên tra c u tài li u trong thư vi n ó
là: giáo viên và sinh viên.
-
i v i các giáo viên,
c bi t là các giáo viên m i vào
trư ng, kinh nghi m gi ng d y còn chưa nhi u (t 1 3 năm), nhưng
năm nào cũng ph i t so n bài gi ng các mơn chun ngành
ph c
v cho q trình gi ng d y, theo yêu c u c a nhà trư ng các bài
gi ng ph i luôn c p nh t th c t , có như v y m i áp ng ư c vi c
h c c a h c sinh sinh viên và tuy n d ng c a nhà lao
Theo th ng kê c a thư vi n, v n
ng.
mư n sách chuyên ngành
c a các giáo viên h ng năm c a thư vi n ngày càng gi m, m c dù
năm nào cũng ph i so n giáo trình, giáo án, tài li u m i, b sung
Hình 2.2 Bi u
s lư ng giáo viên mư n sách ngành Ch bi n
13
c thù các môn c a ngành Ch bi n th c ph m c n nhi u
ki n th c th c t , mà các giáo viên tr ch y u l y các ngu n ki n
th c t sách thư vi n là chưa
, ngoài ra cịn tìm ki m, tra c u các
tài li u trên Internet, tuy nhiên quá trình tra c u tài li u không ph i
lúc nào cũng cho nh ng k t qu như mong mu n
Ví d : trong môn ch bi n rau qu , các giáo viên tra c u b ng
cơng c Google, gõ t khóa: ch bi n rau qu filetype:doc (nghĩa là
các giáo viên mu n tìm các tài li u có d ng file doc liên quan t i v n
nói trên)
K t qu nh n ư c r t nhi u, giáo viên c n có th i gian dài
ch n l c các tài li u có liên quan, ơi lúc l i khơng tìm ư c tài li u
c n tìm.
Hình 2.3 K t qu tìm ki m Google
- H u h t các giáo viên và sinh viên
u tra c u tài li u có s n
trên m ng Internet, như Google, Yahoo...Khi tra c u trên Internet, s
dĩ k t qu tìm ki m quá nhi u như v y là do x y ra nh p nh ng trong
14
t khóa tìm ki m. C n ph i gi i thích ng nghĩa các t ti ng Vi t cho
úng
có th x lý các hi n tư ng nh p nh ng, h n ch
ư c
nh ng k t qu tra c u không úng v i yêu c u.
Do ó,
thu n l i cho vi c gi ng d y và h c t p c a các giáo
viên và sinh viên vi c tra c u tài li u ti ng Vi t liên quan
n ngành
Ch bi n thì ph i tìm chính xác nh ng t khi ngư i s d ng nh p
vào ô tra c u, tìm úng ng vì ti ng Vi t là lo i ti ng ph c t p.
2.2.
XU T MƠ HÌNH GI I PHÁP
Hình 2.5 Mơ hình gi i pháp
15
2.3. TRI N KHAI THI T K H TH NG
2.3.1. Xây d ng ngu n d li u tra c u
Tài li u các giáo viên và sinh viên c n tra c u ó là tài li u thu
th p t sách, báo thư vi n, Internet và các ki n th c, giáo trình c a
các giáo viên có kinh nghi m
Trên cơ s
-
ó, chúng ta t xây d ng ngu n d li u như sau:
Các ngu n d li u t Internet, sách báo: s
ư c l yt
ng t Internet thơng qua chương trình t xây d ng, các
thông tin l y v
ã ư c phân lo i theo m c và lưu tr
trong CSDL (thông tin gì thì s lưu vào CSDL theo m c
ã ư c xây d ng s n)
-
Ngu n d li u nh p b ng tay: ó là các giáo trình, giáo án,
cương… c a các th y cơ có kinh nghi m trong trư ng
cũng như các trư ng khác có cùng ngành Ch bi n th c
ph m
i v i ngu n d li u này, chúng ta s t phân lo i s n.
Xây d ng ngu n d li u tra c u òi h i chúng ta ph i t p
trung nhi u công s c, th i gian
tra c u tài li u m i
u tư, ch n l c, có như v y k t qu
t hi u qu t t nh t
2.3.2. Xây d ng CSDL t
i v i ngư i s d ng
v ng lĩnh v c ch bi n th c
ph m
Trư c tiên tìm hi u các mơn chun ngành liên quan
n
ngành Ch bi n th c ph m như: công ngh s n xu t bia, công ngh
s n xu t ư ng, công ngh s n xu t s a và các s n ph m t s a,
công ngh s n xu t nư c gi i khát, công ngh s n xu t bánh k o,
công ngh ch bi n th y s n, công ngh ch bi n rau qu , dinh
dư ng và an tồn th c ph m, hóa h c và ph gia th c ph m, thi t b
th c ph m, công ngh ch bi n th c ph m, b o qu n th c ph m,
16
công ngh b o qu n và ch bi n lương th c, ki m nghi m lương th c
th c ph m, qu n lý ch t lư ng th c ph m, bao bì th c ph m…
Sau khi tìm hi u các mơn này, ta s có các t khóa là tên các
mơn, d a vào ây
xây d ng các t
ơn, t ghép theo các t khóa
liên quan này
T o b ng trong CSDL
lưu t t c các t ghép
Ví d : có t ghép “ki m nghi m”, ngồi ra cịn có các t ghép
như là: ki m tra, ki m
các t
nh…ta s xây d ng trên cơ s các t
ơn và
ơn ghép thành các t ghép có nghĩa.
2.3.3. Thi t k h th ng
a. Các tác nhân tham gia vào ng d ng
Các tác nhân tham gia tr c ti p vào ng d ng là m t ngư i
hay nhóm ngư i.
i v i ng d ng x lý nh p nh ng trong tra c u
tài li u gi ng d y và h c t p ngành ch bi n th c ph m thì tác nhân
tham gia vào ng d ng bao g m:
Ngư i s d ng: giáo viên, h c sinh sinh viên
Ngư i qu n tr :
+ C p quy n s d ng cho ngư i dùng, s a ch a, b o m t h
th ng…
+ C p nh p kho t
i n, kho d li u
b. Thi t k cơ s d li u
Xây d ng m t kho t v ng g m các t
ơn và t ghép mà m i
t này ph i úng ng nghĩa c a ti ng Vi t tránh nh p nh ng v ng
nghĩa ti ng Vi t; k thu t x lý nh p nh ng b t
ti ng Vi t t
ơn v nh nh t là ký t , ti p
u t vi c phân tích
n là t
ơn, t ghép,
ng và cu i cùng là câu. Ghép các nguyên âm và ph âm thành t
ơn có nghĩa. T các t
các t
ơn ghép thành t ghép. T các t
ghép, ghép l i thành ng , thành câu.
ơn và
17
T
ây lưu các t
ã ghép úng ng nghĩa vào t p tin
CSDL. Xây d ng k thu t x lý nh p nh ng cho các yêu c u tra c u
b ng ti ng Vi t, tránh nh ng l i nh p nh ng trong ti ng Vi t.
Do ó, thi t k cơ s g m có 2 b ng như sau: TUGOC và
TUGHEP
B ng 2.2 TUGOC
Tên trư ng
Ki u d li u
Mô t
Mã t g c (khóa
MaTuGoc
Int
TuGoc
nvarchar(50)
chính)
T g c
B ng 2.3 TUGHEP
Tên trư ng
Ki u d li u
Mơ t
Mã t g c (t
MaTuGoc
Int
TuGhep
nvarchar(50)
ơn)
(khóa ngo i)
T ghép (khóa
ngo i)
D li u cho q trình x lý ph i có các nguyên âm ghép v i
ph âm cùng các d u thanh
t o thành m t t
ơn. T nh ng t
ơn này ghép l i thành t ghép.
tránh nh p nh ng trong ti ng Vi t là t
ơn và t ghép sau
khi ghép xong ph i úng ng nghĩa c a ti ng Vi t và lưu l i dư i
d ng t p tin text. T p tin text này chính là t
t ghép.
i n g m các t
ơn và
18
T các t
ơn và t ghép ã ki m tra úng ng nghĩa, sau ó
ơn theo t
tách t
ơn, t ghép theo t ghép và ghi vào CSDL nh m
ph c v cho vi c tra c u tài li u.
V i kho d li u 1000 t ghép t m ph c v cho vi c tra c u tài
li u Ngành Ch bi n th c ph m ư c lưu trong CSDL SQL Server.
c. Thi t k các m i quan h gi a các b ng
Chúng ta có 2 b ng, m i quan h c a chúng như sau:
Hình 2.6 Mơ hình quan h th c th
2.4. K
THU T X
LÝ NH P NH NG TRONG TRA C U
TÀI LI U
Mu n xây d ng k thu t x lý nh p nh ng trong tra c u tài
li u ph c v gi ng d y và h c t p ph i áp ng nh ng yêu c u: xây
d ng m t kho t
i n t g m các t
ơn và t ghép mà m i t này
ph i úng ng nghĩa c a ti ng Vi t tránh nh p nh ng v ng nghĩa
ti ng Vi t. T kho t
i n này xây d ng k thu t x lý nh p nh ng
trong tra c u tài li u. K thu t x lý nh p nh ng b t
tích ti ng Vi t t
ơn v nh nh t là ký t , ti p
ghép, ng và cu i cùng là câu. Tr i qua các bư c sau:
u t vi c phân
n là t
ơn, t
19
- Li t kê các nguyên âm và ph âm có trong ti ng Vi t, trong
Ti ng Vi t có 29 ch cái, g m 17 ph âm và 12 nguyên âm (nguyên
âm: a, ă, â, e, ê, i, o, ô, ơ, u, ư, y; ph âm: b, c, d, , g, h, k, l, m, n, p,
q, r, s, t, v, x)
- Ghép các nguyên âm và ph âm thành t
các t
ơn ghép thành t ghép. T các t
l i thành ng , thành câu. T
ơn có nghĩa, t
ơn và các t
ây lưu các t
ghép, ghép
ã ghép úng ng
nghĩa vào t p tin CSDL. Xây d ng k thu t x lý nh p nh ng cho
các yêu c u tra c u b ng ti ng Vi t, tránh nh ng l i nh p nh ng
trong ti ng Vi t. Q trình trên ư c mơ ph ng qua sơ
sau:
Hình 2.7 Quy trình ghép t lưu vào CSDL
2.4.1. K thu t ghép t
ơn
Chúng ta s d ng b ng ch cái trong ti ng Vi t, t các nguyên
âm ta thêm các d u thanh vào s tr thành m t t m i, m t s t khi
ta thêm d u thanh vào ã có nghĩa ngay như: t
à nhưng m t s
nguyên âm khi thêm d u thanh v n chưa có nghĩa c a ti ng
20
Vi t, trư ng h p này ta ghép ti p v i ph âm
thành t
ơn hoàn
ch nh.
2.4.2. K thu t ghép t ghép
Ví d : T
ơn “Tài” ghép v i các t
ơn khác
thành các t
ghép.
Hình 2.11 Cách ghép các t
Ngoài các t
t c
ơn
ơn ghép v i nhau như trên cịn có th ghép ti p
có th có thêm nhi u t ghép như sau:
Sau khi có t ghép ta lưu các t ghép vào m t t p tin d ng
Text, t t p tin này chương trình s tách t ghép ưa vào CSDL
ph c v quá trình x lý
u vào c a các yêu c u tra c u.
K T LU N CHƯƠNG 2
N i dung chương này t p trung gi i thi u ngành Ch bi n th c
ph m, tình hình tra c u tài li u c a giáo viên và h c sinh viên t i
trư ng; trình bày k thu t x lý nh p nh ng, ưa ra mơ hình gi i
pháp
Ph n ti p theo s xây d ng x lý nh p nh ng trong tra c u tài
li u ph c v gi ng d y và h c t p ngành Ch bi n th c ph m t i
trư ng.
21
CHƯƠNG 3
NG D NG X
LÝ NH P NH NG TRONG TRA C U
TÀI LI U GI NG D Y VÀ H C T P NGÀNH
CH BI N TH C PH M
3.1. MÔI TRƯ NG VÀ CÔNG C
3.1.1. Gi i thi u JSP
3.1.2. Gi i thi u Microsoft SQL Server 2008
3.2. CÀI
T VÀ TH
NGHI M
B ng 3.1 Các ch c năng chính c a ng d ng
Trang
Ch c năng
1. Gi i thi u
Gi i thi u chung v thư vi n nhà trư ng
2. Tin t c
Nh ng thông tin v thư vi n trư ng,…
3. Thông báo
Nh ng thông báo v ho t
4. Tìm ki m
ng thư vi n
Tìm ki m các tên sách, mã sách có trong thư
vi n
thu n l i cho quá trình mư n
Giáo viên, h c sinh sinh viên tra c u các tài
5. Tra c u tài li u
li u ngành Ch bi n th c ph m ph c v cho
gi ng d y và h c t p
6.
ăng ký thành
viên
ăng ký thành viên c a thư vi n
i v i giao di n tra c u tài li u, các giáo viên c n nh p thơng tin:
-
Th lo i: giáo trình
-
Hình th c: doc
-
N i dung: ví d : q trình lên men bia
22
Hình 3.4 Giao di n tra c u tài li u
Hình 3.5 K t qu tra c u tài li u
Sau khi x lý nh p nh ng, k t qu tr v : 5
So sánh k t qu :
Chúng tôi ã chu n b s n m t s t
100 l n các t sau và cho ra k t qu th hi n
ki m nghi m, nh p
b ng sau:
23
B ng 3.2 So sánh trư c và sau khi áp d ng k thu t x lý
nh p nh ng
Trư c khi áp d ng k
T khóa tra c u
Sau khi áp d ng k thu t
thu t x lý nh p nh ng
x lý nh p nh ng
S l n gõ
S l n gõ
sai
S l n gõ
S l n gõ
sai
Quá trình
100
15
100
0
Quá trình lên men
100
30
100
15
100
35
100
10
Quá trình lên men
bia
D a vào b ng so sánh trên, ta th ng kê ư c k t qu thu ư c
trư c và sau khi áp d ng k thu t x lý nh p nh ng như sau: gi m
hơn 50% s sai sót trong t khóa tra c u tài li u
3.3.
ÁNH GIÁ K T QU
Vi t áp d ng k thu t x lý nh p nh ng trong tra c u tài li u
ph c v gi ng d y và h c t p ư c dùng cho ng d ng Thư vi n
Trư ng Cao
ng Lương Th c-Th c Ph m giúp cho website này tr
nên h u d ng nhi u. Giáo viên và h c sinh sinh viên là các
i tư ng
tr c ti p tham gia vào ng d ng, nên nh ng ý ki n óng góp sau khi
s d ng là r t quan tr ng, k t qu ki m th
b ng 3.4
t hơn 50%.
K T LU N CHƯƠNG 3
Trên cơ s lý thuy t
chương m t, k thu t x lý nh p nh ng
chương hai, chương ba tr c ti p xây d ng ng d ng x lý nh p
nh ng trong tra c u tài li u ph c v gi ng d y và h c t p. Các ch c
năng c a ng d ng ã ph n nào h tr cho giáo viên, h c sinh sinh
viên l a ch n ư c nh ng tài li u, ki n th c liên quan
ngành Ch bi n th c ph m.
n chuyên