Tải bản đầy đủ (.pdf) (26 trang)

Xây dựng phần mềm từ điển từ loại tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (761.3 KB, 26 trang )

TRƯỜNG ĐẠI HỌC VINH

005.3

KHOA CÔNG NGHỆ THÔNG TIN
--------------------------

ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

Tên đồ án:

XÂY DỰNG PHẦN MỀM
TỪ ĐIỂN TỪ LOẠI TIẾNG VIỆT

Sinh viên thực hiện : Nguyễn Thị Thanh – 1051070463
Lớp

:

Giáo viên hướng dẫn:

51K1 - CNTT
ThS. Nguyễn Thị Uyên

Nghệ An, tháng 12 năm 2014


Xây dựng phần mềm từ điển từ loại tiếng Việt

LỜI CẢM ƠN
Trước hết em xin gửi lời cảm ơn đến cô Ths. Nguyễn Thị Uyên, người đã hướng


dẫn em rất nhiều trong suốt quá trình tìm hiểu nghiên cứu và hoàn thành đồ án này từ
lý thuyết đến ứng dụng. Sự hướng dẫn của cơ đã giúp em có thêm được những hiểu
biết về xử lý từ điển từ loại tiếng Việt và ứng dụng của từ điển trong thực tiễn.
Đồng thời em cũng xin cảm ơn các thầy cô trong khoa công nghệ thông tin –
trường Đại Học Vinh, những người đã nhiệt tình giảng dạy và truyền đạt nhưng kiến
thức cần thiết trong suốt thời gian em học tập tại trường để em có thể hồn thành tốt đồ
án tốt nghiệp này.
Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè đã tạo mọi điều kiện
để em xây dựng thành công đồ án này.
Em xin chân thành cảm ơn !
Vinh, ngày 10 tháng 12 năm 2014.
Ngƣời viết báo cáo

Nguyễn Thị Thanh

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

1


Xây dựng phần mềm từ điển từ loại tiếng Việt

LỜI MỞ ĐẦU
Ngày nay, cùng với sự phát triển của đất nước ngành Cơng nghệ thơng tin đã có
những bước phát triển mạnh mẽ không ngừng và tin học đã trở thành chiếc chìa khóa
dẫn đến thành cơng cho nhiều cá nhân trong nhiều lĩnh vực, hoạt động. Với những ứng
dụng của mình, ngành Cơng nghệ thơng tin đã góp phần mang lại nhiều lợi ích mà
khơng ai có thể phủ nhận được. Đặc biệt là trong lĩnh vực xử lý ngơn ngữ tự nhiên, tin
học đã góp phần tạo ra sự thay đổi nhanh chóng cho bộ mặt xã hội. Trong những năm
gần đây, lĩnh vực xử lý ngôn ngữ tự nhiên thì xử lý ngữ nghĩa chiếm vai trị quyết định

tính chính xác của các mơ hình xử lý ngôn ngữ tự nhiên. Để xử lý ngữ nghĩa chúng ta
phải có cơ sở tri thức ngữ nghĩa từ vựng của ngơn ngữ cần xử lý. Trong xử lí ngơn ngữ
tự nhiên từ điển là một dạng tài nguyên thiết yếu phục vụ cho các bài tốn phân tích
ngơn ngữ từ đơn giản đến phức tạp. Một từ điển có chất lượng phải cung cấp được các
thông tin ngôn ngữ ở nhiều tầng bậc khác nhau như hình thái, ngữ pháp, ngữ nghĩa
cho các hệ thống xử lý ngôn ngữ tự nhiên ở mức đơn ngữ, và cao hơn nữa có thế phục
vụ cho cả xệ thống xử lý đa ngữ.
“Xây dựng phần mềm từ điển từ loại tiếng Việt” là một đề tài mới, bắt kịp sự
phát triển của cơng nghệ thơng tin nó đáp ứng nhu cầu ngày càng cao của xã hội. Mục
tiêu của đề tài này là thiết kế một bộ công cụ để xây dựng dữ liệu cho từ điển từ loại
tiếng Việt.
Đồ án được chia thành các phần như sau:
Chƣơng I: Tổng quan về từ điển tiếng Việt
Chƣơng II: Phân tích hệ thống
Chƣơng III: Chương trình minh họa từ điển

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

2


Xây dựng phần mềm từ điển từ loại tiếng Việt

MỤC LỤC
Trang
LỜI CẢM ƠN ................................................................................................................ 1
LỜI MỞ ĐẦU ................................................................................................................ 2
Chƣơng I. TỔNG QUAN VỀ TỪ ĐIỂN TIẾNG VIỆT ............................................. 5
1. Từ điển tiếng Việt ........................................................................................................ 5
1.1. Khái niệm ................................................................................................................. 5

1.2. Các đặc tính tiêu biểu của từ điển ............................................................................ 5
1.3. Trật tự sắp xếp từ vựng trong từ điển tiếng Việt ...................................................... 6
2. Ngữ pháp tiếng Việt .................................................................................................... 8
2.1. Động từ ..................................................................................................................... 8
2.2. Danh từ ..................................................................................................................... 8
2.3. Tính từ ...................................................................................................................... 9
2.4. Đại từ ........................................................................................................................ 9
3. Hình vị ......................................................................................................................... 9
3.1. Về giá trị ngữ âm ...................................................................................................... 9
3.2. Về bình diện chữ viết................................................................................................ 9
3.3. Về giá trị ngữ nghĩa .................................................................................................. 9
3.4. Về giá trị ngữ pháp ................................................................................................. 10
4. Từ ............................................................................................................................... 10
4.1. Từ ............................................................................................................................ 10
4.2. Nghĩa của từ............................................................................................................ 10
5. Quan hệ đồng âm, đồng nghĩa ................................................................................... 11
5.1. Từ đồng âm ............................................................................................................. 11
5.2. Từ đồng nghĩa ......................................................................................................... 12
Chƣơng II. PHÂN TÍCH HỆ THỐNG ...................................................................... 13
1. Phân tích dữ liệu hệ thống ......................................................................................... 13
2. Phân tích chức năng của hệ thống ............................................................................. 13
2.1. Chức năng tổng quát ............................................................................................... 13
2.2. Các chức năng ........................................................................................................ 13

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

3


Xây dựng phần mềm từ điển từ loại tiếng Việt

Chƣơng III. CHƢƠNG TRÌNH TỪ ĐIỂN ............................................................... 15
1. Tìm hiểu về ngơn ngữ lập trình C# ........................................................................... 15
2. Sơ đồ hoạt động của chương trình ............................................................................. 15
3. Thiết kế cơ sở dữ liệu ................................................................................................ 16
3.1. Thiết kế logic cơ sở dữ liệu .................................................................................... 16
3.2. Thiết kế cơ sở dữ liệu mức vật lý ........................................................................... 16
3.3. Mơ hình liên kết cơ sở dữ liệu ................................................................................ 18
3.4. Thiết kế giao diện của chương trình ....................................................................... 19
Đánh giá đề tài và hƣớng phát triển đề tài ................................................................ 23
1. Đánh giá đề tài ........................................................................................................... 23
2. Hướng phát triển ........................................................................................................ 23
KẾT LUẬN .................................................................................................................. 24
TÀI LIỆU THAM KHẢO........................................................................................... 25

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

4


Xây dựng phần mềm từ điển từ loại tiếng Việt

Chƣơng I. TỔNG QUAN VỀ TỪ ĐIỂN TIẾNG VIỆT
1. Từ điển tiếng Việt
1.1. Khái niệm
Khái niệm: Từ điển là danh sách các từ, ngữ được sắp xếp theo trật từ thành
các từ vị chuẩn. Một từ điển thường cung cấp phần giải nghĩa các từ ngữ đó hoặc các
từ ngữ tương đương trong một hay nhiều thứ tiếng khác nhau. Ngoài ra cịn có thể có
thêm thơng tin về cách phát âm, các chú ý ngữ pháp, các dạng biến thể của từ, tính lịch
sử hay từ nguyên, cách sử dụng hay các câu ví dụ, trích dẫn.
Đối với các ngơn ngữ sử dụng ký tự Latin thì các từ có thể được sắp xếp theo

thứ tự chữ cái. Đối với các ngôn ngữ tại Đông Á chịu ảnh hưởng của chữ Hán. Thơng
thường từ điển được trình bày dưới dạng sách, ngày nay từ điển cịn được số hóa và
cung cấp dưới dạng phần mềm máy tính hay truy cập trực tuyến trên web, trên trình
nhắn tin nhanh, hay có trong các thiết bị số như điện thoại…
Từ điển là nơi giải thích thơng tin về ngơn ngữ của con người một cách dễ hiểu
và khách quan nhất. Từ điển có nhiệm vụ, nhất là từ điển bách khoa tồn thư, giúp
người xem hiểu và vận dụng (sử dụng) chính xác một từ, ngữ, thuật ngữ, thành
ngữ, khái niệm, phạm trù hay một vấn đề cụ thể trong đời sống xã hội con người. Từ
nhiệm vụ này, từ điển đã được hình thành dưới nhiều dạng thức tồn tại khác nhau, góp
phần giải quyết (hay đáp ứng) một hoặc nhiều nhu cầu khác nhau trong đời sống xã
hội loài người. Đến nay, đã có các dạng thức từ điển như: từ điển bách khoa toàn
thư, từ điển luật học, từ điển triết học, từ điển thành ngữ, từ điển song ngữ, từ điển
thần học, từ điển tiếng lóng, từ điển ngơn ngữ phụ nữ...
1.2. Các đặc tính tiêu biểu của từ điển
 Tính chuẩn mực
Từ điển là nơi cung cấp thơng tin hoặc giải thích một sự vật hay hiện tượng một
cách ngắn gọn và chính xác nhất. Trừ phương pháp định nghĩa theo lối hàn lâm, bác
học, phương pháp kiến giải của hầu hết từ điển là luôn dùng những ngôn từ đơn giản
và phổ biến nhất trong xã hội. Thông tin trong từ điển luôn được kiểm chứng và thừa
nhận rộng rãi trong cộng đồng xã hội.
 Tính tƣơng đối
Từ điển chứa đựng những thơng tin đã có, đã được kiểm chứng - do đó, nó ln
bị thay đổi hoặc bổ sung theo thời gian, cùng với sự thăng trầm của sự vật hoặc hiện

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

5


Xây dựng phần mềm từ điển từ loại tiếng Việt

tượng mà nó đã đề cập. Từ điển ln đi sau những thay đổi hoặc tiến bộ của xã hội
loài người.
Từ điển mang đậm phong cách của nhóm tác giả biên soạn ra nó. Tính tương
đối của từ điển cịn có nguyên nhân từ sự khác biệt của mỗi nền văn hóa - văn minh,
ngơn ngữ, dân tộc, quốc gia trên thế giới. Mỗi thành tố trên có thể lý giải về cùng một
hiện tượng xã hội theo nhiều quan điểm, tư tưởng hay chính kiến khác nhau. Do đó, có
thể cùng một khái niệm, nhưng tùy theo mỗi nền văn hóa khác nhau, có thể có cách sử
dụng (vận dụng) khác nhau.
Như vậy, tính tương đối của từ điển có thể xuất phát từ sự chậm trễ khi cập
nhật, sự phân lập của các nhà từ điển học hoặc sự khác biệt của các nền vãn
hóa trên Trái Ðất.
 Tính đa dạng
Thông tin trong từ điển ghi nhận tất cả sự nhìn nhận, đánh giá, sử dụng hay vận
dụng một khái niệm (phạm trù) theo nhiều hướng khác nhau. Sự đa dạng này có nguồn
gốc từ sự khác biệt giữa các nền văn hóa, văn minh và tiến bộ của các cộng đồng, dân
tộc hoặc các quốc gia trên thế giới.
 Tính trung lập
Tính đa dạng của từ điển bắt buộc nó phải thể hiện quan điểm trung lập trong
tất cả các vấn đề mà nó đã đề cập. Bản thân sự đa dạng luôn hàm chứa nhiều mâu
thuẫn hay đối lập nhau. Do đó, tính trung lập của từ điển cịn nhằm tránh các xung
đột có thể xảy ra giữa các nền văn hóa, văn minh trên Trái Đất. Trừ từ điển của các
nước có mơ hình một đảng chính trị lãnh đạo, hầu hết các từ điển khác đều tơn trọng
ngun tắc trung lập này.
 Tính lịch sử
Trong từ điển ln chứa đựng đầy đủ sự hình thành và phát triển của một khái
niệm hay phạm trù mà nó lưu giữ. Ở đó, người xem tiếp cận được cả cách sử dụng từ
ngữ từ lúc sơ khai cho đến hiện tại.
1.3. Trật tự sắp xếp từ vựng trong từ điển tiếng Việt
1.3.1. Các đơn vị từ đƣợc sắp xếp theo thứ tự các chữ cái
aăâbcdđeêghiklmnoôơpqrstuưvxy

1.3.2. Thứ tự các dấu giọng của nguyên âm đơn
Thứ tự dấu giọng của nguyên âm đơn: không dấu, huyền, hỏi, ngã, sắc, nặng.
Trật tự trên được sắp xếp như sau:

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

6


Xây dựng phần mềm từ điển từ loại tiếng Việt
 a à ả ã á ạ ă ằ ẳ ẵ ắ ặ â ầ ẩ ẫ ấ ậ (ai, ài, ải...)
 e è ẻ ẽ é ẹ ê ề ể ễ ế ệ (eo, èo, ẻo...)
 i ì ỉ ĩ í ị (iêu, iều, iểu...)
 o ị ỏ õ ó ọ ô ồ ổ ỗ ố ộ ơ ờ ở ỡ ớ ợ (ôi, ồi, ổi...)
 u ù ủ ũ ú ụ ư ừ ử ữ ứ ự (ui, ùi, ủi...)
yỳỷỹýỵ
1.3.3. Quy luật ƣu tiên trƣớc sau
 Ưu tiên ngắn-dài
Từng khối chữ (tổ hợp các con chữ) được sắp xếp trước – sau theo thứ tự sau:
- Đơn tiết xếp trước đa tiết (tính từ trái sang phải).
- Các khối chữ viết thường xếp trước khối chữ viết hoa.
Ví dụ: a xếp trước A; c xếp trước C..
Theo đó, dạng ưu tiên ngắn – dài này được thể hiện như sau: khối chữ nào có ít
con chữ hơn (thường là âm tiết) thì được xếp trước khối chữ có nhiều chữ hơn.
Ví dụ: “ta” xếp trước “tay”; “ho” xếp trước “hoang”.
 Ưu tiên chứ trước - dấu sau
- Đối với từ đơn tiết, được ưu tiên sắp xếp theo thứ tự các chữ khác nhau đầu
tiên, bất kể nó mng dấu gì.
Ví dụ: “thanh” xếp trước “thành”, “tai” xếp trước “tay”
- Đối với từ đa tiết, chúng ta căn cứ vào thứ tự của từng âm tiết từ trái sang phải

để sắp xếp, sau đó mới căn cứ vào thanh điệu.
Ví dụ: “đa đa” xếp trước “đa giác”, “xa xa” xếp trước “xã giao”
- Đối với những hình thức ghi cách phát âm phổ biến của mục từ vay mượn
tiếng nước ngồi như ba-ga, a-xit…, thì dấu ghạch ngang được xem như khoảng trắng
và xếp bình thường như một từ đa tiết.
Ví dụ: “ba ba” xếp trước “ba ga”
Khi phiên âm các đơn vị từ vựng nưới ngoài, về nguyên tắc, dấu gạch ngang (-)
được quy ước như là khoảng trắng, nhưng theo luận lý thì nó vẫn phải xếp sau đơn vị
từ vựng có cùng khối chữ nhưng cách nhau bằng khoảng trắng thực sự.
Ví dụ: “ba lơ” xếp trước “ba-lô”; “a lô” xếp trước “a-lô”.
- Ưu tiên các ký hiệu và số:

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

7


Xây dựng phần mềm từ điển từ loại tiếng Việt
Các ký hiệu và chữ số thì xếp trước kí tự. Ví dụ: !, #, $, %, &, @..., 0, 1, 2,
3,...9 luôn luôn đứng trước a, b, c; B1 xếp trước B2 và ba, v.v.
Tóm lại, thứ tự sắp xếp ưu tiên là: khối chữ (nghĩa trọn vẹn của khối chữ) xếp
trước, sau đến các kí hiệu nằm ngồi khối chữ (trước và sau khối chữ), tiếp đến nội bộ
khối chữ (các dấu gạch ngang, dấu phẩy, dấu ba chấm...).
2. Ngữ pháp tiếng Việt
2.1. Động từ
Động từ: là những từ dùng để chỉ hành động, trạng thái của sự vật.
Ví dụ: ăn, đi, ngủ ……
2.1.1. Động từ tình thái
Là những động từ địi hỏi động từ khác đi kèm phía sau.
Ví dụ: đành, bị, được, giám…

2.1.2. Động từ chỉ hoạt động, trạng thái
Là những động từ khơng địi hỏi động từ khác đi kèm.
Ví dụ: chạy, nhảy, hát…
2.2. Danh từ
Danh từ: Là chỉ người, sự vật, hiện tượng, khái niệm..
Ví dụ: con gà, con mèo, giáo viên …
2.2.1. Danh từ chỉ sự vật
Danh từ chỉ sự vật được nêu tên từng loại hoặc từng cá thể người, vật, hiện
tượng, khái niệm…
Ví dụ: cây kéo, học sinh..
 Danh từ chung
Danh từ chung là tên gọi của một loại sự vật
Ví dụ: mèo, chó, học sinh,…
 Danh từ riêng
Danh từ riêng là tên riêng của từng người, từng vật, từng địa phương,.
Ví dụ: Thanh, Yến, Vinh, Đô Lương,…
2.2.2. Danh từ chỉ đơn vị
Danh từ chỉ đơn vị nêu tên đơn vị dùng để tính đếm, đo lường sự vật.
Ví dụ: nắm, lít, bầy,..

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

8


Xây dựng phần mềm từ điển từ loại tiếng Việt
 Danh từ chỉ đơn vị chính xác
Ví dụ: mét, lít, gam, giây,…
 Danh từ chỉ đơn vị ƣớc chừng
Ví dụ: nắm, bầy, mớ,…

2.3. Tính từ
Tính từ: là những từ chỉ đặc điểm, tính chất của sự vật, hoạt động, trạng thái.
Ví dụ: hồng, xinh, ngoan,…
2.3.1. Tính từ chỉ đặc điểm tuyệt đối
Là những tính từ khơng thể kết hợp với từ chỉ mức độ.
Ví dụ: xanh nhạt, xanh xao, vàng nhạt,….
2.3.2. Tính từ chỉ đặc điểm tƣơng đối
Là những từ có thể kết hợp với nhưng từ chỉ mức độ.
Ví dụ: hiền, tốt, xấu..
2.4. Đại từ
Đại từ: Là một từ dùng để thay thế cho một danh từ hoặc một đại từ khác.
Ví dụ: anh, tơi, chị, em…
3. Hình vị
Hình vị: là đơn vị ngơn ngữ nhỏ nhất có nghĩa và có giá trị (chức năng) về mặt
ngữ pháp. Trong tiếng Việt đơn vị này còn được gọi là tiếng. Về các mặt ngữ âm ngữ
nghĩa, ngữ pháp nó đều có giá trị quan trọng.
3.1. Về giá trị ngữ âm
Đứng về mặt ngữ âm thì hình vị thường trùng với âm tiết. Xét về mặt ngữ âm,
âm tiết là đơn vị ngữ âm rất dễ nhận diện, vì nó là đơn vị phát âm tự nhiên ứng với sự
căng lên và trùng xuống của dây thanh, và được phân cách bởi một khoảng ngắt hơi.
3.2. Về bình diện chữ viết
Trong chữ quốc ngữ tức chữ Việt hiện nay, mỗi âm tiết được ghi thành một
chữ, nên ở mặt chữ viết, âm tiết cũng dễ đƣợc nhận ra. Mỗi âm tiết trong tiếng Việt
đều có một thanh.
3.3. Về giá trị ngữ nghĩa
Đứng về mặt ngữ nghĩa thì hình vị cũng là đơn vị nhỏ nhất có thể có
nghĩa. Đơn vị ngữ âm ở bậc thấp hơn, là âm vị, thì khơng thể có nghĩa, mà chỉ có giá
trị khu biệt nghĩa. Chẳng hạn, âm vị /-a-/và âm vị /-t-/ riêng lẻ tự nó khơng có nghĩa gì,
SVTH: Nguyễn Thị Thanh – 51K1 - CNTT


9


Xây dựng phần mềm từ điển từ loại tiếng Việt
nó chỉ có giá trị khu biệt nghĩa: ta-ma-xa-na ...; ta-tu-ti-to... thanh điệu cũng có giá trị
như một âm vị tự nó khơng có nghĩa . nhưng nếu được kết hợp lại thành tiếng hoàn
chỉnh , thành âm tiết như ta hay tạ, má hay ma... thì có thể thành những đơn vị nhỏ
nhất có nghĩa.
3.4. Về giá trị ngữ pháp
Ngữ pháp bao gồm những quy tắc cấu tạo từ, cấu tạo câu. Hình vị là đơn vị ngữ
pháp được dùng để cấu tạo từ.
Có một số trường hợp cấu tạo từ sau đây:
- Cấu tạo từ một tiếng. Đây là một trường hợp một hình vị độc lập được dùng
làm một từ. Chẳng hạn: nước là một hình vị được dùng làm từ. Có thể dùng từ một
tiếng này để cấu tạo câu. Ví dụ: có thể nói câu tơi uống nước hay nói nước rất trong.
- Cấu tạo từ hai tiếng hay nhiều tiếng. Đó là trường hợp có sự kết hợp giữa hai
thành tố, mà hai thành tố này có thể là hai hình vị độc lập, hoặc khơng độc lập, hay
khơng có nghĩa tự thân kết hợp với nhau, và có sự gán bó tương dối chặt chẽ về mặt
nội dung và hình thức. Chẳng hạn: Nhà nước, xóm làng, quàn áo; giang sơn, khách
khứa...Cũng có những trường hợp hơn hai tiến kết hợp với nhau thành từ. Ví dụ: hợp
tác xã, câu lạc bộ,..
4. Từ
4.1. Từ
Là đơn vị sẵn có trong ngơn ngữ. Từ là đơn vị nhỏ nhất, cấu tạo ổn định, mang
nghĩa hoàn chỉnh, được dùng để cấu thành nên câu. Từ có thể làm tên gọi của sự vật
(danh từ), chỉ các hoạt động (động từ), trạng thái, tính chất (tính từ)... Từ là công cụ
biểu thị khái niệm của con người đối với hiện thực.
4.2. Nghĩa của từ
Từ là tín hiệu, nó phải nói lên, phải đại diện cho, phải được người sử dụng quy
chiếu về một cái gì đó. Khi một người nghe hoặc nói một từ nào đó, họ gán nó vào

đúng sự vật có tên gọi là từ đó như cả cộng đồng vẫn gọi. Đồng thời ít nhiều họ cũng
biết được những đặc trưng, bản chất của sự vật đó và họ sử dụng nó trong giao tiếp
đúng với các mẹo luật mà ngơn ngữ có từ cho phép. Ta nói rằng họ hiểu được nghĩa
của từ đó.
Ví dụ: Một người Việt hoặc khơng phải người Việt, nói hoặc nghe một từ “Xe”
chẳng hạn, thì họ có thể:
- Quy chiếu, gắn từ Xe vào bất kỳ cái gì trong thực tại đời sống.

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

10


Xây dựng phần mềm từ điển từ loại tiếng Việt
- Ít nhiều có thể biết được như: Xe là vật mà được dùng để làm phương tiện đi
lại. Ví dụ: xe đạp, xe máy…
- Dùng từ Xe trong giao tiếp, phát ngơn đúng với các quy tắc tiếng Việt
Ta nói rằng: họ có thể hiểu được từ Xe trong tiếng Việt.
Mỗi khi học nghĩa của một từ, chúng ta đều học bằng cách liên hệ từ với những
cái mà từ đó chỉ ra (trước hết là sự vật, hiện tượng, hành động hoăc thuộc tính… mà từ
đó làm tên gọi cho nó). Mặt khác, nghĩa của từ cũng được học thơng qua hoặc liên
quan với vơ vàn tình huống giao tiếp ngơn ngữ mà từ đó được sử dụng. Nói chung,
nghĩa của từ là những liên hệ được xác lập trong nhận thức của chúng ta giữa từ và
những cái mà nó (từ) chỉ ra (những cái mà nó làm tín hiệu cho).
5. Quan hệ đồng âm, đồng nghĩa
5.1. Từ đồng âm
Từ đồng âm: Là những từ trùng nhau về hình thức ngữ âm nhưng khác nhau về
nghĩa. Ví dụ: nhóm đồng âm: đường (sắt), đường (ăn) trong tiếng Việt. Hiện tượng
đồng âm xảy ra chủ yếu giữa các từ với nhau, ít khi nào quan sát được hiện tượng này
ở các cụm từ với nhau. Từ đồng âm có mặt trong ngơn ngữ là một tất yếu vì số lượng

âm thanh mà con người phát ra được và dùng làm vỏ ngữ âm cho các từ, dù có nhiều
đến mấy cũng chỉ có giới hạn của nó.
Trong tiếng Việt, do đặc trưng loại hình đơn lập của tiếng Việt quy định nên nó
có những đặc điểm sau:
- Những từ là đồng âm với nhau thì ln đồng âm trong tất cả các bối cảnh
được sử dụng.
- Đồng âm giữa từ với từ là kết quả của đồng âm tiếng với tiếng, điều này được
khai thác tong nghệ thuật chơi chữ như tên riêng “Hitle” được tách thành hai tiếng và
liên hội với hai động từ “hit” và “le”. Tùy theo từng ngôn ngừ mà các từ đồng âm
được phân loại khác nhau:
 Tiếng anh
- Đồng âm, đồng tự, như: can (có thể) – can (đóng hộp)
- Đồng âm, khơng đồng tự, như: son – sun
- Đồng tự, không đồng âm, như: tear (xé) – tear (nước mắt).
 Tiếng Việt
- Đồng âm từ giới từ, như: đường (con đường)- đường (ăn) (về mặt từ vựng)
và chỉ (khâu)- chỉ (trỏ) (về mặt từ vựng - ngữ pháp).

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

11


Xây dựng phần mềm từ điển từ loại tiếng Việt
- Đồng âm tiếng với tiếng: như “than” trong câu: “nhà của đề lầm than con
thơ trẻ lấy ai rèn cặp”.
Các nhóm từ đồng âm có thể khơng tìm được lý do hay tìm được lý do (từ vay
mượn, tách nghĩa cảu từ đa nghĩa, biến đổi ngữ âm). Ta cần phân biệt từ đa nghĩa với
từ đồng âm:
- Đồng âm: khác nguồn gốc nhưng trùng ngữ âm.

- Đa nghĩa: cùng nguồn gốc và trùng ngữ âm.
Việc nghiên cứu và khảo sát kỹ các từ đồng âm cả về lý thuyết và thực tiễn đều
rất cần thiết. Đặc biệt trong lĩnh vực từ điển và dịch máy.
5.2. Từ đồng nghĩa
Là những từ tương đồng nhau về nghĩa; khác nhau về âm thanh và có
phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách…nào đó,
hoặc đồng thời cả hai. Ví dụ các nhóm đồng nghĩa, trong:
 Tiếng Anh: start, begin, commence (bắt đầu)
 Tiếng Việt: cố, gắng, cố gắng.
Những từ đồng nghĩa với nhau không nhất thiết phải tương đương nhau về số
lượng nghĩa, các từ đồng nghĩa thường chỉ đồng nghĩa ở một nghĩa nào đó, vì vậy các
từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau. Trong mỗi nhóm
đồng nghĩa, thường có một từ trung tâm. Ví dụ: nhóm: “yếu, yếu ớt, yếu đuối,..” có từ
“yếu” là từ trung tâm.

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

12


Xây dựng phần mềm từ điển từ loại tiếng Việt

Chƣơng II. PHÂN TÍCH HỆ THỐNG
1. Phân tích dữ liệu hệ thống
Trước hiết dữ liệu được tạo ra một cơ sở dữ liệu lưu trữ ngữ nghĩa của các từ
như danh từ, động từ, tính từ….sao cho thơng tin ngữ nghĩa không bị lưu trữ dư thừa
(không bị trùng lặp ) và khi cần có thể truy xuất thơng tin theo yêu cầu cho trước. Có
nhiều cách thiết kế cơ sở dữ liệu theo ý niệm, tuy nhiên thông dụng và hữu hiệu nhất là
sơ đồ thực thể quan hệ. Mục tiêu của phần này là xây dựng được sơ đồ quan hệ thực
thể các loại từ với từ. cho phép biểu diễn các thông tin về những mối quan hệ giữa

chúng. Mơ hình dữ liệu làm nền tảng cho việc thiết kế cơ sở dữ liệu trên máy tính.
Định nghĩa những vùng dữ liệu chính xuất hiện trong bài tốn, đối với việc
quản lý các loại từ trong từ điển. Trong giới hạn của bài tốn này em chỉ có thể đề cập
đến hệ thống dư liệu tra cứu và cập nhật thơng tin cho từ điển.
2. Phân tích chức năng của hệ thống
Qua khảo sát các yêu cầu đối với hệ thống từ điển tiếng Việt. Phần này ta tiếp
tục phân tích cấu trúc logic của hệ thống. Qua đó có thể nhận biết được các mối quan
hệ trong hệ thống, làm tiền đề cho các bước tiếp theo.
2.1. Chức năng tổng quát
Đối với một hệ thống từ điển nói chung bao gồm các chức năng sau:
 Chức năng bảo mật và an toàn hệ thống
 Chức năng tra cứu
 Chức năng cập nhật thông tin
2.2. Các chức năng
2.2.1. Chức năng bảo mật hệ thống
Đối với một ứng dụng liên quan đến cơ sở dữ liệu ln địi hỏi thơng tin mà nó
quản lý phải được bảo vệ chắc chắn. Có hai loại nguy cơ dẫn đến hư hỏng, mất mát
thông tin là: nguy cơ từ các sự cố kỹ thuật, các nguy cơ làm sai lạc thông tin từ những
ý đồ xấu, từ sự sử dụng sai quy định hay thiếu hiểu biết. Đây là những nguy cơ không
thể tránh khỏi đối với mọi hệ thống thông tin.
2.2.2. Chức năng cập nhật thông tin
Làm nhiệm vụ cập nhật từ vào từ điển là dữ liệu đầu vào của chương trình từ
điển. Do tính chất dữ liệu của hệ thống, chức năng này đòi hỏi người thực hiện phải có

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

13


Xây dựng phần mềm từ điển từ loại tiếng Việt

tinh thần trách nhiệm cao, và cơ sở ngữ nghĩa phải thật chính xác. Cơ sở từ và ngữ
nghĩa khơng trùng lặp, khơng sai sót.
Do sự đa dạng và vốn từ ngữ phong phú, khi cập nhật từ mới cần phải cẩn trọng
về từ và ngữ nghĩa. Chỉ một sai sót nhỏ cũng dẫn đến người dùng hiểu sai về ngữ
nghĩa của “Từ”cần tra.
2.2.3. Chức năng tra cứu thông tin
Đây là chức năng đáp ứng những yêu cầu tra cứu thông tin về “Từ” của người
sử dụng. Do tính chất cũng như nhu cầu của bài toán chức năng này đáp ứng những
yêu cầu cụ thể như: Có thể biết được tất cả ngữ nghĩa tiếng Việt của từ cần tra, chính
xác và nhanh chóng. Thao tác của chức năng này là truy xuất các thông tin vốn ngữ
nghĩa của “Từ” cần tra trong cơ sở dữ liệu sau đó thể hiện lên trên biểu mẫu.
Chức năng hệ thống

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

14


Xây dựng phần mềm từ điển từ loại tiếng Việt

Chƣơng III. CHƢƠNG TRÌNH TỪ ĐIỂN
1. Tìm hiểu về ngơn ngữ lập trình C#
C# là một ngơn ngữ lập trình ứng dụng, ngôn ngữ biên dịch, ngôn ngữ đa năng
được phát triểu bởi hãng Microsoft, là một phần mềm khởi đầu cho kế hoạch
.NET.Microsoft phát triển C# dựa trên C, C++ và java. C# đước miêu tả là ngơn ngữ
có được sự cân bằng giữa C++, Visual Basic và Java.
Ngôn ngữ lập trình C# được đánh giá là dễ học và kết hợp được nhiều ưu điểm
của các ngôn ngữ lập trình hướng đối tượng Java và C++. Do đó là ngơn ngữ C# được
sử dụng rộng rãi nhất. C# có thể viết được với bất kỳ trình soạn thảo văn bản nào như
Notepad của Windows, và sau đó biên dịch với trình biên dịc dịng lệnh của C#,

csc.exe ln đi kèm với .Net framework. Do đó ngày nay, C# được rất nhiều các coder
trên thế giới ưa chuộng và tìm hiểu.
2. Sơ đồ hoạt động của chƣơng trình
Sơ đồ hoạt động của chương trình

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

15


Xây dựng phần mềm từ điển từ loại tiếng Việt
3. Thiết kế cơ sở dữ liệu
3.1. Thiết kế logic cơ sở dữ liệu
3.1.1. Mơ hình quan hệ
- Tu (Tu)
- DanhTu ( Tu, Nghia, Vidu )
- DongTu ( Tu, Nghia, Vidu )
- TinhTu ( Tu, Nghia, Vidu )
- ĐaiTu ( Tu, Nghia, Vidu)
- Tuloaikhac ( Tu, Nghia, Vidu )
- TaiKhoan ( TenTk, MatKhau )
3.1.2. Các bảng thực thể
STT

Tên thực thể

Giải thích

1


Từ

2

Danh từ

Lưu trữ từ và nghĩa danh tu của từ

3

Động từ

Lưu trữ từ và nghĩa động từ của từ

4

Tính từ

Lưu trữ từ và nghĩa tính từ của từ

5

Đại từ

Lưu trữ từ và nghĩa đại từ của từ

6

Từ loại khác


Là nơi lưu trữ những từ có nghĩa khơng thuộc
danh từ, động từ, tính từ, đại từ

7

Tài khoản

Lưu trữ các tài khoản có thể truy nhập vào hệ
thống

Từ lưu trữ tất cả các từ có trong từ điển

3.2. Thiết kế cơ sở dữ liệu mức vật lý
3.2.1. Bảng Tu
STT

Tên Trƣờng

Kiểu

Độ rộng

1

Tu

Nvarchar

50


SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

Định dạng

Ràng buộc
Khóa chính

16


Xây dựng phần mềm từ điển từ loại tiếng Việt
3.2.2. Bảng DanhTu
Định
dạng

STT

Tên
trƣờng

Kiểu

Độ rộng

1

Tu

Nvarchar


50

Khóa chính, khóa ngoại

2

Nghia

Nvarchar

400

Khóa chính

3

Vidu

Nvarchar

400

Ràng buộc

3.2.3. Bảng DongTu
Tên trƣờng Kiểu

STT

Độ rộng


Định dạng

Ràng buộc

1

Tu

Nvarchar

50

Khóa chính

2

Nghia

Nvarchar

400

Khóa chính

3

Vidu

Nvarchar


400

3.2.4. Bảng TinhTu
STT

Tên
trƣờng

Kiểu

Độ

Định

rộng

dạng

Ràng buộc

1

Tu

Nvarchar

50

Khóa chính, khóa ngoại


2

Nghia

Nvarchar

400

Khóa chính

3

Vidu

Nvarchar

400

3.2.5. Bảng DaiTu
STT

Tên trƣờng

Kiểu

Độ
rộng

Định

dạng

Ràng buộc

1

Tu

Nvarchar

50

Khóa chính, khóa ngoại

2

Nghia

Nvarchar

400

Khóa chính

3

Vidu

Nvarchar


400

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

17


Xây dựng phần mềm từ điển từ loại tiếng Việt
3.2.6. Bảng loại từ khác

STT

Tên trƣờng

Kiểu

Độ
rộng

Định
dạng

1

Tu

Nvarchar

50


Khóa chính, khóa ngoại

2

Nghia

Nvarchar

400

Khóa chính

3

Vidu

Nvarchar

400

Rŕng buộc

3.2.7. Bảng tài khoản

STT

Tên trƣờng

Kiểu


Độ rộng

1

TenTk

Nvarchar

50

2

MatKhau

Varchar

50

Định dạng

Ràng buộc
Khóa chính

3.3. Mơ hình liên kết cơ sở dữ liệu
Mơ hình liên kết cơ sở dữ liệu

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

18



Xây dựng phần mềm từ điển từ loại tiếng Việt
3.4. Thiết kế giao diện của chƣơng trình
3.4.1. Đăng nhập
- Hệ thống đăng nhập giúp bảo mật phần mềm tốt hơn. Tránh các truy nhập từ
bên ngồi.
- Những người có vai trị trong hệ thống thì mới có quyền truy nhập vào hệ thống.
- Mỗi người thuộc ban quản trị hệ thống thì có một tài khoản để truy nhập. Tài
khoản đó phù hợp với nhiệm vụ của từng người.

3.4.2. Đổi mật khẩu
- Giúp người quản lý có thể bảo mật tốt hơn tài khoản của mình.

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

19


Xây dựng phần mềm từ điển từ loại tiếng Việt
3.4.3. Tạo tài khoản
- Dùng để tạo tài khoản mới cho người quản lý để truy nhập vào hệ thống.

3.4.4. Giao diện tra từ
- Khi người dùng nhập từ cần tra rồi nhất nút “tra từ” thì tất cả các nghĩa của từ
đó sẽ hiện ở dưới khung nghĩa.
- Ở đây người quản lý cũng có thể đăng nhập và cập nhật, bổ sung từ vào từ điển.

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

20



Xây dựng phần mềm từ điển từ loại tiếng Việt
3.4.5. Giao diện nhập từ
- Đây là giao diện cập nhật, bổ sung từ vào cơ sở dữ liệu.
- Nếu muốn sửa từ nào đó thì nhấp nút “sửa” thì hệ thống sẽ liên kết đến giao
sửa từ.

3.4.6. Giao diện sửa từ
- Ở giao diện này cho phép người quản lý có thể sửa hay bổ sung nghĩa của một
từ nào đó vào từ điển.

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

21


Xây dựng phần mềm từ điển từ loại tiếng Việt

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

22


Xây dựng phần mềm từ điển từ loại tiếng Việt

Đánh giá đề tài và hƣớng phát triển đề tài
1. Đánh giá đề tài
Trong quá trình thực hiện đồ án tốt nghiệp, em đã cố gắng hết sức để tìm hiểu
và cài đặt chương trình nhưng vì thời gian có hạn nên có thể chưa giải quyết được tất

cả các vấn đề đặt ra cũng như chưa hoàn thiện hết các tính năng của một từ điển một
cách trọn vẹn. Em rất mong nhận được sự thông cảm của qúy thầy cô. Em xin chân
thành cảm ơn.
Những kết quả đạt được:
- Về công nghệ:
 Xây dựng được hệ thống từ điển cung cấp việc giải nghĩa các từ.
 Hoàn thành các giai đoạn khảo sát và xác định mục tiêu của hệ thống từ điển.
 Phân tích xây dựng mơ hình chức năng của hệ thống từ điển.
 Biết được cách thiết kế hệ thống phần mềm và cách tổ chức dữ liệu trong hệ
thống chương trình.
- Về cài đặt chương trình:
 Cho phép người dùng tra cứu “từ” một cách dễ dàng.
 Nghĩa của từ trọn vẹn, đầy đủ và dễ hiểu.
 Cập nhật, sửa lỗi một cách dễ dàng.
- Về tính năng của hệ thống:
 Từ và nghĩa được cập nhật chính xác, đầy đủ và dễ hiểu.
 Giao diện thân thiện với người dùng.
2. Hƣớng phát triển
- Tiến hành nâng cấp hệ thống từ điển, bổ sung “từ” và “nghĩa” của từ thêm
phong phú đáp ứng được nhu cầu của người dùng.
- Cho phép người dùng có thể thêm ý kiến bổ sung về từ còn thiếu trong hệ
thống từ điển.
- Bổ sung thêm một số chức năng cho bộ từ điển thêm trọng vẹn ví dụ: chức
năng nghe, phát âm, hình ảnh…
- Thiết kế thêm các chức năng khác để đáp ứng được đầy đủ chức năng của hệ
thống từ điển.
- Hoàn thiện và nâng cao hệ thống phần mềm.

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT


23


Xây dựng phần mềm từ điển từ loại tiếng Việt

KẾT LUẬN
Qua thời gian thực tập và làm đồ án tốt nghiệp em đã nhận được sự chỉ bảo và sự
giúp đỡ tận tình của cơ Ths. Ngun Thị Un, với kiến thức thu được ở trường, cùng
với sự cố gắng của bản thân em đã hoàn thành đồ án tốt nghiệp này. Theo đánh giá của
bản thân em đã làm được các vấn đề sau:
 Hoàn thành các giai đoạn khảo sát và xác định mục tiêu của hệ thống từ điển.
 Phân tích xây dựng mơ hình chức năng của hệ thống từ điển.
 Tiến hành thiết kế và đặt chương trình.
Tuy nhiên với thời gian và kinh nghiệm thực tế chưa nhiều nên trong bản đồ án
có nhiều thiếu sót, và vốn từ trong phần mềm chưa được nhiều. Một lần nữa em mong
được sự chỉ bảo của các thầy giáo, cô giáo để khắc phục những thiếu sót đó.

Vinh, ngày

tháng 12 năm 2014

Sv thực hiện

Nguyễn Thị Thanh

SVTH: Nguyễn Thị Thanh – 51K1 - CNTT

24



×