Tải bản đầy đủ (.pdf) (67 trang)

Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.66 MB, 67 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC

NGUYỄN THỊ CẨM QUỲNH

Nghiªn cøu mét sè kü thuËt xö lý
ng«n ng÷ tiÕng ViÖt vµ øng dông

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Huế, 2015


MỤC LỤC
Lời cam đoan
Lời cảm ơn
Mục lục
Danh mục các chữ viết tắt
Danh mục các bảng
Danh mục các hình vẽ, đồ thị
MỞ ĐẦU .......................................................................................................... 1
Chương 1. TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT ........... 4
1.1. Xử lý ngôn ngữ tự nhiên ............................................................................ 4
1.1.1. Khái niệm ................................................................................................ 4
1.1.2. Các bước xử lý ........................................................................................ 7
1.1.3. Các bài toán và ứng dụng ...................................................................... 12
1.2. Tìm hiểu về tiếng Việt và xử lý ngôn ngữ tiếng Việt .............................. 14


1.2.1. Sự hình thành của tiếng Việt ................................................................. 14
1.2.2. Một số khái niệm cơ bản về xử lý ngôn ngữ tiếng Việt........................ 17
1.2.3. Đặc điểm của ngôn ngữ tiếng Việt........................................................ 19
1.2.4. Đặc trưng cơ bản của Tiếng việt ........................................................... 23
1.3. Tổng quan về xử lý ngôn ngữ tự nhiên .................................................... 25
1.3.1. Phương pháp CRF ................................................................................. 25
1.3.2. Phương pháp học dựa trên sự cải biến .................................................. 26
1.4. Tổng kết chương ...................................................................................... 27
Chương 2. MỘT SỐ KỸ THUẬT XỬ LÝ NGÔN NGỮ ........................... 28
2.1. Khái quát về tách từ tiếng Việt ................................................................ 28
2.1.1. Các hướng tiếp cận với bài toán tách từ ................................................ 29
2.1.2. Nhập nhằng trong tách từ tiếng Việt ..................................................... 31
2.1.3. Loại bỏ Từ dừng .................................................................................... 32
2.2. Một số phương pháp tách từ tiếng Việt.................................................... 32


2.2.1. Phương pháp mô hình Markov ẩn ......................................................... 32
2.2.2. Phương pháp chuyển dịch trạng thái hữu hạn có trọng số
và mạng Neural ....................................................................................... 34
2.2.3. Phương pháp so khớp cực đại ............................................................... 39
2.3. Tổng kết chương ...................................................................................... 42
Chương 3. HỆ HỖ TRỢ PHÂN LOẠI VÀ TÌM KIẾM VĂN BẢN ........ 43
3.1. Thực trạng việc ứng dụng CNTT trong Văn phòng HĐND tỉnh ............. 43
3.2. Giới thiệu và đặt bài toán về tự động hóa phân loại và lưu trữ................ 44
3.2.1. Giới thiệu ............................................................................................... 44
3.2.2. Đặt bài toán ........................................................................................... 44
3.3. Thiết kế cơ sở dữ liệu ............................................................................... 50
3.4. Cài đặt....................................................................................................... 52
3.5. Giới thiệu chương trình hệ hỗ trợ phân loại và tìm kiếm văn bản ........... 53
3.6. Tổng kết chương ...................................................................................... 58

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................... 59
1. Kết luận ....................................................................................................... 59
2. Hướng phát triển đề tài ................................................................................ 59
TÀI LIỆU THAM KHẢO ............................................................................ 60


DANH MỤC CÁC CHỮ VIẾT TẮT

CSDL

Cơ sở dữ liệu

CNTT

Công nghệ thông tin

HĐND

Hội đồng nhân dân

UBND

Ủy ban nhân dân

VB

Văn bản

AI


Artificial intelligence

HMM

Hidden Markov Models

NLP

Natural language processing

PHP

Hypertext Preprocesso

TBL

Transformation-based Learning

WFST

Weighted Finite State Transducer


DANH MỤC CÁC BẢNG
Tên bảng

Số hiệu bảng

Trang


Bảng 3.1.

Loại văn bản

51

Bảng 3.2.

Nơi ban hành

51

Bảng 3.3.

Lĩnh vực

51

Bảng 3.4.

Từ khóa lĩnh vực

52

Bảng 3.5.

Từ điển từ khóa lĩnh vực

52


Bảng 3.6.

Bảng Từ tiếng Việt

52

Bảng 3.7.

Lưu trữ văn bản

52


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Số hiệu
hình vẽ

Tên hình vẽ

Trang

Hình 1.1.

Tín hiệu sóng âm của hai âm tiết Tiếng Việt

6

Hình 1.2.

Các bước xử lý văn bản


7

Hình 1.3.

Cây cú pháp của câu “Nam là sinh viên giỏi”

10

Hình 1.4.

Cách hoạt động của TBL

25

Hình 2.1.

Mô hình Markov ẩn

33

Hình 2.2.

Đồ thị vô hướng HMM

33

Hình 2.3.

Sơ đồ mô hình WFST


35

Hình 3.1.

Mô hình tổng quát của chương trình

45

Hình 3.2.

Quy trình tách từ

46

Hình 3.3.

Quy trình phân loại và lưu trữ văn bản

47

Hình 3.4.

Quy trình tra cứu và tìm kiếm văn bản

49

Hình 3.5.

Giao diện trang chủ chương trình


53

Hình 3.6.

Giao diện chính trang quản trị

54

Hình 3.7.

Nhập các thông tin cần thiết cho việc phân loại và
lưu trữ văn bản

55

Hình 3.8.

Sau khi nhấn nút xử lý

56

Hình 3.9.

Sau khi nhấn nút xử lý (chọn lĩnh vực cho văn bản)

56

Hình 3.10. Lưu văn bản thành công


57

Hình 3.11. Giao diện chức năng tìm kiếm theo từ khóa dùng kỹ
thuật tách từ

58


1

MỞ ĐẦU
Trong những năm gần đây, Công nghệ thông tin phát triển mạnh mẽ và
đã, ứng dụng trên nhiều lĩnh vực trong cuộc sống như y tế, giáo dục,…trong đó
việc ứng dụng trong cải cách hành chính đóng vai trò rất quan trọng. Đồng thời,
sự phát triển kinh tế xã hội và sự toàn cầu hóa đã dẫn đến sự bùng nổ thông tin.
Các thông tin tổ chức theo phương thức sử dụng giấy trong cơ quan nhà nước,
trong giao dịch đang dần được số hóa. Có nhiều tính năng vượt trội mà phương
thức này mang lại như có thể lưu trữ lâu dài, phân loại, tìm kiếm một cách
nhanh chóng. Đó là lý do khiến cho số lượng thông tin số hóa ngày nay đang
tăng dần theo cấp số nhân. Nó không chỉ để nâng cao năng lực, hiệu quả hoạt
động của các cơ quan quản lý Nhà nước mà là yếu tố góp phần vào sự tăng
trưởng, chuyển dịch cơ cấu kinh tế và làm thay đổi cơ bản cách quản lý, học tập,
làm việc của con người.
Ứng dụng Công nghệ thông tin để giải quyết công việc, phục vụ cải cách
hành chính ngày càng trở thành công việc bắt buộc phải thực hiện tại mọi cơ
quan tạo điều kiện cho tăng trưởng nhanh nền kinh tế và tạo những yếu tố tiền
đề cho sự phát triển kinh tế tri thức, đồng thời tạo ra nhiều sản phẩm dịch vụ tiện
ích góp phần đạt hiệu quả trong công tác quản lý điều hành, thúc đẩy hội nhập,
nâng cao chất lượng cuộc sống cho xã hội.
Xử lý ngôn ngữ là một trong những vấn đề phức tạp của Công nghệ thông

tin. Vấn đề là ở chỗ là làm sao giúp máy tính hiểu được ngôn ngữ của con
người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những
công việc có liên quan đến ngôn ngữ như: Dịch thuật, phân tích dữ liệu văn bản,
nhận dạng tiếng nói, tìm kiếm thông tin, ... Kỹ thuật xử lý ngôn ngữ tiếng Việt
có nhiều hướng tiếp cận khác nhau và đã có nhiều công trình nghiên cứu đạt
những kết quả khả quan trong thời gian vừa qua, nó đóng vai trò quan trọng lĩnh
vực xử lý dữ liệu văn bản.


2
Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các
từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định
các từ đơn, từ ghép… có trong câu. Đối với xử lý ngôn ngữ, để có thể xác định
cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất
thiết đặt ra là phải xác định được đâu là từ trong câu. Vấn đề này tưởng chừng
đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải
quyết.
Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các
hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng
Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: Tiếng Trung Quốc, tiếng Nhật,
tiếng Thái, và tiếng Việt. Với các ngôn ngữ thuộc loại hình này, ranh giới từ
không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại
hình hòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau,
một từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì vậy đối với các ngôn ngữ
thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng
trong ranh giới từ.
Do yêu cầu công việc cơ quan Hội đồng nhân dân (HĐND) tỉnh ngày
càng cao nên số lượng văn bản tăng nhanh cả về số lượng và chủ đề. Tuy với
khối lượng thông tin đồ sộ như vậy, nhưng nhu cầu đối với những đối tượng cụ
thể khác nhau, tốc độ khác nhau. Để tìm được những thông tin cần thiết cho mục

đích của mỗi người sẽ mất rất nhiều thời gian và công sức, như vậy cần có giải
pháp để phân loại một cách tự động để giúp chúng ta xử lý văn bản được thuận
tiện hơn. Có nhiều kỹ thuật xử lý ngôn ngữ tiếng Việt được đề xuất, mỗi phương
pháp đều có lợi thế và bất lợi riêng khi sử dụng. Nhiều ứng dụng đã và đang
được xây dựng dựa trên kỹ thuật tách từ rất hiệu quả. Vì vậy luận văn tập trung
vào việc “Nghiên cứu một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng”
với mục đích xây dựng hệ hỗ trợ phân loại văn bản tự động ở Văn phòng HĐND
tỉnh. Cấu trúc của luận văn được sắp xếp theo bố cục sau đây:


3
Chương 1 giới thiệu tổng quan ngôn ngữ xử lý tự nhiên, ngôn ngữ tiếng
Việt, các đặc trưng cơ bản của tiếng Việt và một số kỹ thuật xử lý ngôn ngữ
tự nhiên.
Chương 2 tìm hiểu khái quát về tách từ Tiếng việt, lịch sử nghiên cứu
và hướng tiếp cận bài toán tách từ. Từ đó đề xuất một số phương pháp tách từ
tiếng Việt.
Chương 3 tìm hiểu thực trạng việc ứng dụng Công nghệ thông tin trong
Văn phòng HĐND tỉnh, đặt bài toán tự động hóa công tác lưu trữ trong Văn
phòng, cụ thể nhu cầu phân loại văn bản tiếng Việt ở HĐND tỉnh; Tiếp đó ứng
dụng hệ hỗ trợ phân loại văn bản theo nội dung, lĩnh vực, nơi ban hành và cuối
chương là một vài đánh giá về phương pháp tách từ.
Do thời gian thực hiện luận văn có hạn nên việc nghiên cứu và thực hiện
có thể mắc phải một số thiếu sót ngoài ý muốn. Chúng tôi mong muốn nhận
được các góp ý của quý thầy cô, bạn bè và những người quan tâm đến lĩnh vực
này để đề tài được hoàn thiện hơn.


4


Chương 1
TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT
Xử lý ngôn ngữ tự nhiên (Natural language processing) là bài toán lý thú
nhất và cũng là khó khăn nhất của ngành máy tính từ hơn 50 năm qua. Ước mơ
dùng máy tính để xử lý ngôn ngữ đã gặp phải trở ngại lớn nhất từ phía ngôn
ngữ, đó là tính nhập nhằng vốn có của ngôn ngữ tự nhiên. Tuy nhiên, từ thập
niên 50 đến nay, các nhà ngôn ngữ học và các nhà tin học đã từng bước khắc
phục được đáng kể các trở ngại này và đã đạt nhiều kết quả khả quan.
Ngày nay, công nghệ thông tin (CNTT) đã và đang được triển khai, ứng
dụng rộng rãi vào hoạt động của các sở, ngành, Ủy ban nhân dân (UBND) các
địa phương trên địa bàn tỉnh trong mọi lĩnh vực, tạo được chuyển biến trong
công tác lãnh đạo, chỉ đạo của cơ quan nhà nước, nhằm nâng cao năng suất, hiệu
quả trong hoạt động nội bộ của cơ quan nhà nước và giữa các cơ quan nhà nước,
trong giao dịch của cơ quan nhà nước với tổ chức và cá nhân ngày càng tốt hơn,
góp phần hỗ trợ đẩy mạnh cải cách hành chính và bảo đảm công khai, minh
bạch. Vừa qua, Chính phủ đã ban hành quyết định số 1605/QĐ-TTg, phê duyệt
Chương trình quốc gia về ứng dụng CNTT trong hoạt động của cơ quan nhà
nước giai đoạn 2011 – 2015.
Theo đó, chương này sẽ giới thiệu tổng quan về ngôn ngữ tự nhiên, tìm
hiểu các đặc điểm của ngôn ngữ tiếng Việt và xử lý ngôn ngữ tiếng Việt, các đặc
trưng cơ bản của tiếng Việt và một số kỹ thuật xử lý ngôn ngữ tiếng Việt.
1.1. Xử lý ngôn ngữ tự nhiên
1.1.1. Khái niệm
Xử lý ngôn ngữ tự nhiên (Natural language processing - NLP) là một
nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con
người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những


5
phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ, công cụ

hoàn hảo nhất của tư duy và giao tiếp.
Xử lý ngôn ngữ tự nhiên nhằm mục đích: Phân tích, nhận biết, tổng hợp
ngôn ngữ tự nhiên. Là cơ sở chính để hiểu ngôn ngữ, dịch ngôn ngữ, xử lý tiếng
nói, xử lý văn bản,... Để xử lý ngôn ngữ tự nhiên bằng máy tính, trên thế giới
người ta đã cho ra đời một ngành học mới được kết hợp giữa hai ngành máy tính
và ngôn ngữ học, được gọi là ngôn ngữ học, máy tính. Trong thế hệ máy tính
thứ 5 (tương lai) sử dụng ngôn ngữ tự nhiên để giao tiếp giữa người và máy,
máy có khả năng hiểu được ngôn ngữ tự nhiên của con người và trả lời các câu
hỏi của con người. Thậm chí máy sẽ dịch được các ngôn ngữ tự nhiên từ một
ngôn ngữ này sang một một ngôn ngữ khác một cách nhanh chóng và chính xác.
Với một hệ thống xử lý ngôn ngữ tự nhiên, đầu vào của một hệ thống có
thể là một hoặc nhiều câu dưới dạng tiếng nói hay văn bản. Các dữ liệu liên
quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ
liệu chính con người có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các
kiểu dữ liệu này là không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu
trữ trong các khuôn dạng cố định như các bảng biểu. Ở đây, trong khuôn khổ
thời gian có hạn, luận văn chỉ xét các hệ thống xử lý với đầu vào là các văn bản
số hóa.
Theo đánh giá của công ty Oracle, hiện có đến 80% dữ liệu không cấu
trúc trong lượng dữ liệu của loài người đang có [Oracle Text]. Với sự ra đời và
phổ biến của Internet, sách báo điện tử, máy tính cá nhân, viễn thông, thiết bị âm
thanh, … người người ai cũng có thể tạo ra dữ liệu văn bản hay tiếng nói. Vấn
đề là làm sao ta có thể xử lý chúng, tức chuyển chúng từ các dạng ta chưa hiểu
được thành các dạng ta có thể hiểu và giải thích được, tức là ta có thể tìm ra
thông tin, tri thức hữu ích cho mình [1].
Giả sử chúng ta có các câu sau trong các tiếng nước ngoài:


6
“We meet here today to talk about Vietnamese language and speech

processing.”
“Aujourd'hui nous nous réunissons ici pour discuter le traitement de
langueet de parole vietnamienne.”
“Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамском
языке и обработке речи.”
Nếu có ai đó dịch, hoặc có một chương trình máy tính dịch chúng ra tiếng
Việt, ta sẽ hiểu nghĩa các câu trên đều là: “Hôm nay chúng ta gặp nhau ở đây để
bàn về xử lý ngôn ngữ và tiếng nói tiếng Việt”. Nếu các câu này được lưu trữ
như các tệp tiếng Anh, Pháp, Nga và Việt như ta nhìn thấy ở trên, ta có các dữ
liệu “văn bản”. Nếu ai đó đọc các câu này, ghi âm lại, ta có thể chuyển chúng
vào máy tính dưới dạng các tệp các tín hiệu “tiếng nói”. Tín hiệu sóng âm của
hai âm tiết tiếng Việt có thể nhìn thấy như sau:

Hình 1.1. Tín hiệu sóng âm của hai âm tiết tiếng Việt
Tuy nhiên, một văn bản thật sự (một bài báo khoa học chẳng hạn) có thể
có đến hàng nghìn câu và ta không phải có một mà hàng triệu văn bản. Web là
một nguồn dữ liệu văn bản khổng lồ và cùng với các thư viện điện tử trong một
tương lai gần các sách báo xưa nay và các nguồn âm thanh được chuyển hết vào
máy tính (chẳng hạn bằng các chương trình nhận dạng chữ, thu nhập âm thanh
hoặc gõ thẳng vào máy) sẽ sớm chứa hầu như toàn bộ kiến thức của nhân loại.
Vấn đề là làm sao “xử lý” được khối dữ liệu văn bản và tiếng nói khổng lồ này
qua dạng khác để mỗi người có được thông tin và tri thức cần thiết từ chúng.


7
1.1.2. Các bước xử lý
Quá trình xử lý văn bản hay quá trình phân tích và kiểm tra tính chính xác
của văn bản là một vấn đề khá phức tạp, trải qua nhiều bước khác nhau. Ở mỗi
bước xử lý đòi hỏi người nghiên cứu phải có một kiến vững vàng về ngôn ngữ
cũng như nhiều kiến thức bổ trợ khác mới có thể xử lý tốt được. Quá trình này

thường được chia thành các bước cụ thể sau: Tiền xử lý văn bản, phân tích hình
thái, phân tích cú pháp, phân tích ngữ nghĩa, tích hợp văn bản và phân tích ngữ
dụng. Sau đây ta sẽ mô tả từng công việc:
Tiền xử lý
văn bản

Phân tích
hình thái

Phân tích
cú pháp

Phân tích
ngữ nghĩa

Tích hợp
văn bản

Phân tích
thực nghĩa

Hình 1.2. Các bước xử lý văn bản
1.1.2.1. Tiền xử lý văn bản
Khi đầu vào của hệ xử lý ngôn ngữ là một văn bản, ta cần phải có thêm
tầng tiền xử lý để xử lý sơ bộ văn bản đầu vào, rồi phân tách nó thành các đơn vị
rõ ràng để cho hệ xử lý chính dễ dàng thực hiện. Cụ thể bước này sẽ bao gồm
các công việc sau:
Trước nhất, bước tiền xử lý sẽ xử lý sơ bộ văn bản đầu vào (làm sạch văn
bản) bằng cách xóa bỏ những ký tự, những mã điều khiển, những vùng không
cần thiết cho việc xử lý.

Trong mỗi văn bản, bước tiền xử lý sẽ nhận diện các tiêu đề, các chú
thích, các số thứ tự và gạch đầu dòng, các đoạn văn trong văn bản.
Trong mỗi đoạn văn, bước tiền xử lý sẽ phân rã nó ra thành các câu là đơn
vị cơ sở của một văn bản. Đây là giai đoạn khó nhất và sẽ là trọng tâm của bước
tiền xử lý, như dấu “.” trong trường hợp sau (không biết đâu là dấu chấm câu).
Ví dụ: Với khoản tiền 100.000 triệu đồng bạn có thể học chuyển tiếp 2
năm thạc sỹ tại Việt Nam.


8
Xa hơn nữa, bước tiền xử lý có thể phân tích câu thành những ngữ để
giảm bớt gánh nặng đồng thời tăng chất lượng cũng như tốc độ xử lý của hệ
thống.
1.1.2.2. Phân tích hình thái

Trong bước này từng từ sẽ được phân tích và các ký tự không phải chữ
(như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh và nhiều ngôn
ngữ khác các từ được phân tách với nhau bằng dấu cách. Tuy nhiên trong tiếng
Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ.
Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn, tiếng Nhật, phân tách
từ trong tiếng Việt là một công việc không hề đơn giản.
Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ)
riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại,
phạm trù ngữ pháp, các biến cách của từ, tiền tố, hậu tố của từ (nếu có). Trong
trường hợp gặp từ mới, hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt
để chuyển sang phần xử lý tên riêng hay từ mới. Bước phân tích hình thái gồm
các phần:
Phân tích phụ tố: Bao gồm tiền tố và hậu tố, ta thường gặp các loại phụ tố
này trong tiếng Anh. Xử lý từ ghép, ngữ cố định: Nhận diện được từ ghép hay
ngữ cố định từ các thành tố của chúng, như ngôi nhà, sách gối đầu giường…

Xử lý các trường hợp tỉnh lược (bỏ bớt) trong một số từ như đại từ, thời
gian…
Đánh dấu từ loại các từ trong câu để xác định từ loại của từ một cách tự
động, chủ yếu ta phải giải quyết trường hợp nhập nhằng từ loại (một từ có nhiều
từ loại), nhưng trong câu cụ thể, ta chỉ có thể có một từ loại đúng mà thôi.
Ví dụ: Trong câu “Học sinh học sinh học”, ta sẽ phải đánh dấu từ loại như
sau: “Học sinh | danh từ học | động từ sinh học | danh từ”.
Thông thường, nhất là với các ngôn ngữ ở châu Âu, nhiệm vụ phân tích
câu thành các từ độc lập của khối phân tích hình thái là không khó vì hầu hết tất


9
cả các từ đều nằm nguyên thành một chữ, không cần chia cắt, ngoại trừ một số
trường hợp đặc biệt như viết tắt (có thể xử lý ngoại lệ). Với một số ngôn ngữ
như với tiếng Việt, tiếng Nhật,... vấn đề trở nên rất khó nếu các từ trong ngôn
ngữ được thành nhiều cụm có thể hiểu nhập nhằng.
Ví dụ: Xét câu sau “Ông già đi nhanh quá”. Chúng ta có ít nhất 2 cách
phân cách từ:
Cách 1: “Ông già” | “đi” | “nhanh” | “quá”
Cách 2: “Ông” | “già đi” | “nhanh” | “quá”
Trong trường hợp trên không có cách nào đánh giá cách phân cách từ nào
tốt hơn, chúng ta đành phải coi bài toán như là việc dịch 2 câu, đến phần xử lý
ngữ nghĩa sẽ tiến hành đánh giá lại xem trường hợp nào là hợp lý hơn và chọn
lựa.
1.1.2.3. Phân tích cú pháp
Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự liên kết giữa
các từ này. Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm.
Phân tích cú pháp là nhằm phân tích một câu thành những thành phần văn
phạm có liên quan với nhau và được thể hiện thành cây cú pháp. Khi nhập câu,
ta phải phân thành các thành phần như chủ ngữ, vị ngữ; gán vai trò chủ từ, đối từ

của động từ chính, bổ nghĩa,.. Để phân tích cú pháp, chúng ta cần có bộ luật văn
phạm và giải thuật phân tích cú pháp. Hiện nay, người ta đã đưa nhiều lý thuyết
văn phạm (như: CFG, UG, LG, TAG,…), và các giải thuật phân tích cú pháp
hiệu quả (Earley, Tomita, TBL,…).
Ví dụ: Nhập câu “Nam là sinh viên giỏi”, sẽ phân tích như sau: [Nam] DT
[là Đt [sinh viên DT giỏi TT]NP]VP và cây cú pháp tương ứng:


10
Trong đó :

S
Cn

Vn

DT

VP

Nam

Đt


Cn,Vn : chủ ngữ, vị ngữ
Dt :Danh từ
VP : động ngữ
NP


DT

NP : danh ngữ
TT

TT: tính từ
Đt : động từ

sinh viên giỏi
Hình 1.3. Cây cú pháp của câu “Nam là sinh viên giỏi”
Các tập luật cú pháp phải được xây dựng theo cơ chế mở, có thể sửa đổi,
bổ sung hay loại bỏ các luật. Kết quả của bước phân tích cú pháp phụ thuộc rất
nhiều vào tính chính xác và đầy đủ của các luật cú pháp.
1.1.2.4. Phân tích ngữ nghĩa
Mục đích của việc phân tích ngữ nghĩa là kiểm tra ý nghĩa của câu có mâu
thuẫn với ý nghĩa của đoạn hay không. Dựa trên mối liên hệ logic về nghĩa giữa
các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ xác
định được một phần ý nghĩa của câu trong ngữ cảnh của đoạn.
Đầu vào của giai đoạn phân tích ngữ nghĩa là tập các khả năng phân tích
câu và thông tin về ngữ nghĩa của tất cả các từ. Các thực từ thường có nhiều
nghĩa và nghĩa của nó chỉ được xác định duy nhất trong mối quan hệ giải thích
với các từ khác trong câu.
Giải quyết nhập nhằng nghĩa ở mức từ vựng
Xét ví dụ “Tôi với quả bóng ở trên cao”, ta có từ “với” là “liên từ” hoặc
“động từ”. Để chọn được nghĩa thích cho từ “với” trong trường hợp này chúng
ta phải vận dụng các ý niệm của ngôn ngữ học tri nhận để biết rằng “với” là
động từ chỉ hành động tác động đến một danh từ chỉ sự vật, và “với” là liên từ
liên kết giữa hai đối tượng có cùng kiểu. Kết hợp những ý niệm ấy, ta có “tôi” là
đại từ và “quả bóng” là danh từ chỉ sự vật không thuộc cùng dạng đối tượng, do
đó máy tính sẽ chọn từ “với” có nghĩa là “động từ” cho trường hợp này.



11
Mức độ nhập nhằng cấu trúc
Ví dụ: “Một người đàn ông và một người đàn bà già”, ta có 2 cách phân
tích.
Cách 1: “Người đàn ông| và |người đàn bà già”;
Cách 2: “Người đàn ông và người đàn bà| già”;
Máy tính sẽ chọn cách phân tích thứ hai, do tính cân bằng vốn có trong
cấu trúc song song của liên từ “và”.
Tuy nhiên, nếu xét “Một đứa trẻ và một người đàn ông già”, ta cũng sẽ có
2 cách phân tích:
“Đứa trẻ| và |người đàn ông già”
“Đứa trẻ và người đàn ông| già”
Máy tính sẽ chọn cách phân tích thứ nhất, vì máy thấy cấu trúc thứ hai là
vô lý, do có sự đối lập về ngữ nghĩa giữa thuộc tính “trẻ” trong “đứa trẻ” và
thuộc tính “già” trong “người đàn ông”.
Mức độ nhập nhằng liên câu
Ví dụ xét câu “Con khỉ ăn quả chuối vì nó đói”, máy tính hiện nay, trong
một số trường hợp, có thể xác định được đại từ “nó” thay thế cho từ nào: “con
khỉ” hay “quả chuối”. Để giải quyết được nhập nhằng này, máy tính phải xem
lại mệnh đề trước và vận dụng tri thức về thế giới thực (có trong WordNet) để
biết rằng “chỉ có khỉ mới có khả năng đói” nên sẽ chọn “nó thay thế cho con
khỉ”. Còn trong câu: “Con khỉ ăn quả chuối vì nó chín”, thì máy tính sẽ biết rằng
“chỉ có chuối mới có khả năng chín” nên sẽ chọn “nó” thay thế cho “quả
chuối”.
1.1.2.5. Tích hợp văn bản
Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào những câu đứng
trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau.



12

1.1.2.6. Phân tích thực nghĩa
Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch lại để xác định
nó thật sự có nghĩa là gì. Đây là quá trình phân tích nhằm xác định ý nghĩa câu
dựa trên mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc rất
nhiều vào ý tứ của người nói và ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân
tích thực chứng rất khó thực hiện bằng máy tính.
Trong một số trường hợp nhập nhằng, ta không thể dùng thông tin bên
trong nội bộ câu hay câu lân cận, mà phải xét trên toàn nội dung văn bản, xem
xét xem văn bản đang bàn về vấn đề gì, thuộc lĩnh vực gì, để từ đó mới có thể
chọn đúng nghĩa của từ, câu.
Ví dụ: Từ “sentence” vừa có nghĩa là “câu” vừa có nghĩa là “án tù”, ta
phải xem xét xem văn bản này đang bàn về “ngữ pháp” hay “luật pháp”.
Để xác định được ngữ cảnh toàn văn bản, máy tính phải dựa vào sự xuất
hiện của các từ khóa trên toàn văn bản. Ngoài ra, việc xác định ngữ cảnh này
còn được ứng dụng vào việc phân loại văn bản tự động.
1.1.3. Các bài toán và ứng dụng
Xử lý ngôn ngữ tự nhiên đã được ứng dụng trong thực tế để giải quyết các
bài toán như: Nhận dạng chữ viết, nhận dạng tiếng nói, tổng hợp tiếng nói, dịch
tự động, tìm kiếm thông tin, tóm tắt văn bản, khai phá dữ liệu và phát hiện tri
thức.
Nhận dạng chữ viết: Từ một văn bản trên giấy, nhận biết từng chữ cái và
chuyển chúng thành một tệp văn bản trên máy tính, có hai kiểu nhận dạng: Thứ
nhất là nhận dạng chữ in. Ví dụ: Nhận dạng chữ trên sách giáo khoa rồi chuyển
nó thành dạng văn bản điện tử như dưới định dạng doc của Microsoft
Word chẳng hạn.
Phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay
không có khuôn dạng rõ ràng và thay đổi từ người này sang người khác. Với



13
chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư
viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con
người có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ
ký điện tử).
Nhận dạng tiếng nói: Từ sóng tiếng nói nhận biết rồi chuyển chúng thành
dữ liệu văn bản tương ứng. Giúp thao tác của con người trên các thiết bị nhanh
hơn và đơn giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và
trình soạn thảo sẽ tự ghi nó ra. Đây cũng là bước đầu tiên cần phải thực hiện
trong ước mơ thực hiện giao tiếp giữa con người với robot. Nhận dạng tiếng nói
có khả năng trợ giúp người khiếm thị rất nhiều.
Tổng hợp tiếng nói: Từ dữ liệu văn bản, phân tích và chuyển thành thành
tiếng nói. Thay vì phải tự đọc một cuốn sách hay nội dung một trang web, nó tự
động đọc cho chúng ta. Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự
trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùng trong
giao tiếp giữa robot với người.
Dịch tự động: Như tên gọi đây là chương trình dịch tự động từ ngôn ngữ
này sang ngôn ngữ khác. Một phần mềm điển hình về tiếng Việt của chương
trình này là Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt và
ngược lại, phần mềm từng được trang web vdict.com mua bản quyền, đây cũng
là trang đầu tiên đưa ứng dụng này lên mạng.
Tìm kiếm thông tin: Từ một nguồn rất nhiều tệp văn bản và tiếng nói, tìm
ra những tệp có liên quan đến một vấn đề. Các máy tìm kiếm dựa trên giao diện
web như Google hay Yahoo hiện nay chỉ phân tích nội dung rất đơn giản dựa
trên tần suất của từ khoá và thứ hạng của trang và một số tiêu chí đánh giá khác
để đưa ra kết luận, kết quả là rất nhiều tìm kiếm không nhận được câu trả lời phù
hợp, thậm chí bị dẫn tới một liên kết không liên quan gì do thủ thuật đánh lừa
của các trang web nhằm giới thiệu sản phẩm.



14
Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn
theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất.
Khai phá dữ liệu và phát hiện tri thức: Từ rất nhiều tài liệu khác nhau
phát hiện ra tri thức mới. Thực tế để làm được điều này rất khó, nó gần như là
mô phỏng quá trình học tập, khám phá khoa học của con người, đây là lĩnh vực
đang trong giai đoạn đầu phát triển. Ở mức độ đơn giản khi kết hợp với máy tìm
kiếm nó cho phép đặt câu hỏi để từ đó công cụ tự tìm ra câu trả lời dựa trên các
thông tin trên web mặc cho việc trước đó có câu trả lời lưu trên web hay không
(giống như trang Yahoo hỏi và đáp, nơi chuyên đặt các câu hỏi để người khác
trả lời), nói một cách nôm na là nó đã biết xử lý dữ liệu để trả lời câu hỏi của
người sử dụng, thay vì máy móc đáp trả những gì chỉ có sẵn trong bộ nhớ.
1.2. Tìm hiểu về tiếng Việt và xử lý ngôn ngữ tiếng Việt
1.2.1. Sự hình thành của tiếng Việt
Tiếng Việt của người Việt vốn có chung nguồn gốc với các thứ tiếng khác
ở Đông Nam Á [2]. Nó thuộc họ Nam Á. Họ Nam Á là một họ ngôn ngữ khá
lớn, bao gồm những ngôn ngữ được phân bố trên một khu vực rộng lớn, bao
gồm phần đông bắc Ấn Độ, một phần Miến Điện, vùng Nam Trung Quốc, một
phần Malaixia, phần lớn Cămpuchia và phần lớn Việt Nam.
Theo các nhà khoa học, cách đây khoảng 6000 năm, khu vực rộng lớn này
vẫn còn nói chung một thứ ngôn ngữ gọi là ngôn ngữ Nam Á hay Nam Phương.
Cùng với thời gian, các ngôn ngữ họ Nam Á dần dần tách ra thành những nhóm
riêng biệt. Đầu tiên là nhóm Munđa ở Đông bắc Ấn Độ và nhóm Mèo-Dao ở
phía nam Trung Quốc ngày nay.
Các ngôn ngữ Nam Á có chung những đặc điểm: Có hệ thống ngữ pháp
cơ bản giống nhau, ví dụ: Khung ngữ pháp của tiếng Việt, Khmer, Lào, Thái…
không khác nhau mấy; Có cách cấu tạo từ giống nhau; Có hình thức lặp, láy
giống nhau; Cách luân phiên giống nhau.



15
Vào những thiên niên kỉ tiếp theo, các tiếng Nam Á chung dần dần tách ra
thành các nhóm riêng biệt: Nhóm Munđa ở Đông bắc Ấn Độ và nhóm Mèo Dao
ở phía Nam Trung Quốc ngày nay tách ra trước tiên, sau đó có các đợt di dân
của những bộ tộc nói tiếng Tạng Miến xuống địa bàn Mianma ngày nay thúc đẩy
sự tách riêng một số ngôn ngữ như tiếng Khasi chẳng hạn.
Vào khoảng trên 4000 năm trước, tiếng Nam Á chung do sự tiếp xúc với
tiếng Hán Tạng và các ngôn ngữ thuộc ngữ hệ châu Đại Dương (tiếng Papua),
đã tách ra thành ba dòng chính: Dòng Đồng-Thái, gồm các ngôn ngữ phân bố ở
phần phía nam sông Trường Giang; Dòng Mã Lai-Nam Đảo, gồm các ngôn ngữ
phân bố ở phần cực nam Đông Nam Á tiền sử; Dòng Môn-Khơme, bao gồm các
ngôn ngữ phân bố ở vùng cao nguyên trung phần Đông Nam Á tiền sử (cao
nguyên Cồ rạt ở Thái Lan, cao nguyên Bôlôven ở Lào và cao nguyên khu Bốn
cũ Thanh Hóa, Nghệ An của Việt Nam). Tiếng Việt được tách ra từ dòng ngôn
ngữ này. Do đó, tổ tiên xa xưa của tiếng Việt là tiếng Môn-Khơme, bao gồm
hàng trăm ngôn ngữ phân bố thành 3 vùng lớn: Bắc Mon-Khmer, Nam MonKhmer và Đông Mon-Khmer.
Từ tiếng Đông Mon-Khmer tách ra một ngôn ngữ gọi là proto Việt-Katu.
Sau một thời gian, ngôn ngữ này lại tách ra làm hai là Katu và proto Việt Chứt.
Tổ tiên trực tiếp của người nói tiếng Việt ngày nay là các bộ tộc người nói tiếng
proto Việt Chứt này. Các cư dân nói tiếng proto Việt Chứt lúc đầu hơn 4000
năm trước sống ở vùng trung du và sơn cước vùng Thượng Lào và bắc khu Bốn
cũ, về sau di chuyển xuống vùng đồng bằng Bắc Bộ ngày nay. Do sự tiếp xúc
với các ngôn ngữ Tày-Thái, tiếng proto Việt Chứt thay đổi để trở thành tiếng
Tiền Việt Chứt với cơ tầng Mon-Khmer và có sự mô phỏng cơ chế vận hành
Tày-Thái. Quá trình này diễn ra ở thời đại mà sử Việt Nam vẫn gọi là thời đại
các vua Hùng. Dần dần về sau, tiếng Tiền Việt Chứt đi sâu vào quá trình đơn tiết
hóa, thanh điệu hóa và rụng dần các phụ tố để trở thành tiếng Việt Mường chung
khoảng 2700- 2800 năm trước.



16
Do quá trình tiếp xúc lâu dài với tiếng Hán dưới thời Bắc thuộc, vào
khoảng từ thế kỉ VIII đến thế kỉ XII, tiếng Việt Mường chung ở phía Bắc tách ra
làm hai: Bộ phận nằm sâu ở vùng rừng núi các tỉnh Hòa Bình, Thanh Hóa, Nghệ
An, Hà Tĩnh ít bị ảnh hưởng của tiếng Hán hơn nên bảo lưu yếu tố cũ và trở
thành tiếng Mường, còn bộ phận ở vùng đồng bằng Bắc Bộ thì do ảnh hưởng
của tiếng Hán mà dần dần tách thành tiếng Kinh (tiếng Việt). Quá trình tách đôi
hai ngôn ngữ này bắt đầu khoảng hơn 1000 năm trước. Kể từ lúc đó, tiếng Việt
mới thực sự trở thành một ngôn ngữ độc lập.
Sự hình thành chữ quốc ngữ gắn liền với sự truyền giáo của các giáo sĩ
phương Tây. Chữ quốc ngữ là một thứ chữ được xây dựng theo nguyên tắc ghi
âm bằng chữ Latinh. Loại chữ này được dùng phổ biến từ rất lâu ở châu Âu.
Đến thế kỉ XVII, một số giáo sĩ phương Tây đem nguyên tắc ấy dùng vào ghi
âm tiếng Việt, tạo ra một chữ thuận lợi hơn đối với mục đích truyền đạo. Mấy
thế kỉ tiếp theo, chữ quốc ngữ chỉ được hạn chế trong kinh bổn đạo Thiên Chúa.
Sự áp đặt chế độ thuộc địa Pháp đưa đến việc bãi bỏ việc học, việc thi cử,
việc dùng chữ Hán đưa đến sự thắng lợi chữ quốc ngữ. Buổi đầu nhân dân lạnh
nhạt với chữ quốc ngữ, mặc dù một số tri thức “Tây học” đã ra sức dổ động cho
nó. Thái độ lạnh nhạt ấy thay đổi từ khi hình thành các phong trào đấu tranh văn
hóa có ý nghĩa chính trị như phong trào Đông Kinh nghĩa thục ở đầu thế kỷ XX.
Những người lãnh đạo phong trào được việc dùng chữ quốc ngữ lên hàng đầu
trong sáu biện pháp của bản sách lược gọi là Văn minh tân học sách (1907) và
lên tiếng kêu gọi đồng bào vì tương lai của đất nước mà nên dùng chữ tiện lợi
ấy. Những tài liệu văn hóa bằng chữ quốc ngữ do phong trào này phát hành đã
được phổ biến khá rộng. Mặt khác, sự tiếp xúc của tiếng Pháp, nền văn hóa Pháp
đã dẫn đến sự hình thành nền báo chí Việt Nam bằng chữ quốc ngữ, nền văn
xuôi Việt Nam hiện đại, sự đổi mới trong thơ ca, những tiếp thu về từ vựng, ngữ
pháp.



17
Cách mạng tháng Tám năm 1945 thành công đã đưa lại “địa vị ngôn ngữ
chính thức của quốc gia” cho tiếng Việt. Từ đó, tiếng Việt đã phát triển nhanh
chóng, toàn diện, có ảnh hưởng sâu rộng đến tất cả các ngôn ngữ thiểu số ở Việt
Nam.
1.2.2. Một số khái niệm cơ bản về xử lý ngôn ngữ tiếng Việt
1.2.2.1. Xử lý ngôn ngữ
Là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ” (dữ liệu cần biến
đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan đến ngôn ngữ
viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính con người
có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu này là
không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn
dạng cố định như các bảng biểu.
1.2.2.2. Ngôn ngữ
Ngôn ngữ là hệ thống để giao thiệp hay suy luận dùng một cách biểu diễn
phép ẩn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêu chuẩn
hay sự thật thuộc lịch sử và siêu việt. Nhiều ngôn ngữ sử dụng điệu bộ, âm
thanh, ký hiệu, hay chữ viết và cố gắng truyền khái niệm, ý nghĩa, ý nghĩ nhưng
mà nhiều khi những khía cạnh này nằm sát quá, cho nên khó phân biệt nó.
1.2.2.3. Ngữ liệu
Ngữ liệu (Corpus) thường là tập hợp các câu dưới dạng tiếng nói hay văn
bản, trong đó có chứa các thông tin cần thiết cho từng bài toán cụ thể trong xử lý
ngôn ngữ tự nhiên.
1.2.2.4. Các cấp độ trong ngôn ngữ
Âm tiết hay tiếng: Là do một hay nhiều âm phát ra cùng một lúc tạo thành.
Tiếng là đơn vị cơ bản trong tiếng Việt và có âm đầu, vần và thanh.
Hình vị: Hình vị được xem là đơn vị tế bào gốc, đơn vị tế bào của ngôn
ngữ và còn được gọi là “từ tố”. Hình vị tiếng Việt có khi gồm có một tiếng

nhưng cũng có khi gồm nhiều tiếng tạo thành.


18
Từ: Từ gồm có một tiếng hoặc một tổ hợp tiếng có ý nghĩa hoàn chỉnh.
Căn cứ vào cách cấu tạo, ta có từ đơn và từ phức; trong đó từ phức có từ ghép và
từ láy (hay láy âm).
Ngữ: Gồm 2 hay nhiều từ có quan hệ ngữ pháp hay ngữ nghĩa với nhau,
Ví dụ: Bức thư, mạng máy tính.
Câu: Gồm các từ, ngữ có quan hệ ngữ pháp hay ngữ nghĩa với nhau và có
chức năng cơ bản là thông báo.
Ví dụ: Tôi đang đọc sách.
Văn bản: Hệ thống các câu được liên kết với nhau về mặt hình thức, từ
ngữ, ngữ nghĩa và ngữ dụng.
Với nghĩa thông thường, văn bản là tên gọi chỉ những tài liệu, bài viết
được in ấn, lưu hành hàng ngày trong giao tiếp (một bài báo, một công văn, một
tập tài liệu, một quyết định, ...).
Với nghĩa là một thuật ngữ ngôn ngữ học, văn bản là một trong những
đơn vị phức tạp, có nhiều cách hiểu và định nghĩa khác nhau. Có thể hệ thống
hóa một số cách định nghĩa về văn bản như sau: Hướng thiên về nhấn mạnh hình
thức; Hướng thiên về nhấn mạnh mặt nội dung; Hướng tổng hợp; Hướng phân
biệt văn bản và diễn ngôn.
1.2.2.5. Nhập nhằng trong ngôn ngữ học
Là hiện tượng thường gặp trong giao tiếp hàng ngày con người ít để ý đến
nó bởi vì họ xử lý tốt hiện tượng này. Nhưng trong các ứng dụng liên quan đến
xử lý ngôn ngữ tự nhiên khi phải thao tác với ý nghĩa từ vựng mà điển hình là
dịch tự động nhập nhằng trở thành vấn đề nghiêm trọng.
Nhập nhằng: Là hiện tượng mà khi nói, viết hoặc diễn tả những từ ngữ, ý
nghĩ mơ hồ, không rõ nghĩa hoặc có nhiều nghĩa làm cho người đọc hoặc người
nghe không phân biệt rõ ràng, gây ra sự hiểu lầm.

Ví dụ: Trong một câu cần dịch có xuất hiện từ “đường” như trong câu “ra
chợ mua cho mẹ ít đường” vấn đề nảy sinh là cần dịch từ này là “road” hay


19
“sugar”, con người xác định chúng khá dễ dàng căn cứ vào văn cảnh và các dấu
hiệu nhận biết khác nhưng với máy thì không.
Khái niệm nhập nhằng cũng có thể hiểu theo một cách khác như sau:
Trong mỗi lĩnh vực, các vấn đề thường đề cập, trình bày hoặc được hiểu theo
một chuẩn nhất định, chuẩn này có thể được quy ước bằng văn bản hoặc quy
ước ngầm định. Khi đó tất cả những cách hiểu, cách đề cập hoặc trình bày vấn
đề nằm ngoài phạm vi chuẩn đó được xem là nhập nhằng.
1.2.3. Đặc điểm của ngôn ngữ tiếng Việt
Tiếng Việt là một ngôn ngữ đơn lập, đặc điểm này bao quát toàn bộ tiếng
Việt về mặt ngữ âm, ngữ nghĩa và ngữ pháp. Do đó chúng ta phải tiến hành tìm
hiểu đặc điểm này của tiếng Việt để có thể có được những hướng nghiên cứu cụ
thể về văn bản tiếng Việt [3].
1.2.3.1. Tiếng và đặc điểm của tiếng
Trong tiếng Việt, cũng như trong các văn bản tiếng Việt, ta có thể thấy
tiếng là một thành phần khá quan trọng. Trong kí pháp, mỗi tiếng đứng độc lập
và ta có thể phát hiện được ngay các tiếng trong cả tiếng nói cũng như văn bản.
Tiếng và giá trị ngữ âm
Ngữ âm chính là mặt âm của ngôn ngữ. Tại sao ta lại phải nghiên cứu
khía cạnh này của ngôn ngữ tiếng Việt? Đó là vì trên thực tế, các ứng dụng liên
quan đến tiếng Việt như dịch thuật, lưu trữ người ta vẫn ghi lại âm thành dạng
văn bản, sau đó mới tiến hành các thao tác xử lý. Mỗi tiếng chính là một âm tiết
và được ghi lại thành một cụm trong văn bản.
Tiếng và giá trị ngữ nghĩa
Nếu xét về mặt ngữ nghĩa thì tiếng là đơn vị nhỏ nhất có thể có nghĩa.
Thực ra ta có thể thấy rằng đơn vị ngữ âm thấp nhất là âm vị thì hoàn toàn

không có nghĩa (ví dụ như các chữ cái đứng riêng rẽ). Tuy nhiên cũng có những
tiếng không có nghĩa (ví dụ như ạ, ứ…). Ta có thể phân biệt các tiếng như sau:


×