Tải bản đầy đủ (.pdf) (11 trang)

SỬ DỤNG KHO NGỮ LIỆU TRONG GIẢNG DẠY TIẾNG VIỆT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (771.35 KB, 11 trang )


XX
NHỮNG VẤN ĐỀ CHUNG
XX
1. Khái niệm kho ngữ liệu và ngôn ngữ học ngữ liệu
Đã có không ít nhà nghiên cứu khẳng định rằng “kho ngữ liệu và việc nghiên cứu kho ngữ
liệu đã làm nên cuộc cách mạng về nghiên cứu ngôn ngữ, và về các ứng dụng của ngôn ngữ trong
vòng vài thập niên qua”
[Hunston 2002:1]. Mặc dù thuật ngữ ngôn ngữ học ngữ liệu (corpus
linguistics) và ngữ liệu (corpus) xuất hiện lần đầu tiên đầu những năm 1980 [Leech & Svartvik
1992:105]
nhưng những nghiên cứu ngôn ngữ dựa vào ngữ liệu đã có lịch sử từ trước đó.
Thuật ngữ “ngữ liệu” (corpus) trong ngành ngôn ngữ học được hiểu là một tập hợp văn bản
viết hoặc lời nói đã được văn bản hoá (hay phiên âm) dùng làm cơ sở cho việc phân tích và miêu
tả ngôn ngữ học. Theo Sinclair [
1991], kho ngữ liệu là “một khối các văn bản ngôn ngữ tự nhiên
được chọn làm đại diện cho một trạng thái hay biến thể của một ngôn ngữ”.
Leech
[1992:116] đưa ra một định nghĩa khá chặt chẽ như sau về khái niệm kho ngữ liệu : “cần
phải nói thêm rằng các kho ngữ liệu điện tử là những tập hợp các văn bản một cách có tổ chức:
chúng thường được xây dựng với các mục đích cụ thể định trước, và thường được xây dựng để
(nói một cách thông dụng) đại diện cho một ngôn ngữ hay thể loạ
i văn bản”. Sinclair [1996] cũng
chia sẻ với quan điểm trên của Leech và nhấn mạnh tầm quan trọng của tính đại diện như sau:
“Một kho ngữ liệu là một tập hợp các phân đoạn của ngôn ngữ được chọn lựa và sắp xếp theo các
tiêu chí ngôn ngữ học một cách rõ ràng nhằm sử dụng như một mẫu của ngôn ngữ đó”.
Trong hoàn cảnh hiện nay, một kho ngữ liệu có thể được hi
ểu theo một số cách hiểu sau:
- (nghĩa rộng) bất cứ khối văn bản nào của ngôn ngữ tự nhiên;
- (thông dụng) một khối văn bản máy đọc được;
- (nghĩa hẹp) một tập hợp nhất định các văn bản máy đọc được, là mẫu đại diện lớn nhất cho


một ngôn ngữ hay các loại biến thể (variety).
Về nguyên tắc thì bất cứ tập h
ợp lớn hơn một văn bản nào đều có thể gọi là một kho ngữ liệu.
Từ “corpus” trong tiếng Latin đơn giản có nghĩa là khối (body), do vậy một kho ngữ liệu có thể
được định nghĩa là một khối các văn bản bất kì. Tuy nhiên thuật ngữ “corpus” khi được sử dụng
trong văn cảnh ngôn ngữ học hiện đại thường dùng để định danh một cách chặt chẽ hơn lố
i định
nghĩa giản đơn. Theo đó, các thuộc tính sau được coi như các thuộc tính bất khả li của một kho
ngữ liệu
[McEnery & Wilson 2001:29]:
a. tính mẫu và tính đại diện;
b. kích cỡ nhất định;
c. dạng thức máy tính đọc được (cũng gọi là dạng thức điện tử);
d. một tham chiếu chuẩn.
SỬDỤNGKHONGỮLIỆU
TRONGGIẢNGDẠYTIẾNGVIỆT
PHẠM HIỂN*
*
Cán bộ Viện Từ điển học và Bách khoa thư Việt Nam; NCS Khoa Ngôn ngữ học, Đại học Alberta, Canada.
XXI

TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012
XXI
Bài viết này giới thiệu và đề xuất việc sử dụng kho ngữ liệu (corpus) trong việc dạy và học
tiếng Việt qua kinh nghiệm xây dựng, sử dụng và khai thác kho ngữ liệu tiếng Việt cũng như
kinh nghiệm rút ra từ việc sử dụng, khai thác và phân tích dữ liệu các kho ngữ liệu tiếng Anh có
chất lượng cao trong việc nghiên cứu và giảng dạy ngôn ngữ. Bài viết không chỉ tổng kết và trình
bày các vấn
đề bản chất mang tính lí thuyết của ngôn ngữ học ngữ liệu trong việc giảng dạy ngôn
ngữ, mà còn đưa ra các thí dụ minh hoạ cụ thể về việc sử dụng thực tế kho ngữ liệu trong giảng

dạy tiếng Việt.
2. Lí do sử dụng kho ngữ liệu trong giảng dạy tiếng Việt
Một khó khăn trong việc chuẩn bị và biên soạn tài liệu giảng dạy ngôn ngữ là phả
i thường
xuyên cung cấp cho người học sản phẩm phản ánh chân thực ngôn ngữ đang được sử dụng trong
đời sống thật nhất. Các bài phê bình về tài liệu dạy tiếng truyền thống đã có lí khi chỉ ra rằng
thông tin trong các tài liệu đó về sử dụng ngôn ngữ - đó có thể là thông tin về ngữ pháp, từ vựng
hay hội thoại - thường dựa trên những ý kiến chưa được kiểm chứng bằ
ng dữ liệu thực tế hay chỉ
dựa trên cảm thức ngôn ngữ của người biên soạn tài liệu. Đó nhiều khi là những thông tin thường
không chính xác hoặc không thích hợp trong cuộc sống thực của ngôn ngữ. Trong lĩnh vực dạy
tiếng những năm 80 của thế kỉ XX đã nổi lên một “cuộc cách mạng” về tài liệu nguyên bản nhằm
giải quyết vấn đề này bằng cách chủ tr
ương sử dụng nhiều tài liệu gốc hơn, tức là những tài liệu
được tạo ra không phải nhằm vào mục đích sử dụng trong lớp học. Người ta giải thích rằng các
tài liệu này sẽ giúp người học tiếp cận với các ví dụ của ngôn ngữ tự nhiên được lấy từ ngôn cảnh
thực tế. Gần đây hơn, với sự phát triển nhanh chóng của ngôn ngữ học ngữ
liệu, việc xây dựng và
ứng dụng thành công nhiều cơ sở dữ liệu quy mô lớn hay các kho ngữ liệu (corpora) gồm các thể
loại ngôn ngữ gốc khác nhau đã mang lại một cách tiếp cận xa hơn đó là cung cấp cho người học
các tài liệu giảng dạy phản ánh cách sử dụng ngôn ngữ thực
[Sinclair & Renouf:1988].
Ngôn ngữ học ngữ liệu cho phép người dạy và người học tiếng tự tin rằng ngôn ngữ họ đang
dạy và học là ngôn ngữ tự nhiên mà họ gặp ở ngoài lớp học - tức là ngôn ngữ trong đời sống thực
của nó. Chính ngôn ngữ học ngữ liệu sẽ cung cấp phương tiện cho giáo viên mang ngôn ngữ tự
nhiên vào lớp học bằng cách hướng dẫn người học thực hành các hoạt
động tương tác với ngôn
ngữ thực. Bên cạnh lí do được tiếp cận với các văn bản nguyên gốc, nhiều nghiên cứu về tiếp thu
ngôn ngữ thứ hai đã chỉ ra rằng khi người học thực sự tham gia vào các hoạt động có ý nghĩa,
chẳng hạn như các hoạt động thao tác tìm kiếm trên kho ngữ liệu cho phép họ vận dụng biến hoá

ngôn ngữ, thì người học sẽ học được nhiều thông tin hơ
n, nhớ và lưu giữ thông tin lâu hơn và tốt
hơn. Ngôn ngữ học ngữ liệu giúp người học tiếng có được những hoạt động có ý nghĩa này.
Cũng như hầu hết những người bản ngữ nói tiếng khác, người bản ngữ nói tiếng Việt như
tiếng mẹ đẻ thường chỉ chú ý đến các dạng thức sử dụng ngôn ngữ mang tính đánh dấu và bất
thường h
ơn là các dạng thức sử dụng mang tính không đánh dấu và điển hình. Với tư cách là
người biên soạn tài liệu phục vụ việc giảng dạy tiếng Việt, chúng ta có thể ứng dụng nhiều kết
quả của ngôn ngữ học ngữ liệu để khắc phục những khiếm khuyết trên bởi lẽ ngôn ngữ học ngữ
liệu có thể cung cấp các thông tin sử dụng ngôn ngữ trong
đời sống thực của nó. Những thông tin
này có thể sử dụng để xây dựng và phát triển tài liệu giảng dạy ngôn ngữ cũng như dùng để xây
dựng các bộ đề kiểm tra khả năng sử dụng ngôn ngữ cho học viên.
Hầu hết những người nói thành thạo một ngôn ngữ đều có một cảm thức khá chính xác và
chắc chắn về một dạng thức nào đó có đúng ngữ pháp hay không. Chẳ
ng hạn, khi nghe “*Tôi ăn

XXII
NHỮNG VẤN ĐỀ CHUNG
XXII
không cơm” chúng ta biết rằng dạng thức đúng phải là “Tôi không ăn cơm”. Tuy nhiên, khi phải
trả lời câu hỏi, chẳng hạn như “năm động từ được sử dụng nhiều nhất trong hội thoại là những
động từ nào?” thì dường như cảm thức của người bản ngữ lại khó đưa lại một câu trả lời chuẩn
xác được. Các ứng dụng và tìm kiếm ngữ li
ệu có thể dễ dàng và nhanh chóng nhận diện và cung
cấp các khuôn mẫu hay dạng thức đồng xuất hiện theo các tình huống khác nhau.
Trong các kết quả nghiên cứu về giảng dạy ngôn ngữ thứ hai gần đây, các nhà chuyên môn, từ
giáo viên đến các chuyên gia khảo thí, đều thường xuyên khẳng định việc dành ưu tiên cho các
tài liệu nguyên bản phản ánh ngôn ngữ trong các văn bản tự nhiên hơn là các ví dụ tự đặt ra.
Trong đó bao gồm các đặc trưng ngôn ngữ h

ọc như từ vựng và ngữ pháp dùng trong giảng dạy và
kiểm tra
[Byrd, 1995]. Kho ngữ liệu và các phương pháp của ngôn ngữ học ngữ liệu có thể mang
lại một nguồn văn bản tự nhiên, nguyên bản cho việc giảng dạy và học ngôn ngữ.
Có thể nhận xét rằng một trong những vấn đề và cũng là chủ đề tranh luận trong việc sử
dụng kho ngữ liệu trong giảng dạy ngôn ngữ nói chung và tiếng Việt nói riêng là tính nguyên
bản (authenticity) của tài liệu phục vụ cho vi
ệc giảng dạy và học tập ngôn ngữ. Rõ ràng việc
thu thập dữ liệu để xây dựng kho ngữ liệu, tức là việc thu thập các ví dụ trong ngôn ngữ như nó
vốn được sử dụng trong các văn cảnh tự nhiên là cần thiết nhưng cũng không hề đơn giản do
vấp phải các vấn đề về xung đột lợi ích và bản quyền tác giả. Các ví dụ trong các kho ngữ liệu
cung cấp các khía cạ
nh và bình diện sử dụng khác nhau và hơn nữa chúng lại độc lập với các
nhiệm vụ học tiếng. Tức là, các ví dụ này nằm trong các ngữ cảnh nguyên bản của chúng, đa số
chúng được soạn ra cho những đối tượng độc giả cụ thể, và thường là không phải ngay từ đầu
chúng hướng đến những người học tiếng. Do đó, khi người học tiếng được tiếp xúc với các thí
d
ụ trích rút từ kho ngữ liệu này, họ đang được tiếp cận với nguồn ngôn ngữ thực như nó đang
được sử dụng hàng ngày. Chính điều này minh chứng cho cái gọi là tính nguyên bản mà chúng
ta đang tìm hiểu.
3. Các phương pháp sử dụng kho ngữ liệu trong lớp dạy tiếng
Việc sử dụng kho ngữ liệu trong lớp dạy tiếng có thể được thực hiện theo một số phương
pháp khác nhau. Chẳng hạn, có thể tập trung vào các đặc trưng ngôn ngữ học của từng đơn vị
hoặc tập trung vào đặc trưng chung của các văn bản hay biến thể ngôn ngữ thuộc cùng một thể
loại như văn bản hành chính, văn bản thương mại, hay cũng có thể là các bài diễn thuyết. Trong
các phần dưới đây chúng tôi sẽ trình bày các phương pháp sử dụng kho ngữ liệu sau: (i) Lập danh
sách tần s
ố từ, (ii) Sử dụng dòng chỉ mục ngữ cảnh (concordance), (iii) Sử dụng bảng đồng hiện
từ vựng (collocation), và (iv) Lập khuôn cấu trúc câu.
Cùng với các ứng dụng trong giảng dạy ngôn ngữ khác, việc học tiếng với sự trợ giúp của

máy tính (CALL) bao gồm cả sử dụng các kho ngữ liệu ngôn ngữ cho phép người học trực tiếp
sử dụng kho ngữ liệu thông qua các bài tập có hướng dẫ
n hoặc qua các tài liệu được biên soạn
dựa vào các kho ngữ liệu, chẳng hạn như các dòng chỉ mục ngữ cảnh sau: [xem trang XXIII]
Hoạt động trên lớp này thường được biết đến với tên gọi “học hướng dữ liệu” (DDL)
[xem
thêm Johns 1986, 1991]
. Johns [2002:108] xem DDL là một quá trình trong đó “cho phép người học
tiếng tiếp cận với dữ liệu trực tiếp giống như những người làm nghiên cứu ngôn ngữ học và mỗi
học viên là một Sherlock Holmes”. Thực tế đây là một phương pháp được nhiều người giảng dạy
cũng như học tập ngôn ngữ thường dùng khi họ sử dụng kho ngữ liệu lớn nhất thế giới - mạng
Internet,
để tìm kiếm các ngữ cảnh thực tế bằng các cỗ máy tìm kiếm hiệu quả.
XXIII

TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012
XXIII
Hình 1. Chỉ mục ngữ cảnh của từ chúng ta
Một dạng thông tin rất hữu ích cho người dạy và học tiếng là danh sách các từ có tần số sử
dụng cao nhất. Đây là cơ sở để rút ra danh sách từ cơ bản trong dạy tiếng. Ý nghĩa chính của
danh sách tần số là khám phá các từ có tần suất sử dụng thường xuyên nhất trong một ngôn ngữ.
Đối với người dạy và học tiếng, danh sách tần số cho phép họ sử dụng thời gian hiệu qu
ả hơn
bằng cách tập trung vào dạy và học các
từ mà học viên dường như chắc chắn sẽ
gặp phải trong đời sống thực. Để có được
thông tin danh sách tần số từ, cách duy
nhất là phải dựa vào một kho ngữ liệu tin
cậy. Dưới đây là danh sách tần số từ
tiếng Việt, với 2 thông tin từ đầu mục và

tần số thô xuất hiện trong toàn bộ kho
ng
ữ liệu, dựa trên kho ngữ liệu xấp xỉ
100 triệu từ.
Thủ tục để tìm kiếm các ngữ đoạn
đồng xuất hiện chúng tôi sử dụng trong
bài này nhằm để rút ra các chuỗi lặp đi
lặp lại trong kho ngữ liệu là tạo ra các
chuỗi lặp gồm 2, 3, 4, 5, 6 từ sau đó sắp
của 1886580 đã 915163
và 1796594 người 901890
là 1557623 cho 835825
một 1247714 với 683074
có 1238202 để 584675
không 1101842 tôi 570177
trong 1089431 này 559560
những 1054607 về 551195
được 996418 ở 526722
các 981065 cũng 506872
Hình 2. Danh sách 20 từ có tần số cao nhất

XXIV
NHỮNG VẤN ĐỀ CHUNG
XXIV
xếp danh sách này theo tần số từ cao xuống thấp cho toàn bộ kho ngữ liệu xấp xỉ 100 triệu từ. Vì
lí do kĩ thuật, một giới hạn tần số được đặt ra để hạn chế số lượng các ngữ đoạn có tần số thấp.
Để phục vụ bài viết này, chúng tôi đặt ranh giới này là có tần số xuất hiện tối thiểu 400 lần trong
toàn bộ kho ngữ liệu, t
ức là phải xuất hiện ít nhất 4 lần trên một triệu từ. Biber et al., (1999) đặt
giới hạn này là 10 lần trên một triệu từ và Cortes

[2002; 2008] đặt 20 lần trên một triệu từ.
Hình 3. Trích một số ngữ đoạn đồng xuất hiện (5-gram) có tần số cao
Vì sao chúng ta lại nên quan tâm đến các ngữ đoạn? Vì chúng là một chỉ dấu của người bản
ngữ. Nghiên cứu của Prodromou [2003, 2008] cho rằng lời nói của người bản ngữ có thể được
phân biệt với lời nói của người sử dụng tiếng Anh thành công ở trình độ cao qua việc xem xét sự
có mặt hay không của các ngữ đoạn đồng xuất hiện thông dụng. Prodromou biện luận rất thuyết
phục rằng các ngữ đoạn cốt lõi như sort of và you know được người nói trong cộng đồng văn hoá
nói tiếng Anh
đánh giá là nó phản ánh tính cộng đồng sâu sắc giữa những người bản ngữ mà
không phải người học tiếng nào, kể cả ở trình độ cao cấp, cũng có thể sử dụng thành thạo được.
4. Biên soạn bài thực hành từ vựng dựa trên kho ngữ liệu
Nghiên cứu kho ngữ liệu có thể đóng một vai trò quan trọng trong việc đánh giá xem chúng ta
có đang dạy cho người học các từ mà họ sẽ cầ
n tới trong đời sống hàng ngày hay không, từ đó
chúng ta sẽ phát triển tài liệu dựa trên các kho ngữ liệu như thế nào. Kết quả nghiên cứu của
Nation
[2007], Schmitt [2008] cho biết rằng để đọc một văn bản thành công ta cần phải biết
khoảng 97 phần trăm từ trong văn bản đó. Cũng từ nghiên cứu việc đọc các nhà nghiên cứu kết
luận rằng khả năng đọc thạo và vốn từ vựng có liên quan chặt chẽ với nhau và có mối quan hệ
qua lại. Càng đọc nhiều thì càng học được nhiều từ vựng mới, và càng biết nhiề
u từ vựng thì đọc
càng thuận lợi
[Grabe 2009; Grabe & Stoller 2002]. Chính thông tin này về nhu cầu đọc văn bản học
thuật khẳng định thêm vai trò quan trọng của việc giảng dạy và hướng dẫn học từ vựng trong khi
dạy tiếng.
Nhờ có các nghiên cứu ngữ liệu chúng ta biết rằng việc đọc học thuật chủ yếu dựa vào danh
từ. Dữ liệu từ kho ngữ liệu các văn bản học thuật cho thấy tỉ lệ danh từ cao h
ơn động từ nhiều.
Ngược lại, trong hội thoại hàng ngày, thậm chí cả trong các bài giảng học thuật trên lớp, việc sử
dụng động từ và danh từ phân bố khá đều đặn

[Biber 2006]. Giáo viên có thể sử dụng thông tin
này để thiết kế tài liệu bổ sung từ vựng đáp ứng tốt hơn nhu cầu của từng học viên. Như vậy, tuy
không loại bỏ việc học động từ, nhưng chúng ta nên chú trọng việc học danh từ trong phần hướng
tất cả những cái đó
tôi không hiểu tại sao
là một trong những người
không còn nghi ngờ gì
cho tất cả mọi người
những gì đã xảy ra
không còn cách nào khác
không bao giờ quên được
với tất cả mọi người
không thể nào quên được
ngày này qua ngày khác
không thể tưởng tượng được
không biết phải làm gì
không biết làm thế nào
không bao giờ trở lại
tôi có cảm giác như
như không có chuyện gì
không biết bao nhiêu là
muốn làm gì thì làm
làm sao tôi có thể
không biết bao nhiêu lần
chuyện gì đã xảy ra
Đây là lần đầu tiên
không bao giờ có thể
là lần đầu tiên tôi
sinh ra và lớn lên
tất cả mọi người đều

có một cái gì đó
đây là lần đầu tiên
lần đầu tiên trong đời
XXV

TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012
XXV
dẫn từ vựng, bao gồm cả việc tiếp thu danh từ và cấu tạo danh từ, cho các học viên có nhu cầu
theo học đại học hoặc làm công việc nghiên cứu. Chẳng hạn, qua việc hướng dẫn học viên tìm
hiểu nhóm các từ kết hợp với hai từ “việc” và “sự” vốn thường kết hợp trước động từ hoặc tính từ
để biến chúng thành danh từ trong tiếng Việt có thể
gợi ý cho học viên khám phá cách sử dụng từ
ngữ trong thực hành tiếng Việt.
5. Biên soạn bài thực hành ngữ pháp dựa trên kho ngữ liệu
Trên đây chúng ta đã thảo luận về các chứng cứ ngữ liệu sử dụng trong việc đưa ra các đặc
trưng và khuôn mẫu từ vựng vốn khó có thể nhận ra nếu chỉ dựa vào cảm thức ngôn ngữ.
Trong phần này chúng ta sẽ tìm hiểu sâu thêm một bước đ
ó là xem xét lối các từ kết hợp với
nhau để tạo thành các khuôn ngữ pháp riêng biệt qua việc chuẩn bị một bài thực hành ngữ pháp
dựa trên kho ngữ liệu.
việc sự từ kết hợp sau từ kết hợp trước việc sự
10 1885 hiện diện thu hút 0 195
0 272 hiện hữu bày tỏ 13 645
26 836 có mặt thể hiện 44 874
178 6627 sống thiếu 43 624
74 870 quan tâm đánh dấu 63 380
57 460 trợ giúp chứng tỏ 46 246
79 557 đóng góp có 64 308
70 341 hiểu biết chứng kiến 104 333
88 417 ổn định duy trì 86 221

75 301 can thiệp đảm bảo 119 292
242 671 hợp tác nhờ 192 474
1779 5655 phát triển thúc đẩy 204 368
450 682 lựa chọn ngăn chặ
n 181 242
477 570 kiểm soát cản trở 186 205
919 339 quản lý mất 889 242
966 182 bảo vệ bao gồm 355 39
1397 235 học thực hiện 1040 128
799 9 giải quyết hoàn tất 305 27
1059 9 thành lập phản đối 772 54
1293 10 nghiên cứu hoàn thành 315 21
2803 19 sử dụng coi 630 40
1173 8 tổ chức Về 496 24
1288 0 đưa thông qua 883 29
1846 0 thực hiện ủng hộ 453 0
2770 0 xây dựng lo 1116 0
Hình 4. Bảng các từ kết hợp sau và trước việc và sự với thông tin tần số xuất hiện


XXVI
NHỮNG VẤN ĐỀ CHUNG
XXVI
Một kho ngữ liệu có thể cho chúng ta biết nhiều điều khác nhau về ngữ pháp. Nó có thể mở
rộng hiểu biết của chúng ta về các khái niệm và phạm trù ngữ pháp truyền thống, cụ thể là cung
cấp cho chúng ta nhiều thông tin hơn về sự phân bố các phạm trù này.

Một kho ngữ liệu có thể chỉ ra mối quan hệ quan trọng giữa ngữ pháp và từ vựng [xem Sinclair
1990; 1996; 1998]
. Một kho ngữ liệu cũng có thể cung cấp nhiều thông tin về một dạng thức quan

trọng và các khuôn ngữ nghĩa và từ vựng - ngữ pháp liên hệ với hình thức của nó. Dưới đây
chúng tôi thử khám phá một trong những “kì quan” của tiếng Việt đó là tìm kiếm các chuỗi động
từ kết hợp với nhau trong cách sử dụng ngôn ngữ thực tế. Kinh nghiệm giảng dạy cho thấy đây là
vấn
đề gây nhiều bối rối cho học viên cấp cơ sở, nhưng có thể lại mang nhiều cảm hứng học tập
và khám phá cho học viên trình độ trung và cao cấp. Có thể cần nhiều thảo luận về khái niệm
“động từ”, nhưng ở đây chúng tôi tạm lấy nền tảng giáo khoa dạy tiếng cũng như từ điển tiếng
Việt tiêu chuẩn để xác định các chuỗi bao gồm 5
động từ đi liền nhau trong tiếng Việt. Thực tế
kết hợp với cái tần số kết hợp với con tần số kết hợp với chiếc tần số
tên 6838 đường 29187 xe 5633
đầu 2298 mắt 3809 áo 2197
tâm 1862 chó 2721 ghế 1589
giá 1418 sông 2844 máy bay 1614
ngã 1091 vật 2784 tàu 1444
bóng 951 tàu 2633 thuyền 1298
máy 895 chim 2083 lá 1297
áo 856 ngựa 2037 máy 849
bàn 909 gà 1603 đồng hồ 639
ghế 770 tim 1555 xe hơi 621
cây 769 cá 1469 cầu 723
cảm giác 695 thuyền 1107 khăn 592
ác 665 thú 1015 giường 601
nôi 630 rắn 942 xe đạp 559
xác 631 voi 887 trực thăng 548
trí 639 dao 834 bàn 747
cớ 601 mèo 770 mũ 503
tội 645 bò 754 nhẫ
n 452
vỏ 595 mồi 614 điện thoại 450

chuyện 814 suối 547 xe tải 400
miệng 601 chuột 529 bánh 431
sự 824 hổ 462 váy 397
thế giới 768 đường dẫn 448 hộp 406
đuôi 557 dân 570 áo dài 373
Hình 5. Phân bố của các từ đi sau cái, con, chiếc với thông tin tần số xuất hiện

XXVII

TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012
XXVII
khi tìm hiểu, chúng tôi ghi nhận chuỗi động từ có con số cao hơn như vậy nhưng không có điều
kiện trình bày ở đây.
Hình 6. Một số thí dụ câu có kết cấu chuỗi 5 động từ đi liền nhau
6. Một vài hoạt động trên lớp sử dụng kho ngữ liệu
Phần này trình bày một số thí dụ hoạt động sử dụng hoặc khai thác dữ liệu từ kho ngữ liệu
trong lớp học tiếng. Các hoạt động có thể điều chỉnh để phù hợp với trình độ của học viên. Người
dạy có thể cải tiến, nâng cao nhằm đáp ứng được các mục tiêu giảng dạ
y của mình.
Hoạt động 1. Nhận diện nghĩa và cách sử dụng qua ngữ cảnh: Hoạt động này có thể áp dụng
cho các phần dạy đọc và phần từ vựng cho học viên các trình độ khác nhau.
Bước 1: Đề nghị học viên lấy 10 bài báo và tạo thành một kho ngữ liệu nhỏ của riêng
mình. Sau đó chạy chương trình tìm kiếm các dòng chỉ mục ngữ cảnh.
Bước 2: Cho học viên đọc các chỉ mục ng
ữ cảnh đó và đoán nghĩa của từ. Sau đó gộp
nhóm các dòng chỉ mục có cùng nghĩa lại với nhau.
Bước 3: Đặt câu với các từ vừa học được.
Hoạt động 2. Tìm hiểu tần số sử dụng của từ.
Bước 1: Cho học viên nhập 10 bài báo trên vào chương trình và tạo bảng danh sách tần số
của các từ sắp xếp theo trật tự ABC và sắp xếp theo tầ

n số từ cao xuống xuống thấp.
Bước 2: Đề nghị học viên đọc qua danh sách tần số trên và viết lại các từ không biết hoặc
không quen. Xem các từ mình không biết nằm ở nửa trên hay nửa dưới của danh sách tần
số trên.
Chú ý: Có thể thực hiện cả hai hoạt động 1 và 2 đồng thời. Khi học viên nhận thấy từ mới
không biết nghĩa ở trong Hoạt động 2 thì có thể
chuyển qua Hoạt động 1 để đoán nghĩa từ trong
ngữ cảnh.

XXVIII
NHỮNG VẤN ĐỀ CHUNG
XXVIII
Hoạt động 3. Từ vựng trong các thể loại ngữ vực khác nhau: Hoạt động này yêu cầu học viên
hoặc giáo viên chuẩn bị trước các văn bản học thuật và các văn bản hội thoại (có thể lấy từ các
cuộc hội thoại hàng ngày hay trên lớp).
Bước 1: Chia lớp thành 2 nhóm. Đề nghị các học viên nhóm thứ nhất nhập 10 văn bản học
thuật và các học viên nhóm còn lại nhập 10 văn b
ản hội thoại vào chương trình. Các học
viên có thể chọn các văn bản khác nhau trong cùng thể loại được giao.
Bước 2: Cho học viên tạo các danh sách tần số từ các văn bản mà họ đã chọn và sắp xếp
theo trật tự tần số, tức là các từ có tần số cao nhất sẽ đứng đầu danh sách.
Bước 3: Đề nghị học viên viết 10 từ cho mỗi loại từ loại như
danh từ, động từ, và tính từ.
Bước 4: Cho các học viên so sánh danh sách của họ với danh sách của các học viên khác
cùng nhóm xem có những từ nào trùng nhau và không trùng nhau. Sau đó tập hợp lại
thành một danh sách chung gồm 10 từ có tần số cao nhất trong toàn bộ nhóm, cũng theo từ
loại.
Bước 5: Cho học viên so sánh với các học viên khác thuộc nhóm còn lại, tức là nhóm học
viên chọn các văn bản thuộc các ngữ vực khác. Thảo luận về sự khác nhau của danh sách
từ cùng nhóm và khác nhóm. Tìm những từ nào giống nhau trong cả 2 nhóm.

[Chú ý: Khi học viên gặp từ mới có thể cho họ làm Hoạt động 1 để đoán nghĩa từ trong ngữ cảnh]
7. Những điểm nên chú ý khi sử dụng kho ngữ liệu trên lớp
Có nhiều cách thức và hoạt động sử dụng kho ngữ liệu trong hoạt động giảng dạy và học tập,
ở trên lớp cũng như ở nhà, đã được nghiên cứu và áp dụng. Tuy nhiên, chúng ta cũng cần chú ý
tới một số nguyên tắc cơ bản dùng để xây dựng và phát triển tài liệu và các hoạt động giảng dạy
tiếng Vi
ệt dựa trên ngữ liệu. Reppen (2010, p. 43) đã đề xuất một vài hướng dẫn chung cho việc
sử dụng kho ngữ liệu như những gợi ý ban đầu như sau:
- Có ý tưởng rõ ràng về chủ điểm muốn dạy;
- Chọn kho ngữ liệu phù hợp nhất cho bài giảng của mình;
- Khám phá toàn bộ, thấu đáo kho ngữ liệu phục vụ cho chủ điểm muốn dạy;
- Đảm bảo r
ằng các hướng đi là hoàn thiện và dễ thực hiện;
- Đảm bảo rằng các thí dụ tập trung vào chủ điểm muốn dạy;
- Cung cấp nhiều cách tương tác với tài liệu;
- Sử dụng nhiều dạng bài tập;
- Nếu sử dụng máy tính, nên có kế hoạch hoặc hoạt động thay thế trong trường hợp máy
tính có vấn đề. Chẳng hạn, có thể in trước một số danh sách tần số, ch
ỉ mục ngữ cảnh,
hoặc danh sách từ đồng hiện để cung cấp cho học viên trong trường hợp điều kiện kĩ thuật
không cho phép ở lớp học.
8. Kết luận
Khi sử dụng ngôn ngữ học ngữ liệu, hay cụ thể hơn là đưa các chứng cứ từ kho ngữ liệu vào
lớp học tiếng, có lẽ cần xác định rõ vai trò kép của ngôn ngữ học ngữ li
ệu, đó là nó vừa là vấn đề
cải tiến về mặt phương pháp, vừa là một vấn đề mang tính lí thuyết. Kết hợp lại là một phương
pháp giảng dạy mới. Nhìn từ góc độ lí thuyết, việc diễn giải các cứ liệu ngôn ngữ quan sát được
XXIX

TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012

XXIX
sẽ dẫn tới định nghĩa mới về một đơn vị mang nghĩa mà vốn khó hoặc không thể nhận diện và
quan sát được cụ thể bằng các phạm trù miêu tả truyền thống. Từ góc độ phương pháp, định
nghĩa và đánh giá cho các đơn vị này trong khi tiến hành các hoạt động trên lớp sẽ mang lại cách
tiếp cận giao tiếp thực sự trong quá trình giảng dạy. Như vậy, nhiệ
m vụ nhận diện các quy luật
sử dụng ngôn ngữ trở thành hiện thực cho cả học viên lẫn giáo viên.
Trong môi trường lớp học, phương pháp của ngôn ngữ học ngữ liệu thích hợp cho học viên ở
các trình độ khác nhau vì đây là cách học đi từ dưới lên (bottom-up) của ngôn ngữ, tức là những
kinh nghiệm học được dù rất nhỏ để bắt đầu thực hành, và học viên sẽ tiến bộ nhanh h
ơn qua việc
quan sát và thực hành.
Những điều chúng ta đã xem xét ở trên chỉ ra rằng những hiểu biết mà học viên có thể rút ra
được từ kho ngữ liệu có thể khác về chất so với những miêu tả trong các sách ngữ pháp nhà
trường truyền thống. Qua trang chỉ mục ngữ cảnh, việc nhận ra chức năng của một đơn vị và áp
dụng nó trong thực tế sử dụng ngôn ngữ trở nên khá dễ
dàng đối với giáo viên và học viên.
Tognini-Bonelli [2001:41] đã gọi các đơn vị mang nghĩa mới vốn được tạo ra bằng sự liên kết
chặt chẽ giữa các khuôn từ vựng và ngữ pháp là “các khuynh hướng mới cho miêu tả ngôn ngữ
học”. Do đó, nếu chúng ta muốn dạy cho học viên giao tiếp theo cách tiếp cận mới này trong sử
dụng ngôn ngữ thì chúng ta phải đưa ngữ liệu vào lớp học
1
.

THƯ MỤC THAM KHẢO
[1] Biber, D. (1999). Longman grammar of spoken and written English. New York: Longman.
[2] Biber, D. (2006). University language : a corpus-based study of spoken and written registers.
Amsterdam ; Philadelphia: J. Benjamins.
[3] Byrd, P. E. (1995). Material Writer's Guide: Heinle & Heinle Publishers, International Thomson
Publishing Book Distribution Center, 7625 Empire Drive, Florence, KY 41042.

[4] Cortes, V. (2002). Lexical bundles in freshman composition. In R. Reppen, S. Fitzmaurice & D.
Biber (Eds.), Using Corpora to Explore Linguistic Variation (pp. 131-145). Amsterdam: John
Benjamins.
[5] Cortes, V. (2008). A comparative analysis of lexical bundles in academic history writing in
English and Spanish. Corpora, 3(1), 43-57.
[6] Grabe, W. (2009). Reading in a second language : Moving from theory to practice. Cambridge ;
New York: Cambridge University Press.
[7] Grabe, W., & Stoller, F. L. (2002). Teaching and researching reading. Harlow: Longman.
[8] Hunston, S. (2002). Corpora in applied linguistics. Cambridge, England ; New York: Cambridge
University Press.
[9] Johns, T. (1986). Micro-concord: A language learner's research tool. System, 14(2), 151-162. doi:
Doi: 10.1016/0346-251x(86)90004-7
[10] Johns, T. (1991). From printout to handout: Grammar and vocabulary learning in the context of
data-driven learning. English Language Research Journal 4, 27-45.
⇛ (Xem tiếp trang 54)
1
Bài viết này đã gửi tham gia Hội thảo Quốc tế: “Nghiên cứu và giảng dạy tiếng Việt lần thứ nhất” được tổ chức
ngày 27-2-2011.

54
NHỮNG VẤN ĐỀ TỪ ĐIỂN HỌC
54
[7] Trần Ngọc Thêm, Tìm về bản sắc văn hoá
Việt Nam, NXB Thành phố Hồ Chí Minh, TP
HCM, 1996.
[8] Viện Ngôn ngữ học, Từ điển tiếng Việt, NXB
Từ điển Bách khoa, H., 2010.

SUMMARY
This contribution studies, describes the

semanticchangeofseveralwordsoftenseen
in recent newspapers in Vietnamese (nóng,
sốt, sạch, nhạy
cảm,đại gia, chân dài, hàng),
from that to point out the cause, requisites
of this phenomenon. It is noteworthy,
however, that such way of changing
meaning should not be abused if
unnecessary,sinceitwouldaffecttheclarity
andpurityoftheVietnameselanguage.

[11] Johns, T. (2002). Data-driven Learning: The Perpetual Challenge. In B. Kettemann & G. Marko
(Eds.), Teaching and Learning by Doing Corpus Linguistics (pp. 107-117): Amsterdam: Rodopi.
[12] Leech, G., & Svartvik, J. (1992). Corpora and theories of linguistic performance Directions in
corpus linguistics : proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991 (pp. 105-122).
Berlin; New York: Mouton de Gruyter.
[13] McEnery, T., & Wilson, A. (2001). Corpus Linguistics. Edinburgh: Edinburgh University Press.
[14] Nation, I. S. P. (2007). Vocabulary learning through experience tasks. Language Forum, 33(2),
33-43.
[15] Prodromou, L. (2003). Idiomaticity and the non-native speaker. English Today, 19(2), 42-48.
[16] Prodromou, L. (2008). English as a lingua franca : a corpus-based analysis. London ; New
York: Continuum.
[17] Reppen, R. (2010). Using corpora in the language classroom. New York: Cambridge University
Press.
[18] Schmitt, N. (2008). Review article: Instructed second language vocabulary learning. Language
Teaching Research, 12(3), 329-363. doi: 10.1177/1362168808089921
[19] Sinclair, J. (1991). Corpus, concordance, collocation. Oxford: Oxford University Press.
[20] Sinclair, J. (1996). Eagles preliminary recommendations on corpus typology EAG-TCWG-CTYP/
P.
[21] Sinclair, J. (Ed.). (1990). Collins COBUILD English Grammar. London: Harper Collins.

[22] Sinclair, J. (Ed.). (1996). Collins COBUILD Grammar Patterns I: Verbs. London: Collins.
[23] Sinclair, J. (Ed.). (1998). Collins COBUILD Grammar Patterns 2: Nouns and Adjectives.
London: Collins.
[24] Sinclair, J., & Renouf, A. (1988). A lexical syllabus for language learning. In R. Carter & M.
McCarthy (Eds.), Vocabulary and language teaching (pp. 140-160). London: Longman.
[25] Tognini-Bonelli, E. (2001). Corpus linguistics at work. Amsterdam; Philadelphia: J. Benjamins.

SUMMARY
TheuseofthecorpusinteachingVietnameseisanessentialrequirementforcompilingand
teaching this subject in Vietnam. The contribution brings forward methods of using the
corpus,howtocompilevocabularyandgrammaticaldrillsbasedonVietnamesecorpusand
thingsthatwemustpayattentiontowhenusing
thecorpus.

SỬDỤNGKHONGỮLI ỆU (Tiếp theo trang XXIX)

×