Tải bản đầy đủ (.pdf) (211 trang)

Khảo sát các yếu tố từ vựng trong độ đo phong cách các văn bản báo chí tiếng việt (so sánh với tiếng anh)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.17 MB, 211 trang )

IH

QU

GI TH NH PH H

TRƢỜ

H MINH
V
V



NGUYỄN TUYẾT NHUNG

KHẢO SÁT CÁC YẾU TỐ TỪ VỰNG
TR
P
Á
Á V
BẢN BÁO CHÍ TIẾNG VIỆT
(SO SÁNH VỚI TIẾNG ANH)

LUẬN ÁN TIẾN SĨ NGÔN NGỮ H C
SO SÁNH
I CHIẾU

Thành phố Hồ Chí Minh - năm 2023



IH

QU

GI TH NH PH H

TRƢỜ

H MINH
V
V


NGUYỄN TUYẾT NHUNG

KHẢO SÁT CÁC YẾU TỐ TỪ VỰNG
TR
P
Á
Á V
BẢN BÁO CHÍ TIẾNG VIỆT
(SO SÁNH VỚI TIẾNG ANH)
Ngành: Ngôn ngữ học so sánh đối chiếu
Mã số: 92220241

LUẬN ÁN TIẾN SĨ NGÔN NGỮ H C SO SÁNH

NGƯỜI HƯỚNG DẪN KHOA H C:
1. PGS. TS. inh iền
2. TS. Nguyễn Thị Như Ngọc

PHẢN BIỆN ỘC LẬP:
1. PGS. TS. Trịnh Sâm
2. PGS. TS. Phạm Hữu ức
PHẢN BIỆN:
1. PGS. TS. Lê Kính Thắng
2. PGS. TS. Phạm Hữu ức
3. TS. Huỳnh Thị Hồng Hạnh

Thành phố Hồ Chí Minh – năm 2023

I CHIẾU


i

Lời cảm ơn

Tác giả luận án xin gửi lời cảm ơn sâu sắc đến tập thể Giáo viên hướng dẫn:
PGS. TS.

inh

iền và TS. Nguyễn Thị Như Ngọc. Thầy, Cô đã hết lịng hỗ trợ

và tận tình hướng dẫn cho tác giả luận án ngay từ những ngày đầu tiên thực hiện
đề tài cho đến ngày hơm nay.
Bên cạnh đó, những bài giảng và kiến thức đến từ Quý Thầy Cô của Khoa
Ngôn ngữ học, Trường

ại học Khoa học xã hội và Nhân văn, cùng với Quý Thầy


Cô thuộc các đơn vị khác trong và ngoài Nhà Trường đã giúp tác giả luận án có
được những tri thức quý báu từ nền tảng đến chuyên sâu thuộc lĩnh vực Ngôn ngữ
học và Xử lý Ngơn ngữ Tự nhiên.

ó là những viên gạch đầu tiên để đề tài được

xây dựng, phát triển và hoàn thiện.
Tác giả luận án cũng chân thành gửi lời cảm ơn đến gia đình, đồng nghiệp và
bạn bè đã ủng hộ trong suốt quá trình tác giả luận án thực hiện đề tài. Tất cả những
tình cảm quý báu này, tác giả luận án xin ghi lòng tạc dạ, lấy đó làm động lực để
vượt qua những khó khăn, trở ngại.
Một lần nữa, tác giả luận án xin cảm ơn tấm lịng của Q Thầy Cơ và tất cả
những người thân yêu đã luôn ở bên cạnh, ủng hộ và dành cho em những lời
khuyên vô giá.


ii

Lời cam đoan
Tơi cam đoan đây là cơng trình nghiên cứu do đích thân tơi thực hiện. Tất cả
hình ảnh, đồ thị, bảng biểu đều dựa trên những thông tin và dữ liệu xác thực. Tất
cả ngữ liệu tiếng Việt và tiếng Anh có nguồn gốc và xuất xứ rõ ràng.

Tác giả luận án

Nguyễn Tuyết Nhung


Mục lục

Lời cam đoan ................................................................................................... i
Lời cảm ơn ...................................................................................................... ii
MỞ ẦU .......................................................................................................... 1
0.1. Lí do chọn đề tài ......................................................................................... 1
0.2. Mục đích nghiên cứu và câu hỏi nghiên cứu .............................................. 3
0.3. ối tượng và phạm vi nghiên cứu .............................................................. 3
0.3.1 ối tượng nghiên cứu ...................................................................... 3
0.3.2 Phạm vi nghiên cứu.......................................................................... 4
0.4. Ngữ liệu, phương pháp và công cụ nghiên cứu .......................................... 6
0.4.1. Ngữ liệu nghiên cứu ........................................................................ 6
0.4.1.1. Ngữ liệu tiếng Việt .............................................................. 6
0.4.1.2. Ngữ liệu tiếng Anh .............................................................. 8
0.4.2. Phương pháp nghiên cứu ................................................................ 11
0.4.3. Công cụ nghiên cứu ........................................................................ 12
0.5. Ý nghĩa khoa học và thực tiễn .................................................................... 18
0.5.1. Ý nghĩa khoa học ............................................................................ 18
0.5.2. Ý nghĩa thực tiễn ............................................................................. 19
0.6. Cấu trúc của luận án.................................................................................... 20
ƢƠ

1: TỔNG QUAN NGHIÊN CỨU V

Ơ SỞ LÝ LUẬN ........ 28

1.1. Các cơng trình nghiên cứu về các yếu tố từ vựng trong độ đo phong cách
tiếng Anh và tiếng Việt............................................................................................... 28
1.1.1. Các cơng trình nghiên cứu về các yếu tố từ vựng trong độ đo
phong cách tiếng Anh ............................................................................... 28
1.1.2. Các cơng trình nghiên cứu về các yếu tố từ vựng trong độ đo
phong cách tiếng Việt ............................................................................... 35

1.2. Phong cách ngôn ngữ và độ đo phong cách ............................................... 38
1.2.1. Phong cách ngôn ngữ ...................................................................... 38
1.2.2. ộ đo phong cách ........................................................................... 40
1.2.3. Ứng dụng của độ đo phong cách và Ngôn ngữ học điều tra ........... 45


1.3. ặc điểm ngôn ngữ của các bài viết thuộc chuyên mục ý kiến trên báo.... 50
1.4. Từ và các lớp từ vựng ................................................................................. 52
1.4.1. Từ .................................................................................................... 52
1.4.2. Tiêu chí xác định ranh giới từ ......................................................... 54
1.4.2. Tách từ và gán nhãn từ vựng cho khối ngữ liệu ............................. 60
1.4.3. Một số lớp từ trong hệ thống từ vựng tiếng Việt ............................ 66
1.5. Các yếu tố từ vựng trong ộ đo phong cách .............................................. 55
1.5.1. Phân bố chiều dài từ khi tính theo ký tự ......................................... 55
1.5.2. Phân bố chiều dài từ khi tính theo âm tiết ...................................... 56
1.5.3. Trung bình chiều dài từ khi tính theo ký tự .................................... 57
1.5.4. Trung bình chiều dài từ khi tính theo âm tiết.................................. 58
1.5.5. ộ phong phú từ vựng .................................................................... 59
1.5.6. Tần số từ khi tính theo phương pháp thống kê cơ bản.................... 64
1.5.7. Tần số từ khi tính theo phương pháp kiểm định thống kê .............. 66
1.6. Tiểu kết ....................................................................................................... 68
CHƯƠNG 2: MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC YẾU TỐ TỪ VỰNG
TRONG ĐỘ ĐO PHONG CÁCH CÁC VĂN BẢN BÁO CHÍ TIẾNG VIỆT:
TRƯỜNG HỢP CÁC YẾU TỐ TỪ VỰNG THUỘC PHƯƠNG DIỆN HÌNH THỨC. 70
2.1. Mức độ ảnh hưởng của Phân bố chiều dài từ khi tính theo ký tự ............... 70
2.2. Mức độ ảnh hưởng của Phân bố chiều dài từ khi tính theo âm tiết ............ 72
2.3. Mức độ ảnh hưởng của Trung bình chiều dài từ khi tính theo ký tự .......... 84
2.4. Mức độ ảnh hưởng của Trung bình chiều dài từ khi tính theo âm tiết ....... 88
2.5. Tiểu kết ....................................................................................................... 90
ƢƠ

TR

3: MỨ
P


Á

ƢỞNG CỦA CÁC YẾU TỐ TỪ VỰNG
Á

V

BẢN BÁO CHÍ TIẾNG VIỆT:

TRƯỜNG HỢP CÁC YẾU TỐ TỪ VỰNG THUỘC PHƯƠNG DIỆN NỘI DUNG 91
3.1. Mức độ ảnh hưởng của ộ phong phú từ vựng .......................................... 91
3.2. Mức độ ảnh hưởng của Tần số từ khi tính theo phương pháp thống kê cơ bản 105
3.2.1. Mức độ ảnh hưởng của Tần số từ xưng hô ..................................... 105


3.2.2. Mức độ ảnh hưởng của Tần số từ thực thể có tên ........................... 109
3.2.3. Mức độ ảnh hưởng của Tần số tác tử lập luận ................................ 115
3.2.4. Mức độ ảnh hưởng của Tần số từ Hán Việt .................................... 120
3.2.5. Mức độ ảnh hưởng của Tần số từ nước ngoài ................................ 123
3.2.6. Mức độ ảnh hưởng của Tần số từ từ mới ........................................ 126
3.2.7. Mức độ ảnh hưởng của Tần số thành ngữ....................................... 128
3.3. Mức độ ảnh hưởng của Tần số từ khi tính theo phương pháp phân tích
tương ứng .................................................................................................................... 134
3.3.1. Mức độ ảnh hưởng của Tần số từ xưng hô ..................................... 134

3.3.2. Mức độ ảnh hưởng của Tần số từ thực thể có tên ........................... 140
3.3.3. Mức độ ảnh hưởng của Tần số tác tử lập luận ................................ 145
3.4. Tiểu kết ....................................................................................................... 150
ƢƠ

4: SỰ TƢƠ

ỒNG VÀ KHÁC BIỆT VỀ MỨ

ƢỞNG CỦA CÁC YẾU TỐ TỪ VỰ
Á V

TR

P

ẢNH
Á

BẢN BÁO CHÍ TIẾNG VIỆT VÀ TIẾNG ANH ............................... 152

4.1. Phân bố chiều dài từ khi tính theo ký tự ..................................................... 157
4.2. Trung bình chiều dài từ khi tính theo âm tiết ............................................. 160
4.3. ộ phong phú từ vựng ................................................................................ 163
4.4. Tần số từ khi tính theo phương pháp kiểm định thống kê .......................... 170
4.5. Thảo luận .................................................................................................... 186
4.6. Tiểu kết ....................................................................................................... 186

KẾT LUẬN ...................................................................................................... 188
Tài liệu tham khảo ........................................................................................... 194



DANH MỤC HÌNH VÀ BIỂU Ồ
Trang
Hình 0.1. Phần giới thiệu về TG của mục Góc nhìn

7

Hình 0.2. Thang độ đánh giá mức độ ảnh hưởng của YTTV đến nhiệm vụ

16

X DTTG
Hình 0.3. Các câu lệnh trong Python

18

Hình 0.4. Cửa sổ RStudio sử dụng ngơn ngữ lập trình R

19

Hình 0.4a. TXH1 của các nhà báo nữ, sinh từ 1975 trở về trước

22

Hình 0.4b. TXH1 các nhà báo nữ, sinh từ 1975 trở về trước và VBÂD

24

Hình 1.2. Phân tích nguồn tác giả của VBÂD


49

Hình 1.3. Bản Industrial Society and Its Future của UN BOMBER đăng trên

49

The Washington Post và The New York Times
Hình 1.4. ịnh dạng dữ liệu JSON

57

Hình 1.5. ịnh dạng dữ liệu XML

58

Hình 3.3.1a. TXH3 của các TG nhà báo là nữ, sinh từ năm 1975 trở về trước

141

Hình 3.3.1b. TXH3 của TG nữ là nhà báo, sinh từ năm 1975 trở về trước và VBÂD

143

Hình 3.4.2a. TTCT của các TG nữ là nhà báo, sinh từ năm 1975 trở về trước và VBÂD

145

Hình 3.4.2b. TTLL của các TG nữ là nhà báo, sinh từ năm 1975 trở về trước và VBÂD


147


............................................................................................................................................................

DANH MỤC BẢNG SỐ LIỆU
Trang
Bảng 1.1. Các chỉ số đo độ phong phú từ vựng TTR, W, H, S, và K

4

Bảng 0.2. ác YTTV được khảo sát và đối chiếu trong luận án

5

Bảng 0.3. Các khối ngữ liệu nhóm trong VVC_Stylometry

9

Bảng 0.4. Thông tin của VVC_Stylometry và Telegraph Columnist Corpus

9

Bảng 0.5. Số lượng các lượt thực nghiệm xác định danh tính tác giả

13

Bảng 1.1. Từ vựng trong văn bản nghi vấn và trong văn bản của tác giả ứng viên

44


Bảng 1.2. Thang độ đánh giá kết quả xác định danh tính tác giả

44

Bảng 1.3. Các nhiệm vụ Phân tích nguồn TG do PAN tổ chức

48

Bảng 1.4. Các vụ án dân sự và hình sự có liên quan đến độ đo phong cách

50

Bảng 1.5. Các thực thể có tên thơng dụng

62

Bảng 2.1.1. So sánh PBCDT của các TG nữ là nhà báo và X1

84

Bảng 2.1.2. ường cong PBCDT của TG 890 và X1

85

Bảng 2.1.3. So sánh PBCDT tính theo ký tự của TG nữ là nhà nghiên cứu và X2

88

Bảng 2.1.4. ường cong PBCDT của TG 1020 và X2


89

Bảng 2.1.5. So sánh PBCDT của các TG nam là nhà báo và X3

91

Bảng 2.1.6. ường cong PBCDT của TG 403 và X3

92

Bảng 2.1.7. So sánh PBCDT của các TG nam là nhà nghiên cứu và X4

95

Bảng 2.1.8. ường cong PBCDT của TG 1057 và X4

97

Bảng 2.1.9. So sánh PBCDT của 10 TG thuộc các nhóm khác nhau và X5

98

Bảng 2.1.10. ường cong PBCDT của TG 342 và X5

99

Bảng 2.1.11. Tỉ lệ chính xác của PB DT khi tính theo đơn vị ký tự

102


Bảng 2.2.1. Tỉ lệ chính xác của PB DT khi tính theo đơn vị âm tiết

103

Bảng 2.3.1. Bảng 2.3.1. So sánh TBCDT của các TG nữ là nhà báo và X1

105

Bảng 2.3.2. Tỉ lệ chính xác của PB DT khi tính theo đơn vị ký tự

107

Bảng 2.4.1. So sánh TBCDT của các TG nữ là nhà nghiên cứu và X2

108

Bảng 2.4.2. Tỉ lệ chính xác của PB DT khi tính theo đơn vị âm tiết

109

Bảng 3.1.1. Số lượng lượt từ, dạng từ, từ xuất hiện một lần và từ xuất hiện hai

110

lần của các TG
Bảng 3.1.2. ộ phong phú từ vựng của các TG

111



Bảng 3.1.3. Tỉ lệ chính xác của PPTV

113

Bảng 3.2.1. TXH của các TG nữ là nhà báo

114

Bảng 3.2.2. Tỉ lệ chính xác của tần số TXH1 khi tính theo thống kê cơ bản

115

Bảng 3.3.3. Tỉ lệ chính xác của tần số TXH3 khi tính theo thống kê cơ bản

116

Bảng 3.2.4. TTCT của các TG nữ là nhà báo

117

Bảng 3.2.5. Tỉ lệ chính xác của tần số TTCT khi tính theo thống kê cơ bản

119

Bảng 3.2.6. TTLL của các nhà báo nữ

119

Bảng 3.2.7. Tỉ lệ chính xác của tần số TTLL khi tính theo thống kê cơ bản


121

Bảng 3.2.8. Tỉ lệ chính xác của tần số từ Hán Việt khi tính theo thống kê cơ bản

125

Bảng 3.2.9. Tỉ lệ chính xác của tần số từ nước ngồi khi tính theo phương pháp

128

thống kê cơ bản
Bảng 3.2.10. Tỉ lệ chính xác của tần số từ mới khi tính theo thống kê cơ bản

132

Bảng 3.2.11 Tỉ lệ chính xác của tần số thành ngữ khi tính theo thống kê cơ bản

136

Bảng 3.3.1. Bốn bài viết được chọn phân tích tươn ứng của TG 342

137

Bảng 3.3.2. Bốn bài viết được chọn phân tích tương ứng của TG 129

138

Bảng 3.3.3. Bốn bài viết được chọn phân tích tương ứng của TG 49


138

Bảng 3.3.4. Tỉ lệ chính xác của tần số TXH1 khi tính theo phương pháp phân

139

tích tương ứng
Bảng 3.3.5. Tỉ lệ chính xác của tần số TXH3 khi tính theo phương pháp phân

144

tích tương ứng
Bảng 3.3.6. Tỉ lệ chính xác của tần số TT T khi tính theo phân tích tương ứng

146

Bảng 3.3.7. Tỉ lệ chính xác của tần số TTLL khi tính theo phân tích tương ứng

148

Bảng 4.1. Tỉ lệ chính xác của phân bố chiều dài từ theo ký tự trong tiếng Việt

150

và tiếng Anh
Bảng 4.2. Tỉ lệ chính xác của phân bố chiều dài từ tính theo âm tiết trong tiếng

154

Việt và tiếng Anh

Bảng 4.3. Tỉ lệ chính xác của độ phong phú từ vựng trong tiếng Việt và tiếng Anh

156

Bảng 4.4. Những từ có tần số cao nhất được các TG sử dụng trong

157

VVC_Stylometry
Bảng 4.5. Tỉ lệ chính xác của tần số từ khi tính theo kiểm định thống kê trong
tiếng Việt và tiếng Anh

160


QUY ƢỚC TỪ VIẾT TẮT

STT

Từ viết tắt

1

P

2

PPTV

Tiếng Việt


Tiếng Anh

ộ đo phong cách

Stylometric measure

ộ phong phú từ vựng

Vocabulary richness

3

TXH

Từ xưng hô

Vocative term

4

TXH1

Từ xưng hô ngôi thứ nhất

First personal vocative term

5

TXH2


Từ xưng hô ngôi thứ hai

Second personal vocative term

6

TXH3

Từ xưng hô ngôi thứ ba

Third personal vocative term

7

PBCDT

Phân bố chiều dài từ

Word-length distribution

8

TBCDT

Trung bình chiều dài từ

Average word length

9


TG

Tác giả

Author

10

TTCT

Thực thể có tên

Named entity

11

TTLL

Tác tử lập luận

Argumentative operator

12

VBÂD

Văn bản ẩn danh

Anonymous text


13

YTTV

Yếu tố từ vựng

Word-level feature

14

X DTTG

Xác định danh tính tác giả

Authorship attribution


1

MỞ ẦU

0.1. LÝ DO CH

Ề TÀI

Trong vài thập kỷ trở lại đây, nghiên cứu Phong cách trắc học, một lĩnh vực
liên ngành giữa Ngơn ngữ học, Khoa học hình sự, Tâm lý học, Xã hội học, v.v.
(Savoy, 2020), ngày càng nhận được nhiều sự quan tâm vì tính ứng dụng cao, ví dụ
như tìm ra tác giả (TG) thực sự của bản di chúc có tranh chấp, tác phẩm văn chương

ẩn danh, thư tuyệt mệnh hoặc thư tống tiền mạo danh, nặc danh. Một vụ án từng gây
chấn động nước Mỹ vào những năm cuối thập niên 90 liên quan đến một tên khủng
bố có bí danh Unabomber. Nhờ vào giám định văn phong, nhất là cách sử dụng từ
vựng trong các bức thư nặc danh của tên khủng bố, cơ quan điều tra đã có manh mối
để lần ra thủ phạm là một giáo sư toán học tên là Theodore Kaczynsky (FBI, 2008).
ặc biệt, trong kỷ nguyên công nghệ thơng tin phát triển mạnh mẽ hiện nay,
ngồi những tiện ích do mạng Internet đem lại, tội phạm trên không gian mạng cũng
ngày càng tinh vi trong việc sử dụng các phương tiện giao tiếp trực tuyến, ví dụ như
mạng xã hội, diễn đàn thảo luận trực tuyến, email, chat, v.v. để thực hiện các hành
vi phạm tội. Trong đó, danh tính của người viết thường được che giấu hoặc giả mạo,
gây khó khăn cho cơ quan điều tra trong việc truy tìm thủ phạm. Trong ngành
Phong cách trắc học, các nhà nghiên cứu phải sử dụng độ đo phong cách (

P ),

là những cơng thức dùng để lượng hóa phong cách viết của TG và từ đó xác định
danh tính tác giả (X DTTG). Dù TG cố ý thay đổi cách viết nhưng trong tiềm thức
vẫn có một vài đặc trưng phong cách của TG đó được giữ nguyên (Holmes, 1997).
P là mức độ ảnh hưởng của các yếu tố ngơn

Trọng tâm nghiên cứu của

ngữ. Trong đó, nghiên cứu về các yếu tố thuộc cấp độ từ vựng, hay còn gọi là các
yếu tố từ vựng (YTTV) phát triển với tốc độ vơ cùng ấn tượng. Có rất nhiều YTTV
khác nhau được đề xuất cho

P tiếng

nh được chứng minh tỉ lệ chính xác rất


cao khi ứng dụng trong việc X DTTG (Barlow, 2013; Wright, 2017, v.v.). Tuy
nhiên, nghiên cứu về YTTV trong

P

văn bản tiếng Việt vẫn chưa phát triển

tương xứng với tiềm năng. Vì vậy luận án được thực hiện nhằm tìm ra những
YTTV trong văn bản tiếng Việt có thể giúp X DTTG đạt tỉ lệ chính xác cao, thơng
qua việc tính tốn nhiều nhóm

P khác nhau.


2

Theo hiểu biết của tác giả luận án, hiện nay các cơng trình nghiên cứu

P

trong tiếng Việt cịn hạn chế về cả số lượng lẫn quy mơ. Ngun nhân chính là do
thiếu hụt tài nguyên nghiên cứu, bao gồm ngữ liệu có chú thích và cơng cụ tự động.
Ngữ liệu phù hợp cho các nghiên cứu

P phải đạt yêu cầu về chất lượng, kích

cỡ và cấu trúc (Brezina, 2018). Thơng thường, số lượng văn bản càng nhiều thì việc
đánh giá hiệu quả của mơ hình X DTTG càng chính xác. ó là vì ngữ liệu lớn giúp
ta phát hiện được những quy luật sử dụng ngơn ngữ có thể bị ẩn đi nếu chỉ sử dụng
hướng tiếp cận định tính. Ngồi ra, mỗi văn bản phải được chú thích chính xác:

thơng tin xã hội học của TG (như giới tính, độ tuổi, ngành nghề), thời gian viết bài,
v.v.

iều này đòi hỏi rất nhiều cơng sức, thời gian và tài chính. Với ngữ liệu lớn,

nhà nghiên cứu phải cần đến những cơng cụ và phương pháp phân tích phù hợp.
Mặc dù đã có rất nhiều cơng cụ và phương pháp phân tích ngữ liệu được phát
triển, nhưng chúng chỉ mới được áp dụng trên ngữ liệu tiếng Anh, tiếng Pháp hoặc
một số ngôn ngữ giàu tài nguyên (rich-resource languages). Tài nguyên ngơn ngữ bao
gồm ngữ liệu số hóa, cơng cụ tự động trong tiền xử lý ngữ liệu số, công cụ thống kê
tự động, v.v. Cịn với tiếng Việt, một ngơn ngữ thuộc loại hình đơn lập, hiệu quả của
việc áp dụng các công cụ tự động dành cho ngôn ngữ thuộc loại hình khác vẫn cịn là
câu hỏi cịn bỏ ngỏ. Ngay cả khi độ chính xác của những cơng cụ đạt mức chấp nhận
được, thì việc ứng dụng chúng trong thực tiễn cũng sẽ gặp một số trở ngại nhất định.
Chẳng hạn, khi cần bằng chứng để phá án, việc trình bày kết quả nghiên cứu phải
kèm theo giải thích để hội đồng xét xử hiểu được bản chất của kết quả. iều này là vơ
cùng khó khi sử dụng các thuật toán phức tạp như học máy (machine learning), học
sâu (deep learning).
Ngồi ra, mặc dù đã có một số nghiên cứu khảo sát một vài YTTV trong tiếng
Việt, nhưng chưa có cơng trình nghiên cứu quy mơ lớn nào sử dụng các phương
pháp thực nghiệm X DTTG cho việc khảo sát số lượng lớn các YTTV một cách
đồng loạt trong các bài viết thuộc chuyên mục ý kiến trên báo; cũng chưa có cơng
trình nào đối chiếu mức độ ảnh hưởng của các YTTV này đến

P tiếng Việt và

tiếng Anh. Chính vì thế, tác giả luận án mạnh dạn tiến hành đề tài ―Khảo sát các yếu
tố từ vựng trong độ đo phong cách văn bản báo chí tiếng Việt (so sánh với tiếng
Anh)‖.



3

0.2. MỤ

Í

Ê

ỨU VÀ CÂU HỎI NGHIÊN CỨU

Luận án được thực hiện với hai mục đích sau đây: (1) Khảo sát mức độ ảnh
hưởng của các YTTV trong

P các văn bản báo chí tiếng Việt; (2) So sánh và

đối chiếu mức độ ảnh hưởng của các YTTV trong

P các văn bản báo chí tiếng

Việt với tiếng nh để tìm ra những điểm tương đồng và khác biệt.
Luận án xác định nhiệm vụ nghiên cứu bao gồm: Tính tốn tỉ lệ thành công
của các YTTV khi thực nghiệm X DTTG để từ đó đánh giá mức độ ảnh hưởng của
chúng trong

P các văn bản báo chí tiếng Việt; So sánh tỉ lệ thành công của các

YTTV này trong các văn bản báo chí tiếng Việt với tỉ lệ thành cơng của các YTTV
trong các văn bản báo chí tiếng Anh.
Theo đó, có hai câu hỏi nghiên cứu mà luận án sẽ trả lời: Câu hỏi nghiên cứu

1: Các YTTV có ảnh hưởng như thế nào đến

P các văn bản báo chí tiếng Việt?;

Câu hỏi nghiên cứu 2: Có những điểm tương đồng và khác biệt nào về mức độ ảnh
hưởng của các YTTV đến

P các văn bản báo chí tiếng Việt và tiếng Anh?

0.3. Ố TƢỢNG VÀ PH M VI NGHIÊN CỨU
0.3.1. Đối tượng nghiên cứu
ối tượng nghiên cứu của luận án là mức độ ảnh hưởng của các YTTV đến
P các văn bản báo chí tiếng Việt và tiếng Anh.
0.3.2. Phạm vi nghiên cứu
Luận án được thực hiện trong phạm vi các yếu tố ngôn ngữ ở cấp độ từ vựng.
Câu thuộc một bình diện khác hẳn với bình diện của các đơn vị của ngôn ngữ. Các
đơn vị của ngôn ngữ đều làm thành những hệ đối vị (paradigme) có thành phần hữu
hạn về số lượng, cịn câu thì khơng thuộc một hệ đối vị nào (Cao Xuân Hạo, 2017,
tr. 36). Do đó, luận án giới hạn phạm vi nghiên cứu ở cấp độ từ vựng.
ồng thời, để X DTTG, một nhiệm vụ liên quan đến ngôn ngữ cá nhân, luận
án tập trung khảo sát năm nhóm

P dùng để lượng hóa phong cách viết của từng

TG. Nhóm 1 và nhóm 2 là các YTTV thuộc phương diện hình thức, các nhóm 3, 4
và 5 là các YTTV thuộc phương diện nội dung (chi tiết về các nhóm
trình bày ở hương 1):

P


được


4

Nhóm 1: Nhóm độ đo liên quan đến phân bố chiều dài từ (PBCDT): gồm hai
yếu tố là PBCDT tính theo ký tự và PBCDT tính theo âm tiết.
Nhóm 2: Nhóm độ đo liên quan đến trung bình chiều dài từ (TBCDT): gồm
hai yếu tố là TBCDT tính theo ký tự và TBCDT tính theo âm tiết.
Nhóm 3: Nhóm độ đo liên quan đến độ phong phú từ vựng ( PPTV): gồm
năm chỉ số là TTR, W, H, S, K. Bảng 0.1 liệt kê cơng thức tính tốn và đặc điểm
của các chỉ số dùng để đo độ phong phú từ vựng TTR, H, S, W và K. Trong đó: N
là tổng số lượt từ (word token) trong văn bản; V là tổng số dạng từ (word type)
trong văn bản, tức là từ vựng của văn bản; Vi là tổng số dạng từ xuất hiện i lần
trong văn bản; a là hằng số võ đoán (a = 0,17).
Bảng 0.1. Các chỉ số đo độ phong phú từ vựng TTR, W, H, S, và K
Chỉ số
type / token ratio

Công thức
TTR

Phụ thuộc vào số lượng dạng từ và lượt từ.

TTR = V / N
Brunet‘s W
(Brunet 1978)

W


W tương đối không bị ảnh hưởng bởi chiều dài văn bản và vì thế mang
nhiều dấu ấn phong cách TG.

Honoré‘s H (Honoré, H
1979)

Phụ thuộc vào từ xuất hiện một lần.

Sichel‘s S
(Sichel 1975)

S

Phụ thuộc vào từ xuất hiện hai lần. Công thức này tương đối bất biến
với số lượng lượt từ.

Yule‘s K
(Yule 1944)

K

Nhóm 4: Nhóm độ đo liên quan đến tần số từ khi tính theo phương pháp thống
kê cơ bản: gồm tần số tương đối được chuẩn hóa của 11 từ xưng hơ (TXH), 11 thực thể


5

có tên (TTCT), 11 tác tử lập luận (TTLL), lớp từ Hán Việt, lớp từ nước ngoài, lớp từ
mới, và các thành ngữ.
Nhóm 5: Nhóm độ đo liên quan đến tần số từ khi tính theo phương pháp kiểm

định thống kê: gồm tần số của 11 TXH, 11 TTCT, 11 TTLL.
Luận án khảo sát nhiều nhóm
Việc sử dụng một nhóm

P

P khác nhau để kết quả đảm bảo độ tin cậy.

chưa đủ sức thuyết phục để khái quát phong cách

viết của một TG, và khó có thể X DTTG một cách chính xác, bởi vì một nhóm
P

chỉ mới xem xét trên một khía cạnh ngơn ngữ, chưa khảo sát những khía

cạnh khác trong ngôn ngữ của TG.

ồng thời, một yếu tố ngôn ngữ định lượng

phong cách hiệu quả phải vừa xuất hiện với tần số cao, lại vừa phải có độ bao
phủ rộng (Savoy, 2020, tr. 6). Vì vậy, các YTTV được lựa chọn trong luận án phải
đảm bảo ít nhất một trong các tiêu chí:
Tiêu chí 1: Có thể được tính tốn trong bất kỳ văn bản nào, cho dù là văn bản
ngắn hay dài, văn bản thơ hay có gán nhãn. Những YTTV được lựa chọn theo tiêu
chí này thuộc các Nhóm 1, 2 và 3 nêu trên, tức là nhóm độ đo liên quan đến
PBCDT, TBCDT, PPTV.
Tiêu chí 2: Có mặt trong gần như tất cả các văn bản của TG đang xét, hoặc ít
nhất là trong hai văn bản của TG đó, chỉ khác nhau về tần số sử dụng. Những
YTTV được lựa chọn theo tiêu chí này thuộc các Nhóm 4 và 5, là hai nhóm độ đo
liên quan đến tần số từ. Vì thế, luận án không khảo sát những từ như mặc dầu (là

biến thể ngữ âm của mặc dù) bởi vì qua thống kê, yếu tố này có độ phủ rất hẹp và tần
số rất thấp trong khối ngữ liệu VVC_Stylometry.

ộ phủ hẹp và tần số thấp sẽ khiến

cho kết quả X DTTG giảm độ tin cậy.
Với năm nhóm

P , số lượng YTTV được khảo sát trên ngữ liệu tiếng Việt

là 79 yếu tố, và số lượng YTTV được sử dụng để đối chiếu với ngữ liệu tiếng Anh
là 10 yếu tố. Bảng 0.2 liệt kê các YTTV được khảo sát và đối chiếu trong luận án.
Bảng 0.2. Các YTTV được khảo sát và đối chiếu trong luận án
STT

ác YTTV được khảo sát

ác YTTV được đối chiếu

1
2

YTTV
PBCDT
PBCDT khi tính theo ký tự
PBCDT khi tính theo âm tiết







3
4

Chiều dài từ
TBCDT khi tính theo ký tự
TBCDT khi tính theo âm tiết







6

5
6
7
8
9

10-20
21-31
32-42
43
44
45
46


47-57
58-68
69-79

PPTV
TTR
W
H
S
K
Tần số từ khi theo phương pháp
thống kê cơ bản
TXH
TTCT
TTLL
Từ Hán Việt
Từ nước ngoài
Từ mới
Thành ngữ
Tần số từ khi theo phương pháp
kiểm định thống kê
TXH
TTCT
TTLL
Tổng số

0.4. NGỮ LIỆU, P ƢƠ














 (11 yếu tố)
 (11 yếu tố)
 (11 yếu tố)





 (11 yếu tố)
 (11 yếu tố)
 (11 yếu tố)
79




10

P ÁP VÀ CÔNG CỤ NGHIÊN CỨU


0.4.1. Ngữ liệu nghiên cứu
Ngữ liệu nghiên cứu trong luận án gồm có ngữ liệu tiếng Việt
(VVC_Stylometry) và ngữ liệu tiếng Anh (Telegraph Columnist Corpus).
Nhiệm vụ X DTTG được thực hiện trên cơ sở đối sánh (a comparative basis)
giữa cá nhân này với cá nhân khác. Vì vậy, phần then chốt trong X DTTG đó là
việc xây dựng một tập hợp các YTTV tương đối nhất quán trong các văn bản được
viết bởi cùng một TG. Hay nói cách khác, khi xét đến những YTTV này, giữa các
văn bản của một TG có sự tương đồng lớn hơn so với các văn bản của TG khác.
Tuy nhiên, so với các tác phẩm văn chương hoặc các văn bản in, thì văn bản số
thường tương đối ngắn, chỉ vài trăm từ, có khi ít hơn.

iều này làm cho việc

X DTTG trên khơng gian mạng trở nên khó khăn hơn. Tuy vậy, khi một TG có
nhiều bài viết, phong cách viết mang tính ổn định hơn sẽ được hình thành.
Do đó, để đảm bảo độ tin cậy và độ giá trị trong X DTTG, các nhà nghiên
cứu thường sử dụng các phương pháp thực chứng dựa trên ngữ liệu lớn gồm tập hợp
các văn bản được lưu trữ ở dạng số, được gọi là khối ngữ liệu (corpus). Khối ngữ
liệu là một tập hợp gồm các văn bản dạng nói hoặc viết, thường được số hóa để máy
tính có thể đọc và xử lý được. Khối ngữ liệu có thể thuộc loại tổng quát (đại diện
cho một ngôn ngữ), hoặc loại chuyên biệt (tập trung vào một thể loại, một TG hoặc


7

một lĩnh vực nào đó). Hiểu một cách chung nhất, khối ngữ liệu đại diện cho một
mẫu ngôn ngữ (a sample of language), tức là một tập hợp con của sản phẩm ngôn
ngữ mà nhà nghiên cứu quan tâm.
Hai khối ngữ liệu VVC_Stylometry và Telegraph Columnist Corpus mang

tính đối sánh, đều thuộc loại khối ngữ liệu chuyên biệt (specialised corpus), vì
chúng là tập hợp con (bài viết thể hiện ý kiến, quan điểm và lập luận) của ngôn ngữ
mà luận án quan tâm (ngôn ngữ trong các văn bản báo chí).
0.4.1.1. Ngữ liệu tiếng Việt
Luận án sử dụng VVC_Stylometry, một khối ngữ liệu gồm 509 bài viết thuộc
chuyên mục ý kiến do 48 TG viết cho chun mục Góc nhìn thuộc báo trực tuyến
VnExpress. VV _Stylometry được lưu trữ theo đường dẫn: gle.
com/drive/folders/1yOqRAZBd_wfs6q1g—ZkbBzZwZObpplc?usp=sharing, phiên
bản được sử dụng trong luận án gồm các bài viết được đăng tải từ năm 2014 đến
năm 2023.
Chun mục Góc nhìn được trang báo mạng điện tử VnExpress giới thiệu là
―Góc nhìn khách quan - Chia sẻ kinh nghiệm, quan điểm, đánh giá, bình luận các
vấn đề đời sống xã hội nhức nhối từ các nhà báo, chuyên gia cùng VnExpress‖ (theo
VnExpress, 2023). Chuyên mục Góc nhìn gồm bảy chủ đề: Chính trị & chính sách,
Giáo dục & tri thức, Kinh doanh & quản trị, Môi trường, Văn hóa & lối sống, Y tế
& sức khỏe, Covid-19. VnExpress là tờ báo trực tuyến tiếng Việt có lượng truy cập
lớn (theo Alexa Internet, Inc., 2019), đồng thời là một trong số ít những tờ báo có
hiển thị thơng tin về TG. Cụ thể, tồn bộ TG đều được hiển thị thông tin về ngành
nghề, tên (tên thật hoặc bút danh) và ảnh chân dung trong phần Giới thiệu tác giả.
Một số TG được giới thiệu nhiều thông tin khác như năm sinh, nơi sinh, nơi ở hiện
nay, trình độ học vấn, vị trí cơng tác, thậm chí là sở thích hoặc chun mơn. Hình
0.1 dưới đây minh họa cho phần giới thiệu TG của mục Góc nhìn.


8

Hình 0.1. Phần giới thiệu về TG trên mục Góc nhìn (Nguồn: VnExpress)

VVC_Stylometry được chia ra thành 48 khối ngữ liệu cá nhân tương ứng với
48 TG (xem Phụ lục A1 – A4) và 8 khối ngữ liệu nhóm tương ứng với 8 nhóm TG

(xem Phụ lục A5 – A8).
(1) Khối ngữ liệu cá nhân
VVC_Stylometry được chia thành 48 khối ngữ liệu cá nhân, tương ứng với 48
TG ứng viên. Mỗi khối ngữ liệu cá nhân này gồm những văn bản do cùng một TG
viết ra, vì thế mỗi khối ngữ liệu con được coi là ―ngôn ngữ cá nhân‖ của từng TG.
Nói cách khác, mỗi khối ngữ liệu cá nhân đại diện cho phong cách viết của một TG.
Một trong những tiêu chí để lựa chọn TG nằm ở số lượng bài viết của TG đó
trên chuyên mục Góc nhìn. Nếu như việc phân tích phong cách văn phong theo
hướng định tính có thể thực hiện trên số lượng văn bản khơng cần q lớn, thậm chí
có trường hợp là một tác phẩm, thì nhiệm vụ X DTTG địi hỏi số lượng văn bản
lớn hơn rất nhiều. Do đó, luận án đặt tiêu chí lựa chọn những TG có càng nhiều bài
viết càng tốt. Trong luận án, khối ngữ liệu VVC_Stylometry cũng bao gồm những
TG chỉ có hai bài viết, kết quả thu được từ những lượt thực nghiệm này được dùng
để đối sánh với những lượt thực nghiệm gồm nhiều bài viết để từ đó rút ra nhận xét
về ảnh hưởng của số lượng bài viết đến tỉ lệ chính xác khi thực nghiệm X DTTG.
(2) Khối ngữ liệu nhóm


9

Theo Grieve (2007), để khảo sát một YTTV có đủ khả năng X DTTG hay
không, nếu chỉ thu thập các khối ngữ liệu cá nhân có tính thuần nhất cho từng TG
thơi là chưa đủ, mà khối ngữ liệu cịn phải có tính thuần nhất cao cho một số kiểu
ngơn ngữ. Khối ngữ liệu càng có tính thuần nhất cao thì việc khảo sát tỉ lệ chính xác
của YTTV càng chính xác. Khi giải quyết bài tốn liên quan đến nguồn TG, các yếu
tố phương ngữ, thời gian và thể loại của VBÂD phải là những yếu tố đầu tiên chi
phối việc thu thập và xây dựng ngữ liệu. Ví dụ, nếu phải X DTTG cho một truyện
ngắn vào thế kỉ 20, ta cần thu thập các truyện ngắn của TG ứng viên trong thế kỉ 20.
Tương tự, nếu X DTTG cho một bài viết ý kiến vào những năm đầu thế kỉ 21, ta
cần thu thập những bài viết ý kiến thuộc khoảng thời gian đó.

Trong VVC_Stylometry, các khối ngữ liệu nhóm được xây dựng bằng cách
kết hợp các khối ngữ liệu cá nhân dựa theo thông tin xã hội học của TG: giới tính
(nam hoặc nữ), ngành nghề (nhà báo hoặc nhà nghiên cứu), độ tuổi (sinh từ năm
1975 trở về trước hoặc sinh sau năm 1975).

ôi khi, thông tin về năm sinh hoặc độ

tuổi của TG cũng có thể được đề cập nhằm làm rõ hơn ảnh hưởng của yếu tố này
đến phong cách viết của TG.
Trong mỗi nhóm, các TG ứng viên có thơng tin xã hội học đồng nhất: trong
nhóm giới tính nam là các TG nam, trong nhóm nhà báo chỉ có các TG là nhà báo
chuyên nghiệp (theo thông tin ngành nghề tác giả được hiển thị trên chun mục
Góc nhìn), trong nhóm sinh từ năm 1975 trở về trước chỉ có những TG có năm sinh
trước mốc thời gian này. Quy trình và các tiêu chí phân chia nhóm được trình bày
chi tiết trong Nguyễn Tuyết Nhung và cộng sự (2020). Các khối ngữ liệu nhóm
được liệt kê trong Bảng 0.3 dưới đây.
Bảng 0.3. Các khối ngữ liệu nhóm trong VVC_Stylometry
Khối ngữ liệu nhóm
Nữ_Nhà báo (≤ 1975)
Nữ_Nhà báo (> 1975)
Nữ_Nhà nghiên cứu (≤ 1975)
Nữ_Nhà nghiên cứu (> 1975)
Nam_Nhà báo (≤ 1975)
Nam_Nhà báo (> 1975)
Nam_Nhà nghiên cứu (≤ 1975)
Nam_Nhà nghiên cứu (> 1975)

0.4.1.2. Ngữ liệu tiếng Anh

Số lƣợng TG

3
9
2
10
7
5
7
5


10

Ngữ liệu tiếng

nh được sử dụng để đối chiếu là khối ngữ liệu Telegraph

Columnist Corpus do nhà ngôn ngữ học Grieve xây dựng (Grieve, 2007). Telegraph
Columnist Corpus gồm 1600 bài viết của 40 TG. Khối ngữ liệu này gồm các bài
viết thuộc chuyên mục ý kiến, được thu thập từ chuyên mục Opinion của nhật báo
Daily Telegraph ở London, Anh Quốc.

ây là tờ báo uy tín hàng đầu nước Anh,

được ra mắt vào ngày 29/6/1855. Năm 1995, tờ báo này giới thiệu trang web của
mình

với

tên


gọi

Electronic

Telegraph,

hiện

nay

đổi

tên

thành

www.telegraph.co.uk.
Telegraph Columnist Corpus có những đặc điểm phù hợp để thực hiện việc so
sánh đối chiếu với khối ngữ liệu VVC_Stylometry bởi vì các văn bản trong cả hai
khối ngữ liệu này đều cùng một thể loại văn bản (bài viết đăng trên báo quốc gia),
cùng mục đích giao tiếp (thể hiện góc nhìn và bày tỏ quan điểm của TG về các vấn
đề nóng hổi trong xã hội), và được đăng tải trong quãng thời gian ngắn (dưới 10
năm). Một số bài viết của các TG trên chuyên mục ý kiến của hai tờ báo VnExpress
và Telegraph được trình bày ở Phụ lục A9 – A10. Bảng 0.4 mô tả thông tin cơ bản
về khối ngữ liệu VVC_Stylometry và khối ngữ liệu Telegraph Columnist Corpus.
Bảng 0.4. Thông tin của VVC_Stylometry và Telegraph Columnist Corpus
VVC_Stylometry
Chuyên mục
Số lượng tác giả
Số lượng bài báo

Chủ đề
Thời gian
Tờ báo
Ngôn ngữ
Quốc gia

Telegraph Columnist Corpus

Góc nhìn
Opinion
48 tác giả
40 tác giả
509 bài
1.600 bài
Chính trị, văn hóa, giáo dục, kinh tế, Chính trị, văn hóa, giáo dục, kinh tế,
y tế, v.v.
y tế, v.v.
ầu thế kỉ 21 (2014-2022)
ầu thế kỉ 21 (2000 – 2005)
VnExpress
Daily Telegraph
Tiếng Việt
Tiếng Anh
Việt Nam
Anh Quốc

Ở đây có một điểm khác biệt giữa hai khối ngữ liệu này, đó chính là thời điểm
đăng bài: VV _Stylometry gồm các bài viết được đăng từ 2014-2022, Telegraph
Columnist Corpus là 2000-2005. Tuy nhiên, hai khoảng thời gian này vẫn có sự
tương đương khi xét trong cùng một giai đoạn lịch sử lớn hơn, cụ thể là những năm

đầu của thế kỉ 21, là đối tượng của nghiên cứu đồng đại.
Theo Mai Ngọc Chừ, Vũ ức Nghiệu, và Hoảng Trọng Phiến (2008, tr. 33), ta
có thể nghiên cứu ngôn ngữ theo quan điểm đồng đại (synchronic), nghĩa là ―ở một
trạng thái cụ thể, vào một đoạn thời gian nào đó, được giả định như là ―đứng im‖


11

khơng có gì thay đổi, hệ thống ngơn ngữ được coi như là hồn tồn ổn định‖. Trong
khi đó, quan điểm lịch đại (diachronic) nghiên cứu ngơn ngữ đã có những biến đổi
gì trong các trạng thái xét theo tiến trình lịch sử. Tuy là hai quan điểm khác nhau,
nhưng đồng đại và lịch đại không đối nghịch nhau mà thống nhất biện chứng với
nhau: nếu ta coi mỗi trạng thái ngơn ngữ là một ―lát cắt‖ đồng đại, thì lịch đại chính
là một dãy liên tục mang tính kế thừa của chính những lát cắt đồng đại đó. ịn đối
với lịch đại, thì đồng đại là một sự phân cắt ít nhiều mang tính chất ước lượng.
Luận án được triển khai theo hướng nghiên cứu liên ngành Ngôn ngữ học tính
tốn và Ngơn ngữ học khối liệu đối với văn bản báo chí ý kiến tiếng Việt. Vì vậy,
luận án phải xây dựng khối ngữ liệu có chú thích về ngơn ngữ lẫn chú thích siêu dữ
liệu (metadata, bao gồm thông tin TG, thông tin bài viết, v.v.), không thể kế thừa tài
nguyên như các nghiên cứu khác.

iều này khiến cho khối ngữ liệu vẫn còn một số

điểm cần phải hoàn thiện và cập nhật, cả về số lượng lẫn chất lượng thơng tin
(hướng phát triển được trình bày ở cụ thể ở chương Kết luận).
0.4.2. Phương pháp nghiên cứu
0.4.2.1. Các hướng tiếp cận và phương pháp nghiên cứu
Khi phân tích, luận án sử dụng phương pháp luận hỗn hợp (mixed
methodology), kết hợp các ưu điểm của cả hướng tiếp cận định tính lẫn định lượng.
ác phương pháp được sử dụng trong luận án đều là phương pháp thực chứng

(empirical methods):
- Phƣơng pháp thống kê mô tả (descriptive statistics): Phương pháp này
còn được gọi là thống kê khám phá (explorative statistics), được sử dụng để mô
tả/khám phá các đặc trưng cơ bản của dữ liệu và các hiện tượng được khảo sát.
Khởi điểm của bất kỳ nghiên cứu định lượng nào cũng là đếm số lượng các yếu tố.
Với sự hỗ trợ của máy vi tính, các nghiên cứu hiện nay có thể xử lý những vấn đề
phức tạp với lượng dữ liệu lớn hơn bao giờ hết. Trong luận án, các YTTV được
đếm và được tính tốn theo một cơng thức cụ thể. Có 46 YTTV (từ số 1 đến số 46 ở
Bảng 0.1) được phân tích bằng thống kê mô tả đơn biến để khảo sát một biến tại
một thời điểm.
Với nhóm độ đo tần số từ khi tính theo phương pháp kiểm định thống kê, các
YTTV (từ số 47 đến số 79, Bảng 0.1) còn được khảo sát bằng phân tích tƣơng ứng


12

(correspondence analysis).

ây là một phương pháp khám phá trực quan, giúp đo

khoảng cách giữa VBÂD với các văn bản đã biết TG. Từ đó giúp xác định ai có
nhiều khả năng là TG thực sự của VBÂD nhất (xem mục 2.7). Về mặt lý thuyết,
phân tích tương ứng dựa trên kiểm định thống kê chi-squared. Tuy nhiên, nếu như
kiểm định chi-squared chỉ có thể trả lời câu hỏi ó/Khơng đơn giản liên quan đến
sự khác biệt về mặt thống kê, khơng hề chỉ ra sự khác biệt đó nằm ở đâu, thì phân
tích tương ứng có thể cho thấy bức tranh toàn diện hơn về mối quan hệ giữa các
biến, gồm cả những điểm tương đồng lẫn khác biệt (Brezina, 2018, tr. 202):
Trong khi kiểm định chi-squared chỉ có thể trả lời câu hỏi CĨ/KHƠNG đơn giản liên quan
đến ý nghĩa thống kê, mà không chỉ ra sự khác biệt đó nằm ở đâu (điều này ảnh hưởng rất
nghiêm trọng đến kết quả nghiên cứu trong trường hợp bảng số liệu có nhiều biến), thì phân

tích tương ứng có thể cho thấy bức tranh lớn hơn về mối quan hệ phức tạp giữa các biến (cả
những điểm tương đồng lẫn khác biệt.

Như vậy, phương pháp thống kê mơ tả nói chung và phương pháp phân tích
tương ứng nói riêng giúp khám phá những hiện tượng mới trong đó các giả thuyết
vẫn chưa được phát triển một cách hệ thống. Nói cách khác, phương pháp mô tả
giúp cho dữ liệu bước đầu bộc lộ ý nghĩa. ây là nền tảng của hầu hết các phân tích
dữ liệu định lượng vì nó tổ chức, tổng hợp và mô tả các đơn biến tại một thời điểm.
- Phƣơng pháp phân tích ngữ dụng học xã hội (socio-pragmatic analysis):
Grant (2010, tr. 522) cho rằng phải căn cứ vào các thông tin Ngôn ngữ học xã hội
để tìm ra lý do vì sao hai TG lại có những nét khác biệt trong phong cách viết. Do
đó, sau khi tính tốn và phân tích dữ liệu định lượng, phương pháp phân tích ngữ
dụng học xã hội được sử dụng để tìm hiểu cách thức mà người viết lựa chọn từ ngữ
trong các bài viết thuộc chuyên mục ý kiến. Phương pháp này có thể được áp dụng
cho nhiều trường hợp khác nhau, ví dụ như lý giải sự tương đồng giữa các TG khác
ngành nghề, hoặc lý giải sự khác biệt giữa các TG cùng ngành nghề, hoặc thậm chí
là lý giải sự khác biệt giữa các bài viết của cùng một TG.
- Phƣơng pháp so sánh đối chiếu: ược áp dụng cho việc đối chiếu các ngơn
ngữ khác nhau, cho dù chúng có quan hệ về mặt loại hình hay cội nguồn hay khơng.
Phương pháp này không nhằm phát hiện sự tương đồng về loại hình hay quan hệ cội
nguồn giữa các ngơn ngữ đó, mà nhằm mục đích ―phát hiện những sự tương đồng
và khác biệt chủ yếu trên diện đồng đại ở một hay nhiều bình diện, bộ phận của các


13

ngơn ngữ đó‖ (Mai Ngọc Chừ, Vũ

ức Nghiệu, Hồng Trọng Phiến, 2008, tr. 46).


ối với phương pháp so sánh đối chiếu, cần phân biệt ngôn ngữ là đối tượng nghiên
cứu (A) với ngôn ngữ là phương tiện nghiên cứu (B): nếu
thì B chỉ là cái đưa ra đối sánh với

là đối tượng nghiên cứu

để làm sáng tỏ những điều mà nhà nghiên cứu

quan tâm trong A mà thôi (Mai Ngọc Chừ, Vũ

ức Nghiệu, Hoàng Trọng Phiến,

2008, tr. 47). Trong luận án, phương pháp so sánh đối chiếu được dùng để tìm
những điểm tương đồng và khác biệt về mức độ ảnh hưởng của các YTTV trong
P

các văn bản báo chí của tiếng Việt và tiếng Anh. Trong đó, tiếng Việt là

ngơn ngữ có vai trị đối tượng nghiên cứu, cịn tiếng Anh là ngôn ngữ làm phương
tiện nghiên cứu.
Mặc dù luận án sử dụng nhiều phương pháp khác nhau, nhưng đều có chung
một nguyên tắc bất di bất dịch là đảm bảo độ tin cậy và độ giá trị. Cả độ tin cậy và
độ giá trị đều phải đi cùng với chất lượng của việc đo lường và chúng là hai khái
niệm có tính tương liên.

ộ tin cậy là tính nhất quán (consistent) và tính tái tạo

(replicable) của các độ đo được sử dụng.

ộ giá trị nghĩa là các độ đo, ngữ liệu


nghiên cứu và phương pháp nghiên cứu được sử dụng phải đem lại những suy luận
và kết luận có giá trị (van Peer và cộng sự, 2012).
0.4.2.2. Quy trình thực nghiệm xác định danh tính tác giả
Việc sử dụng ngơn ngữ là một q trình sáng tạo tự do; vì thế, cho dù những
quy luật và nguyên tắc của nó là cố định, nhưng hình thức sử dụng ngơn ngữ một
cách sáng tạo thì hết sức phong phú (Chomsky, 1996, tr. 99). Vậy, việc làm thế nào
để đo lường cách sử dụng ngôn ngữ của một cá nhân hoặc một nhóm người là điều
quan trọng hàng đầu. Ngồi ra, nghiên cứu

P

cần phải nỗ lực để trở nên ―có

căn cứ và có thể tái tạo‖ (Carter, 2010, tr. 68).

iều này nhấn mạnh vai trị của tính

khả chứng mà khoa học ln địi hỏi.
Vì vậy, để đảm bảo phân tích

P

có thể đưa ra kết quả ngôn ngữ định

lượng giúp kiểm chứng kết luận định tính, luận án đề xuất một quy trình thực
nghiệm X DTTG có thể tái tạo kết quả nghiên cứu dựa trên khối ngữ liệu
VVC_Stylometry. Trong nhiệm vụ X DTTG cho một VBÂD, có thể xảy ra hai
tình huống:



14

Tình huống 1: TG bị tình nghi là một trong số những người đã được khoanh
vùng, gọi là tình huống nhóm TG ứng viên đóng (closed-set authorship attribution);
Tình huống 2: TG bị tình nghi khơng nằm trong nhóm những người đã được
khoanh vùng, mà có thể là một người khác, gọi là tình huống nhóm TG ứng viên
mở (open-set authorship attribution).
Trong thực tế có thể xảy ra cả hai tình huống này. Tuy nhiên, trong lĩnh vực
nghiên cứu

P

đối với các ngôn ngữ thiếu tài nguyên số, chẳng hạn như tiếng

Việt, tình huống thơng dụng nhất và thuận tiện nhất để kiểm tra độ chính xác của
các YTTV trong các lượt X DTTG là sử dụng tập hợp TG ứng viên đóng. Tình
huống này được phát biểu như sau: Cho trước các văn bản được viết bởi một tập
hợp TG (với số lượng nhất định) và một VBÂD. Nhiệm vụ đặt ra là xác định người
có xác suất cao nhất là TG của VBÂD (PAN, 2019). Trong vụ án thực tế, số lượng
TG bị tình nghi thường khơng cố định mà có thể thay đổi, nghĩa là có khi nhiều
người bị tình nghi, cũng có khi ít người nằm trong đối tượng tình nghi. Vì vậy, mỗi
YTTV cần được khảo sát trên nhiều trường hợp với số lượng TG ứng viên khác
nhau. Luận án giới hạn khảo sát bốn trường hợp: 10 TG, 5 TG, 3 TG, hoặc 2 TG.
Ví dụ, với trường hợp nhóm gồm 10 TG, quy trình thực nghiệm như sau:
- Trước hết, chọn ngẫu nhiên 10 TG trong số 48 TG thuộc khối ngữ liệu
VVC_Stylometry và thực nghiệm X DTTG lượt thứ nhất bằng cách khảo sát một
YTTV..
- Sau lượt thực nghiệm thứ nhất, tiếp tục chọn ngẫu nhiên 10 TG khác trong số
48 TG (có thể trùng một hoặc vài người trong số 10 TG ở lượt thực nghiệm trước

đó, nhưng khơng trùng cả 10 TG).
- Tiếp tục lựa chọn nhóm 10 TG như vậy cho đến khi đủ số lượng lượt thực
nghiệm mà nhà nghiên cứu đề ra từ trước đối với YTTV cần khảo sát.
Trong luận án, 40% số lượt thực nghiệm được tiến hành trên các nhóm TG có
cùng ít nhất một thơng tin xã hội học (giới tính, ngành nghề, độ tuổi), 60% số lượt
thực nghiệm được tiến hành trên các nhóm TG khác biệt thơng tin xã hội học. Ví
dụ, trong 10 lượt thực nghiệm đối với PBCDT khi tính theo ký tự cho nhóm 10 TG:
- có 4 lượt thực nghiệm trong đó 10 TG nữ đều là nhà báo, 10 TG nữ là nhà
nghiên cứu, 10 TG nam là nhà báo, và 10 TG nam là nhà nghiên cứu);


×