__________________________________ NGƠN NGỮ 2023
SĨ 1
TRẮC HỌC PHƯƠNG NGỮ
VÀ VIỆC NGHIÊN CỨU PHƯƠNG NGỮ HỌC ĐỊA LÍ Ở VIỆT N* AM
NGUYỀN TRÀN QUÝ1
ĐINH Lư GIANG2
NGUYÊN HUỲNH LÂM3
Abstract: Dialectometrics is a quantitative and computational branch of Dialectology that uses
techniques to measure the distances and similarities between dialects and/or suo-dialects, and build the
dialectal distribution maps. The quantitative results may cover consonnants, vowels, syllable duration and
can be classified into scales and groups. In Dialectometrics, many calculative procedures and softwares can
be used. For instance, Levenshetein Distance uses matrices to calculate digitalized values. This paper
introduces Dialectometrics and suggests research directions in Vietnamese geo-dialectology.
Keywords: dialectometrics, geo-dialectology, Vietnamese dialects
1. Đặt vấn đề
Việc nghiên cứu ngữ âm phương ngữ tiếng Việt trước đây thường dựa trên các kết quả miêu
tả hơn là khảo sát thực nghiệm, trong đó có cả những kết CỊuả mang tính cảm CỊuan của nhà nghiên
cứu. Mặc dù các kết quả nghiên cứu phương ngữ học tiếng Việt từ trước đến nay rõ ràng là đã
đóng góp khơng nhỏ cho sự hiểu biết về sự khác biệt của các biến ngôn ngữ, tuy vậy, vẫn còn
những vấn đề cần nghiên cứu, mà việc điền dã, ghi chép mô tả, phân chia vùng phương/thổ ngữ
dường như cân thêm sô liệu minh chứng. Khi nghiên cứu phương ngữ, quan điêm của mỗi nhà
nghiên cứu đơi khi có tính quyết định. Chẳng hạn việc phân nhóm các biến thể ngữ âm bởi vì sự hồ
lẫn, đan xen giữa các nhóm biến thể trên phạm vi phân bố là điều không dễ dàng. Nhưng về cơ bản
vẫn cần dựa trên vị trí địa lí để thống kê và mơ tả các biến thể.
Từ năm 1982, một số nhà phương ngữ học đã áp dụng trắc học phương ngữ (Dialectometry,
viết tắt THPN) cho việc thống kê định lượng sự khác biệt ngữ âm giữa các phương ngữ. THPN
được các nhà phương ngữ học dùng như một phương pháp đo đạc, định lượng sự khác biệt về ngữ
âm giữa các phương ngữ. Phương pháp này giúp cụ thể hoá, số hoá khối liệu lớn và có thể làm cơ
sở cho việc xây dựng bản đồ phương ngữ [13], THPN được phục vụ chủ yếu cho việc mô tả phân
bố các phương ngữ và mức độ tương đồng phương ngữ (Similarities). Dựa vào các thuật toán và
thủ pháp khoảng cách (Levenshtein Distance), người nghiên cứu có thể lập bản đồ phương ngữ và
thể hiện chi tiết các thông số trên bản đồ. Tất nhiên, dữ liệu đầu vào phải là các kết quả nghiên
cứu điền dã. Sau khi tính tốn, chúng tơi dùng phần mềm Google earth pro [17] để vẽ các bản đồ.
Ưu điểm của phần mềm này là có độ chính xác cao với ảnh chụp từ vệ tinh và có thể đo được khoảng
cách địa lí. Người đọc có thể dễ dàng theo dõi diễn biến của phương ngữ thông qua sơ đồ phân nhóm.
'Nghiên cứu được tài trợ bởi Bộ Khoa học Cơng nghệ trong khn khổ Chương trình “Hỗ trợ nghiên cứu, phát
triển và ứng dụng công nghệ của công nghiệp 4.0” mã so: KC-4.0/19-25
’’2’3 Trường Đại học Khoa học Xã hội và Nhân văn - Đại học Quốc gia Thành phố Hồ Chí Minh.
40 I Ngôn ngữ số ỉ năm 2023
Các biến thể được xếp vào các nhóm từ lớn đến nhỏ dựa vào tiêu chí độ lệch chuẩn. Lúc này,
chúng ta sẽ nhận thấy không phải ranh giới phương ngữ lúc nào cũng trùng với ranh giới địa lí.
THPN khơng chỉ tập trung vào các phân tích tổng hợp, mà thay vào đó triển khai nhiều kĩ
thuật đê xác định các đặc điêm đại diện và khác biệt của các phương ngữ. Nhờ việc sơ hố dữ liệu
ngữ âm phương ngữ, nhà nghiên cứu có thể tính tốn được điểm khác biệt của phương ngữ trên
cơ sở tông hợp các yêu tô ngôn ngữ xã hội như giới tính, độ ti, trình độ văn hố. Với các ưu
điểm của THPN, người nghiên cứu có thể tính tốn được một cách số hoá dữ liệu ngữ âm phương
ngữ ở Việt Nam. Bên cạnh việc vẽ nên bức tranh phương ngữ, nhà nghiên cứu có thê dựa trên cơ
sở chung là các thuật toán đo đạc để xác định mối liên hệ của một biến thể trong tương quan với
toàn bộ các biến thể còn lại.
Bài viết này trình bày những hiểu biết của nhóm tác giả về THPN và chọn mẫu nghiên cứu
là các cộng tác viên có cùng độ tuổi và giới tính. Dữ liệu đầu vào là các bảng từ phiên âm các
giọng nói của 7 địa phương bao gồm: Hà Nội, Nghệ An, Huế, Quảng Ngãi, Lý Sơn, Sài Gòn, Trà
Vinh. Trong nghiên cứu này, chúng tôi tạm thời chưa đề cập đến truyên thông phân vùng phương
ngữ của các tác giả đi trước mà chỉ khảo sát và minh họa cho thủ pháp THPN. Bảng từ điều tra
gồm 44 âm tiết cơ bản. Các loại biến thể được quan tâm khảo sát là 4 thành phần của cấu trúc âm
tiết tiếng Việt: âm đầu, âm đệm, âm chính, âm cuối. Dữ liệu bảng điều tra phươnẹ ngữ được sưu
tập từ các cơng trình đã cơng bố của các tác giả trước đâỵ [3], [2], [14], [1], [4]. Điều kiện để chọn
cộng tác viên của các tác giả này là cộng tác viên có số năm cư trú lâu dài ở địa phương, có bố,
mẹ là người địa phương và ít di chuyển, sinh sốnẹ ở vùng khác, số lượng cộng tác viên của mỗi
vùng là 32 (16 nữ), với độ tuổi từ 18 đên 55 và đêu có trình độ học vân 12/12. Nghê nghiệp của
cộng tác viên là nơng dân, cơng nhân và nhân viên văn phịng. Các vùng được khảo sát như sau:
quận Hoàn Kiếm, thành phố Hà Nội; thành phố Vinh, tỉnh Nghệ An; huyện Sơn Tịnh, tỉnh Quảng
Ngãi; huyện đảo Lý Sơn, tỉnh Quảng Ngãi; thành phố Hồ Chí Minh (Sài Gịn); thành phố Trà
Vinh, tỉnh Trà Vinh. Dựa vào kinh nghiệm điền dã của bản thân, chúng tơi có bổ sung thêm các
biến thể phương ngữ thành phố Hồ Chí Minh. Yếu tố chuyển cư của cộng tác viên chưa được đề
cập trong khảo sát này. Việc phiên âm được dùnẹ theo chuẩn IPA nhưng loại phần thanh điệu ra
vì mục tiêu của bài viết này tập trung vào biến thể của các âm vị đoạn tính.
2. Tổng quan về trắc học phương ngữ
THPN là một nhánh của phương ngữ học, được khởi xướng nhờ hai tác giả J. Séguy và Hans
Goebl từ năm 1970 [16], THPN có đặc trưng là việc dùng máy tính và các mơ hình thống kê để
tính toán số liệu trong nghiên cứu phương ngữ. Nhờ THPN, bản đồ phương ngữ sẽ là cơ sở dữ liệu
lưu giữ các thông tin phương ngữ với khối lượng đồ sộ. Các phân loại của THPN giúp trừu tượng
hoá các đặc trưng ngơn ngữ, hay cụ thể hố một nhận định qua số liệu cụ thê.
THPN có thể xử lí dữ liệu lớn, phức tạp bởi các biến thể trải rộng khắp cấu trúc âm tiết (âm
đầu, âm chính, âm cuối). Mục tiêu tổng hợp sự khác biệt phương ngữ được hiện thực hoá qua số
liệu thống kê các mẫu. Theo phương pháp nghiên cứu phương ngữ truyền thống, các nhà nghiên
cứu tập trung nhiều vào miêu tả chi tiết các biến thể của một phương ngữ, thổ ngữ nào đó mà ít
chú ý đến mối liên hệ chung giữa các biến thể vùng miền của một ngôn ngữ.
Bước tiến của J. Séguy là tiến hành đếm sự khác biệt trong tập dữ liệu. Kết quả khác biệt từ
các nhóm được tổng hợp lại dựa trên các cặp phương ngữ, thổ ngữ. Trên bản đồ phương ngữ,
người xem có thể nhận biết sự khác biệt tổng thể và sự khác biệt cá thể của một phương ngữ.
Trắc học phương ngữ... I 41
THPN đóng góp thành tựu về kĩ thuật nhận dạng các mẫu nghiên cứu phương ngữ. Với đầu vào là
bàn phiên âm hay sơ liệu, mơ hình phân tích sẽ được chạy trên máy tính để tính tốn theo u cầu
của nhà nghiên cứu.
Trong giai đoạn đầu, THPN được xem là một thủ pháp (technique), đã được thử nghiệm trên
khu vực nói tiếng Occitan ở vùng Catalonia. Năm 1995, tác giả Kessler giới thiệu việc sử dụng
Khoảng cách Levenshtein như một công cụ đo đạc của THPN [8], Nhà nghiên cứu Kessler đã áp
dụng thành công cho việc nghiên cứu các phương ngữ của tiếng Ai Len. Kessler và Nerbonne đã
đóng góp một thủ pháp đo khoảng cách ngơn ngữ bằng số. Sau đó, thủ pháp này đã được đã được
kiểm chứng và áp dụng rộng rãi [6].
Trong nghiên cứu của một số tác giả sau đó, thuật tốn Khoảng cách Levenshtein được dùng
để so sánh biến thể của tiếng Hà Lan và Na Uy. Tác giả Heeringa cũng có bài viết về ứng dụng
thuật tốn này cho việc nghiên cứu phương ngữ Sardinia ở Địa Trung Hải [7], Nhờ sự phát triển
của công nghệ, một sổ kĩ thuật tính tốn hiện đại dùng cho ngơn ngữ học đã được vận dụng. THPN
được phát triển thêm mơ hình cân chỉnh, xác định nguồn gốc của các biến thể trong tập dữ liệu [9].
Các nhà nghiên cứu tiền nhiệm đã có suy nghĩ về hạn chế của phương pháp nghiên cứu
phương ngữ truyền thống, cần có lời giải đáp cho vấn đề khuếch tán ngôn ngữ, về những giới hạn
của những khác biệt và tương đồng giữa các vùng phương ngữ lân cận [5], Để trả lời câu hỏi này,
THPN đã được phát triển và mở rộng hơn nhằm thực hiện các mục tiêu của phương ngữ học.
Trước đây, các nhà nghiên cứu phương ngữ chỉ có thể tập trung vào địa lí để giải thích sự
biến đổi của ngôn ngữ. Giờ đây, với sự hỗ trợ của các thủ pháp trong THPN, việc nghiên cứu có
thể bao qt được các yếu tố địa lí, ngơn ngữ và xã hội. Sự khác biệt giữa các phương ngữ được
chỉ ra qua các yếu tố như: tuổi tác, giới tính, vị trí địa lí.
THPN cũng được áp dụng trong nghiên cứu ngôn ngữ học lịch đại. Nhờ những ưu điểm của
việc số hoá dữ liệu, phân nhánh này đã đóng góp thêm cơ sở lí thuyết vào việc so sánh các phương
ngữ và góp phần miêu tả chi tiết hơn sự khuếch tán phương ngữ. Tác giả Nerbonne chi ra rằng sự
tổng hợp biến thể ngôn ngữ trong một tập dữ liệu, đều được chấp nhận bởi tất cả các biến thể trong
tập dữ liệu đó [12]. Các đặc trưng của biến thể cá nhân đều có tính gây nhiễu. Nếu chi căn cứ vào
biến thể của cá nhân mà không dùng các phép tính, thuật tốn để chuẩn hố, so sánh thì kết quà sẽ
mang tính chủ quan.
2.1. Khoảng cách Levenshtein
Khoảng cách Levenshtein là một giá trị số quy ước cho việc chèn, xóa hoặc thay thế cần thiết
để chuyển đổi một chuỗi kí tự này sang một chuỗi kí tự khác [10]. Kĩ thuật đơn giản nhất là so
sánh chuồi âm tố. Trong phương pháp này, tất cà các thao tác có cùng quy ước số. Chúng ta có thể
đo khoảng cách giữa hai chuỗi kí tự phiên âm ngơn ngữ. Thuật tốn Levenshtein cho phép chúng
ta đo chính xác và tính đên sự khác biệt hoặc tương đồng giữa những cách phát âm khác nhau của
một từ. Để xác định hai chuỗi khác nhau như thế nào, cần thực hiện các thao tác như sau:
- Xoá: xoá một thành phần của chuỗi;
- Thay thế: thay thế một thành phần của chuỗi này bằng một thành phần của chuồi khác;
- Chèn: chêm một thành phần khác vào chuỗi.
42 I Ngôn ngữ số 1 năm 2023
Ví dụ: so sánh từ “đồng ý” trong tiếng Phần Lan, giữa phương ngữ Lyngby có từ [?e:ni] với
từ [e:ma] của phương ngữ Helsinki [7].
Lỵngby ?e:ni xoá ? 1
Helsinki
e:ni thay thế i 1
bàng I
e:m chèn a 1
e:nia
3
1 2 3 4 5
Helsinki ? e: n i a
Lungby
e: n I
xoá thay thế chèn
Khoảng cách chưa cân chỉnh: 3
Khoảng cách đã cân chỉnh: 3/5 = 0.6 hoặc 60 %
Khi so sánh hai chuồi âm tố, Kessler tính khoảng cách Levenshtein không chỉ khi các từ là
biến thể ngữ âm của nhau, mà cả khi chúng khác biệt về mặt từ vựng. Tác giả Kessler gọi đây là
cách tiếp cận toàn thể từ (all word). Như vậy, thủ pháp Levenshtein áp dụng được cho cả việc đối
sánh ngữ âm và từ vựng.
Trong phần này, chúng tơi minh hoạ cách tính khoảng cách Levenshtein trên cơ sở các phát
âm có cùng nghĩa “buồm”. Tạm gọi [bam] là SI và [buom] là S2. số lượng chiết đoạn (âm tố)
trong SI là m và trong S2 là n. Chúng ta thấy rằng m = 3 và n = 4. Khoảng cách Levenshtein tính
tốn giá trị tối thiểu cần thiết để thay đổi SI thành S2. Đổ thực hiện điều này, một ma trận có kích
thước (m + 1, n + 1) được áp dụng. Các hàng được đánh số từ 0.. .m và các cột từ 0... n. Khoảng
cách ô [0,0] nhận giá trị 0. Chúng ta đi qua hàng dist của ma trận, gán giá trị cho các ô khác. Bắt
đầu bằng hàng 0 và trong mỗi hàng, chúng tôi luôn bắt đầu với cột 0 (chỉ trong hàng zero chúng
tôi bắt đầu với cột đầu tiên), số hàng hiện tại là i và số cột hiện tại là j.
Cơng thức tính khoảng cách như sau:
disi J_1 X100
' '
long
dist: khoảng cách
dif: sự khác biệt
k: biến thể
long: chiều dài
Trắc học phương ngữ... I 43
Khoảng cách ngôn ngữ giữa hai biến thể (i, j) là kết quả của sự tổng hợp những khác biệt giữa chúng
liên quan đên một biên thê ngôn ngữ k và phân chia chúng theo chiêu dài của môi mục từ được so sánh.
Sau đó, cần phải cân chỉnh các chuỗi âm vị của dữ liệu sao cho các nguyên âm sẽ được so
sánh với các nguyên âm và các phụ âm so sánh với các phụ âm. Khoảng cách giữa hai chuỗi, sau
đó được thiêt lập băng cách so sánh từng kí tự: nêu các kí tự giơng nhau tại một vị trí phù hợp
trong mỗi chuỗi, khoảng cách sẽ có kết quả là 0. Nếu cân chinh hai kí tự khác nhau thì khoảng
cách sẽ được đo bằng 1. Khoảng cách giữa hai chuỗi là tổng của khoảng cách kí tự.
2.2. Các bước xử lí số liệu trên máy tính
Q trình xử lí trên máy tính để tạo ra bàn đồ phương ngữ gồm có 6 bước. Khi có được bảng
từ đối chiếu giữa các phương ngữ, các bước tiếp theo sẽ như sau:
Bước 1: Thu thập dữ liệu
Bước 2: Khảo dữ liệu (data inspection), bao gồm việc xây dựng bản đồ chỉ số (index map),
xem xét tổng quan dữ liệu (data overview), xây dựng bàn đồ phân bố ban đầu (distribution maps)
Bước 3: Đo đạc khoảng cách ngôn ngữ (measurement of linguistic distances), bao gồm:
- phiên âm ngữ âm học
- cân chinh chuồi (string alignments)
- khoảng cách mục từ (item distances)
- tổng hợp (aggregation)
- ma trận khoảng cách (distance matrix)
Bước 4: Xác định sự khác biệt ngôn ngữ (linguistic differences), gồm:
- xây dựng bản đồ về sự khác biệt ngôn ngữ (difference maps)
- so sánh với khoảng cách địa lí
- xây dựng bản đồ điểm tham chiếu (reference point maps)
Bước 5: Phân tích thống kê và lập bản đồ (statistical analyses and mappings)
- thang đo đa chiều (multidimensional scaling)
- gom nhóm riêng rẽ (discrete clustering)
- gom nhóm hỗn hợp (fuzzy clustering)
- công nhận nhóm (cluster validation)
Bước 6: Khai thác dữ liệu (data mining)
- xác định các định tố nhóm (cluster determinants)
- xây dựng bàn đồ phân bố (distribution maps)
2.3. Thống kê theo thang đo đa chiểu
Thang đo đa chiều (multidimensional scaling) là một kiểu thống kê được sử dụng để nghiên
cứu các vùng chuyển tiếp (dialect continua). Thang đo đa chiều là một kỳ thuật trình bày khoảng
44 I Ngôn ngữ số 1 năm 2023
cách giữa các đối tượng, được đo từ một tập hợp các biến thể được mã hóa trong một ma trận
khoảng cách, với một tập hợp các vị trí có liên hệ. Điều quan trọng cần lưu ý ở đây thang đo đa
chiều sẽ cung cấp một phương pháp toán học để định vị các đối tượng cần so sánh (ngôn ngữ hoặc
phương ngữ) trong một khơng gian hình học được xác định bởi hai hoặc nhiều trục.
Mục đích của việc dùng thang đo đa chiều là cung cấp một cách trình bày trực quan về mẫu
khoảng cách giữa một tập hợp các yếu tố. Khoảng cách ngôn ngữ tổng hợp giữa các cặp đôi được
phân tích và một tập hợp các điểm trong khơng gian chiều thấp được trả về sao cho khoảng cách
giữa các điểm xấp xỉ bằng khoảng cách ban đầu. Khi áp dụng cho việc phân tích dữ liệu phương
ngữ, thang đo đa chiều thường giải thích ít nhất khoảng 90% tổng số biến thể trong dữ liệu [11,
15], Kết quả được trình bày trên đồ thị có hệ tọa độ Descartes. VỊ trí hai điểm càng gần nhau thì
khác biệt ngơn ngữ càng nhỏ.
Khi áp dụng thủ pháp cân chỉnh khoảng cách chuỗi để đo khoảng cách ngôn ngữ trong tập dữ
liệu, khoảng cách giữa hai phương ngữ được tính tốn cho tất cả các biến thể được dùng trong
khảo sát phương ngữ. Sau đó, khoảng cách tổng hợp giữa hai phương ngữ được tính là mức trung
bình của tất cả các khoảng cách biến thể.
2.4. Vùng chuyển tiếp phương ngữ
Vùng chuyển tiếp phương ngữ (Dialect continuum) là khu vực có sự lan truyền của các biến
thể ngôn ngữ được sử dụng trong hai khu vực tiếp giáp nhau sao cho các biến thể ở đường tiếp giáp
chỉ khác nhau ít nhất có thể. Tuy vậy, sự khác biệt thường được tích lũy theo khoảng cách. Người
dân ở khu vực lân cận thường dễ hiểu phát âm của nhau. Còn người dân ở khu vực xa hơn sẽ thấy
khó hiểu hơn.
Ở các vùng có cư dân định cư lâu đời, vùng chuyển tiếp phương ngữ xuất hiện khi sự thay
đổi mới lan rộng từ các điểm xuất phát khác nhau dưới dạng sóng. Trong tình huống này, việc
phân loại các biến thể theo nhóm là khơng thực tế. Thay vào đó, các nhà phương ngữ học lập bản
đồ ghi chú biến đổi của các đặc điểm ngôn ngữ khác nhau trên một vùng chuyển tiếp phương ngữ,
vẽ các đường đồng ngữ giữa các khu vực khác nhau theo một số đặc điểm [5],
Như vậy, để xác định được đường đồng ngữ cần yếu tố tiên quyết là định vị vùng phương
ngữ. Thực tế cho thấy, ngôn ngữ luôn vận động với sự di cư, giao thoa văn hoá vùng miền. Do đó,
xác định vùng phương ngữ theo cách truyền thống [2] sẽ vơ hình chung loại bỏ những biểu hiện
vận động đương đại của ngữ âm địa phương.
THPN với sự rộng mở của dữ liệu đầu vào cho phép nhà nghiên cứu có thể miêu tả sâu sắc,
chi tiết từng biến thể địa phương. Đường đồng ngữ hay bó đường đồng ngữ nếu có sẽ được xác
định. Điều quan trọng là nhà nghiên cứu có thể tính tốn được sự phân bố của các biến thể để xác
định được đâu là đường đồng ngữ hội tụ.
3. Áp dụng THPN trong nghiên cứu phương ngữ tiếng Việt
3.1. Thí dụ một nghiên cứu phương ngữ tiếng Việt theo hướng THPN
Nhằm minh họa cho kĩ thuật THPN, chúng tôi sử dụng 1 bảng hỏi 44 từ khảo sát tại 7 địa
phương khác nhau. Kết quả phân tích độ khác biệt của 44 từ này tại 7 địa phương có thể thấy ở Sơ đồ 1.
Trắc học phương ngữ, I 45
Sơ đồ ỉ. Sơ đồ nhánh về độ khác biệt giữa các giọng ở Việt Nam
Trong Sơ đồ 1, sự khác về ngữ âm đã được so sánh trên các cặp giọng địa phương, trên cơ
sở so sánh đối chiếu một khu vực với toàn thể các khu vực khác nhàm chỉ ra mức độ của sự khác
biệt. Mồi một khu vực được tính đến mối tương quan chặt hay lỏng với khu vực liền kề hay bất kì
khu vực nào khác trên lãnh thổ Việt Nam trên cơ sở số liệu ngơn ngữ. Cặp giọng Lý Sơn, Quảng
Ngãi có độ khác biệt 0.011. Với trị số khác biệt này, ngữ âm Lý Sơn và Quảng Ngãi tương đồng
cao nhất khi so với các khu vực khác. Cặp giọng Sài Gòn và Trà Vinh có trị số khác biệt là 0.021,
cao hơn so với cặp Lý Sơn, Quảng Ngãi. Theo thang độ, giọng Huế có khác biệt ngơn ngừ cao hơn
nên được xếp vào nhánh lớn hơn. Cở sở của việc thiết lập sơ đồ nhánh phương ngừ này là trị số
độ khác biệt của các phương ngữ. Điểm quy về gốc của các phương ngữ sẽ là 2 nhánh lớn. Nhờ
sơ đồ này, nhà nghiên cứu có thể nhận định khái quát về mối liên hệ ngôn ngữ giữa các phương ngữ.
Quan sát sơ đồ 1, chúng ta có thể dễ dàng xác định được phương ngữ nào có điểm tương
đồng hoặc điểm khác biệt cao nhất so với một phương ngữ bất kì. Theo bảng 1, nếu chọn giọng
Hà Nội làm tiêu điểm so sánh, thì giọng Nghệ An có tương đồng với giọng Hà Nội cao nhất
(0.034). Giọng Quảng Ngãi có độ sai biệt cao nhất (0.238). Xét về nhóm phương ngữ, cặp giọng
Hà Nội và Nghệ An có độ sai biệt lớn nhất so với các giọng còn lại. Mỗi một giọng được xác định
vị trí trong sơ đồ nhánh nhờ thơng số dị biệt. Các giọng có nhiều điểm tương đồng với nhau hơn
thì được xếp cùng nhóm. Độ sai biệt về khoảng cách ngơn ngữ được tính trong thang độ từ 0.00
đến 0.240. Như vậy, có thể chia phương ngữ tiếng Việt thành hai nhóm chính. Trong mỗi nhóm
lại có các nhánh thổ ngữ. Tất cả các thổ ngữ đều có thể được tính tốn dị biệt qua sơ đồ nhánh.
Bảng 1. Bàng thống kê khác biệt ngôn ngữ giữa các phương ngữ tiếng Việt
Sài Gòn Hà Nội Huế Quảng Ngãi Lí Sơn Trà Vinh Nghệ An
Sài Gịn 0.000 0.228 0.080 0.082 0.071 0.021 0.210
Hà Nội 0.228 0.000 0.157 0.238 0.228 0.226 0.034
Huế 0.080 0.157 0.000 0.089 0.079 0.090 0.130
Quảng Ngãi 0.082 0.238 0.089 0.000 0.011 0.092 0.214
Lý Sơn 0.071 0.228 0.079 0.011 0.000 0.080 0.204
Trà Vinh 0.021 0.226 0.090 0.092 0.080 0.000 0.208
Nghệ An 0.210 0.034 0.130 0.214 0.204 0.208 0.000
46 I Ngôn ngữ số 1 năm 2023
Trong bảng 1, mỗi giọng được đối chiếu về khoảng cách ngôn ngữ với tất cà các giọng còn lại.
Đây là dữ liệu cơ sờ để thiết lập các bảng biêu, sơ đô, bản đô phương ngữ. Các cơng trình nghiên
cứu về phương ngữ trước đây chưa tính đến các thơng số sai biệt ngơn ngữ giữa các phương ngữ.
Biểu đồ 1. Biểu đồ tương ứng khác biệt ngôn ngữ với khoảng cách địa líphương ngữ
Quan sát Biểu đồ 1, sự khác biệt phương ngữ có sự chênh lệch lớn từ Nghệ An đến Lý Sơn.
Tuy nhiên, cũng có những cặp phương ngữ có vị trí địa lí gần nhau và độ khác biệt phương ngữ
không cao như cặp phương ngữ Hà Nội - Nghệ An, Lý Sơn - Quảng Ngãi, Sài Gòn - Trà Vinh.
Theo chiều dài địa lí Việt Nam, Trà Vinh là điểm xa nhất nhưng khơng phải là nơi có sự khác biệt
cao nhất so với Hà Nội. Phương ngữ có sự khác biệt lớn nhất so với Hà Nội là Quảng Ngãi. Điều
này cho thấy, sự khác biệt về ngơn ngữ khơng hồn tồn tỉ lệ thuận với khoảng cách địa lí.
Bản đồ 1: Bản đồ phương ngữ tiếng Việt Dựa trên số liệu thu thập và thông qua các
bước xử lí của THPN, chúng tơi xây dựng được
các bản đồ phương ngữ tiếng Việt. Quan sát trên
Bản đồ 1, có thể dễ dàng nhận ra điểm khác biệt
theo thang độ màu sắc. Từ bản đồ này, có thể
phân nhóm các thổ ngữ vào các phương ngữ
chính. Giọng Hà Nội được đối chiếu lần lượt với
6 giọng địa phương còn lại - là các đối tưựng
của nghiên cửu. Màu hiển thị ở mồi vùng cho
thấy sự khác biệt ngữ âm. Tất cả những sự khác
biệt về màu trên bàn đồ phương ngữ đều là kết
quả của việc tính tốn độ sai biệt giữa các biến
thể với hằng thể. Màu sắc này được chọn theo
chuẩn RGB. Hai vùng có nhiều tưotig đồng ngữ
âm sẽ có màu sắc gần giống nhau và ngược lại.
Do đó, tuỳ vào sự biểu hiện đa dạng của biến thể
ngữ âm ở các khu vực, THPN sẽ đo đạc và trực
quan hoá dữ liệu ngữ âm phương ngữ.
Trắc học phương ngữ.. I 47
Bản đồ 1. Bàn đồ mối liên hệ giữa các phương ngữ Bản đồ 2 cho thấy các cặp phương ngữ có
tiếng Việt tương đông ngữ âm như cặp phương ngữ Hà Nội
- Nghệ An, Quảng Ngãi - Lý Sơn, Sài Gòn - Trà
Vinh. Phương ngữ tiếng Việt vốn chứa đựng
một lượng lớn các biến thể phát âm ở các vùng
khác nhau trong cùng một lãnh thổ của ngôn
ngữ. Tất cả các cặp biến thể này đều được so
sánh để đo đạc khoảng cách hội tụ giữa các biến
thể phương ngữ. Rõ ràng là qua quan sát bản đồ
này, người đọc có thể nhận ra mối liên hệ về
ngôn ngữ giữa từng cặp phương ngữ.
về mặt chi tiết, từng biến thể cụ thể có thể
được hiển thị trực quan trên bản đồ phương ngữ.
Ví dụ: mục từ “tay” giọng Hà Nội được
dùng để so sánh lần lượt với các địa phương còn
lại theo cách thức các âm tiết của các giọng địa
phương đều lấy giọng Hà Nội làm điểm đối chiếu.
Ha Noi - Sai Gon Ha Noi - Ly Son
■■ °
Sau đó, các kết quả này được tổng hợp lại và tiến hành xử lí các thuật tốn, ma trận để cho ra
kết quả tổng hợp. Sự khác biệt của âm tiết “tay” giọng Hà Nội được quy ra con số khi so với giọng
địa phương khác. Neu hai địa phương giống nhau thì kết quả so sánh là 0. Khác biệt nhiều hơn thì
số sẽ tăng lên. So sánh âm tiết “tay”, giọng Hà Nội và giọng Sài Gịn có khác biệt ở âm chính nên
quy ra giá trị 1. Tiếp tục so sánh với giọng Quàng Ngãi thì kết quả là 2 vì có 2 sự khác biệt.
Các biến thể có thể được kiểm tra xem sự phân bổ của nó trên các phương ngữ như thế nào. Mỗi
một biến thể sẽ được thể hiện trên một bản đồ giúp tiện cho việc quan sát. Ví dụ, người nghiên cứu có
thể kiểm tra sự phân bố biến thể từ “cắt”. Kết quà cho thấy ở Huế, Sài Gịn và Trà Vinh đều có biến
thể [kăk] tương ứng. Trong Bàn đồ 3 bên dưới, biến thể [kăk] cho biết màu tương ứng của các vùng
48 I Ngôn ngữ số ỉ năm 2023
đồng nghĩa với biến thể phân bố giống nhau. Tương tự cách này, các biến thể khác có thể được kiểm
tra xem có bao nhiêu biến thể cho một âm vị và sự phân bố của chúng trên bản đồ địa lí như thế nào.
o Hà Nội
o Nghệ An
Lý Sơn
° o
Quàng Ngãi
Bàn đồ 3. Sự phân bố của biến thể [kăk] Hình 2. Trục thang đo đa chiềuphương ngữ tiếng Việt
ở các phương ngữ
CÓ thể quan sát trục được đánh dấu bởi mũi tên đứt quãng chia thành hai khu vực, giọng Hà
Nội, Vinh với phần còn lại như ví dụ ở Hình 2.
Thang đo đa chiều trình bày két quả của ma trận khoảng cách giữa các thổ ngữ dựa trên thang
đo hai chiều. Các điểm càng gần nhau thì có sự khác biệt ngôn ngữ càng nhỏ và ngược lại. Đường
kẽ mũi tên phân chia các nhóm thổ ngữ.
Sự không đồng nhất của thổ ngữ dựa trên ý tưởng phương ngữ ở một địa điểm ít khác với
phương ngữ gần nó, so với phương ngữ của một địa điểm khác, vẫn ở vùng lân cận, nhưng xa hơn
một chút. Sự khác biệt giữa các địa điểm cách xa nhau về mặt địa lí bị loại bỏ, bời vì có thể mức
độ trùng họp ngẫu nhiên được tính đến.
Mũi tên liền mạch được dùng chỉ vùng 1. Mũi tên đứt quãng chỉ vùng 2.
Giá trị biến thể thấp tương ứng với vị trí gốc của mũi tên. Ở vị trí đầu mũi tên, tương ứng với
giá trị biến thể cao. Trong cà 2 vùng, ở điểm gốc mũi tên đứt quãng và mũi tên liền mạch đều có
giá trị thấp. Ở đỉnh mũi tên, các phương ngữ sẽ có sự chia sẻ một số đặc điểm ngữ âm cho nhau
lớn hơn ở điểm gốc mũi tên.
Trắc học phương ngữ... I 49
Như vậy, vùng 1 phác họa những khác biệt cơ bản, chung của tất cả các phương ngữ đang
xét. Vùng 2 sẽ đi sâu vào từng khác biệt cụ thể giữa các phương ngữ. Nhờ đó, các kết quả về ranh
giới phương ngữ trở nên dễ dàng quan sát hơn khi được trực quan trên các bản đồ phương ngữ.
Mặc dù biểu hiện ngữ âm ngơn ngữ mang tính tự nhiên, rất phong phú các biến thể, nhưng
dưới góc độ một nhà nghiên cứu, họ luôn muốn khái quát lên những điểm tiêu biểu cho từng vùng
phương ngữ. Với thủ pháp Thang đo đa chiều, các nhà ngơn ngữ có thể bổ sung thêm những chi
tiết cho các đặc điểm ngữ âm phương ngữ qua các vùng được đánh dấu bằng màu sắc.
Bởi tính khơng thống nhất của địa phương mà chúng ta có thể dùng nhiều phép đo đạc cho
một khu vực. Kết quả đo đạc phụ thuộc rất lớn vào địa lí của khu vực và sự phân bố của các biến thể.
3.2. Mức độ áp dụng THPN và những hạn chế
Thủ pháp THNP sẽ càng chính xác nếu như số lượng các đơn vị ngữ âm khảo sát ngày càng
lớn và nhiều tham số khác của người nói được đưa vào thang đo. Đặc điểm đa biến (variatism) của
thủ pháp này dựa trên các tiền đề của NNHXH, bao gồm các tham tố có thể khai thác như giới
tính, tuổi tác. Lí do nằm ở chồ việc xác định các đặc điểm phương ngữ học của các yếu tố ngôn
ngữ từ trước đến nay đều theo khuynh hướng tiêu thể, nghĩa là lấy các đặc trưng chung, khái quát,
đại diện làm đặc trưng mô tả. Như vậy, càng nhiều đơn vị được khảo sát, càng nhiều tham tố của
người nói được đưa vào đo, thì khả năng đưa ra kết quà chính xác càng cao.
Chính vì vậy, một số hạn chế của THPN sẽ có thể được nhận ra khi dữ liệu khảo sát không
đủ lớn, hoặc khi các phương ngữ/thổ ngữ được khảo sát nằm trong những vùng chuyển tiếp và có
các đường đồng ngữ phức tạp. Một khó khăn nữa là việc xác định khoảng cách địa lí giữa các khu
vực cận kề nhau với những vùng phương ngữ khó xác định tâm.
4. Kết luận
Việc nghiên cứu ngữ âm phương ngữ ln cần có những cứ liệu ngữ âm như bản phiên âm
IPA, các tệp tin thu âm để tiện cho việc kiểm tra lại của các nhà nghiên cứu ngữ âm khác. Nghiên
cứu này đã kiểm chứng nét đặc trưng phương ngữ một cách có hệ thống. Tuỳ theo vùng miền, biến
thể ngữ âm đều có độ lệch chuẩn nhất định và theo quy luật phân bố. Khi áp dụng thủ pháp nghiên
cứu Khoảng cách Levenshtein và các phần mềm hỗ trợ, nhà nghiên cứu có thể tính tốn được
khoảng cách ngôn ngữ giữa các phương ngữ, thổ ngữ. Các bàn đồ phương ngữ Tiếng Việt nhờ đó
có thể sẽ được xây dựng một cách có cơ sở hơn, chứa các thông tin cần thiết cho người nghiên cứu
phương ngữ. Đặc trưng ngữ âm các phương ngữ tiếng Việt đều có thể được số hố. Sự phân bố
của mỗi một biến thể ngơn ngữ đều có thể được đánh dấu trên bản đồ. Sự khác biệt về ngôn ngữ
giữa các thổ ngữ thể hiện trực quan hơn trên sơ đồ nhánh. Điều quan trọng là với THPN, người
nghiên cứu có thể xử lí nguồn dữ liệu phương ngữ rất lớn và phức tạp.
Tóm lại, khi dùng thủ pháp nghiên cứu của THPN, nhà nghiên cứu sẽ có được góc nhìn trực
quan, sinh động về bức tranh phương ngữ của tiếng Việt. Hơn nữa, người nghiên cứu có thể so
sánh các ngơn ngữ trong nhóm với nhau để tìm những dấu vết ngữ âm lịch sử.
50 I Ngôn ngữ số ỉ năm 2023
PHỤ LỤC
Bảng từ 7 địa phương được khảo sát
1 23 4 5 6 7 8 9 10 11 12 13 14 15
hoa qua sa va gia oan cau cao suy hoe khuya khoai rơ toa ln
Sài Gịn wa wa sa ja ja wag kaw kaw si he fie faj go to lit)
Hà Nội hwa kwa ga va za ?wan kăw kaw §wi hwe %wie /waj zo twa lwõn
Huế hwa kwa sa va ja wag kaw kaw si he %wie xwaj ro to lwõn
Quảng Ngãi wa wa sa ja ja wag kaw kaw si he /wie %waj ro to lwõn
Lý Sơn wa wa sa ja ja wag kaw kaw si he xwie %waj ro to lwõn
Trà Vinh wa wa sa ja ja wag kaw kaw si he fie faj go to líi)
Nghệ An hwa kwa ga va za ?wan kăw kaw gwi hwe xwie xwaj ro twa lwõn
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
xuất nêm đất Cơm bên chết bệnh kênh hưu chuối tra cắt tươi buồm làm
Sài Gòn xit nim dăk kom bon cok bịp kịp hu cuj ta kăk ti bom lam
Hà Nội xwõt nem dot kom ben cet bẹp keji hiw cuoj ca kãt tioj buom lam
Huế xít nim dõt kom bon cok bịp kịp hiw cuj ta kăk tioj bom lam
Quảng Ngãi xit nim dăk kom bon cok bip kip hu cuj ta kek ti bim lom
Lý Sơn xit nim dăk kom bon cok bip kíp hu cuj ta kek ti bim lom
Trà Vinh xit nim dầk kom bon cok bịp kịp hu cuj ta kăk ti bom lam
Nghệ An xwăt nem dot kom ben cet bẹp kẹp hiw cuoj ca kăt tioj buom lam
31 32 33 34 35 36 37 38 39 40 41 42 43 44
tay tiên tương tăm tan tang tạt trơ it quay tre in tóc xoăn
Sài Gịn taj ciw nik ăỊ) tag tag tak to ic wăj t£ ịn tok săn
Hà Nội
tăj ciew niok ăn tan tag tat co it kwăj CE in tok swan
Huế tăj ciw nik ãi) tag tag tak to ic wăj t£ ĩn tok swăn
eg tag tog tak tow ic wăj t£ ịn tak seg
Quảng Ngãi te ciw nik CT) tag tog tak tỏw ic wăj t£ ìn tok săn
Lý Sơn te ciw nik ăg tag tag tak to ic waj te ặ) tok săn
Trà Vinh taj ciw nik
Nghệ An tăj ciew niok ăn tag tag tat co it wăj t£ ặ) tok swăn
Trắc học phưong ngữ... I 51
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Trần Thị Thúy An, Vài đặc điểm ngữ âm thổ ngữ Lí Sơn, Quảng Ngãi, Ngơn ngữ & Đời sống, 2015.
2. Hoàng Thị Châu, Phương ngữ học tiếng Việt, Đại học Quốc gia Hà Nội, 2004.
3. Andrea Hoa Pham, Sự biến âm trong vần tiếng Việt: Thổ ngữ làng Hến, huyện Đức Thọ, tinh Hà Tĩnh,
Ngôn Ngữ, 11,7-26,2016.
4. Vũ Thị Thắng, Bức tranh vềphương ngữ trong địa danh Thanh Hóa, Ngôn ngữ & Đời sống, số 3 (221), 2014.
Tiếng Anh
5. Chambers J.K., Trudgill p., Dialectology, 2 ed, Cambridge, Cambridge University Press, 1998.
6. Gooskens c., Heeringa w., Perceptive evaluation ofLevenshtein dialect distance measurements using
Norwegian dialect data, Language variation change, 16 (3), 189-207,2004.
7. Heeringa W.J., Measuring dialect pronunciation differences using levenshtein distance, University
Library Groningen, 2004.
8. Kessler B., Computational dialectology in Irish Gaelic, EACL, 1995 (Dublin).
9. Kondrak G., Phonetic alignment and similarity, Computers the Humanities, 37 (3), 273-91, 2003.
10. Kruskal J.B., An overview of sequence comparison: Time warps, string edits, and macromolecules,
SIAM review, 1983, 25 (2), 201-37.
11. Leinonen T.N., An acoustic analysis of vowel pronunciation in Swedish dialects, Rijksuniversiteit
Groningen, 2010.
12. Nerbonne J., Data-driven dialectology, Language Linguistics Compass, 2009, 3 (1), 175-98.
13. Osenova p., Heringa w., Nerbonne J., A Quantitative analysis of Bulgarian dialect pronunciation,
Zeitschrift fur slavische Philologie, 2009, 66 (2), 425.
14. Thompson L.C., A Vietnamese grammar, Seattle, University of Washington, 1965.
15. Valls E., Nerbonne J., Prokic J., Wieling M., Clua E., Lloret M-R., Applying the levenshtein distance to
Catalan dialects: A brief comparison of two dialectometric approaches, Anuario Galego de Filoloxia,
Verba, 39, 35-61,2012.
16. Séguy J., La dialectométrie dans I'Atlas linguistique de la Gascogne, Société de linguistique romane, 1973.
17. About Google Earth Pro Mapping & Analytics Platform [Internet], 2019. Available from: Available:
Earth Pro/about-Google Earth Pro/overview.