Tải bản đầy đủ (.pdf) (117 trang)

Ứng dụng kỹ thuật học máy trong xây dựng mở rộng kho ngữ liệu bana kriêm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.76 MB, 117 trang )

BỘ GIÁO DỤC VÀ ĐÀO TAO
TRƢỜNG ĐẠI HỌC QUY NHƠN

PHAN TRỌNG NGHIỆP

ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG XÂY
DỰNG MỞ RỘNG KHO NGỮ LIỆU BANA KRIÊM

LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG

Bình Định - Năm 2023

BỘ GIÁO DỤC VÀ ĐÀO TAO
TRƢỜNG ĐẠI HỌC QUY NHƠN

PHAN TRỌNG NGHIỆP

ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG XÂY
DỰNG MỞ RỘNG KHO NGỮ LIỆU BANA KRIÊM

Ngành : Khoa học dữ liệu ứng dụng
Mã số : 8904648

Ngƣời hƣớng dẫn: TS. VÕ GIA NGHĨA

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn ‗Ứng dụng kỹ thuật học máy trong xây
dựng mở rộng kho ngữ liệu Bana Kriêm’ là cơng trình nghiên cứu của bản
thân dƣới sự hƣớng dẫn của TS. Võ Gia Nghĩa. Mọi tham khảo từ các tài liệu,
cơng trình nghiên cứu liên quan trong nƣớc và quốc tế đều đƣợc trích dẫn rõ


ràng trong luận văn. Các số liệu, kết quả trình bày trong luận văn là hồn tồn
trung thực. Tơi xin hồn tồn chịu trách nhiệm về lời cam đoan này.

LỜI CẢM ƠN
Trong q trình thực hiện và hồn thiện luận văn này, tôi xin gửi lời cảm
ơn chân thành nhất đến các thầy cơ trong Khoa Tốn và Thống kê, khoa Công
nghệ thông tin, khoa Kỹ thuật công nghệ trƣờng Đại học Quy Nhơn cũng nhƣ
các thầy thính giảng ở các trƣờng, các viện ở Hà Nội và thành phố Hồ Chí
Minh đã cung cấp cho tơi những kiến thức quý báu trong suốt quá trình học
tập tại trƣờng. Đặc biệt cho tôi gửi lời cảm ơn sâu sắc nhất tới TS. Võ Gia
Nghĩa đã dành nhiều thời gian để định hƣớng và nhiệt tình hƣớng dẫn tơi
cũng nhƣ tạo mọi điều kiện thuận lợi để tơi có thể hồn thành tốt nhất luận
văn của mình.

Tôi xin chân thành cảm ơn!
Bình Định, tháng 9 năm 2023
Học viên

Phan Trọng Nghiệp

MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC CÁC CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH
PHẦN 1. MỞ ĐẦU ..................................................................................................................... 1

1. Lý do chọn đề tài....................................................................................... 1
2. Mục tiêu nghiên cứu.................................................................................. 2

3. Đối tƣợng và phạm vi nghiên cứu............................................................. 3

3.1. Đối tƣợng nghiên cứu ........................................................................ 3
3.2. Phạm vi nghiên cứu............................................................................ 3
4. Phƣơng pháp nghiên cứu........................................................................... 3
5. Tính ứng dụng của đề tài........................................................................... 4
6. Bố cục luận văn ......................................................................................... 5
PHẦN 2. NỘI DUNG CHÍNH ................................................................................................ 6
CHƢƠNG 1. TỔNG QUAN ................................................................................................. 6
1.1. Một số đặc điểm của tiếng Bana ............................................................ 6
1.1.1. Ngƣời Bana ..................................................................................... 6
1.1.2. Ngôn ngữ tiếng Bana .................................................................... 13
1.1.3. Từ điển Bana Kriêm...................................................................... 13
1.1.4. Một số quy luật của tiếng Bana..................................................... 15
1.2. Tình hình nghiên cứu ........................................................................... 15
1.2.1. Tình hình nghiên cứu ngoài nƣớc ................................................. 15
1.2.2. Tình hình nghiên cứu trong nƣớc.................................................. 29
1.2.3. Tình hình nghiên cứu trong tỉnh Bình Định.................................. 36
1.2.4. Tình hình nghiên cứu ngôn ngữ tiếng Bana Kriêm ...................... 37

CHƢƠNG 2. GIẢI PHÁP CHUYỂN ĐỔI VĂN BẢN TỪ PDF SANG DẠNG SỐ
.......................................................................................................................................................... 39

2.1. Tổng quan về Tesseract........................................................................ 39
2.1.1. Tiền xử lý ảnh ............................................................................... 40
2.1.2. Thƣ viện Tesseract ........................................................................ 41
2.1.3. Cách Tesseract hoạt động ............................................................. 42
2.1.4. Hạn chế của Tesseract ................................................................... 43

2.2. Công cụ Pytesseract ............................................................................. 44

2.3. Thƣ viện OpenCV ................................................................................ 44
2.4. Tổng quan về thuật giải Heuristic ........................................................ 48

2.4.1. Heuristic là gì ................................................................................ 48
2.4.2. Heuristic dùng để làm gì ............................................................... 49
2.4.3. Ƣu điểm của thuật giải Heuristic .................................................. 49
2.4.4. Phƣơng pháp xây dựng thuật giải Heuristic.................................. 49
2.4.5. Tìm kiếm kinh nghiệm (Heuristic Search) ................................... 50
2.5. Phƣơng pháp tiếp cận ........................................................................... 51
2.5.1. Phƣơng pháp thu thập dữ liệu ...................................................... 51
2.5.2. Phƣơng pháp làm giàu dữ liệu (data augmentation) ..................... 51
2.5.3. Phƣơng pháp tiền xử lý dữ liệu ..................................................... 53
2.5.4. Các mơ hình huấn luyện................................................................ 54
CHƢƠNG 3. NHỮNG NỘI DUNG NGHIÊN CỨU ĐỀ XUẤT GIẢI PHÁP
XÂY DỰNG MỞ RỘNG KHO NGỮ LIỆU BANA KRIÊM VÀ KẾT QUẢ
ĐẠT ĐƢỢC ................................................................................................................................ 60
3.1. Nguồn ngữ liệu..................................................................................... 60
3.2. Nội dung nghiên cứu đề xuất giải pháp xây dựng mở rộng kho ngữ liệu
Bana Kriêm ................................................................................................. 61
3.2.1. Thu thập, xử lý và lƣu trữ dữ liệu mẫu ........................................ 61
3.2.2. Xây dựng kho ngữ liệu Bana Kriêm ............................................. 62

3.2.3. Nghiên cứu và xây dựng giải pháp dịch Việt-Bana làm giàu dữ
liệu, sử dụng các phƣơng pháp học sâu .................................................. 70
3.3. Kết quả đạt đƣợc .................................................................................. 72
3.3.1. Dữ liệu đã thu thập ....................................................................... 72
3.3.2. Bộ ngữ liệu tiếng Bana Kriêm ...................................................... 82
3.3.3. Mơ hình nhận dạng văn bản từ hình ảnh....................................... 84
3.3.4. Xử lý vấn đề mất cân bằng tài nguyên và vay mƣợn từ trong bài
toán dịch máy Việt - Bana....................................................................... 86

3.3.5. Giải pháp dịch tự động từ tiếng Việt sang Bana Kriêm................ 92
PHẦN 3. KẾT LUẬN...............................................................................................................95
DANH MỤC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ CỦA TÁC GIẢ .....96
DANH MỤC TÀI LIỆU THAM KHẢO ..........................................................................97
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (BẢN SAO).........................................106

Tên viết tắt DANH MỤC CÁC CHỮ VIẾT TẮT
DTTS
KH&CN Tên đầy đủ
UBND Dân tộc thiểu số
KHXH Khoa học và Công nghệ
OCR Ủy ban nhân dân
WER Khoa học xã hội
CER Optical Character Recognition
LSTM Word Error Rate
PDF Char Error Rate
RNN Long Short-Term Memory
Portable Document Format
OpenCV Recurrent Neural Network
I/O
Open Source Computer Vision
GUI
API Input/ Output
NN Graphical User Interface
CNN Application Programming Interface
NLP Neural Network
BPTT Convolutional Neural Network
DL Neuro-Linguistic Programming
NMT Backpropagation Through Time
GNMT Deep Learning

HAN Neural Machine Translation
BERT Google Neural Machine Translation
TBMP Hierarchical Attention Network
Bidirectional Encoder Representations from Transformers
Transformer with BERT-fused and Masked Pointer Generator

DANH MỤC CÁC BẢNG

Bảng 1.1 Tóm tắt của các cơng trình có ngơn ngữ nguồn là tiếng Việt ......... 35
Bảng 3.1 Các kí tự bị lỗi thƣờng xuyên .......................................................... 78
Bảng 3.2 Kết quả so sánh ocr thô và heuristic ................................................ 83
Bảng 3.3 So sánh kết quả chuyển ngữ giữa các mơ hình ............................... 89
Bảng 3.4 Ví dụ chuyển ngữ so sánh giữa các mơ hình................................... 91
Bảng 3.5 Một số kết quả dịch minh hoạ ......................................................... 94

DANH MỤC CÁC HÌNH

Hình 1.1 Nghi thức cúng vợt sợi bơng của ngƣời Bana ................................... 6
Hình 1.2 Ngƣời Bana ........................................................................................ 7
Hình 1.3 Nhà rơng của ngƣời Bana................................................................... 8
Hình 1.4 Phụ nữ Bana dệt vải ........................................................................... 9
Hình 1.5 Đồng bào Bana chủ yếu sinh sống nhờ nƣơng rẫy .......................... 10
Hình 1.6 Lễ hội của ngƣời Bana ..................................................................... 11
Hình 1.7 Múa cồng chiêng trong lễ hội đâm trâu ở Vĩnh Thạnh.................... 12
Hình 1.8 Từ điển chữ Bana Kriêm Bình Định ................................................ 13
Hình 1.9 Bảng Chữ cái và Dấu tiếng Bana ..................................................... 14
Hình 1.10 Kiến trúc model CRAFT................................................................ 17
Hình 1.11 Kiến trúc model STAR .................................................................. 17
Hình 1.12 Kiến trúc model ASTER ................................................................ 18
Hình 1.13 Kiến trúc model EAST................................................................... 19

Hình 1.14 Các bƣớc thực thi của Tesseract .................................................... 20
Hình 2.1 Quá trình OCR (Optical Character Recognition process) ............... 39
Hình 2.2 OCR trên một tờ giấy cũ và chuyển đổi sang văn bản số ................ 40
Hình 2.3 Kiến trúc Tesseract OCR ................................................................. 43
Hình 2.4 Luồng tiền xử lý dữ liệu................................................................... 53
Hình 2.5 Mơ hình Transformer ....................................................................... 55
Hình 2.6 Mơ hình BERT-fused NMT ............................................................. 56
Hình 2.7 Mơ hình Transformer with BERT-fused and Masked Pointer
Generator (TBMP) .......................................................................................... 57
Hình 3.1 Ảnh thu nhận và ảnh mong muốn ................................................... 64
Hình 3.2 Mơ hình cơng cụ Tesseract OCR nhận dạng văn bản hình ảnh ...... 66
Hình 3.3 Mơ hình Tesseract tiếng Việt .......................................................... 66
Hình 3.4 Tiến trình tạo ra các blobs ............................................................... 67
Hình 3.5 Ảnh thu nhận và ảnh mong muốn ................................................... 68
Hình 3.6 Thuật tốn heuristic sửa lỗi kí tự .................................................... 69
Hình 3.7 Mơ hình nhận dạng văn bản hình ảnh tiếng Bana ........................... 69

Hình 3.8 Quy trình dịch từ tiếng Việt sang Bana .......................................... 70
Hình 3.9 Ví dụ minh hoạ q trình dịch ........................................................ 70
Hình 3.10 Kiến trúc mơ hình chuyển ngữ ...................................................... 72
Hình 3.11 Mẫu bản scan từ điển Bana Kriêm ................................................ 73
Hình 3.12 Mẫu bản scan sau khi đã đƣợc nhị phân hóa ................................ 74
Hình 3.13 Mẫu các bản scan có chất lƣợng khơng tốt ................................... 75
Hình 3.14 Kết quả đạt đƣợc sau khi xử lý hình ảnh ...................................... 75
Hình 3.15 Quá trình OCR cho việc thực hiện cuốn từ điển Tiếng Bana ....... 76
Hình 3.16 Kết quả đạt đƣợc sau khi OCR thơ ............................................... 77
Hình 3.17 Thống kê lỗi sau khi sử dụng Tesseract ........................................ 78
Hình 3.18 Tập hợp các lỗi thay thế ................................................................ 79
Hình 3.19 Kết quả đạt đƣợc sau khi sửa lỗi kí tự .......................................... 80
Hình 3.20 Dữ liệu mẫu ................................................................................... 84

Hình 3.21 Kết quả trung gian ......................................................................... 85
Hình 3.22 Kết quả sử dung Tesseract ............................................................ 85
Hình 3.23 Kết quả hậu xử lý .......................................................................... 86
Hình 3.24 Mơ hình Loanformer (Loanword Processing Transformer) ......... 89
Hình 3.25 Ví dụ minh họa quá trình dịch từ tiếng Việt sang Bana ............... 93

1

0 PHẦN 1. MỞ ĐẦU

1. Lý do chọn đề tài

Việt Nam hiện có 54 dân tộc anh em, trong đó nhiều dân tộc thiểu số có
chữ viết, tiêu biểu nhƣ: Tày, Thái, Hoa, Khmer, Ê Đê, Bana (Bahnar), Chăm,
Mnơng... Việc bảo vệ sự đa dạng văn hóa, ngơn ngữ các dân tộc hiện đang
trở thành vấn đề cần quan tâm. Trong suốt chiều dài lịch sử, văn hóa truyền
thống các dân tộc thiểu số luôn là di sản quý giá góp phần làm nên sự phong
phú, đa dạng và thống nhất của nền văn hóa Việt Nam. Trong bối cảnh cuộc
sống hiện đại, việc giữ gìn, phát huy bản sắc văn hóa đồng bào các dân tộc
thiểu số là nhiệm vụ cấp thiết để phát triển bền vững đất nƣớc.

Thách thức đầu tiên phải kể đến là khả năng đánh mất ngôn ngữ truyền
thống, linh hồn của văn hóa dân tộc, cũng là phƣơng tiện để chuyển tải, trao
truyền nghệ thuật, phong tục tập quán của các tộc ngƣời. Trên thực tế, từ
nhiều năm nay, Đảng và Nhà nƣớc cũng nhƣ nhiều địa phƣơng đã có nhiều
chính sách khuyến khích, bảo tồn văn hóa dân tộc, trong đó có chú trọng đến
việc bảo tồn tiếng nói, chữ viết của đồng bào các dân tộc thiểu số.

Dân số Bana chiếm một tỷ trọng tƣơng đối lớn tại một số tỉnh Việt Nam,
tuy nhiên nguồn tài liệu dạng văn bản của ngơn ngữ này vơ cùng khan hiếm

do văn hóa truyền miệng vẫn còn là phƣơng thức truyền tải văn hóa, thơng
tin, tri thức chính của cộng đồng này. Các cơng trình phiên dịch tài liệu tiếng
Việt - tiếng Bana vẫn còn hạn chế. Điều này gây cản trở lớn cho ngƣời Bana
trong việc tiếp cận nguồn thông tin, tri thức mới đặc biệt là khi phần lớn các
tài liệu văn hóa, nghệ thuật, khoa học, chính trị,... trong lãnh thổ Việt Nam
đều sử dụng tiếng Việt.

Các phƣơng ngữ chính tiếng Bana gồm: Bana Kon Tum, Bana An Khê,
và Bana Tơ lo, Bana Kon Kơ Ðeh, Bana Kriêm; giữa các phƣơng ngữ trên,

2

tìm thấy sự khác biệt rõ rệt giữa Bana Kon Tum, Bana Gia Lai (An Khê) và
Bana Bình Ðịnh (Bana Kriêm). Ngƣời Bana Kriêm cịn giữ đƣợc nhiều nét
văn hố tộc ngƣời đặc thù hơn cả. Cuộc sống của ngƣời Bana Kriêm gắn liền
với nƣơng rẫy, núi rừng. Đồng bào rất nhiệt tình, cởi mở, thân thiện. Hịa vào
nhịp sống hiện đại, nhiều giá trị văn hóa đã dần mai một. Do vậy, việc lƣu
giữ, bảo tồn văn hóa truyền thống là điều vô cùng cần thiết.

Xuất phát từ những thực trạng nêu trên, việc thực hiện đề tài “Ứng dụng
kỹ thuật học máy trong xây dựng mở rộng kho ngữ liệu Bana Kriêm” là
cần thiết, nhằm xây dựng mở rộng kho ngữ liệu Bana Kriêm, bảo tồn tiếng
nói, chữ viết, góp phần lƣu giữ, bảo tồn bản sắc văn hóa truyền thống dân tộc.
Đồng thời, tạo ra các phƣơng tiện dịch thuật, giao tiếp giữa các ngôn ngữ với
nhau giúp đồng bào dân tộc thiểu số tiếp cận dễ dàng hơn, mang đến thông
tin, tri thức mới cho dân tộc này và thích ứng với sự phát triển của xã hội.

Đề tài này nghiên cứu tổng quan cách tiếp cận dựa trên các kĩ thuật Học
Sâu (Deep Learning) để giải bài tốn. Trong đó, bên cạnh khả năng áp dụng
công nghệ nhận dạng ký tự quang học (OCR – Optical Character

Recognition) giúp chuyển đổi chữ viết, văn bản số từ hình ảnh, thì việc
nghiên cứu các phƣơng pháp xử lý ngơn ngữ tiếng Bana và sử dụng mơ hình
ngơn ngữ để sửa lỗi chính tả là phần cơng việc chính yếu cần hƣớng đến. Từ
đó đƣa ra cách tiếp cận, xây dựng chiến lƣợc phù hợp ở công việc hậu xử lý
nhằm giúp giảm độ lỗi của quá trình OCR ban đầu.

2. Mục tiêu nghiên cứu

Mục tiêu của đề tài này là xây dựng phƣơng thức trích xuất thơng tin từ
hình ảnh để sinh ra ký tự, văn bản số thông qua việc nhận dạng ký tự quang
học (OCR) cho tiếng Bana Kriêm. Ở bƣớc sau trích xuất, đề xuất kỹ thuật
huấn luyện mơ hình ngơn ngữ để sửa sai lỗi chính tả kí tự trên văn bản đƣợc
sinh ra. Sau cùng, thực hiện việc so sánh kết quả ở bƣớc trích xuất thơng tin

3

văn bản từ hình ảnh và kết quả sau khi qua mơ hình sửa lỗi để áp dụng mơ
hình đạt hiệu quả nhất. Qua đó, ứng dụng để xây dựng mở rộng kho ngữ liệu
Bana Kriêm.
3. Đối tƣợng và phạm vi nghiên cứu
3.1. Đối tƣợng nghiên cứu

Ngôn ngữ tiếng Bana Kriêm: gồm các văn bản tiếng Bana Kriêm tồn tại
ở dạng in, hoặc dạng số.
3.2. Phạm vi nghiên cứu

Đề tài này tập trung vào 3 vấn đề nghiên cứu sau:
- Tiền xử lý trên tập hình ảnh đƣợc quét từ bộ từ điển tiếng Bana và các
tài liệu có sẵn giúp trích xuất thơng tin theo định dạng phù hợp với yêu cầu.
- Đề xuất và huấn luyện mơ hình sửa lỗi ban đầu.

- Áp dụng mơ hình kết hợp với những phƣơng thức hỗ trợ để sửa lỗi
chính tả cho những định dạng thịnh hành nhất. So sánh kết quả cũng nhƣ lựa
chọn mô hình thịnh hành nhất giúp đem lại kết quả tốt nhất cho bài tốn.
Phần chính của luận văn này sẽ tập trung vào mơ hình sửa lỗi, các
phƣơng pháp giúp tăng cƣờng hiệu suất của mơ hình sửa lỗi. Do đó luận văn
sẽ khơng tập trung nhiều về việc áp dụng các kĩ thuật để cải thiện độ chính
xác ở bƣớc nhận dạng kí tự quang học OCR cũng nhƣ phƣơng thức giúp phát
hiện lỗi trong văn bản đƣợc sinh ra.
4. Phƣơng pháp nghiên cứu
Hiện nay, các bài toán về nhận dạng văn bản đã có nhiều nghiên cứu
đƣợc cơng bố trong và ngoài nƣớc. Tuy nhiên, kết quả của các bài tốn này
cần phải cải thiện nhiều để có thể áp dụng cho các dạng văn bản đặc thù. Đặc
biệt hơn, với ngôn ngữ hƣớng đến áp dụng là tiếng Bana Kriêm, việc nghiên

4

cứu, vận dụng và tích hợp các mơ hình ngơn ngữ tiếng Bana Kriêm vào các
nghiên cứu sẵn có là một thách thức đối với đề tài. Hơn nữa, việc tích hợp các
thành phần sẵn có hoặc đƣợc nghiên cứu phát triển thành một ứng dụng thực
tế cũng đòi hỏi nhiều nỗ lực.

Với sự phát triển gần đây của học máy, đặc biệt là các mơ hình deep
learning, đề tài hƣớng đến các nghiên cứu cụ thể nhƣ sau:

- Vận dụng và phát triển các mơ hình học máy phù hợp cho các bài toán
nhận dạng văn bản, dịch máy tiếng Bana Kriêm.

- Xây dựng các mơ hình ngơn ngữ đặc trƣng cho tiếng Bana Kriêm để
kết hợp với các mơ hình học máy trên, hƣớng đến các sản phẩm trí tuệ nhân
tạo đặc thù cho ngôn ngữ Bana Kriêm.


Với các phân tích trên, đề tài hƣớng đến các nội dung công việc cụ thể
nhƣ sau:

- Chuyển tài liệu từ dạng hình ảnh/scanned sang dạng văn bản.
- Thu thập dữ liệu dịch thuật Việt-Bana Kriêm hỗ trợ quá trình dịch máy,
làm giàu dữ liệu và xây dựng mở rộng kho ngữ liệu Bana Kriêm.

5. Tính ứng dụng của đề tài
Đề tài này giúp tác giả củng cố đuợc kiến thức khoa học trong việc

nghiên cứu về mơ hình nhận dạng văn bản hình ảnh bằng kỹ thuật Học Sâu
Deep Learning. Thơng qua đó, có thể ứng dụng đƣợc các phƣơng pháp ―state
of the art‖ - thịnh hành nhất - vào mơ hình để xử lý cho ngơn ngữ cụ thể là
tiếng Bana giúp mang tính ứng dụng vào thực tiễn. Với việc nghiên cứu và xử
lý trực tiếp trên cuốn Từ Điển Tiếng Bana (Bơhnar Kriêm do Sở Khoa học và
Công nghệ (Ủy ban nhân dân tỉnh Bình Định) và Viện Ngơn ngữ học (Viện
Khoa học xã hội Bana Nam) hợp tác thực hiện, tác giả đã có thể thực hiện một
đề tài với tính ứng dụng cao giúp đóng góp vào việc bảo tồn ngôn ngữ dân tộc

5

và bảo tồn văn bản số cho từ ngữ tiếng Bana thơng qua cuốn từ điển này.
Ngồi ra, việc thực hiện mơ hình sửa lỗi này có tính tổng qt cao và có thể
đƣợc dùng lại cho các nghiên cứu liên quan về xử lý ngôn ngữ tiếng Bana sau
này.
6. Bố cục luận văn

Ngoài phần mở đầu, kết luận, danh mục tài liệu tham khảo, phần nội
dung chính luận văn đƣợc trình bày trong 3 chƣơng:


Chƣơng 1. Tổng quan
Trong Chƣơng 1, giới thiệu tổng quan về con ngƣời và ngôn ngữ tiếng
Bana, từ điển và một số quy luật của tiếng Bana Kriêm. Tình hình nghiên cứu
liên quan đến đề tài.
Chƣơng 2. Giải pháp chuyển đổi văn bản PDF sang dạng số
Trong Chƣơng 2, các kỹ thuật liên quan đến việc số hoá văn bản đƣợc
trình bày một cách cụ thể và chi tiết. Một số kết quả triển khai sử dụng cơng
cụ số hóa để xây dựng mở rộng kho ngữ liệu Bana Kriêm.
Chƣơng 3. Những nội dung nghiên cứu đề xuất giải pháp xây dựng
mở rộng kho ngữ liệu Bana Kriêm và kết quả đạt đƣợc
Trong Chƣơng 3, giới thiệu các nguồn ngữ liệu, nghiên cứu và xây
dựng mô hình đề xuất thu thập dữ liệu, nhận dạng văn bản từ hình ảnh và sửa
lỗi ký tự, phƣơng pháp làm giàu dữ liệu. Xây dựng mở rộng kho ngữ liệu
Bana Kriêm. Kết quả đạt đƣợc của đề tài.

6

PHẦN 2. NỘI DUNG CHÍNH
CHƢƠNG 1. TỔNG QUAN
1.1 Một số đặc điểm của tiếng Bana
1.1.1 Ngƣời Bana
Dân tộc Bana là một trong những cƣ dân sinh tụ lâu đời ở Trƣờng Sơn -
Tây Nguyên đã kiến lập nên nền văn hoá độc đáo ở đây. Họ là tộc ngƣời có
dân số đơng nhất, chiếm vị trí rất quan trọng trong các lĩnh vực văn hoá, xã
hội ở các cao nguyên miền Trung nƣớc ta. Cũng nhƣ nhiều dân tộc khác ở
miền núi, ngƣời Bana có những phong tục tập quán, văn hóa phong phú và
giàu bản sắc. Nét đẹp trong văn hóa đƣợc thể hiện ở nhiều mặt, từ hoạt động
sản xuất, sinh hoạt hàng ngày đến các lễ hội.


Hình 1.1. Nghi thức cúng vợt sợi bơng của người Bana
Trong cộng đồng 54 dân tộc Việt Nam, cƣ trú tại 51 trên tổng số 63
tỉnh, thành phố. Ngƣời Bana cƣ trú tập trung tại các tỉnh Gia Lai, Kon Tum,
miền Tây của tỉnh Bình Định, Phú n, Khánh Hịa. Theo số liệu thống kê từ

7

Kết quả toàn bộ của Tổng điều tra dân số và nhà ở năm 2019, dân số Bana
khoảng 286.910 ngƣời, tập trung chủ yếu ở khu vực Tây Nguyên nhƣ: Gia Lai
(12.51% dân số tỉnh), Kon Tum (12.73% dân số tỉnh),... và khu vực Duyên
hải miền trung nhƣ: Bình Định (1.45% dân số tỉnh), Phú Yên (0.53% dân số
tỉnh),....

Hình 1.2. Người Bana
Đồng bào Bana có nhiều tên gọi khác nhau theo địa bàn cƣ trú hay
phong tục tập quán mỗi vùng nhƣ Bơ Nâm, Roh, Kon Kđe, Ala Kông, Kpang
Kông... Các nhóm địa phƣơng: Rơ Ngao, Rơ Lơng (hay Y Lăng),Tơ Lơ, Gơ
Lar Krem. Tiếng Bana thuộc nhóm ngơn ngữ Môn-Khmer (thuộc Ngữ hệ
Nam Á).
Ở mỗi làng có một nhà cơng cộng là nhà rông to, đẹp đƣợc xây dựng ở
giữa làng. Đây đƣợc coi là trụ sở của làng, nơi các già làng họp bàn việc
công, nơi dân làng hội họp, nơi tiến hành các nghi lễ theo phong tục của cộng
đồng và cũng là nơi tiếp khách vào làng.

8

Hình 1.3. Nhà rơng của người Bana
Ngƣời Bana sống ở nhà sàn. Trƣớc đây khi chế độ gia đình lớn cịn
thịnh hành, ở vùng ngƣời Bana sinh sống thƣờng có những căn nhà dài hàng
trăm mét; tuy nhiên hiện nay chế độ gia đình lớn khơng cịn nữa, mơ hình các

gia đình nhỏ với những căn nhà sàn gọn gàng xuất hiện ngày càng nhiều, phổ
biến. Nhà sàn thƣờng dài từ 7m đến 15m, rộng từ 3m-4m, cao từ 4m-5m, sàn
cách mặt đất khoảng 1m đến 1,5m. Những hình thức trang trí sinh động trên
nhà rơng và đặc biệt những tƣợng nhà mồ v.v... mộc mạc, đơn sơ, nhƣng tinh
tế và sinh động nhƣ cuộc sống của ngƣời Bana.
Trang phục ngƣời Bana có nhiều nét độc đáo. Nam giới Bana mặc áo
chui đầu, cổ xẻ. Đây là loại áo cộc tay, thân áo có đƣờng trang trí sọc đỏ chạy
ngang, gấu áo màu trắng. Nam mang khố hình chữ T theo lối quấn ngang
dƣới bụng, luồn qua háng rồi che một phần mơng. Ngày rét, nam giới Bana
mang theo tấm chồng. Trong dịp lễ bỏ mả, nam giới thƣờng búi tóc sau gáy
và cắm một lơng chim cơng, tay mang vịng đồng.

9

Hình 1.4. Phụ nữ Bana dệt vải
Phụ nữ mặc áo chui đầu, không xẻ cổ kết hợp với váy. Váy của phụ nữa
Bana không đƣợc may lại mà nó chỉ là một tấm vải đen đƣợc quấn quanh thân
dƣới.
Phụ nữ Bana ƣa để tóc ngang vai, có khi búi và cài lƣợc hoặc trâm bằng
đồng, thiếc. Có nhóm khơng chít khăn mà chỉ quấn bằng chiếc dây vải hay
vịng cƣờm. Nhóm địa phƣơng ở An Khê, Mang Yang (Gia Lai) hoặc một số
nơi khác họ chít khăn trùm kín đầu, khăn chàm quấn gọn trên đầu. Trƣớc đây,
họ đội nón hình vng hoặc trịn trên có thoa sáp ong để khỏi ngấm nƣớc, đơi
khi có áo tơi vừa mặc vừa che đầu.
Bên cạnh đó, với ngƣời Bana, các phụ kiện là một phần không thể thiếu
để tô điểm cho các bộ trang phục. Phụ nữ thƣờng đeo chuỗi hạt cƣờm ở cổ và
vòng tay bằng đồng xoắn ốc dài từ cổ đến khủy tay (theo kiểu hình nón cụt).
Nhẫn đƣợc dùng phổ biến và thƣờng đƣợc đeo ở hai, ba ngón tay.



×