Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.63 MB, 8 trang )

Huỳnh Cơng Pháp, Cao Xn Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh

215

Xây dựng mơ hình và thuật tốn hợp nhất dữ liệu từ điển
phục vụ xử lý ngôn ngữ tự nhiên
Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình, và Đinh Thị Mỹ Hạnh
Khoa Cơng nghệ thơng tin và Truyền thơng – Đại học Đà Nẵng
, ,
,

Tóm tắt. Dữ liệu từ điển có vai trị quan trọng và được ứng dụng cho nhiều bài toán khác
nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên như: dịch máy, tìm kiếm, tách từ, gióng hàng...
Tuy nhiên, một trong những thực trạng hiện nay là các từ điển đang tồn tại rãi rác, riêng
biệt, cấu trúc dữ liệu đa dạng, kích thức nhỏ và số cặp ngơn ngữ hạn chế. Theo đó, việc
khai thác và sử dụng các từ điển hiện nay là chưa hiệu quả và còn gặp rất nhiều khó khăn.
Người dùng có thể phải truy xuất nhiều từ điển đồng thời để có thể tra cứu cùng một từ
hoặc tập hợp từ ở các lĩnh vực khác nhau. Trong bài báo này, chúng tôi đề xuất giải pháp
khai phá các nguồn dữ liệu từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển đồng
nhất, có kích thước và số cặp ngơn ngữ lớn hơn nhằm phục vụ khai thác và sử dụng hiệu
quả hơn. Giải pháp chúng tôi đề xuất trong phạm vi bài báo này dừng lại ở đề xuất mơ hình
tốn học và thuật toán hợp nhất các từ điển để tạo nguồn dữ liệu từ điển lớn hơn về kích
thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngơn ngữ.
Từ khóa: Hợp nhất dữ liệu; mơ hình; thuật tốn hợp nhất dữ liệu; từ điển đa ngữ; hợp nhất
từ điển; khai phá dữ liệu văn bản.

1

Giới thiệu

Dữ liệu ln đóng vai trị quyết định đến chất lượng hoạt động của các công cụ và hệ thống

xử lý ngôn ngữ tự nhiên. Dữ liệu trong lĩnh vực xử lý ngôn ngữ tự nhiên bao gồm các loại phổ
biến như các kho ngữ liệu, treebanks, từ điển. Trong đó, dữ liệu từ điển có vai trị rất quan trọng
để phục vụ dịch tự động và phát triển các công cụ xử lý ngôn ngữ tự nhiên, chẳng hạn như các
công cụ hỗ trợ học tập, tra cứu, các cơng cụ tách từ dựa trên thuật tốn maximum matching, các
cơng cụ gióng hàng...
Với tính chất quan trọng như vậy nên dữ liệu từ điển đã được xây dựng và phát triển rất
mạnh, tồn tại ở nhiều dạng khác nhau như từ điển giấy, máy từ điển, từ điển trên máy tính.
Trong đó, dữ liệu từ điển trên máy tính là dạng được phát triển mạnh và phổ biến nhất hiện nay.
Mặc dù vậy, nếu xét từng từ điển riêng lẻ, kích thước và số cặp ngơn ngữ vẫn còn hạn chế so
với yêu cầu sử dụng thực tế và yêu cầu để xây dựng các hệ thống xử lý ngôn ngữ tự nhiên chất
lượng và hiệu quả. Thật vậy, ngay cả các từ điển đa ngữ được xem là lớn nhất hiện nay như
Gregg Cox cũng chỉ chứa khoảng 5 triệu từ với 225 ngôn ngữ, hay từ điển trực tuyến Logos
chứa khoảng 8 triệu từ với 250 ngơn ngữ [8]. Trong khi đó, số lượng ngơn ngữ nói trên thế giới
hiện nay ước tính khoảng 6500 ngơn ngữ cũng như nhu cầu sử dụng dữ liệu của các hệ thống xử
lý ngôn ngữ tự nhiên như dịch tự động thống kê cũng vượt xa rất nhiều con số của các từ điển
kể trên [2].
Hơn nữa, mỗi loại từ điển được xây dựng với cấu trúc dữ liệu, định dạng dữ liệu, lĩnh vực từ
vựng và nội dung giải nghĩa khác nhau. Do đó, vấn đề đặt ra là làm thế nào để có thể khai thác

216

KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC

và sử dụng hiệu quả các nguồn dữ liệu từ điển đang tồn tại nhằm phục vụ tốt hơn nhu cầu của
người sử dụng và yêu cầu xây dựng các hệ thống xử lý ngôn ngữ tự nhiên chất lượng.
Giải pháp chúng tôi đề xuất trong bài báo này là tìm cách hợp nhất các nguồn dữ liệu từ điển
đang tồn tại để tạo nguồn dữ liệu từ điển lớn hơn về kích thước, về số cặp ngôn ngữ, đầy đủ hơn
về lĩnh vực, nội dung giải nghĩa, đồng thời có cấu trúc và định dạng chuẩn và đồng nhất nhằm
phục vụ tốt hơn cho việc khai thác và sử dụng của người sử dụng và các hệ thống xử lý ngôn

ngữ tự nhiên. Giải pháp hợp nhất các nguồn dữ liệu từ điển bao gồm các khía cạnh: hợp nhất về
mặt cấu trúc và định dạng dữ liệu; hợp nhất về mặt dữ liệu và ngơn ngữ. Trong đó, hợp nhất về
mặt cấu trúc và định dạng là đề xuất một cấu trúc dữ liệu và định dạng lưu trữ tối ưu, chuẩn cho
phép chuyển đổi các nguồn dữ liệu khác nhau để xây dựng một nguồn dữ liệu có cấu trúc và
định dạng đồng nhất cho phép khai thác hiệu quả và thuận lợi. Hợp nhất về mặt dữ liệu và cặp
ngôn ngữ là quá trình trộn, liên kết các nguồn dữ liệu để xây dựng nguồn dữ liệu lớn hơn về
kích thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngôn ngữ.

2

Tổng quan về từ điển và xây dựng tài nguyên dữ liệu lớn

2.1

Tổng quan về từ điển và dữ liệu từ điển

Từ điển được xem là một trong những công cụ xử lý ngôn ngữ tự nhiên phổ biến và hữu
dụng nhất đối với con người trong việc hỗ trợ tra cứu và học ngoại ngữ. Đối với nhiều hệ thống
xử lý ngôn ngữ tự nhiên như hệ thống dịch, tách từ, gióng hàng,... dữ liệu từ điển đóng vai trị
vơ cùng quan trọng, quyết định đến chất lượng và hiệu quả hoạt động của chúng.
Từ điển có thể được phân loại theo nhiều cách khác nhau. Xét về phương diện phiên bản tồn
tại, từ điển được phân thành hai loại chính như sau: từ điển giấy và từ điển điện tử. Từ điển giấy
chủ yếu phục vụ cho con người trong việc tra cứu và học tập, nhược điểm của nó là việc tra cứu
từ sẽ mất rất nhiều thời gian tìm kiếm do người học phải làm thủ cơng. Trong khi đó, từ điển
điện tử, đa số ở dạng phần mềm máy tính rất phổ biến hiện nay và có nhiều ưu điểm hơn từ điển
giấy. Từ điển máy tính khơng chỉ phục vụ cho con người tra cứu mà còn được sử dụng cho
nhiều mục đích khác nhau trong lĩnh vực xử lý ngơn ngữ tự nhiên. Xét về khía cạnh ngơn ngữ,
từ điển có thể được chia thành các loại từ điển đơn ngữ (monolingual), từ điển song ngữ
(bilingual) và từ điển đa ngữ (multilingual). Trong đó, các từ điển đơn ngữ lớn nhất hiện nay
như: từ điển tiếng Hà Lan Woordenboek der Nederlandsche Taal được xem như từ điển đơn ngữ

lớn nhất hiện, được xây dựng trong 134 năm (từ 1864 đến 1998) với 40 tập chứa hàng triệu từ;
từ điển tiếng Đức Deutsches Wörterbuch, từ điển tiếng Anh Oxford English Dictionary chứa
khoảng 600.000 từ. Các từ điển song ngữ lớn nhất phải kể đến như từ điển tiếng Anh-Đức xuất
bản bởi Langenscheidt chứa khoảng 400.000 từ và giải nghĩa, từ điển Dai Kan-Wa jiten tiếng
Trung – Nhật có hơn 50.000 ký tự và 500.000 từ ghép. Các từ điển đa ngữ lớn nhất hiện nay
như Gregg Cox chứa trên 5.000.000 từ ở 225 ngôn ngữ hoặc từ điển trực tuyến Logos chứa trên
8.000.000 từ ở 250 ngôn ngữ [8].
Đối với tiếng Việt, hiện nay có các phần mềm từ điển phổ biến như:

Lạc Việt từ điển: được xem là từ điển phổ biến nhất đối với cộng đồng người Việt. Hiện
nay, Lạc Việt từ điển không chỉ là phiên bản máy tính mà cịn có phiên bản ứng dụng điện
thoại di động. Lạc Việt từ điển có 3 bộ gồm Anh – Việt, Việt – Anh và Việt – Việt với số
lượng hơn 400.000 từ và cụm từ [9].

Từ điển Tflat: là một trong số những ứng dụng từ điển được sử dụng nhiều nhất hiện
nay. Tflat được xây dựng cho cả phiên bản online và offline, bao gồm nhiều chức năng như
tra cứu, sao lưu, dịch câu văn, tra cứu nhanh, phát âm... Tflat chứa hơn 400.000 từ Anh-Việt,
150.000 từ Việt-Anh [10].

Huỳnh Cơng Pháp, Cao Xn Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh

217


Từ điển Vlook: là bộ từ điển Anh – Việt phổ biến hiện nay, Vlook có giao diện đơn
giản và hỗ trợ tra từ không cần kết nối internet với gần 60,000 từ trong đó có hơn 40,000 từ
có phiên âm và khoảng 3,000 từ thơng dụng của từ điển Oxford.

Từ điển Vdict: là từ điển phổ biến và có giao diện đơn giản, bao gồm các bộ từ điển:

Anh – Việt, Việt – Anh, Việt – Việt, Pháp – Việt, Việt – Pháp và Anh – Anh. Từ điển Vdict
chứa 450.000 từ và cụm từ.
Ngoài ra cịn có một số phần mềm từ điển thương mại nổi tiếng hiện nay như Evatran 2.0,
English study 4.0, Babylon.
2.2

Tổng quan về xây dựng tài nguyên dữ liệu lớn

Tài nguyên dữ liệu phục vụ ngôn ngữ tự nhiên bao gồm nhiều loại, trong đó bao gồm các
loại chính là dữ liệu từ điển, các kho ngữ liệu, treebanks. Việc nghiên cứu và xây dụng các
nguồn tài nguyên lớn phục vụ xử lý ngôn ngữ tự nhiên được thực hiện rất phổ biến. Cho đến
nay, đã có nhiều giải pháp được nghiên cứu và triển khai, trong đó các giải pháp chính và phổ
biến gồm:

Xây dựng từ điển và các kho ngữ liệu đa ngữ bằng cách trích rút dữ liệu từ các các
nguồn tài nguyên đa ngữ như website đa ngữ, các văn bản đa ngữ [1][3][4][5][6].

Xây dựng kho ngữ liệu bằng cách gọi các hệ thống dịch tự động để dịch dữ liệu hiện có
của kho ngữ liệu sang các ngơn ngữ mới, sau đó đề xuất giải pháp cho các chuyên gia xem,
chỉnh sửa để thu được dữ liệu có chất lượng trong ngơn ngữ mới tương đồng với dữ liệu gốc
[1][2].
Các giải pháp trên đã cho phép tạo ra được các từ điển, các kho ngữ liệu tương đối lớn như
các từ điển German dictionary Deutsches Wörterbuch, Oxford English Dictionar, Gregg Cox;
các kho ngữ liệu British National Corpus, EuroParl, BTEC, ANC, ICE. Tuy nhiên, như đề cập ở
trên, các nguồn tài nguyên này vẫn còn hạn chế về độ lớn và độ bao phủ so với yêu cầu thực tế.

3

Giải pháp xây dựng từ điển lớn và đồng nhất

Như đề cập ở trên, hiện nay đã có nhiều từ điển lớn đã được xây dựng và được sử dụng phổ
biến. Tuy nhiên, nếu xét về nhu cầu sử dụng thực tế, số lượng ngôn ngữ (khoảng 6500 ngôn
ngữ) và sự đa dạng về lĩnh vực của cuộc sống thì các từ điển này q nhỏ để có thể khai thác và
xây dựng được các hệ thống xử lý ngôn ngữ tự nhiên lớn và đầy đủ. Hơn nữa, nguồn tài nguyên
này lại tồn tại riêng rẻ, rãi rác nên việc khai thác, sử dụng và chia sẽ dùng chung trở nên rất khó.
Do đó, các nguồn tài nguyên dữ liệu từ điển sẽ hữu ích và giá trị hơn nếu chúng được hợp
nhất lại và tạo thành một nguồn tài nguyên đồng nhất về định dạng và cấu trúc.
Trong bài báo này, chúng tôi đề xuất giải pháp hợp nhất các từ điển đang tồn tại để xây dựng
từ điển lớn hơn về kích thước, đa dạng về cặp ngơn ngữ và lĩnh vực với các khía cạnh hợp nhất:
dữ liệu, ngôn ngữ và cấu trúc/định dạng.
Liên quan đến vấn đề hợp nhất các nguồn tài nguyên dữ liệu từ điển, cho đến nay chưa có
cơng trình nào đề xuất giải pháp liên quan đến vấn đề xây dựng nguồn dữ liệu từ điển lớn bằng
cách hợp nhất các nguồn dữ liệu từ điển đang tồn tại. Bởi lẽ, việc hợp nhất các nguồn dữ liệu từ
điển là vấn đề khó vì cấu trúc và định dạng của các từ điển và nguồn tài nguyên xử lý ngôn ngữ
tự nhiên rất đa dạng và phức tạp [4], cũng như liên quan đến nhiều khía cạnh nghiên cứu khác

218

KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC

nhau như gióng từ, câu văn bản, hợp nhất dữ liệu cùng ngôn ngữ, chuyển đổi cấu trúc và định
dạng dữ liệu.

Fig. 1. Mô tả hợp nhất từ điển

Do đó, trong bài báo này chúng tơi tập trung vào 2 nhóm giải pháp liên quan đến vấn đề hợp
nhất nguồn tài nguyên dữ liệu từ điển:



Giải pháp về cấu trúc và định dạng lưu trữ dữ liệu từ điển lớn, đồng nhất.
Giải pháp về hợp nhất dữ liệu.
Đề xuất cấu trúc và định dạng dữ liệu từ điển lớn và đồng nhất

3.1

Dữ liệu được xem là thành phần quan trọng nhất của một từ điển. Dữ liệu từ điển được đánh
giá có chất lượng tốt nếu có số lượng từ vựng lớn, có diễn giải nghĩa đầy đủ, rõ ràng và có hỗ
trợ nhiều cặp ngôn ngữ.
Bên cạnh chất lượng dữ liệu, tốc độ xử lý và tra cứu từ vựng của phần mềm từ điển cũng
được xem là yếu tố quan trọng quyết định đến chất lượng và hiệu năng của phần mềm từ điển.
Do đó, cách thức tổ chức dữ liệu cũng như cấu trúc và định dạng lưu trữ dữ liệu từ điển là rất
quan trọng ảnh hưởng rất lớn đến tốc độ của quá trình truy xuất và thao tác của từ điển, đặc biệt
đối với các từ điển có kích thước và số từ vựng lớn. Cấu trúc và định dạng dữ liệu từ điển được
xây dựng tốt cũng còn là yếu tố quan trọng quyết định đến khả năng bảo trì và mở rộng dữ liệu
từ điển trong tương lai.
Do đó, vấn đề quan trọng đặt ra đối với bài toán xây dựng dữ liệu từ điển lớn bao gồm hai
khía cạnh: một là, giải pháp thu thập dữ liệu; hai là, cách thức tổ chức dữ liệu từ điển lớn phục
vụ hiệu quả quá trình truy xuất và khai thác chúng.
Do đó, nghiên cứu cách thức tổ chức cũng như cấu trúc và định dạng dữ liệu của các từ điển
đang tồn tại để làm cơ sở đề xuất cấu trúc và định dạng dữ liệu phù hợp nhất cho việc tổ chức và
lưu trữ dữ liệu từ điển lớn và hợp nhất là mục tiêu mà bài báo đang hướng đến.
3.1.1

Cấu trúc và định dạng dict.tab

Dict.tab là cấu trúc và định dạng dữ liệu chuẩn của từ điển Startdict, được phát triển bởi Hu
Zheng và các cộng sự [11]. Stardict là từ điển nguồn mở miễn phí có thể chạy trên nhiều nền
tảng khác nhau. Nhiều nhà phát triển từ điển đã sử dụng cấu trúc và định dạng dict.tab cũng như

dữ liệu, mã nguồn của Stardict để xây dựng từ điển cho riêng mình. Dict.tab thực chất là tệp văn
bản có định dạng dữ liệu được tổ chức dạng như sau:
headword1 1\n2\n3

Huỳnh Cơng Pháp, Cao Xn Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh

219

headword2 4\\5\n6
headword3 789
Theo định dạng trên, dữ liệu từ điển với cấu trúc và định dạng dict.tab được biểu diễn gồm
các hàng, mỗi hàng biểu diễn một từ gốc (headword) và định nghĩa của từ gốc (definition) cách
nhau bởi dấu tab. Định nghĩa từ có thể chứa các ký tự đặc biệt như \n (sang dòng mới), \\ (biểu
diễn dấu \).
Định dạng và cấu trúc dict.tab rất dễ tổ chức nhưng còn rất hạn chế về tốc độ truy xuất dữ
liệu. Thật vậy, khi thực hiện thao tác tím kiếm một từ và nghĩa nào đó, q trình tìm kiếm sẽ
thực hiện duyệt danh sách từ đầu đến cuối tập tin sẽ rất tốn kém thời gian và tài nguyên hệ
thống.
3.1.2

Cấu trúc và định dạng dict.org

Dict.org là cấu trúc và định dạng dữ liệu từ điển chuẩn khá phổ biến hiện nay được nhiều tổ
chức và cá nhân sử dụng để xây dựng các từ điển lớn [12]. Cấu trúc của dict.org được tổ chức
thành 2 tệp tin gồm tệp tin chỉ mục và tệp tin chứa nghĩa của từ. So với các tổ chức dữ liệu dạng
dict.tab, cách tổ chức dạng dữ liệu dạng dict.org sẽ giúp tốc độ tra cứu từ điển nhanh hơn và đây
là một trong những yếu tố cực kỳ quan trọng khi thiết kế cơ sở dữ liệu cho từ điển.


Cấu trúc tập tin chỉ mục:

Tập tin chỉ mục bao gồm tên từ, vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa và độ dài
của nghĩa. Mỗi dòng trong tập tin chỉ mục chứa dữ liệu của một từ và các dòng phân cách nhau
bởi ký tự xuống dịng. Cấu trúc có định dạng như sau:
headword1{tab}offset1{tab}len1
headword2{tab}offset2{tab}len2
Trong đó:
─ headword: là từ gốc
─ {tab}: là khoảng trống một tab
─ offset: vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa
─ len: độ dài nghĩa giải thích của từ trong tập tin chứa nghĩa
Với, offset và len được mã hóa sử dụng 64 ký tự (hệ cơ số 64) như sau:
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/


Cấu trúc và định dạng tệp tin chứa nghĩa:

Cấu trúc và định dạng tệp tin chứa nghĩa được biểu diễn như sau: @headword
─ Từ loại (danh từ, động từ, …)
o Định nghĩa 1
o Định nghĩa 2
─ Từ loại
o Định nghĩa 3
Trong đó, headword là từ gốc và theo sau là loại từ và các giải nghĩa tương ứng. Một từ có
thể thuộc nhiều từ loại khác nhau. Ví dụ từ like có thể là ngoại động từ, tính từ, danh từ, phó từ.

220

3.1.3

KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC

Đề xuất cấu trúc và định dạng đối với từ điển hợp nhất và lớn

Như đề cập ở trên, vấn đề quan trọng và then chốt đối với các từ điển lớn không chỉ ở chất
lượng nội dung dữ liệu, mà chính là cấu trúc định dạng lưu trữ dữ liệu. Nếu cấu trúc và định
dạng dữ liệu từ điển được xây dựng tốt thì tốc độ truy xuất, khả năng khai thác dữ liệu sẽ hiệu
quả và đảm bảo. Trong số hai cấu trúc và định dạng dữ liệu từ điển được đề xuất ở trên thì cấu
trúc và định dạng dict.org tối ưu và phù hợp hơn so với dict.tab. Do đó, chúng tôi đề xuất sử
dụng cấu trúc và định dạng dict.org như là cấu trúc và định dạng chuẩn cho giải pháp từ điển
lớn và đồng nhất. Với cách chọn một cấu trúc và định dạng chuẩn đã được sử dụng phổ biến sẽ
mang lại hiệu quả và tối ưu bởi lẽ chúng ta kế thừa và đồng nhất dễ dàng những từ điển đã có.
Giải pháp hợp nhất nội dung dữ liệu từ điển

3.2
3.2.1

Giải pháp hợp nhất dữ liệu đối với các từ điển cùng cặp ngôn ngữ

Giả sử chúng ta có từ điển A và B có cùng cặp ngơn ngữ X-Y, A có n cặp từ, B có m cặp từ,
được biểu diễn như sau:
A = {(𝑥𝑖 , 𝑦𝑖 )}𝑛𝑖=1 , B = {(𝑥𝑖 , 𝑦𝑖 )}𝑚
𝑖=1
Trong đó, xi là tập các từ nguồn trong ngơn ngữ tiếng X; yi là tập hợp các nghĩa trong ngôn
ngữ tiếng Y.
Kết quả hợp nhất hai từ điển A và B sẽ là từ điển C với cặp ngôn ngữ X-Yđược biểu diển
như sau:
C = A U B = {(𝑥𝑖 , 𝑦𝑖 )}𝑘𝑖=1 , với k ≤ 𝑛 + 𝑚

Đối với trường hợp này, chúng ta cần giải quyết các khả năng đặt ra:


Các cặp từ của hai từ điển trùng nhau hoàn toàn về nội dung:
∃(𝑥 , 𝑦 )| (x, 𝑦 ) ∈ 𝐴 and (x, y) ∈ 𝐵

Đối với trường hợp này, cặp từ đích sẽ là cặp từ của từ điển A hoặc từ điển B.


Các cặp từ của hai từ điển trùng nhau về từ gốc ở ngôn ngữ X:
∃(x, y) | x ∈ 𝐴 and x ∈ 𝐵

Đối với trường hợp này, cặp từ đích sẽ được xây dựng bao gồm: từ gốc sẽ là từ gốc của A
hoặc của B; phần giải nghĩa sẽ là giao của giải nghĩa tương ứng của A và B, được biểu diễn:
(x, y) = (xA, yA U yB) | xA, yA ∈ 𝐴 and y𝐵 ∈ 𝐵


Các cặp từ của hai từ điển hoàn toàn khác nhau
(𝑥 , 𝑦 )| (x, 𝑦 ) ∈ 𝐴 and (x, y) ∉ 𝐵

Đối với trường hợp này, các cặp từ đích sẽ được xây dựng bao gồm hợp của các cặp từ của A
và B, được biểu diễn:
C = {(xA, yA), (xB, yB)} | (xA, yA) ∈ 𝐴 and (xB, yB) ∈ 𝐵

Huỳnh Cơng Pháp, Cao Xn Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh
3.2.2

221

Giải pháp hợp nhất dữ liệu từ điển khác cặp ngơn ngữ

Giả sử chúng ta có từ điển A có n cặp từ trong ngơn ngữ X-Y và từ điển B có m cặp từ trong
ngơn ngữ W-Z:
A = {(𝑥𝑖 , 𝑦𝑖 )}𝑛𝑖=1 , B = {(𝑤𝑖 , 𝑧𝑖 )}𝑚
𝑖=1
Trong đó, xi là tập các từ nguồn trong ngôn ngữ tiếng X; yi là tập hợp các nghĩa trong ngôn
ngữ tiếng Y; wi là tập các từ nguồn trong ngôn ngữ tiếng W; zi là tập hợp các nghĩa trong ngôn
ngữ tiếng Z.
Kết quả hợp nhất hai từ điển A và B sẽ là từ điển đa ngữ C với tập hợp cặp ngôn ngữ X-Y,
W-Z, X-W, X-Z, Y-W, Y-Z được biểu diển như sau:
𝑘
C= {{(𝑥𝑖 , 𝑦𝑖 )}𝑛𝑖=1 , {(𝑤𝑖 , 𝑧𝑖 )}𝑚
𝑖=1 , {(𝑥𝑖 , 𝑤𝑖 )}𝑖=1 ,
𝑝
𝑞
{(𝑥𝑖 , 𝑧𝑖 )}ℎ𝑖=1 }, {(𝑦𝑖 , 𝑤𝑖 )}𝑖=1 }, {(𝑦𝑖 , 𝑧𝑖 )}𝑖=1 }}

Như vậy đối với việc hợp nhất từ điển đối với trường hợp này phúc tạp hơn nhiều so với
trường hợp hai từ điển có cùng cặp ngơn ngữ. Đối với việc xây dựng dữ liệu đích ở các cặp
ngơn ngữ X-Y và W-Z, giải pháp đơn giản là chọn tất cả các cặp từ của các cặp ngôn ngữ X-Y
và W-Z.
3.3

Đề xuất thuật tốn hợp nhất dữ liệu từ điển

Từ các mơ hình toán học hợp nhất dữ liệu từ điển ở trên, chúng tơi đã đề xuất thuật tốn tổng
qt cho bài tốn hợp nhất từ điển như trình bày dưới đây:
1: Input: A = (𝑥𝑖..𝑛 , 𝑦𝑖..𝑛 ), B = (𝑤𝑖..𝑚 , 𝑧𝑖..𝑚 )
2: Output: C = A U B

3: foreach (𝑥𝑖 , 𝑦𝑖 ) ∈ 𝐴 do
4: for j : 1→ m do
5:
if (𝑥𝑖 = wj) and (yi =zj) then
6:
C  (xi, yi)
7: else
8:
if (𝑥𝑖 = wj) and (yi ≠ zj) then
9:
C  (xi, yi U zj)
10:
else
11:
if (𝑥𝑖 ≠ wj) then
12: {
13: C  (xi, yi)
14: C  (wj, zj)
15: }

Trên đây là đề xuất thuật toán hợp nhất từ điển dạng tổng quát, trong đó A, B là các từ điển
nguồn, C là từ điển đích xây dựng được từ sự hợp nhất các từ điển nguồn A và B. Thuật tốn
này có thể áp dụng cho việc hợp nhất N từ điển nguồn để tạo nên từ điển đích bằng cách chia
cặp các từ điển nguồn.

222

4

KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC

Kết luận

Ứng dụng dữ liệu từ điển trong lĩnh vực xử lý tự nhiên rất phổ biến và đa dạng như: tra cứu,
dịch máy, tìm kiếm, tách từ, gióng hàng... Tuy nhiên, dữ liệu từ điển hiện nay rất hạn chế về
chất lượng và kích thước, nhất là đối với các ngơn ngữ ít được phổ biến như tiếng Việt và tiếng
các dân tộc thiểu số. Hiện nay đã có nhiều nghiên cứu khác nhau nhằm thu thập và xây dựng dữ
liệu từ điển như trích rút dữ liệu từ website, kho ngữ liệu, văn bản đa ngữ đã mang lại rất nhiều
thành công và đã tạo ra được nhiều từ điển đa dạng. Mặc dù vậy, một thực trạng đang tồn tại là
các từ điển này khơng có sự gắn kết với nhau mà chúng đang nằm riêng rẽ, tách biệt nên việc
khai thác và sử dụng các từ điển hiện nay là chưa hiệu quả và cịn gặp rất nhiều khó khăn. Trong
phạm vi của bài báo và hội thảo này, chúng tơi đã đề xuất mơ hình và thuật tốn nhằm hợp nhất
các từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển lớn hơn và đồng nhất về cấu trúc,
định dạng nhằm phục vụ tốt hơn trong lĩnh vực xử lý ngơn ngữ tự nhiên. Mơ hình và thuật tốn
tổng qt này có vai trị rất quan trọng, tạo tiền đề cho sự phát triển và nghiên cứu tiếp theo để
xây dựng và thử nghiệm chương trình hoàn chỉnh hợp nhất từ điển.

Tài liệu tham khảo
[1] Koehn Ph.: Europarl: A Parallel Corpus for Statistical Machine Translation. In Proc. of the 10th
Machine Translation Summit, Phuket, Thaïland, pp. 79–86 (2005).
[2] Huynh C-P.: Des suites de test pour la TA à un système d’exploitation de corpus alignés de
documents et métadocuments multilingues, multiannotés et multimedia. PhD thesis-National
Polytechnic Institute of Grenoble, 228 p. (2010).
[3] Nikos M., Papavassiliou V.: Automatic acquisition of bilingual language resources. Proceedings of
the 10th International Conference of Greek Linguistics, Komotini, Greece (2011).
[4] Huynh C-P: New approach for collecting high quality parallel corpora from multilingual Websites.
iiWAS11 Conference. Proceedings of the 13th International Conference on Information Integration
and Web-based Applications & Services (2011).
[5] Dosam H.: A Dictionary Development System based on Web. International Information Institute

(Tokyo). Information 14.11 (2011).
[6] Amel F., Paroubek P.: Twitter as a comparable corpus to build multilingual affective lexicons. The
7th Workshop on Building and Using Comparable Corpora (2014).
[7] Huynh C-P: Solutions of Creating Large Data Resources in Natural Language Processing. ACIIDS
Conference (2016).
[8] />[9] />[10]
[11] />[12] www.dict.org

Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về