ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
HUỲNH SƠN LÂM
XÂY DỰNG TỪ ĐIỂN CỘNG TÁC THUẬT NGỮ
ANH – VIỆT LĨNH VỰC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG
LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
TP. HỒ CHÍ MINH – Năm 2017
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
HUỲNH SƠN LÂM
XÂY DỰNG TỪ ĐIỂN CỘNG TÁC THUẬT NGỮ
ANH – VIỆT LĨNH VỰC CÔNG NGHỆ THÔNG TIN VÀ
TRUYỀN THÔNG
NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. NGUYỄN LƢU THÙY NGÂN
TP. HỒ CHÍ MINH – Năm 2017
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, đƣợc thực hiện
dƣới sự hƣớng dẫn khoa học của TS. Nguyễn Lƣu Thùy Ngân. Các số liệu, kết quả
nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công
trình nào khác.
Ngƣời viết luận văn
Huỳnh Sơn Lâm
-1-
LỜI CẢM ƠN
Em xin chân thành gửi lời cảm ơn đến các thầy, cô giáo khoa Khoa học máy
tính, Trƣờng Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí
Minh đã giảng dạy, giúp đỡ em trong suốt quá trình học tập tại Trƣờng.
Em xin gửi lời cảm ơn sâu sắc tới cô giáo, TS. Nguyễn Lƣu Thùy Ngân, ngƣời
đã trực tiếp hƣớng dẫn, chỉ bảo, giúp đỡ em hoàn thành luận văn này.
Em xin chân thành cảm ơn!
-2-
MỤC LỤC
LỜI CAM ĐOAN .......................................................................................................1
LỜI CẢM ƠN .............................................................................................................2
MỤC LỤC ...................................................................................................................3
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .................................................6
DANH SÁCH BẢNG BIỂU .......................................................................................7
DANH SÁCH HÌNH VẼ ............................................................................................8
MỞ ĐẦU .....................................................................................................................9
1. Lý do chọn đề tài .............................................................................................9
2. Mục tiêu nghiên cứu ......................................................................................10
3. Đối tƣợng, phạm vi nghiên cứu .....................................................................10
4. Nội dung luận văn ..........................................................................................10
Chƣơng 1: TỔNG QUAN VỀ ĐỀ TÀI .....................................................................12
1.1. Bài toán rút trích thuật ngữ .........................................................................12
1.2. Bài toán xây dựng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực ICT....13
1.3. Tiểu kết chƣơng 1 .......................................................................................19
Chƣơng 2: CƠ SỞ LÝ THUYẾT ..............................................................................20
2.1. Các khái niệm liên quan .............................................................................20
2.1.1. Thuật ngữ lĩnh vực công nghệ thông tin và truyền thông ....................20
2.1.2. Từ điển cộng tác ...................................................................................21
2.2. Một vài thuật toán thƣờng sử dụng trong bài toán rút trích thuật ngữ .......22
2.2.1. Sử dụng độ đo cục bộ TF .................................................................22
2.2.2. Kết hợp độ đo cục bộ TF và độ đo toàn cục IDF .............................23
-3-
2.2.3. Kết hợp độ đo cục bộ chi bình phƣơng
với độ đo toàn cục IDF 24
2.2.4. K - láng giềng gần nhất ....................................................................25
2.2.5. Naïve Bayes ......................................................................................26
2.2.6. S3VM ...............................................................................................27
2.3. Một vài mô hình ứng dụng từ điển cộng tác ...............................................29
2.3.1. VocBench .............................................................................................29
2.3.2. MediaWiki ...........................................................................................33
2.4. Tiểu kết chƣơng 2 .......................................................................................37
Chƣơng 3: MÔ HÌNH ĐỀ XUẤT .............................................................................39
3.1. Phƣơng pháp rút trích thuật ngữ ICT ..........................................................39
3.1.1. Yêu cầu bài toán ...................................................................................39
3.1.2. Phƣơng pháp ........................................................................................39
3.2. Phƣơng pháp xây dựng từ điển cộng tác ....................................................41
3.2.1. Các phân nhóm thuật ngữ sử dụng trong từ điển .................................41
3.2.2. Cơ chế cộng tác ....................................................................................43
3.2.3. Dữ liệu từ điển .....................................................................................44
3.3. Tiểu kết chƣơng 3 .......................................................................................45
Chƣơng 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ ............................................................46
4.1. Bài toán rút trích thuật ngữ ICT .................................................................46
4.1.1. Dữ liệu thử nghiệm ..............................................................................46
4.1.2. Các kết quả thử nghiệm .......................................................................46
4.2. Ứng dụng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực ICT .................49
4.2.1. Giới thiệu ứng dụng .............................................................................49
4.2.2. Đánh giá chức năng chính của ứng dụng .............................................52
4.2.3. Đánh giá tính hữu ích của ứng dụng ....................................................53
-4-
4.3. Tiểu kết chƣơng 4 .......................................................................................54
Chƣơng 5: KẾT LUẬN VÀ KHUYẾN NGHỊ .........................................................55
5.1. Kết quả đạt đƣợc .........................................................................................55
5.2. Hạn chế .......................................................................................................55
5.3. Hƣớng phát triển .........................................................................................55
TÀI LIỆU THAM KHẢO .........................................................................................57
PHỤ LỤC 1: PHIẾU KHẢO SÁT ............................................................................59
-5-
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT
Ký hiệu
Ý nghĩa
01
ACL
Association for Computational Linguistics
02
FAO
Food and Agriculture Organization
03
IT
04
ICT
Công nghệ thông tin và truyền thông
05
IDF
Inverse Document Frequency
06
TF
Term Frequency
07
K-NN
08
CC-BY-SA-3.0
09
TREC
10
LCS
11
MWE
multi-word Expression
12
EBP
Embebbed Base Phrase
13
MVC
Model View Controller
Công nghệ thông tin
K-Nearest Neighbors
Creative Commons Attribution-ShareAlike 3.0
Text REtrieval Conference
Longest Common Subquence
-6-
DANH SÁCH BẢNG BIỂU
TT
Tên bảng
01
Bảng 2.1. Một số tính năng chính của MediaWiki
02
Bảng 4.1. Minh họa hết quả thử nghiệm với TF.IDF
03
Bảng 4.2. Minh họa hết quả thử nghiệm với K-NN
04
Bảng 4.3. Minh họa hết quả thử nghiệm với
05
Bảng 4.4. So sánh các kết quả thử nghiệm
06
Bảng 4.5. Tổng hợp ý kiến đáng giá về tính hữu ích của ứng dụng
-7-
.IDF
DANH SÁCH HÌNH VẼ
TT
Tên hình
01
Hình 1.1. Giao diện tra từ của Bamboo tra từ
02
Hình 1.2. Giao diện chính của Glosbe.com
03
Hình 1.3. Giao diện tra từ của rung.vn
04
Hình 2.1. Giao diện chính của công cụ VocBench
05
Hình 2.2. Biểu trƣng của Wikipedia
06
Hình 2.3. Biểu trƣng của Wikimedia Commons
08
Hình 3.1. Mô hình cơ cấu tổ chức khoa và bộ môn của UIT
09
Hình 3.2. Phân loại nhóm ngành và ngành Máy tính và Công nghệ thông
tin theo Danh mục giáo dục đào tạo cấp IV
10
Hình 3.3. Các phân nhóm thuật ngữ sử dụng trong từ điển
11
Hình 3.4 . Sơ đồ cơ chế cộng tác của từ điển
12
Hình 4.1. Màn hình tra cứu thuật ngữ
13
Hình 4.2. Màn hình thêm mới thuật ngữ
14
Hình 4.3. Màn hình cập nhật thuật ngữ
15
Hình 4.4. Màn hình thêm mới file thuật ngữ
16
Hình 4.5. Màn hình Quản trị nội dung từ điển
-8-
MỞ ĐẦU
1. Lý do chọn đề tài
Phát triển nền kinh tế tri thức đang là một yêu cầu lớn đƣợc đặt ra trong toàn
bộ sự phát triển kinh tế và xã hội. Việc đẩy mạnh ứng dụng công nghệ thông tin và
truyền thông đã đƣợc xác định là động lực to lớn nhất để thúc đẩy nền kinh tế tri
thức phát triển. Có thể hiểu rằng, công nghệ thông tin và truyền thông là một ngành
nghề rộng lớn có ảnh hƣởng tới nhiều ngành nghề khác nhau của xã hội, nhất là
những xã hội phát triển có sử dụng hàm lƣợng tri thức cao.
Ngày 17/10/2000, Bộ Chính trị, Ban Chấp hành Trung ƣơng Đảng Cộng sản
Việt Nam (Khóa VIII) đã ban hành Chỉ thị số 58-CT/ TW về “Đẩy mạnh ứng dụng
và phát triển công nghệ thông tin phục vụ sự nghiệp công nghiệp hóa, hiện đại hóa”
(Chỉ thị 58). Dƣới sự chỉ đạo của Đảng và điều hành của Chính phủ, trong 10 năm
qua, công nghệ thông tin và truyền thông Việt Nam đã đạt đƣợc nhiều thành tựu
quan trọng và đáp ứng đƣợc những mục tiêu đề ra. Công nghiệp Công nghệ thông
tin đã trở thành ngành kinh tế quan trọng, có tốc độ phát triển hàng năm cao so với
các khu vực khác, có tỷ lệ đóng góp cho tăng trƣởng GDP của cả nƣớc ngày càng
tăng.
Cùng với sự phát triển đó, nhu cầu nguồn nhân lực công nghệ thông tin và
truyền thông chất lƣợng cao cũng không ngừng tăng cao trong những năm qua.
Theo định hƣớng quy hoạch quốc gia đến năm 2020, Việt Nam cần khoảng 1 triệu
lao động ngành Công nghệ thông tin. Vì lẽ đó, số ngƣời giam gia học tập, nghiên
cứu trong lĩnh vực công nghệ thông tin và truyền thông không ngừng tăng cao trong
những năm qua. Một vấn đề đặt ra trong quá trình học tập và nghiên cứu là nhu cầu
tra cứu từ vựng, thuật ngữ tiếng Anh chuyên ngành. Để đáp ứng nhu đó, nhiều bộ từ
điển đã ra đời dƣới nhiều dạng khác nhau nhƣ: từ điển giấy, từ điển trực tuyến, ứng
dụng từ điển trên các thiết bị di động, … nhƣng vẫn chƣa thể đáp ứng tốt đƣợc yêu
cầu tra cứu của đa số ngƣời sử dụng vì lĩnh vực công nghệ thông tin và truyền thông
là một trong các lĩnh vực luôn không ngừng phát triển với một tốc độ rất nhanh, số
thuật ngữ mới cũng xuất hiện rất nhiều và nhanh chóng.
-9-
Để giải quyết vấn đề này một giải pháp đã đƣợc đề ra trong những năm gần
đây là xây dựng từ điển thuật ngữ theo dạng cộng tác. Giải pháp này đƣợc xây dựng
dựa trên ý tƣởng chính là huy động tối đa tri thức cộng đồng để xây dựng một bộ từ
điển dần hoàn thiện từng ngày và đáp ứng nhu cầu của ngƣời sử dụng. Tuy nhiên,
thực tế cho thấy những bộ từ điển thuật ngữ Anh – Việt chuyên ngành hiện tại vẫn
chƣa đáp ứng đƣợc đầy đủ nhu cầu sử dụng.
Với những lý do nêu trên, chúng tôi chọn đề tài “Xây dựng từ điển cộng tác
thuật ngữ Anh – Việt lĩnh vực công nghệ thông tin và truyền thông” để thực hiện.
2. Mục tiêu nghiên cứu
- Nghiên cứu kỹ thuật rút trích thuật ngữ bằng Tiếng Anh tự động từ các bài
báo khoa học về lĩnh vực công nghệ thông tin và truyền thông (ICT) để bổ sung vào
từ điển.
- Xây dựng từ điển cộng tác thuật ngữ Anh - Việt cho lĩnh vực ICT với khoảng
1500 từ vựng ban đầu.
3. Đối tƣợng, phạm vi nghiên cứu
Trong khuôn khổ luận văn, chúng tôi thực hiện các nội dung sau:
- Tìm hiểu khái niệm và cách thức tổ chức, hoạt động của một bộ từ điển cộng
tác trực tuyến.
- Tìm hiểu bài toán rút trích và một số thuật toán rút trích phổ biến hiện nay.
- Tìm hiểu công cụ VocBench.
- Xây dựng từ điển cộng tác thuật ngữ Anh - Việt cho lĩnh vực ICT với khoảng
1500 từ vựng ban đầu.
- Nghiên cứu và đề xuất kỹ thuật rút trích thuật ngữ bằng Tiếng Anh một cách
tự động từ các bài báo khoa học về lĩnh vực ICT để bổ sung vào từ điển.
4. Nội dung luận văn
Nội dung của luận văn đƣợc trình bày trong 05 chƣơng:
Chƣơng 1: Tổng quan về đề tài
Giới thiệu tổng quan về đề tài bao gồm bài toán rút trích thuật ngữ; bài toán
xây dựng từ điển thuật ngữ Anh – Việt cho lĩnh vực ICT.
-10-
Chƣơng 2: Cơ sở lý thuyết
Trình bày các khái niệm liên quan đến đề tài; các công trình liên quan về từ
điển cộng tác; tổng quan về bài toán rút trích và một số thuật toán rút trích phổ biến.
Chƣơng 3: Mô hình đề xuất
Đề xuất mô hình tổ chức lƣu trữ bộ từ điển thuật ngữ Anh – Việt lĩnh vực ICT
và xây dựng phƣơng pháp rút trích thuật ngữ từ bài báo chuyên ngành bằng tiếng
Anh để làm dữ liệu bổ sung từ vựng cho từ điển.
Chƣơng 4: Thử nghiệm và đánh giá
Giới thiệu việc xây dựng, cài đặt bộ từ điển cộng tác trên nền tảng web cộng
tác; triển khai thử nghiệm và khảo sát tính hữu ích của hệ thống đối với ngƣời sử
dụng.
Chƣơng 5: Kết luận và khuyến nghị
Tổng kết những kết quả đạt đƣợc của đề tài; hạn chế của đề tài; đồng thời đề
ra hƣớng phát triển của đề tài.
-11-
Chƣơng 1: TỔNG QUAN VỀ ĐỀ TÀI
1.1. Bài toán rút trích thuật ngữ
Theo từ điển Tiếng Việt (Hoàng Phê, 2010), Thuật ngữ là Từ ngữ biểu thị một
khái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất
định. Ngoài ra, theo B. Q. Zadeh và S. Handschuh [11] thì Thuật ngữ là những đơn
vị từ vựng xác định, đại diện cho một kiến thức cơ bản nhất của một lĩnh vực tri
thức. Nhƣ vậy, Thuật ngữ (Terminology) là một từ hay một cụm từ diễn tả một khái
niệm thuộc một ngành khoa học nhất định.
Rút trích thuật ngữ (Terminology extraction) là một trong những hƣớng
nghiên cứu rút trích thông tin từ văn bản phổ biến hiện nay. Rút trích thuật ngữ từ
một hay nhiều văn bản tức là tìm kiếm và lấy ra tất cả các từ, cụm từ đƣợc xác định
là thuật ngữ. Thuật ngữ đƣợc trích ra có thể là thuật ngữ đã từng xuất hiện trong văn
bản khoa học nào đó, hoặc đó có thể là một thuật ngữ hoàn toàn mới đƣợc công bố.
Hiện nay, đã có nhiều nghiên cứu và tìm ra các kỹ thuật, phƣơng pháp để giải
quyết bài toán rút trích thuật ngữ. Đã có nhiều phƣơng pháp, thuật toán đƣợc đề
xuất và thử nghiệm trên nhiều bộ dữ liệu huấn luyện khác nhau, tuy nhiên những
kết quả thu đƣợc chỉ ở mức chấp nhận đƣợc và vẫn cần có sự can thiệp thủ công của
con ngƣời để có thể tăng thêm độ tin cậy và chính xác của kết quả.
Một số công trình nghiên cứu có thể kể đến nhƣ:
- Công trình “Xây dựng hệ thống rút trích các nội dung chính của văn bản
khoa học dựa trên cấu trúc” [6] đề xuất xác định từ mới dựa trên độ quan trọng của
từ đƣợc tính theo công thức kết hợp của độ đo cục bộ và độ đo toàn cục. Theo đó,
một thuật toán đánh giá từ khóa dựa trên sự kết hợp của độ đo cục bộ và độ đo toàn
cục là TF.IDF (Term Frequency - Inverse Document Frequency) cho một kết quả
khá tốt (51,98%) trên bộ dữ liệu mẫu.
- Theo báo cáo khoa học “Automatic Term Extraction Based on Perplexity of
Compound Words” [16] đề xuất rút trích thuật ngữ dựa trên phƣơng pháp kết hợp
loại và tần số qua entropy (Combining Types and Frequencies via Entropy). Nhóm
tác giả đã áp dụng phƣơng pháp này với tập các bài báo và tóm tắt trên Mainichi
-12-
Web News từ 04/2011 đến 3/2012. Kết quả đạt đƣợc trên 40% với các bài báo thuộc
lĩnh vực kinh tế, thế giới, xã hội, chính trị.
- Một hƣớng tiếp cận khác cho rút trích là dựa trên mô hình ontology (Chau và
Tuoi, 2009). Nhóm tác giả Chau và Tuoi [14] đã sử dụng phƣơng pháp đề xuất trên
tập dữ liệu TREC (Text REtrieval Conference) ( TREC-07
(446 câu hỏi); TREC-06 (492 câu hỏi) và TREC-02 (440 câu hỏi) đã đƣợc dịch sang
tiếng Việt. Kết quả đạt đƣợc độ chính xác xấp xỉ 74,6%.
- Một hƣớng tiếp cận rút trích khác là dựa trên lý thuyết về dãy con chung dài
nhất (Longest Common Subquence – LCS) [15]. Áp dụng rút trích multi-word
Expression (MWE) kết hợp heuristic và phát hiện Embebbed Base Phrase (EBP)
trên tập mẫu 8000 câu. Kết quả đạt xấp xỉ 36% với N-gram.
1.2. Bài toán xây dựng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực ICT
Hiện nay, công nghệ thông tin và truyền thông là một trong những ngành đang
trong thời kỳ phát triển bùng nổ, thu hút một lƣợng lớn ngƣời học tập, nghiên cứu
các chuyên ngành trong lĩnh vực.
Do vậy, để đáp ứng nhu cầu tra cứu phục vụ cho mục đích học tập và nghiên
cứu của đa số ngƣời sử dụng, đã có không ít ấn bản từ điển thuật ngữ của các
chuyên ngành thuộc lĩnh vực công nghệ thông tin và truyền thông đã ra đời. Tuy
nhiên, hầu hết đều chƣa đáp ứng đƣợc nhu cầu thực tế của đa số ngƣời sử dụng. Đa
số các lý do đƣợc đƣa ra đều xoay quanh 3 vấn đề tồn tại tiêu biểu của một ấn bản
từ điển thuật ngữ chuyên ngành là:
(1) Khó khăn và tốn nhiều thời gian trong việc tra cứu một cách thủ công,
không có tính di động cao, chƣa đáp ứng đƣợc nhu cầu tra cứu lập tức, một nhu cầu
luôn tồn tại đối với những cá nhân hoạt động trong lĩnh vực công nghệ thông tin và
truyền thông;
(2) Đa số từ điển chƣa đƣợc phân loại theo từng chuyên ngành cụ thể trong
cùng lĩnh vực;
(3) Số lƣợng thuật ngữ trong từng bộ từ điển còn hạn chế, hầu hết đều không
có khả năng cập nhật kịp thời những thuật ngữ mới trong lĩnh vực, nhất là lĩnh vực
-13-
công nghệ thông tin và truyền thông là một trong các lĩnh vực có sự xuất hiện, bổ
sung và cập nhật thuật ngữ với tốc độ rất cao.
Từ đó, ý tƣởng về việc xây dựng bộ từ điển thuật ngữ lĩnh vực công nghệ
thông tin và truyền thông đã ra đời. Đã có không ít các bộ từ điển thuật ngữ chuyên
ngành đã ra đời với mong muốn đáp ứng nhu cầu tra cứu của đa số ngƣời dùng
nhằm phục vụ nhu cầu học tập và nghiên cứu của họ.
Một số ứng dụng từ điển đƣợc xây dựng dƣới dạng ứng dụng web hiện nay có
thể kể đến nhƣ:
Bamboo tra từ
Hình 1.1. Giao diện tra từ của Bamboo tra từ
Bamboo tra từ (tratu.soha.vn) là trang từ điển trực tuyến đa chuyên ngành,
đƣợc Công ty Cổ phần Truyền thông Việt Nam VC Corp phát triển dựa trên nền
tảng mở mediawiki cho phép ngƣời dùng tra cứu nghĩa của từ trong các lĩnh vực
khác nhau. Nội dung của Bamboo tra từ tuân thủ Giấy phép Creative Commons
Attribution ShareAlike.
Cơ sở dữ liệu đƣợc kế thừa nguồn dữ liệu từ trang từ điển trực tuyến Vietdic,
cộng với việc thƣờng xuyên bổ sung các nguồn dữ liệu từ việc mua lại các từ điển
có bản quyền nhƣ Prodic và Javidic, Bamboo Tra từ hiện đang sở hữu một nguồn
dữ liệu khổng lồ và quý giá. Nhƣng điều tạo nên sự khác biệt giữa Bamboo Tra từ
và các trang từ điển khác, đó chính là những đóng góp của cộng đồng các thành
-14-
viên Bamboo Tra từ trong việc xây dựng nguồn dữ liệu từ điển. Hiện nay số lƣợng
thành viên của Bamboo tra từ đã lên đến con số hơn 30,000.
Bên cạnh tính năng chính hỗ trợ cho việc tra cứu và dịch thuật, Bamboo tra từ
còn đƣợc tích hợp thêm nhiều tiện ích để ngƣời dùng có thể sử dụng một cách dễ
dàng và nhanh chóng nhất.
(1) Box Hỏi – Đáp dành cho ngƣời dùng
Ngoài tính năng tra từ thân thiện và dễ sử dụng, Box Hỏi – Đáp chính là điểm
đến thú vị nhất đối với những ngƣời thƣờng xuyên truy cập Bamboo tra từ. Với sự
tham gia của rất nhiều thành viên tích cực, trong đó có cả những ngƣời làm công tác
dịch thuật chuyên nghiệp, Box Hỏi – Đáp luôn là nơi giải đáp tốt nhất những thắc
mắc về học tập ngoại ngữ và dịch thuật của các thành viên cộng đồng Bamboo Tra
từ.
(2) Tra từ Add-on cho Firefox dành cho ngƣời dùng
Với mục đích trợ giúp cho ngƣời dùng sử dụng các trình duyệt đang đƣợc ƣa
chuộng nhất hiện nay trong việc tra cứu, nhóm phát triển Bamboo tra từ đã cho ra
đời add-on tra từ dành cho Firefox với giao diện đơn giản, dễ sử dụng và tính tƣơng
tác cao.
(3) Tra từ Bookmarklet dành cho ngƣời dùng
Ban đầu là một tiện ích đƣợc nhóm phát triển Bamboo tra từ cho ra đời nhằm
đáp ứng yêu cầu của đa số ngƣời dùng Internet Explorer. Nhƣng Tra từ
Bookmarklet dần cho thấy sự ƣu việt bằng khả năng tƣơng tác với tất cả các trình
duyệt phổ biến hiện nay.
(4) Forum Bamboo tra từ dành cho ngƣời dùng
Forum Bamboo tra từ là một không gian cộng đồng khác của Bamboo Tra từ
bên cạnh Box Hỏi – Đáp. Với nhiều không gian dành cho giải trí hơn, các thành
viên sẽ có đƣợc khoảng thời gian thƣ giãn sau giờ học tập làm việc căng thẳng.
(5) Tiện ích nhúng tra cứu nhanh trên website dành cho Webmaster
Bamboo tra từ hiện cho phép tích hợp tính năng tra cứu lên trang web của bạn.
Chỉ cần vài thao tác đơn giản, đã có thể khai thác đƣợc nguồn dữ liệu khổng lồ
Bamboo tra từ, với các bộ từ điển lớn: Anh – Pháp – Việt – Nhật,… và hơn 20 từ
điển chuyên ngành khác.
-15-
(6) Module Bamboo tra từ cho Joomla dành cho Webmaster
Module Bamboo tra từ là tính năng mới mà Bamboo tra từ phát triển dành
riêng cho mã nguồn mở Joomla. Đây là module hỗ trợ ngƣời dùng tra cứu từ điển
trực tiếp ngay trên web.
Mặc dù có nhiều tính năng ƣu việt, nhƣng Bamboo tra từ chƣa thực sự phù
hợp dành cho các cá nhân đang học tập và nghiên cứu các chuyên ngành thuộc lĩnh
vực công nghệ thông tin và truyền thông vì:
(1) Số lƣợng thuật ngữ lĩnh vực này còn khá hạn chế (chƣa có chuyên mục
riêng);
(2) Chƣa hỗ trợ giải thích khái niệm thuật ngữ mà chỉ mới dừng lại ở mức hỗ
trợ ngữ nghĩa từ vựng.
Glosbe.com – the multilingual online dictionary
Hình 1.2. Giao diện chính của Glosbe.com
Glosbe.com là một ứng dụng từ điển đƣợc xây dựng trên mô hình web cộng
tác với sự hỗ trợ tra cứu ngữ nghĩa từ vựng trên nhiều ngôn ngữ khác nhau.
Glosbe.com cung cấp một dữ liệu từ điển lớn nhằm đáp ứng nhu cầu tra cứu của
ngƣời dùng. Đồng thời Glosbe.com cũng rất trân trọng và hoan nghên tất cả các
đóng góp của ngƣời dùng thông qua môi trƣờng cộng tác công khai trên giao diện
-16-
ứng dụng web của từ điển. Một số dữ liệu của Glosbe.com hiện có đƣợc cấp phép
với CC-BY-SA, một số là FDL, một số có giấy phép tùy chỉnh.
Tuy nhiên, Glosbe.com đƣợc đánh giá là một bộ từ điển đáp ứng khá tốt
những nhu cầu tra cứu phổ thông, nhƣng chƣa đáp ứng đầy đủ nhƣ cầu tra cứu các
thuật ngữ chuyên ngành nói chung và những thuật ngữ lĩnh vực công nghệ thông tin
và truyền thông nói riêng.
Rung.vn
Hình 1.3. Giao diện tra từ của rung.vn
-17-
Rung.vn là một ứng dụng từ điển trực tuyến, một ứng dụng dành cho cộng
đồng dịch thuật mở với mục tiêu Dịch thuật tƣơng tác - Dịch thuật không giới hạn.
Rung.vn cung cấp cho ngƣời dùng các bộ từ điển trực tuyến miễn phí, có hình minh
hoạ, có phiên âm nhiều thứ tiếng Anh, Việt, Trung, Hàn, Nhật, Pháp, Viết tắt, ...
Hiện tại Rung.vn mới bổ sung thêm 2 bộ từ điển nữa là Anh - Nhật và Nhật – Anh.
Bên cạnh đó, Rung.vn cũng đã bổ sung thêm ứng dụng bookmarklet hỗ trợ tra cứu
và dịch đoạn văn bản trên mọi trình duyệt tại các trang mà bạn đang xem.
Trong lúc tra từ, chúng ta thƣờng copy qua lại những văn bản để tra thì chúng
ta vô tình copy luôn những ký tự hoặc từ không mong muốn, do đó rung.vn đã hiểu
và phát triển cho bạn một từ điển thông minh. Dù bạn copy hay gõ dƣ hay thiếu từ,
hở đầu hở đuôi thì kết quả cũng gần nhƣ từ bạn mong muốn, và bao gồm các từ gợi
ý giúp chúng ta có thêm nhiều lựa chọn.
Rung.vn đƣợc xây dựng trên nền tảng Mã nguồn mở nên nội dung của từ đều
có thể thêm hoặc sửa lại theo đúng nghĩa bởi cộng đồng. Rung.vn rất hoan nghênh
sự đóng góp của cộng đồng tham gia vào việc chỉnh sửa này để tạo nên một bộ từ
điển hoàn thiện và hoàn toàn miễn phí cho cộng đồng.
Nhận xét
So với các ấn bản từ điển đã phát hành thì những bộ từ điển thuật ngữ trực
tuyến hiện đại đã bƣớc đầu có đƣợc một số ƣu điểm vƣợt trội có thể kể đến nhƣ sau:
(1) Có tính di động cao, đƣợc hỗ trợ trên nhiều thiết bị, đƣợc truy cập thông
qua các thiết bị hỗ trợ, đáp ứng nhu cầu tra cứu nhanh;
(2) Có khả năng cập nhật và bổ sung nhanh chóng nhờ vào các cơ chế quản lý
ứng dụng của nhà phân phối;
(3) Đa số các bộ từ điển này đều có sự kế thừa, tổng hợp từ các ấn bản từ điển
đã đƣợc phát hành, có số lƣợng các thuật ngữ là tƣơng đối lớn so với các ấn bản từ
điển giấy.
Tuy nhiên, những ứng dụng từ điển này vẫn có một số vấn đề còn tồn tại và
cần đƣợc giải quyết. Hầu hết những ứng dụng từ điển này đều đƣợc xây dựng dƣới
hình thức một ứng dụng web, một chƣơng trình ứng dụng trên máy tính hay một
ứng dụng trên các thiết bị di động. Nhƣng thực tế là những ứng dụng này chỉ tổng
hợp tất cả thuật ngữ cùng phần chú giải vào dữ liệu từ điển của ứng dụng chứ chƣa
-18-
có một sự phân loại tổ chức từ điển theo từng chuyên ngành trong lĩnh vực công
nghệ thông tin và truyền thông. Một vấn đề còn tồn tại nữa đó là những từ điển này
chƣa thật tận dụng có hiệu quả đƣợc sự cộng tác của ngƣời dùng trực tiếp thông qua
ứng dụng.
Mô hình từ điển thuật ngữ dựa trên cơ sở ứng dụng web cộng tác cùng với một
mô hình tổ chức phân loại phù hợp cho từ điển thật sự là một giải pháp phù hợp cho
nhu cầu tra cứu thuật ngữ phục vụ việc học tập và nghiên cứu của các cá nhân đang
hoạt động trong lĩnh vực. Mô hình ứng dụng web cộng tác là một mô hình có thể
tận dụng tối ƣu nhất sự đóng góp của tất cả các cá nhân sử dụng từ điển nhằm cùng
góp phần xây dựng từ điển ngày càng hoàn thiện hơn. Bên cạnh đó mô hình web
cộng tác là một mô hình phù hợp nhất cho việc kịp thời cập nhật những thuật ngữ
mới bằng việc tận dụng những tri thức của ngƣời dùng đƣợc đóng góp cho từ điển
thông qua các hoạt động cộng tác xây dựng từ điển.
1.3. Tiểu kết chƣơng 1
Chƣơng 1 đã trình bày một cách tổng quan về đề tài. Phát biểu 2 bài toán
tƣơng ứng với 2 mục tiêu của đề tài bao gồm: bài toán rút trích thuật ngữ và bài
toán xây dựng từ điển cộng tác thuật ngữ Anh – Việt lĩnh vực ICT.
-19-
Chƣơng 2: CƠ SỞ LÝ THUYẾT
2.1. Các khái niệm liên quan
2.1.1. Thuật ngữ lĩnh vực công nghệ thông tin và truyền thông
Theo Từ điển Oxford, Thuật ngữ là một từ hoặc cụm từ đƣợc sử dụng nhƣ tên
của một đối tƣợng nào đó trong một ngôn ngữ cụ thể; là từ ngữ chuyên môn của
một vấn đề riêng biệt. Công nghệ thông tin và truyền thông (Information and
Communications Technology – ICT) là ngành học nghiên cứu về việc sử dụng máy
tính, internet, video và các công nghệ khác nhƣ là một môn tại các trƣờng học.
Theo từ điển Tiếng Việt (Hoàng Phê, 2010), Thuật ngữ là từ ngữ biểu thị một
khái niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất
định.
Theo bộ từ điển mở Wiktionaty thì Thuật ngữ là Từ ngữ biểu thị một khái
niệm xác định thuộc hệ thống những khái niệm của một ngành khoa học nhất định.
Theo các định nghĩa về thuật ngữ nhƣ trên, ta xác định đƣợc các đặc điểm
chính của thuật ngữ là:
- Thuật ngữ khác với từ ngữ phổ thông
- Mỗi thuật ngữ thuộc một lĩnh vực khoa học công nghệ chỉ biểu thị một khái
niệm và ngƣợc lại mỗi khái niệm trong lĩnh vực đó chỉ đƣợc biểu hiện bằng một
thuật ngữ duy nhất
- Thuật ngữ không có tính biểu cảm
Theo bộ bách khoa toàn thƣ mở Wikipedia thì Công nghệ thông tin và truyền
thông, thƣờng đƣợc gọi là ICT, là cụm từ thƣờng dùng nhƣ từ đồng nghĩa rộng hơn
cho công nghệ thông tin (IT), nhƣng thƣờng là một thuật ngữ chung để nhấn mạnh
vai trò của truyền thông hợp nhất và sự kết hợp của viễn thông (đƣờng dây điện
thoại và tín hiệu không dây), hệ thống quản lý tòa nhà thông minh và hệ thống
nghe-nhìn trong công nghệ thông tin hiện đại. "ICT" đƣợc sử dụng nhƣ là một thuật
ngữ chung cho tất cả các loại công nghệ cho phép ngƣời dùng tạo, truy cập và thao
tác với thông tin. ICT là một sự kết hợp của công nghệ thông tin và công nghệ
truyền thông.
-20-
Nhƣ vậy, thuật ngữ lĩnh vực công nghệ thông tin và truyền thông là những từ,
cụm từ biểu thị một khái niệm cụ thể thuộc lĩnh vực công nghệ thông tin và truyền
thông, nghiên cứu máy tính, internet, video và các công nghệ liên quan khác. Đa số
thuật ngữ thƣờng chỉ tập trung xuất hiện trong các văn bản khoa học trong cùng lĩnh
vực.
Từ các định nghĩa và đặc điểm đã nêu của một từ đƣợc cho là thuật ngữ, ta có
thể xác định đƣợc một số dấu hiệu nhận biết giúp xác định một từ có khả năng là
thuật ngữ lĩnh vực công nghệ thông tin và truyền thông trong văn bản khoa học
thuộc lĩnh vực công nghệ thông tin và truyền thông nhƣ sau:
- Thƣờng chỉ xuất hiện trong các văn bản khoa học và tài liệu chuyên ngành
trong cùng lĩnh vực (Công nghệ thông tin và truyền thông)
- Là từ khóa trong văn bản (đa số là bài báo khoa học)
- Là danh ngữ, thƣờng là danh từ hay cụm danh từ
- Là từ mới, thƣờng có giải thích khái niệm đi kèm
- Là từ đƣợc viết tắt trong văn bản, thƣờng là những thuật ngữ đƣợc sử dụng
nhiều lần trong văn bản
2.1.2. Từ điển cộng tác
Từ điển là danh sách các từ ngữ đƣợc sắp xếp thành các từ vị chuẩn (lemma).
Một từ điển thông thƣờng cung cấp các giải nghĩa các từ ngữ đó hoặc các từ ngữ
tƣơng đƣơng trong một hay nhiều thứ tiếng khác. Ngoài ra còn có thể có thêm thông
tin về cách phát âm, các chú ý ngữ pháp, các dạng biến thể của từ, lịch sử hay từ
nguyên, cách sử dụng hay các câu ví dụ, trích dẫn. Từ điển là nơi giải thích thông
tin về ngôn ngữ của con ngƣời một cách dễ hiểu và khách quan nhất. Thông thƣờng
từ điển đƣợc trình bày dƣới dạng sách. Ngày nay, từ điển còn đƣợc số hóa và cung
cấp dƣới dạng phần mềm máy tính, ứng dụng trên nền web hay ứng dụng trên di
động, ...
Cộng tác là quá trình trao đổi, trợ giúp, phối hợp giữa một nhóm ngƣời nhằm
đạt đƣợc một mục tiêu xác định. Việc cộng tác đã đƣợc con ngƣời thực hiện từ rất
lâu và đây chính là cơ sở cho sự phát triển và hình thành nên xã hội loài ngƣời, giúp
con ngƣời phát triển từ giai đoạn bầy đàn sang giai đoạn xã hội. Hoạt động cộng tác
-21-
của con ngƣời đƣợc thể hiện dƣới nhiều hình thức khác nhau: Cộng tác trong công
việc, cộng tác trong việc truyền đạt tri thức.
Từ điển cộng tác là một loại từ điển cho phép các cá nhân sử dụng có thể
sửa chữa, góp ý xây dựng để bộ từ điển ngày càng hoàn thiện và chính xác. Từ
điển công tác thƣờng đƣợc xây dựng dƣới dạng các bộ từ điển trực tuyến, miễn phí
cho tất cả ngƣời sử dụng.
Một bộ từ điển cộng tác trực tuyến thƣờng đi kèm một cơ chế cộng tác. Một
cơ chế cộng tác hiệu quả là một cơ chế cộng tác có khả năng vừa kích thích sự cộng
tác của cá nhân, vừa hạn chế những ý kiến đóng góp không chính xác. Một cơ chế
cộng tác hợp lý sẽ giúp xây dựng một ứng dụng cộng tác phát triển và thật sự hữu
ích cho ngƣời dùng.
2.2. Một vài thuật toán thƣờng sử dụng trong bài toán rút trích thuật ngữ
2.2.1. Sử dụng độ đo cục bộ TF
TF - Term Frequency, độ đo cục bộ (local weight) là độ đo thống kê giá trị
thông tin của một từ trong một văn bản theo tần số xuất hiện của từ đó trong văn
bản. Theo đó, một từ đƣợc cho là từ khóa, là từ có chứa độ lợi thông tin càng cao thì
số lần xuất hiện của từ trong văn bản càng cao và giá trị TF càng lớn.
Giá trị TF, tần số xuất hiện của một từ trong một văn bản đƣợc tính bằng
thƣơng của số lần xuất hiện của một từ trong văn bản và số lần xuất hiện nhiều nhất
của một từ bất kỳ trong văn bản đó, giá trị sẽ thuộc khoảng [0, 1]. Cụ thể nhƣ sau:
(
)
(
*(
)
)
+
Trong đó:
- f(t,d): số lần xuất hiện từ t trong văn bản d
- max{f(w,d):w d}: số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn
bản d
Phƣơng pháp rút trích từ dựa vào độ đo TF thƣờng đƣợc áp dụng và cho kết
quả tốt trong các bài toán rút trích từ khóa trong một văn bản. Độ đo TF thƣờng
đƣợc sử dụng trong các phƣơng rút trích từ khóa, thuật ngữ, phân loại văn bản, …
-22-
và thƣờng đƣợc sử dụng kết hợp với độ đo toàn cục (global weight) hay các độ đo
khác nhằm tăng độ tin cậy cho phƣơng pháp.
2.2.2. Kết hợp độ đo cục bộ TF và độ đo toàn cục IDF
Hƣớng tiếp cận này thƣờng sử dụng thông tin thống kê tần số xuất hiện để
chọn lựa các từ khóa quan trọng trong văn bản. Ƣu điểm chính của các hƣớng tiếp
cận dựa trên thống kê này là có thể áp dụng dễ dàng cho nhiều ngôn ngữ.
Thông tin thống kê này thƣờng bao gồm hai loại: Độ đo cục bộ và độ đo toàn
cục. Độ đo cục bộ là độ đo thống kê của một từ trong nội bộ văn bản cần rút trích từ
khóa. Trong khi đó độ đo toàn cục là độ đo thống kê của từ đó trong một tập hợp
nhiều văn bản khác nhau cho trƣớc.
Một số độ đo thống kê cục bộ thông dụng có thể đƣợc sử dụng để lựa chọn các
từ khóa quan trọng nhƣ: tần số xuất hiện (TF), độ phân bố chi bình phƣơng (χ2 ), độ
lợi thông tin (IG), thông tin tƣơng hỗ (MI), hoặc độ mạnh của thuật ngữ (TS). Còn
về độ đo thống kê toàn cục thì có thể kể đến độ đo IDF (Inverse Document
Frequency), dùng để đo nghịch đảo sự phổ biến của một từ trong một tập hợp văn
bản cho trƣớc. Cần phải có một tập dữ liệu văn bản lớn cho trƣớc để có thể sử dụng
độ đo toàn cục.
Hiện nay một thuật toán rút trích từ khóa dựa trên sự kết hợp của độ đo cục bộ
và toàn cục là TF.IDF cũng cho kết quả khá tốt. Cách tiếp cận của TF.IDF sẽ ƣớc
lƣợng đƣợc độ quan trọng của một từ đối với một văn bản trong danh sách tập tài
liệu văn bản cho trƣớc.
Nguyên lý cơ bản của TF.IDF [6] là: độ quan trọng của một từ sẽ tăng lên
cùng với số lần xuất hiện của nó trong văn bản và sẽ giảm xuống nếu từ đó xuất
hiện trong nhiều văn bản khác. Do đó độ đo sự quan trọng của một từ t trong tài liệu
f sẽ đƣợc tính bằng: TF*IDF, với TF là độ phổ biến của từt trong tài liệu f và IDF là
nghịch đảo độ phổ biến của từt trong các tài liệu còn lại của tập tài liệu. Công thức
tổng quát nhƣ sau:
Weightwi = TF * IDF
Với:
TF = Ns(t)/ ∑w
IDF = log(∑d/(d:t d))
-23-