Giải pháp toàn diện: Sử dụng Tiếng Việt Unicode với Visual C/C++
Vấn đề lập trình tiếng Việt Unicode với Visual C/C++
đã được đề cập nhiều trên các số báo trước đây. Gần
đây có một phương pháp sử dụng hằng xâu utf-8. Tuy
nhiên, cách làm này có nhược điểm là không tách rời
được mã chương trình với thiết kế giao diện (do các
hằng xâu tiếng Việt được đặt trong mã chương trình),
dẫn đến khó khăn khi phát triển và bảo trì ứng dụng
vừa hoặc lớn
Qua bài viết này, tôi muốn trình bày một cách tiếp
cận khác có hệ thống hơn và tiện dụng hơn; đồng
thời, tôi cũng muốn đưa ra một số giải pháp để Việt
hoá được nhiều thành phần của ứng dụng hơn.
Trước tiên, ta nói về thực trạng hỗ trợ Unicode của các công cụ phát triển trực quan Visual C++
6.0 và 7.1 (.NET 2003) (bản 7.0 - .NET 2002 - hiện không còn được dùng phổ biến; nhưng về cơ
bản, nó tương tự như bản 7.1). Visual C++ 6.0 không cho phép nhập Unicode ở cả trình soạn
thảo tài nguyên (resource editor – dùng để tạo các thành phần giao diện ứng dụng) lẫn trình soạn
thảo mã nguồn. Visual C++ 7.1 cho phép nhập Unicode trong mã nguồn. Đối với việc soạn thảo
tài nguyên, Unicode được hỗ trợ nếu bạn dùng .NET framework; còn nếu bạn dùng Win32API
hoặc MFC thì không. Tuy nhiên, việc biên dịch mã Unicode lại khác, sẽ được đề cập ở phần sau.
Mã lệnh Unicode
Các xâu Unicode (hay xâu kí tự rộng) được lưu như là mảng wchar_t, về bản chất là kiểu int16
(2 byte). Để trình biên dịch biết một xâu/kí tự là Unicode, ta phải thêm tiếp đầu ngữ L. Ví dụ,
L“Thế Giới Vi Tính” hoặc L“T”. Có thể dùng macro _T hoặc TEXT để đảm bảo các xâu có thể
được dịch phù hợp với thiết định của project. Xâu là Unicode nếu macro
UNICODE/_UNICODE được định nghĩa, là xâu bình thường nếu không. Với Visual Studio
.NET, hai macro UNICODE và _UNICODE được tự động tạo ra khi ta đặt Character Set của
Project là Unicode.
Các kiểu như LPCSTR, CHAR đều có kiểu 16 bit
tương ứng như LPCWSTR, WCHAR. Các kiểu
LPCTSTR, TCHAR được dịch là kiểu 8 bit nếu
UNICODE và _UNICODE không được định nghĩa
và 16 bit nếu ngược lại. Do đó, trong những trường
hợp chung, nên dùng các kiểu có thành tố T.
Các hàm nhận hoặc trả về xâu thường có hai phiên
bản 8 bit và 16 bit với các tiếp vị ngữ A hoặc W
kiểu như GetWindowTextA và GetWindowTextW.
Tên không có tiếp vị ngữ (GetWindowText) được
dịch là một trong hai hàm theo cách tương tự như
trên.
Để nhập xâu Unicode trong Visual Studio.NET,
bạn phải ghi lại mã nguồn theo encoding là
“Unicode” hoặc “Unicode (UTF-8 with signature)”, (đừng nhầm với “without signature”) bằng
Save As (hoặc Advanced Save Options). Tốt nhất là nên dùng encoding thứ hai. Còn với Visual
Studio 6.0, bạn buộc phải nhập mã Unicode của các kí tự. Trình UnikeyNT 3.6 cung cấp “bảng
mã” “Unicode C String” để bạn thực hiện việc này dễ dàng hơn. Lưu ý là cách này không áp
dụng được trong soạn thảo tài nguyên. Nếu bạn viết “\x1EA1”, bộ dịch tài nguyên xem như xâu
có ba kí tự, một có mã 0x1E và hai kí tự kia là “A” và “1”. Nói cách khác, nó chỉ chấp nhận cách
viết này cho kí tự ANSI.
Một lưu ý nhỏ là toàn bộ các font mà ta sử dụng trong chương trình cũng như font hệ điều hành
dùng cho các thành phần giao diện (font cho title bar, menu, tooltip ) đều phải có các kí tự tiếng
Việt Unicode. Tốt nhất là những font quen thuộc như Arial, Tahoma Một số font mặc định của
Windows không đáp ứng được yêu cầu này như MS Sans Serif, Trebuchet MS Có lẽ bạn nên
thông báo cho người dùng chương trình của mình biết điều này.
Thiế
t định Project hỗ trợ Unicode
Trong Visual Studio .NET: Đơn giản bạn chỉ cần đặt Character Set thành Unicode trong Project
Properties/Configuration Properties/General.
Trong Visual Studio 6.0, bạn tạo thêm macro UNICODE và _UNICODE, xoá macro _MBCS
(multibyte character set) (vào Project Settings, chọn gốc project từ cây bên trái, vào tab C/C++,
chọn Category là Preprocessor, gõ thêm các macro, cách nhau bằng dấu phẩy, xoá macro cũ).
Nếu sử dụng MFC, bạn còn phải thêm điểm vào cho ứng dụng (vào Project Settings, Link,
Output, nhập vào ô Entry Point “wWinMainCRTStartup”. Để ý chữ w đầu tiên).
Nhớ là bạn phải đặt hỗ trợ cho tất cả các chế độ dịch cần thi
ết (Debug, Release trong
“Configuration” hoặc “Settings for”).
Việt hóa mã nguồn C/C++
Giao diện ứng dụng được Việt hóa
Đối với Visual C/C++ 7.1, ta gõ tiếng Việt Unicode như bình thường (ví dụ: TEXT(“Thế Giới Vi
Tính”)). Chú ý chọn font cho trình soạn thảo để hiển thị được tiếng Việt Unicode (Vào
Tools/Options, trong mục Environment/Fonts and Colors, chuyển mục “Show settings for” thành
“Text Editor” và chọn lại Font). Sau đó, ghi lại theo một trong hai cách sau:
– Vào mục File/Advanced Save Options để đổi
“Encoding” thành “Unicode – Codepage 1200” hoặc
“Unicode (UTF-8 with signature) – Codepage 65001”.
Sau đó ghi lại tập tin. Chú ý là cần có “with signature”
để trình biên dịch biết rằng tập tin được lưu dưới dạng
Utf-8; nếu không (“without signature”), trình biên dịch
sẽ hiểu nhầm là tập tin ASCII. “Signature” ở đây là kí
hiệu báo Utf-8 được ghi vào đầu tập tin.
– Chọn File/Save As. Giữ nguyên tên file, nhấn chuột
vào mũi tên bên phải nút “Save”, chọn “Save With
Encoding ” và chọn một trong hai encoding trên.
Nói chung, bạn chỉ cần chỉnh Encoding một lần cho một tập tin. Nhưng đôi khi Visual Studio có
thể bị lỗi. Trong trường hợp đó, IDE sẽ báo lỗi đại loại như “Some Unicode characters in this file
will not be saved ”. Nếu vậy, bạn nên tiến hành thiết định encoding lại.
Đối với Visual C/C++ 6.0, bạn sử dụng một bộ gõ hỗ trợ “Unicode C String” (chẳng hạn
UniKeyNT 3.6, download miễn phí tại unikey.sf.net) và gõ bằng “bảng mã” này. Chẳng hạn với
xâu “Thế Giới Vi Tính”, bạn thu được TEXT(“Th\x1EBF Gi\x1EDBi Vi Tính”). Nếu bạn đã có
xâu tiếng Việt sẵn với một bảng mã khác (chẳng hạn nguyên bản Unicode hoặc ABC), bạn có thể
dùng chức năng chuyển mã trong mục “Công cụ” của Unikey.
Việt hóa tài nguyên
Đối với quá trình Việt hóa tài nguyên, cần chú ý mấy điểm sau:
– Trình soạn thảo tài nguyên không hỗ trợ Unicode (ở đây chúng ta không bàn luận về .NET
framework). Cả trình soạn thảo tài nguyên lẫn trình biên dịch tài nguyên đều không hỗ trợ
Unicode C String.
– Trình biên dịch tài nguyên hỗ trợ Unicode – Codepage 1200. Đây là chìa khoá cho vấn đề của
chúng ta.
Nếu ứng dụng của bạn hỗ trợ hai ngôn ngữ
tiếng Anh và tiếng Việt, bạn nên thiết kế giao
diện tiếng Anh trước. Nếu ứng d
ụng của bạn
chỉ dùng tiếng Việt, bạn sử dụng “bảng mã”
utf-8 để gõ. Với Unikey, bạn chọn “bảng
mã” “Utf-8 Literal”. Chú ý là kí tự tiếng Việt
sẽ được hiển thị không chính xác, và thường
dài hơn kết quả thực. Ví dụ: thay vì gõ “Thế Giới Vi Tính”, bạn gõ “Thế Giá»›i Vi TÃnh”.
Một common dialog Việt hóa
Message Box được Việt hoá
Để hiểu vì sao “bảng mã” này lại được Resource Editor chấp nhận, ta phải hiểu bản chất của Utf-
8. Utf-8 thực ra không phải là một bảng mã, mà là một cách lưu trữ các chuỗi trong bảng mã
Unicode như một chuỗi byte. Có thể hiểu hình tượng như một cách chuyển đổi chuỗi 2 byte
thành chuỗi 1 byte (là chuỗi được chấp nhận trong Resource Editor). Ưu điểm của Utf-8 là tương
thích ngược với ASCII. Nghĩa là các chuỗi ASCII được giữ nguyên khi lưu trữ bằng Utf-8. Do
vậy mà ta làm việc bình thường với các chuỗi không phải là tiếng Việt. Để biết thêm chi tiết, bạn
có thể tham khảo bài báo “Mã Unicode tiếng Việt, hiện thực trong Windows và Linux” của TS.
Nguyễn Văn Hiệp TGVT A 12/2001 (tr.68).
Tiếp theo, bạn phải dùng một trình soạn thảo văn bản hỗ trợ Unicode để mở tập tài nguyên ra
chỉnh sửa. Với Visual C++ 7.1, bạn mở Solution Explorer (Ctrl-Alt-L), nhấn phải chuột vào tập
tài nguyên (trong thư mục Resource Files), chẳng hạn “resource.rc”, chọn “Open With”, chọn
“Source Code (Text) Editor With Encoding”, chọn “Unicode (UTF-8 without signature) –
Codepage 65001” (bây giờ lại là “without”, vì ta chưa hề ghi signature vào tập). Với Visual C++
6.0, bạn có thể dùng Notepad của Windows2000/XP để mở với Encoding là Utf-8. Nhớ chọn lại
font để tiếng Việt Unicode hiển thị được (Format/ Font trong Notepad). Bây giờ xem lại nội
dung của tập tin, bạn sẽ thấy các dòng văn bản mà bạn gõ bằng Utf-8 trước đó đã được chuyển
thành tiếng Việt.
Ghi tập tài nguyên lại với một tên khác (Save As), chẳng hạn “ResourceVn.rc” bằng Encoding
“Unicode – Codepage 1200” (Unicode trong Notepad).
Bây giờ, bạn đã có hai phiên bản tài nguyên: một phiên bản soạn thảo được bằng Resource
Editor, một phiên bản soạn thảo bằng tay sử dụng Unicode.
Với phiên bản mới, vì Codepage đã bị đổi, nên bạn phải huỷ thông tin Codepage cũ (bằng dấu
chú thích//) ở dòng:
#pragma code_page(1252)
thành
//#pragma code_page(1252)
Vì ngôn ngữ bây giờ không phải là tiếng Anh nữa, nên tốt nhất là bạn huỷ cả dòng
LANGUAGE LANG_ENGLISH, SUBLANG_ENGLISH_US
Và thay bằng dòng
LANGUAGE LANG_NEUTRAL, SUBLANG_NEUTRAL
Và ghi lại.
Bây giờ ta đã có một phiên bản Unicode hoàn chỉnh. Ta sẽ thay thế phiên bản cũ bằng phiên bản
mới này. Tuy nhiên, ta sẽ tìm cách để vẫn giữ lại phiên bản cũ trong project, nhờ đó có thể tận
dụng thao tác trực quan của Visual Studio và bộ sinh mã tự động. Chẳng hạn, khi ta muốn gắn
kết sự kiện với hàm, gắn điều khiển với biến, tìm ID của điều khiển ta sẽ dùng phiên bản
nguyên thuỷ. Nhưng khi biên dịch, ta dùng phiên bản Unicode.
Để làm điều đó, ta phải ngăn Visual Studio biên dịch tập “resource.rc”:
– Với Visual Studio 7.1: Bạn mở Solution Explorer (Ctrl-Alt-L), mở folder Resource Files, nhấn
phải chuột vào resource.rc, chọn Properties (hoặc chọn tập tin và nhấn Alt-Enter). Trong mục
Configuration Properties/ General, đặt Excluded From Build thành Yes.
– Với Visual Studio 6.0: Bạn mở File View (Alt-0, nhấn Ctrl-PageDown đến tab File View), mở
folder “Source Files”, chọn Resource.rc. Mở Project Settings (Alt-F7). Trong tab General, chọn
Exclude file from build.
Nhớ là bạn phải làm việc này cho tất cả các chế độ dịch cần thiết. Bây giờ, ta chỉ việc thêm tập
“ResourceVn.rc” vào project là xong.
– Với Visual Studio 7.1: Sử dụng chức năng File/ Add Existing Item.
– Với Visual Studio 6.0: Project/ Add To Project/ Files.
Chú ý: nếu bạn viết chương trình với hai ngôn ngữ (tiếng Việt và tiếng Anh), bạn phải tạo ra các
chế độ dịch tương ứng. Với các chế độ dịch cho tiếng Anh, bạn phải ngăn việc dịch
ResourceVn.rc và yêu cầu dịch Resource.rc.
Cuối cùng là dịch và chạy thử chương trình. Để đảm bảo quá trình dịch và liên kết không nhầm
lẫn, bạn nên chọn chức năng Build/ Rebuild Solution (Rebuild All). Chú ý rằng với Visual
C/C++ 6.0, sẽ có một chuỗi báo lỗi “Could not find the file” khá dài, nhưng quá trình dịch và
liên kết vẫn cho kết quả tốt.
Để bảo trì, cập nhật lại tập tài nguyên, ta sử dụng một trong hai cách:
– Phục hồi lại tập “ResourceVn.rc” về dạng mà Visual Studio đọc được bằng cách làm ngược lại
quá trình trên (xoá dòng LANGUAGE mới, bỏ chú thích ở hai dòng cũ, ghi lại dưới encoding
“Unicode Utf-8 without signature”. Nếu dùng Notepad, việc save ngược phải thực hiện theo 2
bước: đầu tiên là save dưới encoding “Utf-8”, sau đó là mở ra dưới dạng ANSI và xoá 3 kí tự
signature ở đầu tập). Sau đó tiến hành thay đổi trên tập này. Chú ý là ta có thể kéo thả hoặc copy
– paste các phần tử từ tập “Resource.rc” vào tập “ResourceVn.rc”.
– Copy (bằng trình soạn thảo văn bản) những thay đổi từ tập “Resource.rc” vào tập
“ResourceVn.rc”.
Việc sử dụng cách nào tốt hơn là tùy tình huống cụ thể. Tuy nhiên, cách thứ hai thường hiệu quả
hơn.
Nhược điểm của phương pháp này là nếu bạn sử dụng MFC, Việt hóa không có tác dụng đối với
data của ComboBox. Vì data này bị chuyển thành dữ liệu nhị phân (ghi dưới dạng các chuỗi hex)
trong tập tài nguyên. Do đó, bạn buộc phải dùng cách bổ sung thủ công nội dung của chúng bằng
mã chương trình.
Hộp thoại thông dụng (COMMON DIALOG)
Ứng dụng trên Windows thường sử dụng các hộp thoại đã được xây dựng sẵn của Windows
trong các công việc như chọn font, chọn màu Để Việt hóa những hộp thoại này, ta sẽ thiết kế
lại với các caption của điều khiển phù hợp. Giải pháp này không chỉ áp dụng cho trường hợp
Việt hóa bằng Unicode, nó cũng có tác dụng nếu bạn sử dụng các bảng mã khác. Trước tiên, ta
cần tìm thiết kế gốc của hộp thoại cần chuyển. Thiết kế này thường bao gồm một tậ
p đuôi dlg
(chẳng hạn color.dlg) và một (hoặc nhiều) tập header đi kèm. Để biết tên tập .dlg, bạn mở
MSDN Library, tìm mục “Common Dialog Box Library” (theo index), sau đó chọn loại hộp
thoại bạn cần (ví dụ: Color Dialog Box) và tìm (Ctrl-F) “.dlg”. Sau đó tìm tập này trong thư mục
cài đặt Visual Studio, mở tập này (bằng một trình soạn thảo văn bản) để tìm những tập .h cần
thiết. Copy toàn bộ các macro (#define) của các tập header vào tập resource.h, ghi lại. Bây giờ,
bạn tạo một dialog mới trong trình soạn thảo tài nguyên. Sau đó, copy nội dung phần định nghĩa
dialog trong tập .dlg vào thay thế phần định nghĩa do bạn tạo (lưu ý thay tên tài nguyên gốc bằng
tên tài nguyên bạn đã tạo) trong tập rc. Ví dụ, với hộp thoại màu, bạn copy từ phần ChooseColor
đến hết, sau đó thay ChooseColor bằng tên tài nguyên của bạn (chẳng hạn
IDD_CHOOSECOLOR), xoá phần định nghĩa cũ. Và bạn đã có thiết kế gốc của hộp thoại với
tên tài nguyên mới. Bạn có thể thay đổi nó, đặc biệt, sửa caption của nó và đổi font phù hợp.
Đối với MFC, việc dùng các hộp thoại thông dụng thường thông qua các lớp dẫn xuất từ
CCommonDialog. Nên để áp dụng mẫu hộp thoại này, ta phải đặt mẫu cho cấu trúc thành viên
của thể hiện hộp thoại (đối với hộp chọn màu là biến m_cc có kiểu CHOOSECOLOR) trước khi
gọi DoModal() của nó. Để đơn giản hoá quá trình, ta tạo một lớp dẫn xuất từ lớp hộp thoại
nguyên thuỷ (trong ví dụ này là lớp CSpecColorDialog dẫn xuất từ lớp CColorDialog). Sau đó,
trong cấu tử, ta thực hiện các chuẩn bị cần thiết. Nhờ đó, CSpecColorDialog ứng xử như
CColorDialog.
CSpecColorDialog(COLORREF clrInit=0,DWORD dwFlags=0,CWnd *pParentWnd=0)
:CColorDialog(clrInit,dwFlags,pParentWnd)
{
m_cc.Flags|=CC_ENABLETEMPLATE;
m_cc.lpTemplateName=MAKEINTRESOURCE(IDD_CHOOSECOLOR);
m_cc.hInstance=0;
}
Phép toán hoặc bit (|) tránh làm mất những cờ mà người dùng đã đặt. Mẫu hộp thoại
IDD_CHOOSECOLOR được chỉ ra trong lpTemplateName. Vì mẫu này nằm trong cùng một thể
hiện ứng dụng với nơi gọi hộp thoại nên hInstance có thể đặt bằng 0. Cách làm đối với các
Common Dialog khác không có gì khác biệt.
Do việc thay thế mẫu hộp thoại được Win32 Platform SDK hỗ trợ nên nếu bạn không sử dụng
MFC, cách Việt hóa cũng tương tự. Bạn có thể viết một hàm VietChooseColor thay thế hàm
ChooseColor. Trong đó, trước khi gọi hàm ChooseColor, bạn thực hiện việc đặt mẫu như trong
cấu tử của CSpecColorDialog.
BOOL VietChooseColor(LPCHOOSECOLOR lpcc)
{
lpcc->Flags|=CC_ENABLETEMPLATE;
lpcc->lpTemplateName=MAKEINTRESOURCE(IDD_CHOOSECOLOR);
lpcc->hInstance=0;
return ChooseColor(lpcc);
}
Bây giờ, VietChooseColor ứng xử hoàn toàn như ChooseColor, ngoại trừ nó có giao diện tiếng
Việt.
Message Box
Việc hiển thị thông báo tiếng Việt rất đơn giản. Chỉ cần truyền vào các xâu Unicode tiếng Việt
như là tham số cho hàm MessageBox(W). Nhưng để ứng dụng được Việ
t hóa hoàn thiện thì các
nút bấm (Button) cũng phải dùng tiếng Việt. Để làm được điều này, ta buộc phải viết lại hàm
MessageBox cho riêng mình, một cách thức cổ điển mà hầu như ứng dụng tiếng Việt nào cũng
sử dụng. Tuy nhiên, ở đây tác giả cố gắng tạo một MessageBox linh động hơn: có thể tạo ra số
nút bấm tuỳ ý. Nhờ vậy, ta có thể giả lập tất cả các loại MessageBox của Windows.
Đầu tiên, tạo một mẫu hộp thoại chỉ gồm một điều khiển là Static Text, đặt tên tài nguyên cho nó
để ta có thể tìm và xử lí. Sau đó, tạo một lớp gắn với mẫu (giả sử là CVMsgDlg). Toàn bộ quá
trình tạo dialog thực sự chủ yếu nằm trong OnInitDialog. Ở đây, ta tạo icon, các nút bấm, đặt vị
trí và kích thước phù hợp cho chúng. Quá trình này khá tốn công sức vì mang nhiều tính thủ
công, có lẽ không cần thiết phải trình bày chi tiết ở đây. Điểm mấu chốt là tạo một mảng kích
thước động các nút bấm CButton*buttons. Các nút được tạo động bằng phương thức
CButton::Create. Ta có thể xử lí thông điệp WM_COMMAND mà các nút bấm gửi cho dialog
thông qua hàm ảo CWnd::OnCommand. Ta cũng cần phải thay đổi cư xử của khung ứng dụng
khi nút OK và Cancel được nhấn. Chỉ cần định nghĩa chồng hàm OnOk và OnCancel bằng
những hàm rỗng. Cũng không thể quên việc huỷ bỏ các thành phần khi dialog kết thúc trong
thông điệp
WM_DESTROY.
Cuối cùng là viết hàm
VietMessageBox dùng lớp
này. Hàm này chỉ đơn giản
là tách thông tin truyền vào
và truyền hợp lí cho cấu tử
của lớp. Sau đó, hàm trả về
giá trị của
dialog.DoModal(), là ID
của nút được nhấn.
Nếu không sử dụng MFC,
vấn đề cơ bản là thay đổi
trong lớp CVMsgDlg.
Thay vì dùng các phương thức của các lớp, bạn phải dùng các hàm SDK; chẳng hạn thay
CButton::Create bằng CreateWindow với lớp “BUTTON”. Tuy nhiên, sử dụng thư viện lớp thì
đơn giản hơn.
Trên đây, tôi đã chia sẻ với các bạn một cách Việt hóa Unicode cho chương trình VC++, chạy
trong WindowsNT/2000/XP. Hi vọng có thể giúp các bạn phát triển những ứng dụng thuần Việt
tốt và nhanh.
Tác giả gửi kèm chương trình “EasyPress” (tải về ở website TGVT), xem như một ứng dụng
thực tế áp dụng phương pháp đã trình bày. Đây là chương trình tùy biến bàn phím, khá hữu dụng,
nhất là đối với bàn phím đa phương tiện. Chương trình về cơ bản đã được Việt hóa, dù chưa
hoàn toàn (Common Dialog, Message Box).
Hộp thoại được Việt hoá và hộp thoại khi thiết kế