Tải bản đầy đủ (.pdf) (10 trang)

Giáo trình hình thành ứng dụng phân loại kỹ thuật tạo chuỗi dùng phương thức Peek qua lớp regex p2 doc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.36 MB, 10 trang )

Ngôn Ngữ Lập Trình C#
string s3 = @“Trung Tam Dao Tao CNTT
Thanh pho Ho Chi Minh Viet Nam”;
Hai chuỗi đầu s1 và s2 được khai báo chuỗi ký tự bình thường, còn chuỗi thứ ba được khai
báo là chuỗi nguyên văn (verbatim string) bằng cách sử dụng ký hiệu @ trước chuỗi. Chương
trình bắt đầu bằng việc so sánh hai chuỗi s1 và s2. Phương thức Compare() là phương thức
tĩnh của lớp string, và phương thức này đã được nạp chồng.
Phiên bản đầu tiên của phương thức nạp chồng này là lấy hai chuỗi và so sánh chúng với
nhau:
// So sánh hai chuỗi với nhau có phân biệt chữ thường và chữ hoa
result = string.Compare( s1 ,s2);
Console.WriteLine(“So sanh hai chuoi s1: {0} và s2: {1} ket qua: {2} \n”,
s1 ,s2 ,result);
Ở đây việc so sánh có phân biệt chữ thường và chữ hoa, phương thức trả về các giá trị khác
nhau phụ thuộc vào kết quả so sánh:
 Một số âm nếu chuỗi đầu tiên nhỏ hơn chuỗi thứ hai
 Giá trị 0 nếu hai chuỗi bằng nhau
 Một số dương nếu chuỗi thứ nhất lớn hơn chuỗi thứ hai.
Trong trường hợp so sánh trên thì đưa ra kết quả là chuỗi s1 nhỏ hơn chuỗi s2. Trong
Unicode cũng như ASCII thì thứ tự của ký tự thường nhỏ hơn thứ tự của ký tự hoa:
So sanh hai chuoi S1: abcd và S2: ABCD ket qua: -1
Cách so sánh thứ hai dùng phiên bản nạp chồng Compare() lấy ba tham số. Tham số Boolean
quyết định bỏ qua hay không bỏ qua việc so sánh phân biệt chữ thường và chữ hoa. Tham số
này có thể bỏ qua. Nếu giá trị của tham số là true thì việc so sánh sẽ bỏ qua sự phân biệt chữ
thường và chữ hoa. Việc so sánh sau sẽ không quan tâm đến kiểu loại chữ:
// Tham số thứ ba là true sẽ bỏ qua kiểm tra ký tự thường – hoa
result = string. Compare(s1, s2, true);
Console.WriteLine(“Khong phan biet chu thuong va hoa\n”);
Console.WriteLine(“S1: {0} , S2: {1}, ket qua : {2}\n”, s1, s2, result);
Lúc này thì việc so sánh hoàn toàn giống nhau và kết quả trả về là giá trị 0:
Khong phan biet chu thuong va hoa


S1: abcd , S2: ABCD, ket qua : 0
Ví dụ minh họa 10.1 trên tiếp tục với việc nối các chuỗi lại với nhau. Ở đây sử dụng hai cách
để nối liền hai chuỗi. Chúng ta có thể sử dụng phương thức Concat() đây là phương thức
public static của string:
string s4 = string.Concat(s1, s2);
Hay cách khác đơn giản hơn là việc sử dụng toán tử nối hai chuỗi (+):
string s5 = s1 + s2;
Trong cả hai trường hợp thì kết quả nối hai chuỗi hoàn toàn thành công và như sau:
Xử Lý Chuỗi
283
.
.
Ngôn Ngữ Lập Trình C#
Chuoi S4 noi tu chuoi S1 va S2: abcdABCD
Chuoi S5 duoc noi tu chuoi S1 + S2: abcdABCD
Tương tự như vậy, việc tạo một chuỗi mới có thể được thiết lập bằng hai cách. Đầu tiên là
chúng ta có thể sử dụng phương thức static Copy() như sau:
string s6 = string.Copy(s5);
Hoặc thuận tiện hơn chúng ta có thể sử dụng phương thức nạp chồng toán tử (=) thông qua
việc sao chép ngầm định:
string s7 = s6;
Kết quả của hai cách tạo trên đều hoàn toàn như nhau:
S6 duoc sao chep tu S5: abcdABCD
S7 = S6: abcdABCD
Lớp String của .NET cung cấp ba cách để kiểm tra bằng nhau giữa hai chuỗi. Đầu tiên là
chúng ta có thể sử dụng phương thức nạp chồng Equals() để kiểm tra trực tiếp rằng S6 có
bằng S7 hay không:
Console.WriteLine(“S6.Equals(S7) ?: {0}”, S6.Equals(S7));
Kỹ thuật so sánh thứ hai là truyền cả hai chuỗi vào phương thức Equals() của string:
Console.WriteLine(“Equals(S6, s7) ?: {0}”, string.Equals(S6, S7));

Và phương pháp cuối cùng là sử dụng nạp chồng toán tử so sánh (=) của String:
Console.WriteLine(“S6 == S7 ?: {0}”, s6 == s7);
Trong cả ba trường hợp thì kết quả trả về là một giá trị Boolean, ta có kết quả như sau:
S6.Equals(S7) ?: True
Equals(S6, s7) ?: True
S6 == S7 ?: True
Việc so sánh bằng nhau giữa hai chuỗi là việc rất tự nhiên và thường được sử dụng. Tuy
nhiên, trong một số ngôn ngữ, như VB.NET, không hỗ trợ nạp chồng toán tử. Do đó để chắc
chắn chúng ta nên sử dụng phương thức Equals() là tốt nhất.
Các đoạn chương trình tiếp theo của ví dụ 10.1 sử dụng toán tử chỉ mục ([]) để tìm ra ký tự
xác định trong một chuỗi. Và dùng thuộc tính Length để lấy về chiều dài của toàn bộ một
chuỗi:
Console.WriteLine(“\nChuoi S7 co chieu dai la : {0}”, s7.Length);
Console.WriteLine(“Ky tu thu 3 cua chuoi S7 la : {0}”, s7[2] );
Kết quả là:
Chuoi S7 co chieu dai la : 8
Ky tu thu 3 cua chuoi S7 la : c
Phương thức EndsWith() hỏi xem một chuỗi có chứa một chuỗi con ở vị trí cuối cùng hay
không. Do vậy, chúng ta có thể hỏi rằng chuỗi S3 có kết thúc bằng chuỗi “CNTT” hay chuỗi
“Nam”:
// Kiểm tra xem một chuỗi có kết thúc với một nhóm ký tự xác định hay không
Xử Lý Chuỗi
284
.
.
Ngôn Ngữ Lập Trình C#
Console.WriteLine(“S3: {0}\n ket thuc voi chu CNTT ? : {1}\n”,
s3, s3.EndsWith(“CNTT”));
Console.WriteLine(“S3: {0}\n ket thuc voi chu Nam ? : {1}\n”,
s3, s3.EndsWith(“Nam”));

Kết quả trả về là lần kiểm tra đầu tiên là sai do chuỗi S3 không kết thúc chữ “CNTT”, và lần
kiểm tra thứ hai là đúng:
S3: Trung Tam Dao Tao CNTT
Thanh pho Ho Chi Minh Viet Nam
ket thuc voi chu CNTT ? : False
S3: Trung Tam Dao Tao CNTT
Thanh pho Ho Chi Minh Viet Nam
ket thuc voi chu Minh ? : True
Phương thức IndexOf() chỉ ra vị trí của một con bên trong một chuỗi (nếu có). Và phương
thức Insert() chèn một chuỗi con mới vào một bản sao chép của chuỗi ban đầu.
Đoạn lệnh tiếp theo của ví dụ minh họa thực hiện việc xác định vị trí xuất hiện đầu tiên của
chuỗi “CNTT” trong chuỗi S3:
Console.WriteLine(“\nTim vi tri xuat hien dau tien cua chu CNTT ”);
Console.WriteLine(“trong chuoi S3 là {0}\n”, s3.IndexOf(“CNTT”));
Và kết quả tìm được là 18:
Tim vi tri xuat hien dau tien cua chu CNTT
trong chuoi S3 là 18
Chúng ta có thể chèn vào chuỗi từ “nhan luc” và theo sau chuỗi này là một khoảng trắng vào
trong chuỗi ban đầu. Khi thực hiện thì phương thức trả về bản sao của chuỗi đã được chèn
vào chuỗi con mới và được gán lại vào chuỗi S8:
string s8 = s3.Insert(18, “nhan luc ”);
Console.WriteLine(“ S8 : {0}\n”, s8);
Kết quả đưa ra là:
S8 : Trung Tam Dao Tao nhan luc CNTT
Thanh pho Ho Chi Minh Viet Nam
Cuối cùng, chúng ta có thể kết hợp một số các phép toán để thực hiện việc chèn như sau:
string s9 = s3.Insert( s3.IndexOf( “CNTT” ) , “nhan luc ”);
Console.WriteLine(“ S9 : {0}\n”, s9);
Kết quả cuối cùng cũng tương tự như cách chèn bên trên:
S9 : Trung Tam Dao Tao nhan luc CNTT

Thanh pho Ho Chi Minh Viet Nam
Tìm một chuỗi con
Xử Lý Chuỗi
285
.
.
Ngôn Ngữ Lập Trình C#
Trong kiểu dữ liệu String có cung cấp phương thức Substring() để trích một chuỗi con từ
chuỗi ban đầu. Cả hai phiên bản đều dùng một chỉ mục để xác định vị trí bắt đầu trích ra. Và
một trong hai phiên bản dùng chỉ mục thứ hai làm vị trí kết thúc của chuỗi. Trong ví dụ 10.2
minh họa việc sử dụng phương thức Substring() của chuỗi.
 Ví dụ 10.2 : Sử dụng phương thức Substring().

namespace Programming_CSharp
{
using System;
using System.Text;
public class StringTester
{
static void Main()
{
// Khai báo các chuỗi để sử dụng
string s1 = “Mot hai ba bon”;
int ix;
// lấy chỉ số của khoảng trắng cuối cùng
ix = s1.LastIndexOf(“ ”);
// lấy từ cuối cùng
string s2 = s1.Substring( ix+1);
// thiết lập lại chuỗi s1 từ vị trí 0 đến vị trí ix
// do đó s1 có giá trị mới là mot hai ba

s1 = s1.Substring(0, ix);
// tìm chỉ số của khoảng trắng cuối cùng (sau hai)
ix = s1.LastIndexOf(“ ”);
// thiết lập s3 là chuỗi con bắt đầu từ vị trí ix
// do đó s3 = “ba”
string s3 = s1.Substring(ix+1);
// thiết lập lại s1 bắt đầu từ vị trí 0 đến cuối vị trí ix
// s1 = “mot hai”
s1 = s1.Substring(0, ix);
// ix chỉ đến khoảng trắng giữa “mot” va “hai”
ix = s1.LastIndexOf(“ ”);
// tạo ra s4 là chuỗi con bắt đầu từ sau vị trí ix, do
// vậy có giá trị là “hai”
string s4 = s1.Substring( ix+1);
// thiết lập lại giá trị của s1
Xử Lý Chuỗi
286
.
.
Ngôn Ngữ Lập Trình C#
s1 = s1.Substring(0, ix);
// lấy chỉ số của khoảng trắng cuối cùng, lúc này ix là –1
ix = s1.LastIndexOf(“ ”);
// tạo ra chuỗi s5 bắt đầu từ chỉ số khoảng trắng, nhưng không có khoảng
// trắng và ix là –1 nên chuỗi bắt đầu từ 0
string s5 = s1.Substring(ix +1);
Console.WriteLine(“s2 : {0}\n s3 : {1}”, s2, s3);
Console.WriteLine(“s4 : {0}\n s5 : {1}\n”, s4, s5);
Console.WriteLine(“s1: {0}\n”, s1);
}// end Main

}// end class
}// end namespace

 Kết quả:
s2 : bon
s3 : ba
s4 : hai
s5 : mot
s1 : mot

Ví dụ minh họa 10.2 trên không phải là giải pháp tốt để giải quyết vấn đề trích lấy các ký tự
trong một chuỗi. Nhưng nó là cách gần đúng tốt nhất và minh họa hữu dụng cho kỹ thuật này.
Chia chuỗi
Một giải pháp giải quyết hiệu quả hơn để minh họa cho ví dụ 10.2 là có thể sử dụng phương
thức Split() của lớp string. Chức năng chính là phân tích một chuỗi ra thành các chuỗi con.
Để sử dụng Split(), chúng ta truyền vào một mảng các ký tự phân cách, các ký tự này được
dùng để chia các từ trong chuỗi. Và phương thức sẽ trả về một mảng những chuỗi con.
 Ví dụ 10.3 : Sử dụng phương thức Split().

namespace Programming_CSharp
{
using System;
using System.Text;
public class StringTester
{
static void Main()
Xử Lý Chuỗi
287
.
.

Ngôn Ngữ Lập Trình C#
{
// tạo các chuỗi để làm việc
string s1 = “Mot, hai, ba Trung Tam Dao Tao CNTT”;
// tạo ra hằng ký tự khoảng trắng và dấu phẩy
const char Space = ‘ ‘;
const char Comma = ‘,’;
// tạo ra mảng phân cách
char[] delimiters = new char[]
{
Space,
Comma
};
string output = “”;
int ctr = 1;
// thực hiện việc chia một chuỗi dùng vòng lặp
// đưa kết quả vào mảng các chuỗi
foreach ( string subString in s1.Split(delimiters) )
{
output += ctr++;
output += “: ”;
output += subString;
output += “\n”;
}// end foreach
Console.WriteLine( output );
}// end Main
}// end class
} // end namespace

 Kết quả:

1: Mot
2:
3: hai
4:
5: ba
6: Trung
7: Tam
8: Dao
9: Tao
Xử Lý Chuỗi
288
.
.
Ngôn Ngữ Lập Trình C#
10: CNTT

Đoạn chương trình bắt đầu bằng việc tạo một chuỗi để minh họa việc phân tích:
string s1 = “Mot, hai, ba Trung Tam Dao Tao CNTT”;
Hai ký tự khoảng trắng và dấu phẩy được dùng làm các ký tự phân cách. Sau đó phương thức
Split() được gọi trong chuỗi này, và truyền kết quả vào mỗi vòng lặp:
foreach ( string subString in s1.Split(delimiters) )
Chuỗi output chứa các chuỗi kết quả được khởi tạo là chuỗi rỗng. Ở đây chúng ta tạo ra chuỗi
output bằng bốn bước. Đầu tiên là nối giá trị của biến đếm ctr, tiếp theo là thêm dấu hai
chấm, rồi đưa chuỗi được chia ra từ chuỗi ban đầu, và cuối cùng là thêm ký tự qua dòng mới.
Và bốn bước trên cứ được lặp đến khi nào chuỗi không còn chia ra được.
Có một vấn đề cần nói là kiểu dữ liệu string không được thiết kế cho việc thêm vào một
chuỗi định dạng sẵn để tạo ra một chuỗi mới trong mỗi vòng lặp trên, nên chúng ta mới phải
thêm vào từng ký tự như vậy. Một lớp StringBuilder được tạo ra để phục vụ cho nhu cầu thao
tác chuỗi tốt hơn.
Thao tác trên chuỗi dùng StringBuilder

Lớp StringBuilder được sử dụng để tạo ra và bổ sung các chuỗi. Hay có thể nói lớp này
chính là phần đóng gói của một bộ khởi dựng cho một String. Một số thành viên quan trọng
StringBuilder được tóm tắt trong bảng 10.2 như sau:
System.StringBuilder
Phương thức Ý nghĩa
Capacity() Truy cập hay gán một số ký tự mà StringBuilder nắm giữ.
Chars() Chỉ mục.
Length() Thiết lập hay truy cập chiều dài của chuỗi
MaxCapacity() Truy cập dung lượng lớn nhất của StringBuilder
Append() Nối một kiểu đối tượng vào cuối của StringBuilder
AppendFormat() Thay thế định dạng xác định bằng giá trị được định dạng
của một đối tượng.
EnsureCapacity() Đảm bảo rằng StringBuilder hiện thời có khả năng tối thiểu
lớn như một giá trị xác định.
Insert() Chèn một đối tượng vào một vị trí xác định
Replace() Thay thế tất cả thể hiện của một ký tự xác định với những
ký tự mới.
Bảng 10.2 Phương thức của lớp StringBuilder
Xử Lý Chuỗi
289
.
.
Ngôn Ngữ Lập Trình C#
Không giống như String, StringBuilder thì dễ thay đổi. Khi chúng ta bổ sung một đối tượng
StringBuilder thì chúng ta đã làm thay đổi trên giá trị thật của chuỗi, chứ không phải trên bản
sao. Ví dụ minh họa 10.4 thay thế đối tượng String bằng một đối tượng StringBuilder.
 Ví dụ minh họa 10.4 : Sử dụng chuỗi StringBuilder.

namespace Programming_CSharp
{

using System;
using System.Text;
public class StringTester
{
static void Main()
{
// khởi tạo chuỗi để sử dụng
string s1 = “Mot, hai, ba Trung Tam Dao Tao CNTT”;
// tạo ra hằng ký tự khoảng trắng và dấu phẩy
const char Space = ‘ ‘;
const char Comma = ‘,’;
// tạo ra mảng phân cách
char[] delimiters = new char[]
{
Space,
Comma
};
// sử dụng StringBuilder để tạo chuỗi output
StringBuilder output = new StringBuilder();
int ctr = 1;
// chia chuỗi và dùng vòng lặp để đưa kết quả vào
// mảng các chuỗi
foreach ( string subString in s1.Split(delimiters) )
{
// AppendFormat nối một chuỗi được định dạng
output.AppendFormat(“{0}: {1}\n”, ctr++, subString);
}// end foreach
Console.WriteLine( output );
}
}

}
Xử Lý Chuỗi
290
.
.
Ngôn Ngữ Lập Trình C#

Chúng ta chỉ thay phần cuối của đoạn chương trình 10.3. Rõ ràng việc sử dụng StringBuilder
thuận tiện hơn là việc sử dụng các toán tử bổ sung trong chuỗi. Ở đây chúng ta sử dụng
phương thức AppendFormat() của StringBuilder để nối thêm một chuỗi được định dạng để
tạo ra một chuỗi mới. Điều này quá dễ dàng và khá là hiệu quả. Kết quả chương trình thực
hiện cũng tượng tự như ví dụ minh họa 10.3 dùng String:
1: Mot
2:
3: hai
4:
5: ba
6: Trung
7: Tam
8: Dao
9: Tao
10: CNTT
Các biểu thức quy tắc (Regular Expression)
Biểu thức qui tắc là một ngôn ngữ mạnh dùng để mô tả và thao tác văn bản. Một biểu
thức qui tắc thường được áp dụng cho một chuỗi, hay một tập hợp các ký tự. Thông thường
một chuỗi là toàn bộ văn bản hay tài liệu.
Kết quả của việc áp dụng một biểu thức qui tắc đến một chuỗi là trả về một chuỗi con
hoặc là trả về một chuỗi mới có thể được bổ sung từ một vài phần của chuỗi nguyên thủy ban
đầu. Chúng ta nên nhớ rằng string là không thể thay đổi được và do đó cũng không thể thay
đổi bởi biểu thức qui tắc.

Bằng cách áp dụng chính xác biểu thức qui tắc cho chuỗi sau:
Mot, hai, ba, Trung Tam Dao Tao CNTT
chúng ta có thể trả về bất cứ hay tất cả danh sách các chuỗi con (Mot, hai, ) và có thể tạo ra
các phiên bản chuỗi được bổ sung của những chuỗi con (như : TrUng TAM, ).
Biểu thức qui tắc này được quyết định bởi cú pháp các ký tự qui tắc của chính bản thân nó.
Một biểu thức qui tắc bao gồm hai kiểu ký tự:
 Ký tự bình thường (literal): những ký tự này mà chúng ta sử dụng để so khớp với
chuỗi ký tự đích.
 Metacharacter: là các biểu tượng đặc biệt, có hành động như là các lệnh trong bộ phân
tích (parser) của biểu thức.
Bộ phân tích là một cơ chế có trách nhiệm hiểu được các biểu thức qui tắc. Ví dụ nếu như
chúng ta tạo một biểu thức qui tắc như sau:
^(From|To|Subject|Date):
Xử Lý Chuỗi
291
.
.
Ngôn Ngữ Lập Trình C#
Biểu thức này sẽ so khớp với bất cứ chuỗi con nào với những từ như “From”, “To”,
“Subject”, và “Date” miễn là những từ này bắt đầu bằng ký tự dòng mới (^) và kết thúc với
dấu hai chấm (:).
Ký hiệu dấu mũ (^) trong trường hợp này chỉ ra cho bộ phân tích biểu thức qui tắc rằng chuỗi
mà chúng ta muốn tìm kiếm phải bắt đầu từ dòng mới. Trong biểu thức này các ký tự như
“(”,”)”, và “|” là các metacharacter dùng để nhóm các chuỗi ký tự bình thường như “From”,
“To”,”Subject”, và “Date” và chỉ ra rằng bất cứ sự lựa chọn nào trong số đó đều được so
khớp đúng. Ngoài ra ký tự “^” cũng là ký tự metacharacter chỉ ra bắt đầu dòng mới.
Tóm lại với chuỗi biểu thức qui tắc như:
^(From|To|Subject|Date):
ta có thể phát biểu theo ngôn ngữ tự nhiên như sau: “Phù hợp với bất cứ chuỗi nào bắt đầu
bằng một dòng mới được theo sau bởi một trong bốn chữ From, To, Subject, Date và theo

sau là ký tự dấu hai chấm”.
Việc trình bày đầy đủ về biểu thức quy tắc vượt quá phạm vi của cuốn sách này, do sự đa
dạng và khá phức tạp của nó. Tuy nhiên, trong phạm vi trình bày của chương 10 này, chúng ta
sẽ được tìm hiểu một số các thao tác phổ biến và hữu dụng của biểu thức quy tắc.
Sử dụng biểu thức quy tắc qua lớp Regex
MS.NET cung cấp một hướng tiếp cận hướng đối tượng (object- oriented approad) cho
biểu thức quy tắc để so khớp, tìm kiếm và thay thế chuỗi. Biểu thức quy tắc của ngôn ngữ C#
là được xây dựng từ lớp regexp của ngôn ngữ Perl5.
Namspace System.Text.RegularExpressions của thư viện BCL (Base Class Library) chứa
đựng tất cả các đối tượng liên quan đến biểu thức quy tắc trong môi trường .NET. Và lớp
quan trọng nhất mà biểu thức quy tắc hỗ trợ là Regex. Ta có thể tạo thể hiện của lớp Regex và
sử dụng một số phương thức tĩnh trong ví dụ minh họa 10.5.
 Ví dụ minh họa 10.5: Sử dụng lớp Regex.

namespace Programming_CSharp
{
using System;
using System.Text;
using System.Text.RegularExpressions;
public class Tester
{
static void Main()
{
// khởi tạo chuỗi sử dụng
string s1 = “Mot, hai, ba, Trung Tam Dao Tao CNTT”;
Xử Lý Chuỗi
292
.
.

×