Tải bản đầy đủ (.pdf) (11 trang)

CHUỖI VÀ CÁC BÀI TOÁN TRÊN CHUỖI part 1 pps

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (268.79 KB, 11 trang )


Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh
1

CHUỖI VÀ CÁC BÀI TOÁN TRÊN CHUỖI


Chuỗi (string) là một loại dữ liệu cơ bản thường được sử dụng trong rất nhiều
các hệ thống và là thành phần cơ bản trong các hệ thống xử lý văn bản (word-
processing-system), các hệ thống này cung cấp cho ta rất nhiều khả năng để xử
lý văn bản. Ngoài ra một vài các hệ thống đồ hoạ trên máy tính (computer
graphics system) biểu diễn các hình ảnh như là các chuỗi nhị phân.
Các thao tác trên chuỗi chúng ta thường gặp một số các phép toán cơ bản như:
- Phép tìm kiếm một chuỗi con trong một chuỗi.
- Phép thay thế một chuỗi con của một chuỗi bởi một chuỗi khác.
- Phép chen chuỗi con vào một chuỗi.
- Phép loại bỏ một chuỗi con của một chuỗi.
Trong các phép toán nêu trên thì phép tìm kiếm trên chuỗi là phép toán quan
trọng và thường gặp , vì vậy ta chỉ tìm hiểu các giải thuật liên quan đến phép
toán này đó là :
1. Giải thuật Brute-Force.
2. Giải thuật Knuth-Morris-Pratt.
3. Giải thuật Boyer-Moore.
$1. Các khái niện cơ bản về chuỗi
1.1. Chuỗi và phân chia chuỗi
a. Định nghĩa chuỗi
Chuỗi là một dãy các ký tự được chứa trong một vùng liên tục của bộ nhớ. Các
ký tự này có thể là ký tự chữ, ký tự số hoặc ký tự đặc biệt.
Chuỗi ký tự (text string) có thể được xem như là dãy các chữ, các số và các ký
tự đặc biệt.
Một loại chuỗi khác là chuỗi nhị phân (binary string), đó là một dãy các kí tự 0


và 1.

Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh
2
b. Độ dài chuỗi. Số ký tự của chuỗi được gọi là chiều dài của chuỗi. Mỗi ký tự
chiếm 1 byte.
Một chuỗi có thể có chiều dài bằng 0 gọi là chuỗi rỗng(null string ), ký hiệu là “
Một chuỗi có thể được chia làm nhiều phần, mỗi phần là một chuỗi con (sub
string ). Các chuỗi con có thể có chiều dài bằng nhau hoặc khác nhau.
1.2. Cách phân chia chuỗi
a. Dùng ký tự đặc biệt. Dùng ký tự trống ( blank) để phân chia chuỗi con. Khi đó
các chuỗi con có thể khác nhau. Để truy xuất một chuỗi con trong chuỗi thì ta
phải tìm kiếm từ đầu chuỗi. Do đó tốc độ truy xuất của phương pháp này chậm.
b. Dùng chiều dài cố định. Ta chia các chuỗi con thành các phần bằng nhau. Để
truy xuất một chuỗi con trong một chuỗi thì ta dùng công thức tính địa chỉ. Do
đó tốc độ truy xuất của phương pháp này rất nhanh.
c. Dùng chỉ điểm (pointer).
- Dùng chỉ điểm đầu: Chỉ điểm đầu chỉ vào ký tự đầu tiên của chuỗi con.
Ta sử dụng biến Last để cho biết địa chỉ của ký tự cuối cùng của chuỗi.
Gọi:
n- số chuỗi con
a
i
-địa chỉ của ký tự đầu tiên của chuỗi con thứ i
b
i
- địa chỉ của ký tự cuối cùng của chuỗi con thứ i
Ta có :
a
i

= pointer[i]
b
i
= pointer[i+1]-1 , nếu i<n
= last , nếu i=n
- Dùng chỉ điểm cuối : Chỉ điểm cuối chỉ vào ký tự cuối cùng của chuỗi
con. Ta sử dụng biến First để cho biết địa chỉ của ký tự đầu tiên của
chuỗi.
Ta có :
a
i
= First , nếu i=1

Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh
3
= pointer[i-1] ,nếu i>1
b
i
= pointer[i]

$2.Các giải thuật tìm kiếm trên chuỗi
Bài toán: Tìm kiếm chuỗi p có chiều dài là m trong chuỗi a có chiều dài n.
Có hai trường hợp xảy ra sau khi tìm kiếm đó là:
- Nếu không tìm thấy chuỗi p trong chuỗi a thì kết quả là 0.
- Nếu tìm thấy chuỗi p trong chuỗi a thì kết quả là vị trí của ký tự đầu tiên
của lần tìm thấy đầu tiên.
Sau đây chúng ta lần lượt đi vào phân tích từng giải thuật cụ thể :
2.1. Giải thuật Brute- Force.
a. Nội dung của giải thuật
- Đối với vị trí kí tự thứ i của chuỗi a (i=1,2,…,n-m+1) ta so sánh các ký tự

tương ứng từ trái qua phải:
p[1] với a[i]
p[2] với a[i+1]
………….
p[m] với a[i+m+1]
- Gọi:
i - chỉ số của chuỗi a.
j - chỉ số của chuỗi p.
Nếu a[i] = p[j] thì ta tăng chỉ số i và j lên 1(xét đến ký tự tiếp theo)
Nếu a[i]<>p[j] thì ta cho j chỉ về đầu chuỗi p (j=1) và i chỉ về vị trí ký tự
kế tiếp khi bắt đầu tìm kiếm lần cuối cùng (i = i-j+2).
Giải thuật kết thúc khi j>m hoặc i>n.

- Ta khai báo :
Type
St =string[255];

Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh
4
Index = 1 255;
c. Giải thuật:
Chương trình thực hiện giải thuật này như sau:
program Brute_Force;
uses crt;
type
st=string[50];
var a,p:st; {a chứa chuỗi nguồn , p là chuỗi đích, n độ dài chuỗi a ,m là độ dài chuỗi
p}
procedure init;
var i,j:integer;

begin
writeln('Nhập chuỗi a:');
readln(a);
writeln('Nhập chuỗi p:');
readln(p);
end;
procedure Result;
begin
writeln('Chuỗi cần tìm là:',p)
end;
Function Brutesearch(p,a:st):integer;
var i,j,m,n:integer;
begin
m:=length(p);
n:=length(a);
i:=1;
j:=1;
repeat
if a[i]=p[j] then
begin
i:=i+1;
j:=j+1;

Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh
5
end
else
begin
i:=i-j+2;
j:=1;

end;
until(j>m)or (i>n);
if j>m then Brutesearch:=i-m;
else Brutesearch:=0;
end;
begin
clrscr;
Init;
Brutesearch(a,p);
write('Vị trí của ký tự đầu của chuỗi p trong a là:',Brutesearch(p,a):2);
writeln;
Result;
readln;
end.
Ví dụ: Ta xét một ví dụ cụ thể sau:
Cho chuỗi a=’ 0101101001110011101011100’ n=27, chuỗi p=’ 010011’ m=6

stt So sánh 2 giá trị Chí số mới của i và j Chú thích
1 a[1]=p[1] i=2;j=2
2 a[2]=p[2] i=3;j=3
3 a[3]=p[3] i=4;j=4
4 a[4]<>p[4] i=2,j=1 i=i-j+2
5 a[2]<>p[1] i=3;j=1 -
6 a[3]=p[1] i=4;j=2 Tăng i và j lên 1
7 a[4]=p[2] i=5;j=3 -
8 a[5]<>p[3] i=4;j=1 i=i-j+2

Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh
6
9 a[4]<>p[1] i=5;j=1 -

10 a[5]<>p[1] i=6;j=1 -
11

a[6]=p[1]

i=7;j=2

tăng i và j lên 1

12 a[7]=p[2] i=8;j=3 -
13 a[8]=p[3] i=9;j=4 -
14 a[9]=p[4] i=10;j=5 -
15 a[10]=p[5] i=11;j=6 -
16 a[11]=p[6] i=12;j=7 giải thuật kết thúc do
j>m





Đến đây giải thuật kết thúc giá trị trả về ở đây là 6 của lần tìm thấy đầu tiên
a=’ 0101101001110011101011100’
p=’ 010011’
d. Phân tích giải thuật
Trường hợp xấu nhất của giải thuật này là trường hợp cả hai chuỗi p và a đều
gồm các số 0 và kết thúc là số 1. Khi đó với n-m +1 lần tìm kiếm ta phải so sánh
m ký tự của chuỗi p với các ký tự tương ứng của chuỗi a.
Số lần so sánh :
C
max

=m*(n-m+1)
Ta có thể cải tiến giải thuật này bằng giải thuật Knuth- Morris-Pratt.

2.2. Giải thuật Knuth- Morris- Pratt.
a. Nội dung của giải thuật
- Trong giải thuật Brute-Force ta nhận thấy khi so sánh đến ký tự p[j]<>a[i] thì
ta đã có j -1 kí tự đầu tiên của chuỗi p bằng với các j-1 ký tự cuối cùng trước a[i]
của chuỗi a.
Ví dụ :

Võ Minh Phổ Bổ môn Khoa học máy tính
7
chui a l :1010100111
chui p l :10100111
- Ta nhn thy a[5] v p[5] khỏc nhau. Khi ú ta khụng cn cho j=1 na m cho
j v 3 so sỏnh vỡ ta nhn thy 3 ký t u tiờn ca chui p bng vi 3 ký t
ang xột cui cựng ca ca chui a. Do ú ta khụng cn cho i quay v v trớ
trc na m vn tip tc cho i tng. Ta s dng mng next[1m] ghi
nhn giỏ tr j quay v . Phn t next[j] s cho giỏ tr mi ca j khi phỏt hin hai
ký t khỏc nhau. Mng next[1m] c xỏc nh nh sau :
- S dng chui p1 hon ton ging p.
Cho chui p1 di chuyn t trỏi qua phi ng thi so sỏnh vi chui p v dng
li khi cỏc kớ t u tiờn ca chui p1 trựng vi cỏc kớ t ca chui p. Cỏc kớ t
trựng ny s xỏc nh giỏ tr ca next.
- Nu s khỏc nhau ny c phỏt hin p[j] thỡ next[j] :=1+s ký t trựng nhau
+.vi j=1 next[j]=0
+.vi j>1 next[j] := là số lớn nhất k<j sao cho k-1 ký tự đầu tiên của p1 trùng
với k-1 ký tự cuối cùng của j-1 (tại thời điểm đang xét) ký tự đầu tiên của p.
- Khi xác định next [j] việc di chuyên p1 qua phải dừng lại khi phát hiện các ký tự
đi trớc của chuỗi p1 trùng với các ký tự của chuỗi p hoặc khi p1[1]=p[j].

- Khi xỏc nh next[j] vic di chuyn chui p1 qua phi s dng li khi phỏt hin
cỏc kớ t i trc ca chui p1 bng vi cỏc kớ t ca chui p hoc khi p1[1] gp
p[j].
b. Gii thut :
program Knuth_Morris_Pratt;
uses crt;
type
st=string[50];
Index=1 50;
var a,p:st;{a cha chui ngun, p l chui ớch;n l di ca a;m la di ca
p}

Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh
8
procedure init;
var i,j:integer;
begin
writeln('Nhập chuỗi a:');
readln(a);
writeln('Nhập chuỗi p:');
readln(p);
end;
procedure Result;
begin
writeln('Chuỗi cần tìm là:',p);
end;
Function Kmsearch(p,a:st):integer;
var i,j,m,n:integer;
next:array[index]of integer;
procedure Initnext;

begin
i:=1;
j:=0;
next[1]:=0;
repeat
if(j=0)or(p[i]=p[j])then
begin
i:=i+1;
j:=j+1;
next[i]:=j;
end;
else
j:=next[j];

Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh
9
until i=m;
end;
begin
m:=length(p);
n:=length(a);
{Tạo mảng next}
Initnext;
i:=1;
j:=1;
repeat
if (j=0) or (a[i]=p[j]) then
begin
i:=i+1;
j:=j+1;

end;
else
begin
j:=next[j];
end;
until(j>m)or (i>n);
if j>m then Kmsearch:=i-m
else Kmsearch:=0;
end;
begin
clrscr;
Init;
Kmsearch(a,p);
write('Vị trí của ký tự đầu của chuỗi p trong a là:',Kmsearch(p,a):2);
writeln;

Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 10
Result;
readln;
end.

c. Ví dụ cụ thể
Cho chuỗi a : 101'01.0'011'1 i =10
p : 101'00.1'11 j =8
Các bước sẽ được thể hiện trong bảng sau :




j next[j] chuỗi

2 1 101’001’11 (p)
101’001’11 (p1)
3 1 101’001’11
101’001’11
4 2 101’001’11
101’001’11
5 3 101’001’11
1 01’001’11
6 1 101’001’11
1 01’001’11
7 2 101’001’11


1 01’001’11

8 101’001’11
101’001’11


Vâ Minh Phæ – Bæ m«n Khoa häc m¸y tÝnh 11
Số lần so sánh Cmax=n+m. Ta thấy số lần so sánh đã giảm đi nhiều lần.

2.3. Giải thuật Boyer –Moore
a. Nội dung giải thuật:
- Giải thuật Boyer-Moore tương tự với giải thuật Knuth-Morris-Pratt. Đối với
giải thuật Boyer, ta xét chuỗi p1 từ phải qua trái trong khi ta so sánh chuỗi p với
chuỗi a.
Cách xây dựng mảng next của giải thuật Boyer-Moore là phần tử next[j] là số vị
trí kí tự mà chuỗi p sẽ di chuyển qua phải đối với chuỗi p1 để có được vị trí khác
nhau ở kí tự thứ j kể từ phải qua trái của chuỗi p.

b. Giải thuật:
Để xác định vị trí mới của j khi có sự so sánh trùng nhau ta dùng mảng skip.
Hàm Function Ord(c:char):integer trả về số thứ tự của ký tự c trong bộ ký tự
(đánh số từ 1).
Khi đó skip[c]=m nếu c không phải là một ký tự của chuỗi p
skip[c]=m-j nếu c là kí tự thứ j của chuỗi p.
Ta có giải thuật :

Program Boyer-Moore;
Use crt;
Type
St=string[50];
Const
Charno=255;
procedure init;
begin
writeln(‘ hay nhap chuoi a:’);
readln(a);
writeln(‘nhap chuoi p:’);
readln(p);
end;
procedure result;

×