Tải bản đầy đủ (.pdf) (258 trang)

Phân loại đồ thị phụ tải và phân tích phản ứng tiêu thụ điện lên biểu giá điện cho khu vực tp hcm báo cáo nghiệm thu cấp thành phố

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.03 MB, 258 trang )

ỦY BAN NHÂN DÂN THÀNH PHỐ HỒ CHÍ MINH
SỞ KHOA HỌC VÀ CÔNG NGHỆ

BÁO CÁO NGHIỆM THU ĐỀ TÀI
(Đã chỉnh sửa theo góp ý của Hội đồng nghiệm thu)

PHÂN LOẠI ĐỒ THỊ PHỤ TẢI VÀ PHÂN TÍCH PHẢN ỨNG
TIÊU THỤ ĐIỆN LÊN BIỂU GIÁ ĐIỆN CHO KHU VỰC TP.HCM

CHỦ NHIỆM ĐỀ TÀI: PGS.TS. PHAN THỊ THANH BÌNH

CƠ QUAN QUẢN LÝ
(Ký tên/đóng dấu xác nhận)

CƠ QUAN CHỦ TRÌ
(Ký tên/đóng dấu xác nhận)

THÀNH PHỐ HỒ CHÍ MINH
THÁNG 3/2014


MỤC LỤC
NỘI DUNG

TRANG

Tóm tắt đề tài

1

Mục lục



2

Danh sách chữ viết tắt

3

Danh sách bảng

4

Danh sách hình

6

Chương I - Tổng quan

14

Chương II - Nội dung nghiên cứu

19

Chương III - Kết quả và thảo luận

49

Chương IV - Kết luận và kiến nghị

147


Phụ lục 1 - Các chỉ số phân nhóm

150

Phụ lục 2 - Đồ thị đại diện năm 2012

154

Phụ lục 3 - Phân tích tiêu thụ điện năm 2012

171

Phụ lục 4 - Phân tích tiêu thụ điện các trạm 2010+2011

200

Phụ lục 5 - Đáp ứng theo giá điện

253

Phụ lục 6 - Tài liệu minh chứng

277

Tài liệu tham khảo

291



DANH SÁCH CÁC CHỮ VIẾT TẮT
VIẾT TẮT

THUẬT NGỮ TIẾNG VIỆT

RLC

Đồ thị đại diện

KM

Phân loại mờ

TOU

Giá điện theo thời gian sử dụng

DSM

Quản lý nhu cầu

TPHCM

Thành phố Hồ Chí Minh


DANH SÁCH BẢNG
SỐ

TÊN BẢNG


TRANG

1

Bảng 1: Kết quả chạy thử trên các tập mẫu Alpha = 1.1

29

2

Bảng 2: Tóm tắt kết quả phân nhóm trên các tập mẫu

30

3

Bảng 3: Kết quả kiểm định phân bố đồ thị TPHCM

50

4

Bảng 4: Hệ số tương quan giữa A và T0

77

5

Bảng 5: Hệ số tương quan giữa lnA và T0 của các trạm


78

6

Bảng 6a: Điện năng điển hình của các thứ trong tuần của TPHCM
năm 2011+2012

88

7

Bảng 6b: Điện năng ngày điển hình của các tháng của TPHCM năm
2011+2012

100

8

Bảng 7: Điện năng ngày điển hình của các tháng trạm Bến Thành
2010

102

9

Bảng 8: Điện năng ngày điển hình của các ngày trong tuần trạm Bến
Thành 2011

103


10

Bảng 9: Điện năng ngày điển hình của các tháng trạm Bến Thành
2011

104

11

Bảng 10: Tiêu thụ điện của các trạm năm 2010-2011

105

12

Bảng 11: Bảng giá điện 6-22kV

107

13

Bảng 12: Bảng giá điện từ 22 kV đến dưới 110KV

108

14

Bảng 13a: % tăng giá điện cấp 6-22kV


108

15

Bảng 13b:% tăng giá điện cấp 22-110kV

109

16

Bảng 14: Sự thay đổi điện năng tiêu thụ TPHCM tại các thời điểm là
(2 ngày sau khi thay đổi giá)

112

17

Bảng 15: Ba hệ số đặc trưng cho đồ thị phụ tải điển hình

129

18

Bảng 16: Tỉ lệ chênh lệch giá điện

144


DANH SÁCH HÌNH


SỐ

TÊN HÌNH ẢNH

TRANG

1.1

Chương trình ANATIPO

17

2.1

Phân bố chuẩn

20

2.2

Mẫu kiểm chứng 7-3

28

2.3

Mẫu kiểm chứng 3-2

29


2.4

Hàm thành viên mờ cho mục tiêu giảm tải đỉnh

47

2.5

Hàm thành viên mờ cho việc giảm sự sai biệt giữa tải giờ cao điểm và
thấp điểm.

47

3.1

Đồ thị đại diện mùa mưa 2011+2012

52

3.2

Đồ thị đại diện mùa nắng 2011+2012

53

3.3a

Đồ thị đại diện ngày nghỉ 2011+2012

54


3.3b

Đồ thị đại diện ngày thường 2011

54

3.4

Đồ thị đại diện ngày thứ hai 2011+2012

55

3.5a

Đồ thị đại diện ngày thứ ba 2011+2012

56

3.5b

Đồ thị đại diện ngày thứ tư 2011+2012

56

3.6

Đồ thị đại diện ngày thứ năm 2011+2012

58


3.7

Đồ thị đại diện ngày thứ sáu 2011+2012

59

3.8

Đồ thị đại diện ngày thứ bảy 2011+2012

60

3.9

Đồ thị đại diện ngày chủ nhật 2011+2012

61

3.10

Đồ thị đại diện tháng 1- 2011

62

3.11a

Đồ thị đại diện tháng 2- 2011

62


3.11b

Đồ thị đại diện tháng 3- 2011

63

3.1

Đồ thị đại diện tháng 4- 2011

63

3.13

Đồ thị đại diện tháng 5- 2011

63


3.14

Đồ thị đại diện tháng 6- 2011

64

3.15

Đồ thị đại diện tháng 7- 2011


64

3.16

Đồ thị đại diện tháng 8- 2011

64

3.17

Đồ thị đại diện tháng 9- 2011

65

3.18

Đồ thị đại diện tháng 10- 2011

65

3.19

Đồ thị đại diện tháng 11- 2011

65

3.20

Đồ thị đại diện tháng 12- 2011


66

3.21

Đồ thị đại diện TPHCM – 2011

67

3.22

Đồ thị đại diện TPHCM – 2012

68

3.23

Đồ thị đại diện dệt may TPHCM – 2010

69

3.24

Đồ thị đại diện các trạm TPHCM – 2011

72

3.25

Biểu đồ thể hiện nhóm tiêu thụ điện năng năm 2011+2012


79

3.26

Biểu đồ thể hiện tiêu thụ điện của thứ Hai 2011+2012

81

3.27

Biểu đồ thể hiện tiêu thụ điện của thứ Ba 2011+2012

82

3.28

Biểu đồ thể hiện tiêu thụ điện của thứ Tư 2011+2012

83

3.29

Biểu đồ thể hiện tiêu thụ điện của thứ Năm 2011+2012

84

3.30

Biểu đồ thể hiện tiêu thụ điện của thứ Sáu 2011+2012


85

3.31

Biểu đồ thể hiện tiêu thụ điện của thứ Bảy 2011+2012

86

3.32

Biểu đồ thể hiện tiêu thụ điện của Chủ nhật 2011+2012

87

3.33

Biểu đồ thể hiện tiêu thụ điện của thứ trong tuần 2011+2012

88

3.34

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 1 năm 2011+2012

90

3.35

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 2 năm 2011+2012


90

3.36

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 3 năm 2011+2012

91

3.37

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 4 năm 2011+2012

92


3.38

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 5 năm 2011+2012

93

3.39

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 6 năm 2011+2012

94

3.40

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 7 năm 2011+2012


95

3.41

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 8 năm 2011+2012

96

3.42

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 9 năm 2011+2012

97

3.43

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 10 năm 2011+2012

98

3.44

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 11 năm 2011+2012

98

3.45

Biểu đồ thể hiện tiêu thụ điện của ngày trong tháng 12 năm 2011+2012


99

3.46

Biểu đồ điện năng ngày điển hình của các tháng trạm Bến Thành 2010

102

3.47

Biểu đồ điện năng ngày điển hình trong tuần trạm Bến Thành 2011

104

3.48

Biểu đồ điện năng ngày điển hình của các tháng trạm Bến Thành 2011

105

3.49

Đồ thị phụ tải giữa hai lần thay đổi giá điện (cho 4 lần đầu) trạm Linh
Trung 1

114

3.50


Đồ thị phụ tải giữa hai lần thay đổi giá điện (cho 4 lần đầu) trạm Linh
Trung 2

117

3.51

Đồ thị phụ tải giữa hai lần thay đổi giá điện (cho 4 lần đầu) trạm
Tân Bình 1

119

3.52

Đồ thị phụ tải giữa hai lần thay đổi giá điện (cho 4 lần đầu) trạm
Vikimco

121

3.53

Đồ thị phụ tải giữa hai lần thay đổi giá điện (cho 4 lần đầu) cho tổng 4
trạm

123

3.54

Đồ thị phụ tải đại diện TPHCM từ 1/1/2011 đến 29/2/2011


126

3.55

Đồ thị phụ tải đại diện TPHCM từ 1/3/2011 đến 19/12/2011

127

3.56

Đồ thị phụ tải đại diện TPHCM 2012 qua 2 lần thay đổi giá

128

3.57

Đồ thị phụ tải của trạm Thị Nghè qua 4 lần thay đổi giá

130

3.58

Đồ thị phụ tải của trạm trạm Bến Thành qua 4 lần thay đổi giá

131


3.59

Đồ thị phụ tải của trạm trạm Bình Triệu qua 4 lần thay đổi giá


133

3.60

Đồ thị phụ tải của trạm trạm Hỏa Xa qua 4 lần thay đổi giá

134

3.61

Đồ thị phụ tải của trạm trạm Khu Chế Xuất Linh Trung 1 qua 4 lần
thay đổi giá

135

3.62

Đồ thị phụ tải của trạm trạm Khu Chế Xuất Linh Trung 2 qua 4 lần
thay đổi giá

136

3.63

Đồ thị phụ tải của trạm trạm Tân Bình 1 qua 4 lần thay đổi giá

137

3.64


Đồ thị phụ tải của trạm trạm Vikimco qua 4 lần thay đổi giá

138


BÁO CÁO NGHIỆM THU
1. Tên đề tài: Phân loại đồ thị phụ tải và phân tích phản ứng tiêu thụ điện lên biểu giá
điện cho khu vực TP.HCM.


Chủ nhiệm đề tài:

PGS.TS Phan Thị Thanh Bình



Cơ quan chủ trì:

Đại học Bách khoa TP.HCM



Thời gian thực hiện:

12/2010 đến 4/2014



Kinh phí được duyệt:


250.000.000 đồng

2. Mục tiêu
‐ Khảo sát sự phân loại của đồ thị thành phố theo các yếu tố ảnh hưởng (mùa, ngày
thường, ngày nghỉ…) và xây dựng các đồ thị tải điển hình cho thành phố.


Xây dựng các đồ thị tải điển hình cho một số trạm, khách hàng;



Khảo sát phản ứng tiêu thụ điện lên biểu giá điện mới;



Phân tích các chế độ dùng điện của các đối tượng khảo sát;



Phân tích chế độ dùng điện của thành phố;

‐ Đưa ra các đề xuất, đề nghị về cải tiến biểu giá điện nhằm nâng cao hiệu quả sử
dụng điện.
3. Nội dung, sản phẩm
3.1. Nội dung


Thu thập số liệu và xử lý thơ;




Nghiên cứu phân tích số liệu;



Phân loại đồ thị và xây dựng đồ thị điển hình;

‐ Nghiên cứu xây dựng cách tiếp cận thích hợp phân tích chế độ dùng điện của các
đối tượng khảo sát;
‐ Nghiên cứu xây dựng cách tiếp cận thích hợp phân tích phản ứng tiêu thụ điện lên
biểu giá điện mới (TOU);


Nghiên cứu đề xuất về cải tiến giá điện theo hướng sử dụng điện hiệu quả.

3.2. Sản phẩm của đề tài


Phương pháp phân loại đồ thị phụ tải cho một đối tượng;



Các đồ thị đại diện theo các yếu tố đặc trưng (theo mùa, ngày thường, ngày lễ…);



Đồ thị đại diện cho đối tượng (một dạng khách hàng, trạm phân phối, thành phố);




Phân tích các chế độ dùng điện của các đối tượng trên;

‐ Các phân tích phản ứng tải trước và sau khi có biểu giá 3 giá mới của một số trạm
phân phối, một dạng khách hàng;


Các kiến nghị, đề xuất về biểu giá điện;



Một bài báo trên tạp chí trong nước hoặc hội nghị quốc tế;




Báo cáo tổng kết.


TÓM TẮT ĐỀ TÀI
Việc xây các đồ thị đại diện là rất cần thiết cho công tác thiết kế, vận hành lưới điện
cũng như quản lý nhu cầu dùng điện. Do đồ thị phụ tải không phải lúc nào cũng tuân theo
luật phân bố chuẩn nên không thể lấy đồ thị trung bình làm đồ thị đại diện. Nếu tập đồ
thị khơng tn theo một phân bố nhất định thì việc tìm kiếm đồ thị đại diện được đề tài
triển khai dựa trên nghiên cứu các phương pháp phân loại đồ thị phụ tải. Các giải thuật
phân nhóm cũng được áp dụng cho bài tốn phân tích tiêu thụ điện năng để đánh giá hiệu
quả dùng điện. Đề tài cũng tiến hành phân tích hiệu quả của các giá điện theo thời gian
lên sử dụng điện của khách hàng. Từ đây có thể rút ra các đề xuất về biểu giá điện theo
thời gian. Đối tượng khảo sát là phụ tải điện thành phố Hồ Chí Minh


SUMMARY
Building the representative load curve is necessary not only for designing, exploit
ting the power network but also for the demand side management. Because the load
curves are not belonged to the normal distribution, so the mean load curve will not be a
representative load curve. If the load curve set is not belonged to any distribution law,
this project proposes the load curve clustering method for determining the representative
load curve. The clustering methods also were applied for electrical consumption analysis.
This helps to estimate the effectiveness of electrical consumption. The influence of the
time of use tariff on the power demand is also carried out. The proposals to enhance the
time of use tariff will be drawn. The object for examining is the load of Ho Chi Minh
City.

1


CHƯƠNG I - TỔNG QUAN
1. Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài
1.1. Ngồi nước
Vai trị quan trọng của đồ thị đại diện (Representative Load Curve - RLC) và phân
nhóm đồ thị, phân nhóm chế độ dùng điện trong ngành điện được các nghiên cứu của
nước ngoài tập trung vào các lĩnh vực sau:
- Đánh giá hiệu quả điều chỉnh chế độ dùng điện của một biểu giá điện: Với hàng
loạt các quốc gia thì biểu giá điện là một công cụ quan trọng để điều chỉnh sự tiêu thụ
điện. Phản ứng lên biểu giá điện được thể hiện rõ nhất qua đồ thị phụ tải. Khảo sát và
phân loại đồ thị phụ tải [1] cho phép rút ra kết luận cần thiết về hiệu quả của biểu giá điện
và từ đây có được các sự hiệu chỉnh cần thiết.
- Cơ sở để cải tiến biểu giá điện: Với các nước trên thế giới, các dạng phụ tải khác
nhau với các đồ thị khác nhau sẽ được định giá điện khác nhau nhằm mang lại hiệu qủa
cao nhất cho xã hội trong việc sản xuất và sử dụng năng lượng điện. Hoặc dựa trên phản
ứng lên giá điện thể hiện qua đồ thị điển hình [3][4], cơng ty điện có thể cải tiến biểu giá

điện. Nếu có sự phân loại rõ rệt giữa đồ thị các mùa trong năm, hay giữa ngày thường và
ngày nghỉ, sẽ đề xuất các biểu giá điện theo mùa, theo ngày thường, ngày nghỉ. Ví dụ
điển hình là EDF (điện lực Pháp). Dựa trên đồ thị điển hình (đại diện) của hệ thống, ví dụ
như sau khi áp dụng biểu giá vàng (yellow tariff) một thời gian, quan sát và phân tích đồ
thị họ nhận thấy dạng đồ thị có đỉnh xảy ra nhều giờ trong ngày và trong một số ít ngày
khơng dự báo trước được. Sau đó đề xuất biểu giá “da trời” có giờ cao điểm động 22
ngày trong năm
- Công tác thiết kế lưới điện: khi thiết kế lưới điện, cung cấp điện, các RLC cung
cấp cơ sở dữ liệu cho việc chọn trạm và các khí cụ điện.
- Công tác vận hành lưới điện của các điện lực: trong bài toán đánh giá trạng thái
lưới điện phân phối (DSE) nằm trong tổng thể bài toán hệ thống quản lý lưới phân phối
DMS, việc sử dụng các RLC là cơ sở cho bài toán ước lượng và đánh giá tải (load
estimation) [24].
- Tạo cơ sở dữ liệu cho việc quản lý và vận hành lưới điện: một ví dụ là với bài toán
đánh giá trạng thái lưới phân phối, trong điều kiện hệ thống SCADA với số lượng thiết bị
đo hữu hạn, khi đó cần sử dụng các số đo giả. Các số đo giả này thường được lấy từ các
cơ sở dữ liệu của các điện lực về tải (đồ thị đại diện của nút, của khách hàng…) [7][32]
- Tạo tiền đề cho việc lý sử dụng điện tiết kiệm và hiệu quả, phục vụ chương trình
quản lý nhu cầu (Demand Side Management - DSM): với việc điều khiển hộ tiêu thụ nói
chung của tồn hệ thống điện, việc xây dựng các RLC [22] giúp ngành điện thấy được sự
tham gia cấu tạo nên tải của hệ thống, từ đó có thể có các biện pháp điều khiển tải, thực
hiện sự tiết kiệm năng lượng nói chung cho tồn xã hội. Ví dụ điển hình là tại Đài Loan,
2


trong 2 năm liên tục, Điện lực Đài Loan đã lắp đặt các công tơ thông minh thiết lập các
đồ thị điển hình của 9 nhóm khách hàng. Từ đó họ thiết lập giá theo công suất khác nhau
cho các đối tượng trên nhằm giảm tối đa tải đỉnh theo sự tham gia cấu tạo tải đỉnh của
từng nhóm
- Đánh giá hành vi sử sụng điện của khách hàng (hay một đối tượng): Phân tích chế

độ dùng điện: Một trong các bài tốn quan trọng của chương trình tiết kiệm điện năng là
phân tích các chế độ dùng điện (tiêu thụ điện) để tìm cách thúc đẩy tiêu thụ điện hợp lý.
Phân tích chế độ dùng điện sẽ chỉ ra các mặt mạnh, yếu, tìm ra các nguyên nhân khắc
phục[26].
- Hướng tới thị trường điện: Trong một thị trường năng lượng điện cạnh tranh, điều
rất mong muốn của các nhà cung cấp điện năng là biết được đặc điểm về hành vi tiêu thụ
điện của các hộ tiêu thụ, để cung cấp các dịch vụ làm hài lòng họ với một chi phí thấp
nhất. Các nhà cung cấp thường được cho phép thay đổi bảng giá nhưng dưới sự giám sát
về sự điều chỉnh bởi những người có thẩm quyền trong ngành năng lượng. Vì mục đích
đó, các nhà cung cấp tiến hành phân nhóm các hộ tiêu thụ vào những nhóm đại diện
[19][20] [27][34]và sau đó sử dụng RLC của nhóm đó để nghiên cứu về đặc điểm về
hành vi tiêu thụ điện của các hộ tiêu thụ và áp dụng bảng giá mới. Ngồi ra, kỹ thuật
phân nhóm cũng có thể được sử dụng cho các dự báo phụ tải.
Xác định đặc điểm về hành vi tiêu thụ điện của các khách hàng dùng điện là chìa khố
cho việc thiết lập mới mức bảng giá đề nghị, dẫn đến cấu trúc bảng giá trở nên liên quan
chặt chẽ hơn đến các giá trị thực của việc cung cấp điện trong những khoảng thời gian
khác nhau. Trong viễn cảnh thị trường trên, bên cung cấp điện đã đạt được một mức độ
mới về sự tự do trong việc thiết lập cấu trúc bảng giá và mức giá dưới sự gia tăng điều
tiết mức lợi nhuận. Điều này đòi hỏi phải phân nhóm các hộ tiêu thụ điện vào những
nhóm khách hàng khác nhau một cách hợp lý.
Các giả thiết trước đây thường chấp nhận sự phân bố phụ tải của một nhóm các thiết
bị, xí nghiệp, hệ thống đều tuân theo quy luật phân bố chuẩn. Vì vậy, để xây dựng đồ thị
phụ tải ngày điển hình của các hộ tiêu thụ này, người ta sẽ sử dụng phương pháp trung
bình cộng độ lệch chuẩn. Tuy nhiên nếu khơng tn theo luật phân bố nào, các cơng trình
cơng bố đi tìm xem liệu tập đồ thị có thiên về một nhóm nào đó khơng. Nếu có thì từ đó
sẽ xây đồ thị đồ thị đại diện.
Hiện nay rất nhiều phương pháp mới được ứng dụng:
‐ Kỹ thuật thống kê và phân nhóm (clustering and statistical techniques).
‐ Mạng nơron (neural network) [18][30][31].
‐ Logic mờ (fuzzy logic)

Kết quả việc phân nhóm sẽ tạo ra những mẫu đồ thị đại diện cho từng nhóm, đặc
trưng cho hành vi sử dụng điện trong cùng một điều kiện. Mỗi RLC trên được xây dựng
3


dựa trên việc tập hợp những mẫu dữ liệu tải cơ bản trong quá khứ của một nhóm hộ tiêu
thụ và sẽ đại diện cho nhóm đó.
Một ví dụ là Điện lực Brazil cũng đã ứng dụng các thuật toán thuật tốn phân nhóm tự
động trong việc phân loại phụ tải và xác định các đồ thị đại diện với chương trình
ANATIPO.

Hình 1.1. Chương trình ANATIPO
Kế thừa ý tưởng về đồ thị đại diện cũng chính là đồ thị có phổ phân bố nhiều nhất, đề
tài sẽ tiến hành tìm luật phân bố của đồ thị. Việc phân tích tiêu thụ điện, như trên đã đề
cập cũng dựa trên ý tưởng tìm miền (tập hay nhóm) tiêu thụ điện
- Phân tích phản ứng lên biểu giá điện:
Tất cả các cơng ty điện sau khi có biểu giá điện mới ra đời đều tiến hành phân tích
đáp ứng của khách hàng lên biểu giá điện mới. Để làm điều này, hầu hết các cơng trình
cơng bố đều tập trung đi tìm kiếm mơ hình tốn thể hiện sự thay đổ giá điện lên sự thay
đổ dùng điện. Các cơng trình đều dựa trên ý tưởng về hệ số đàn hồi. Với các nước đã
thực thi biểu giá theo thời gian (TOU) nhiều năm, thường các khách hàng đều có phản
ứng tương đối hợp lý lên giá điện. Các cơng trình ở đây đều dựa trên mơ hình do Aigner
đề xuất [37,38,39]
1.2. Trong nước
Liên quan tới đồ thị phụ tải, các công trình trong nước tập trung vào cơng tác dự báo.
Ngay tại thành phố Hồ chí Minh có đề tài về dự báo đồ thị của nhóm tác giả Nguyễn
Thúc Loan, Trần Hoàng Lĩnh, của Ths. Nguyễn Ngọc Hồ. Những phác thảo đầu tiên về
phân nhóm mờ cho xây đồ thị RLC đã được nhóm nghiên cứu của chủ trì đề tài trình bày
tại hội nghị IPEC 2003 tại Singapore.
Trên một số diễn đàn và website của trường Đại học Dân lập Kỹ thuật Cơng nghệ có

bài báo về phân loại đồ thị phụ tải dựa trên thuật toán Pulsa của Nguyễn Văn Sơn trích từ
luận văn cao học do chủ nhiệm đề tài hướng dẫn.
Do điều kiện khách quan, chúng ta chưa có được các đồ thị điển hình của các nhóm
khách hàng, của các điện lực. Điều này được lý giải một phần vì hệ thống đo đếm và
truyền thông tin của ta. Ngay cả trong những năm gần đây đã có lắp đặt các cơng ty 3 giá
4


và có truyền số liệu (30 phút) về điện lực thành phố thì cũng vẫn chưa có cơng trình nào
nghiên cứu trọn vẹn và hệ thống về xây dựng đồ thị điển hình.
Ngồi ra, biểu giá điện 3 giá đã được thực thi một thời gian, theo nguyên tắc nó phải
được đánh giá về mặt hiệu quả điều khiển chế độ dùng điện (điều này là tiêu chí đầu tiên
của việc thiết lập biểu giá điện của các điện lực thế giới).

5


CHƯƠNG II - NỘI DUNG NGHIÊN CỨU

1. Đo và thu thập số liệu và nghiên cứu xử lý thô
1.1. Mô tả nội dung

‐ Thu thập số liệu là công suất theo giờ từ các trạm của thành phố và của
thành phố:
o Năm 2010, 2011 và 2012 của các trạm 110/22 kV
o Năm 2011 và 2012 của thành phố
o Năm 2010 của 24 khách hàng dệt may
‐ Lọc số liệu theo các mục tiêu khảo sát ở các nội dung sau: như muốn dùng
cho khảo sát ngày thứ hai, phải lọc toàn bộ số liệu ngày thứ hai của các trạm.
Tương tự muốn dùng cho tháng, mùa, ngày thường, ngày nghỉ cũng phải tiến hành

lọc số liệu tương ứng. Khi khảo sát phản ứng theo biểu giá điện, phải lọc các số
liệu tương ứng cho mỗi lần thay đổi giá điện.
1.2. Phương pháp nghiên cứu
Sau khi thu thập số liệu đã tiến hành xử lý thô do một số số liệu bị lỗi (hiện toàn số
0 cho một số giờ hay nguyên ngày).
1.3. Sản phẩm nội dung cần đạt: tập số liệu đã xử lý
2. Nghiên cứu phân tích số liệu
2.1. Mơ tả nội dung: Tìm kiếm luật phân bố

Mục đích: nếu đồ thị phụ tải có tuân theo một luật phân bố nào đó thì từ đây có thể
xác định được đồ thị đại diện.

Ý nghĩa: Việc tìm kiếm luật phân bố của tập đồ thị rất có ý nghĩa. Nếu nó tn
theo một phân bố nào đó thì tại điểm hàm phân bố này đạt cực trị, điểm này (đồ thị này)
sẽ là đại diện cho tập đã cho nếu phổ phân bố của nó bao trùm trên 66% tập đồ thị. Ví dụ,
với phân bố chuẩn, người ta đã chứng minh
được rằng nếu X có phân bố chuẩn N (µ,
σ2) thì có đến 95,44% giá trị của X nằm
trong khoảng (µ -2σ, µ +2σ) và hầu như
tồn bộ giá trị X đều thuộc (µ -3σ, µ +3σ).
Đây cũng chính là cơ sở của quy tắc 2 xích
ma và 3 xích ma thường được ứng dụng
trong việc xây dựng đồ thị điển hình.

Hình 2.1. Phân bố chuẩn
6


Do đó, đối với một tập dữ liệu tuân theo phân bố chuẩn, thì giá trị trung bình cũng
chính là kỳ vọng và là giá trị làm cực đại hàm mật độ phân bố xác suất. Điều này cũng có

nghĩa là giá trị trung bình chính là giá trị được mong đợi nhất và có tính đại diện nhất của
tồn tập dữ liệu khi và chỉ khi tập dữ liệu có phân bố chuẩn.
Rất nhiều tài liệu cho rằng đồ thị trung bình là đồ thị đại diện là xuất phát từ giả thiết
coi tập đồ thị có phân bơ chuẩn. Trong khi các nghiên cứu cho thấy điềnu này không
đúng. Các tác giả Nam Phi cho thấy đồ thị có phân bố Beta, cịn nghiên cứu của Brazil
cho thấy chúng không tuân theo một luật phân bố nào cả.
Để tìm kiếm hàm phân bố, đề tài sử dụng lý thuyết kiểm định giả thiết thống kê. Việc
kiểm định này được dựa trên tiêu chuẩn Pearson (phương pháp khi bình phương χ2) [42].
Nếu giả thiết H0 đúng thì số quan sát rơi vào khoảng thứ i sẽ cỡ chừng npi. So sánh các
tần số quan sát được ni và tần số giả thuyết npi và lập thống kê:
k

χ2 = ∑
i =1

(ni − npi ) 2 1 k ni2
= ∑ −n
npi
n i =1 pi

(1)

Trong đó:
k-số lần quan sát;
pi-xác suất rơi vào đoạn thứ I nếu nó tuân theo phân bố kiểm định.
Nếu như H0 đúng thì χ2 sẽ có phân bố tiệm cận là χ2(k−1)với k−1 bậc tự do, và được dùng
làm tiêu chuẩn để kiểm định.
Như vậy, để chấp nhận giả thiết H0 ở mức ý nghĩa α thì:

(ni − npi ) 2 1 k ni2

= ∑ − n < Cα
χ =∑
npi
n i =1 pi
i =1
2

k

(2)

Cα là hằng số tra ở bảng phân phối χ2 với k−1 bậc tự do và mức ý nghĩa α.
‐ Các hàm phân bố đã được đề xuất để kiểm định: phân bố hàm mũ, phân bố chuẩn,
phân bố ß, phân bố gamma...
2.2. Phương pháp nghiên cứu
Dựa trên lý thuyết kinh điển của xác suất thống kê là kiểm định giả thiết phi tham số.
2.3. Sản phẩm cần đạt
Chương trình tìm kiếm luật phân bố cho một tập đồ thị, một tập số liệu bất kỳ.
3. Phân loại đồ thị và xây dựng đồ thị đại diện

3.1. Mô tả nội dung
‐ Phân loại đồ thị và xây dựng đồ thị đại diện là cần thiết cho bài toán thiết kế, vận
hành lưới điện, cải thiện biểu giá điện, điều khiển sự dùng điện của khách hàng.
‐ Ý nghĩa của nội dung nghiên cứu: tìm kiếm cách xây dựng đồ thị đại diện khi tập
đồ thị không tuân theo phân bố nào cả.

7


‐ Nếu tập đồ thị không tuân theo luật phân bố nào cả, khi ấy ta sẽ tiến hành tìm

kiếm các nhóm đồ thị dựa trên thuật tốn phân loại. Đề tài tiến hành nghiên cứu các thuật
tốn phân nhóm rõ và thấy rằng nếu sử dụng thuật toán phân nhóm rõ, tâm của mỗi nhóm
chỉ phản ánh đặc thù các đồ thị của nhóm đó mà thơi.
Sử dụng thuật tốn phân nhóm mờ, dữ liệu các đồ thị ngày của hộ tiêu thụ sẽ được gom
thành nhiều nhóm (cluster) đồ thị tương tự nhau và được đại diện bởi giá trị tâm của các
nhóm (cluster center). Tâm của mỗi nhóm đều chịu sự ảnh hưởng của đồ thị các nhóm
khác ở các mức độ khác nhau (thể hiện qua giá trị hàm liên thuộc mờ). Như vậy ở một
chừng mực nào đó, mỗi tâm này đều phản ánh đồ thị của tồn bộ tập dữ liệu, song thiên
về phía các đồ thị của nhóm chứa tâm này. Nếu một nhóm chứa số đơng các đồ thị với tỷ
lệ áp đảo, thì tâm của nhóm này có “cơ hội” trở thành đại diện cho tồn bộ tập đồ thị. Vì
rằng, đồ thị đại diện không những chỉ phản ánh các đặc thù của những đồ thị thuộc nhóm
đó mà cịn phản ánh cho toàn bộ các đồ thị khác (ở mức độ yếu hơn) nên cách tiếp cận
này hợp lý hơn.
Cùng ý tưởng như vậy, điện lực Brazil cũng áp dụng phân nhóm mờ.
Thuật tốn Fuzzy K-means (FKM) rất được ưa chuộng trong bài tốn phân nhóm. Nó
được đề xuất bởi Dunn, sau đó phát triển lên bởi Bezdek[41]. Khi so sánh với các giải
thuật khác như giải thuật gom cụm phân tầng (Hierarchical Clustering) nhận thấy khi số
lượng các vectơ phần từ trong dữ liệu gia tăng thì lúc này độ phức tạp của FKM là nhỏ
hơn. Kết quả là việc tính tốn trên dữ liệu có số lượng phần tử lớn là nhanh hơn. Ưu điểm
này phù hợp cho dữ liệu phụ tải, vì sự đồ sộ về số lượng đồ thị phụ tải trong một năm hay
nhiều năm gộp lại. Như vậy bài toán phân loại đồ thị phụ tải theo FKM là bài toán phân
loại trong không gian 24 chiều (tương ứng với 24 giờ).
Giải thuật FKM có giá trị hàm mục tiêu sau cho mỗi số nhóm cho trước:

F (W , Z ) =

k

n


∑ ∑ wα
i =1 j =1

ij

X j − Zi

2

→ m in

(3)

Với các ràng buộc:
0 ≤ wij ≤ 1 1 ≤ i ≤ k , 1 ≤ j ≤ n
k

∑ wij = 1

i =1

1≤ j ≤ n

n

0 < ∑ wij < n 1 ≤ i ≤ K
j =1

Trong đó: d ( X i , Y j ) =


m

∑x
l =1

l

2

− yl

là khoảng cách Euclid; α ∈ (1, ∞ ) : chỉ số mờ

(fuzziness index ); X-tập các số liệu cần được phân nhóm (tập đồ thị), Zi-tâm của nhóm
i; n-số phần tử cần phân nhóm; k-số nhóm; m-số chiều của phần tử phân nhóm (với đồ thị
phụ tải sẽ là 24).
8


Để giá trị F đạt min, w và vector tâm Z được cho bởi:
khi X j = Z i
⎧1

khi X j = Z h , h ≠ i
⎪0
⎪⎪
2
wij = ⎨ k ⎡ d ( Z , X ) ⎤ α −1
i
j

⎪1/ ∑ ⎢
⎥ khi X j ≠ Z i va`
⎪ h =1 ⎢⎣ d ( Z h , X j ) ⎥⎦

X j ≠ Zh , 1 ≤ h ≤ k
⎪⎩

(4)

n

Zi =

∑ wα x
j =1
n

ij

j

(5)

∑w
j =1

α

ij


Các giá trị 0 và 1 của hàm thuộc chỉ xảy ra trong các lần lặp đầu tiên khi ta chọn vector
tâm Z khởi lặp trùng với X.
Một trong các khó khăn của phân nhóm FKM là các tiêu chuẩn tìm kiếm số nhóm cuối
cùng. Sau đây trình bày các tiêu chuẩn này:
Các tiêu chuẩn phân nhóm (xem phụ lục-PL1):
Để xác định số nhóm cuối cùng, các tiêu chuẩn sau phải được xem xét là:
‐ Bezdek’s Partition Coefficient (PC)
‐ Bezdek’s Partition Entropy (PE)
‐ Modified Partition Coefficient (MPC)
‐ Xie-Beni (XB)
‐ Fuzzy version of PBM-index (PBMF)
‐ VW (W)
‐ Phương pháp Mark Girolami
Một số đề xuất về việc xác định số nhóm k tối ưu:
Trả lời cho câu hỏi số nhóm tối ưu bằng bao nhiêu ln là một vấn đề lớn và quan
trọng trong bài toán phân nhóm. Như phần trên đã trình bày, có rất nhiều chỉ số cũng như
các phương pháp khác nhau được đề xuất nhằm cố gắng xác định chính xác số nhóm tối
ưu bằng bao nhiêu. Tuy nhiên, thực nghiệm cho thấy chưa có một tiêu chuẩn hoặc một
phương pháp nào cho kết quả phù hợp với hầu hết các kiểu dữ liệu. Và cho đến hiện tại,
bài toán này vẫn được nhiều người trên thế giới quan tâm và tiếp tục nghiên cứu nhằm
tìm kiếm các lời giải tối ưu.
Thực tế cho thấy, đối với cùng một tập dữ liệu, các tiêu chuẩn khác nhau của một
thuật tốn có thể cho các kết quả khác nhau về số nhóm. Để giải quyết vấn đề này, đề
xuất sử dụng phương pháp dung hịa các chỉ số thường dùng trong bài tốn tối ưu đa mục
tiêu, nhằm tìm kiếm số nhóm trong điều kiện các tiêu chuẩn chọn nhóm khơng cho một
kết quả thống nhất.
9


Cách tiếp cận bài tốn đa mục tiêu:

Như đã trình bày ở trên, ngồi phương pháp Mark Girolami, có 6 tiêu chuẩn thường
được sử dụng cho thuật toán FKM để xác định số phân nhóm. Nếu xem mỗi tiêu chuẩn là
một mục tiêu thì việc xác định số phân nhóm sẽ trở thành bài toán đa mục tiêu.
a. Nguyên tắc Bellmand-Zadeh:
Nguyên tắc Bellmand-Zadeh (BZ) phát biểu là: giá trị x tối ưu thoả hiệp các mục tiêu
được xác định bằng cách:
max min{µ1 (k ), µ 2 (k ),L, µ q (k )}
(6)
Với µl ( x) là các hàm liên thuộc mờ (fuzzy membership) của mục tiêu l thỏa điều
kiện 0 ≤ µl ( x) ≤ 1 ; q-số tiêu chuẩn.
Nếu coi mỗi tiêu chuẩn phân nhóm nêu trên là một mục tiêu (min hoặc max), có thể áp
dụng cơng thức phổ biến sau cho việc xây dựng hàm liên thuộc:
⎛ ∗
ν l − v (k ) ⎞
µ l (k ) = exp⎜⎜ − ( ∗ l ) 2 ⎟⎟ l = 1,2,..., q


vl



(7)



vl (k ) -giá trị của tiêu chuẩn l khi có số nhóm k; v l trị tối ưu của tiêu chuẩn l


Hàm liên thuộc mờ đạt giá trị cực đại bằng 1 khi vl (k ) đạt cực trị và bằng v l
b. Phương pháp mục tiêu toàn cục (GC)

p

⎡∗
ν l − ν l (k ) ⎤⎥

→ min
F =∑

l =1 ⎢

v
l


q

(8)

p ∈ [1, 2,...∞] : là số nguyên thể hiện độ quan trọng của các hàm mục tiêu. Thông thường

chọn p =2.
Ảnh hưởng của chỉ số mờ alpha đối với kết quả của thuật toán FKM:
Chỉ số mờ alpha hay trọng số alpha ( the weighting exponent- α >1 ) có vai trị quan
trọng và có ảnh hưởng lớn đến kết quả thu được của thuật toán cũng như kết quả chọn số
phân nhóm k. Chỉ số này giúp điều khiển các hình dạng của các nhóm và tạo ra sự cân
bằng giữa các giá trị liên thuộc gần tới 1 hoặc 0. Chọn α quá lớn hoặc quá nhỏ đều cho
những kết quả không đáng tin cậy (kết quả không thay đổi khi k thay đổi). Khi chọn α =
1, trở thành thuật tốn phân nhóm rõ, khi chọn α quá lớn (ví dụ: α > 100), các giá trị hàm
liên thuộc mờ sẽ không thay đổi. Bezdek sau khi thử nghiệm trên một số tập dữ liệu đã
đề xuất chọn α trong khoảng [1.1- 2.5], và giá trị α = 2 thường được lựa chọn để sử

dụng. Tuy nhiên, để tìm được một giá trị α phù hợp cho mỗi kiểu dữ liệu cần có nhiều sự
khảo sát và thử nghiệm trên cơ sở hiểu biết nhất định về đặc trưng của tập dữ liệu đó và
các giới hạn của giá trị α.
Một số giới hạn quan trọng của α:
10


‐ Khi α Ỉ ∞, tiêu chuẩn PC đạt giá trị lớn nhất là ½ tại k = 2 với mọi k ≥ 2 và khi α
Ỉ1, tiêu chuẩn PC đạt giá trị là 1. Dựa vào các giới hạn của tiêu chuẩn PC, đề tài sẽ đề
xuất một phương án chọn α phù hợp với việc xây dựng đồ thị phụ tải đại diện.
Đối với mỗi dữ liệu cụ thể sẽ có một giá trị α và k(số nhóm) hợp lý. Chọn α sao cho giá
trị này không quá gần 1 và không quá lớn bằng cách:
‐ Chọn một giá trị α gần 1 (ví dụ α = 1.1) quan sát các giá trị PC (ứng với k = 2:12)
nếu các giá trị PC đồng loạt lớn hơn 0.95 ( mức tương đối ) thì coi như đã có khuynh
hướng tiến gần đến 1: không nhận α này. Tiếp tục tăng α cho đến khi PC có ít nhất một
giá trị nhỏ hơn 0.95. Chọn giá trị α này làm giới hạn dưới αmin .
‐ Tương tự tìm giới hạn trên αmax: chọn một giá trị α lớn (ví dụ α = 3 ), quan sát giá
trị PC, nếu các giá trị này lần lượt xấp xỉ bằng 1/k thì dừng lại. Chọn giá trị α này làm
giới hạn trên αmax.
Vậy: α ∈ [αmin , αmax )
Qui tắc chọn α được đề xuất như trên vì:
‐ Như phân tích ở trên về các giới hạn của α: khi α Æ 1, giá trị PC Æ 1 và khi α Æ∞
giá trị PC Æ 1/k. Đây cũng chính là các dấu hiệu đặc trưng dễ nhận biết để có thể tìm
khoảng α an tồn theo tiêu chuẩn PC như trên.
Từ khoảng α an toàn trên, tiến hành chọn ra một tập α* thỏa điều kiện: khi giá trị α thay
đổi trong tập này, các tiêu chuẩn GC và BZ đều cho cùng một kết quả về số phân nhóm
k. Độ thay đổi của α có thể chọn bằng 0.2 (Vd: α = 1.1Ỉ1.3Ỉ1.5…)
Vậy: α ∈ [α*min , α*max ]
Tiến hành phân tập dữ liệu thành k nhóm ứng với 02 giá trị: α*min và α*max và xây dựng
đồ thị đại diện của các nhóm bằng thuật tốn FKM. Đồ thị đại diện của các nhóm chính

là giá trị tâm Z của nhóm.
Đồ thị đại diện của tồn tập dữ liệu được xây dựng dựa trên đồ thị đại diện của các nhóm:
‐ Ứng với giá trị α*min , nếu một nhóm có số lượng các đồ thị chiếm tỷ lệ áp đảo so với
các nhóm cịn lại sẽ được xem nhóm đại diện cho tồn tập dữ liệu và tâm của nhóm này
cũng chính là đồ thị điển hình của toàn tập dữ liệu. Ở đây tỷ lệ áp đảo được hiểu là tỷ lệ
mà hiệu giữa tỷ lệ này với tổng tỷ lệ của các nhóm cịn lại phải lớn hơn tổng tỷ lệ của các
nhóm cịn lại. Cụ thể:
Tỷ lệ của nhóm thứ i: µi=ni/n; ni-số phần tử rơi vào nhóm thứ i / tổng số phần tử tồn tập
dữ liệu.
Một nhóm được coi là áp đảo khi có µi >=0.67 và sẽ được xem là nhóm nhóm đại diện
và tâm của nhóm đại diện chính là đồ thị đại diện của toàn tập dữ liệu cần xây dựng.
‐ Nếu khơng tồn tại nhóm chiếm tỷ lệ áp đảo ứng với giá trị α*min, phương án đề xuất:
ứng với giá trị α*max , đồ thị đại diện của toàn tập dữ liệu được chọn là đồ thị trung gian
11


có xét đến sự ảnh hưởng của tất cả các nhóm ( theo lý thuyết về kỳ vọng tốn ) và đồ thị
Zdh này sẽ đại diện cho toàn tập dữ liệu. Cụ thể:
k

Z dh = ∑ µi Z i

(9)

i =1

Zi: tâm nhóm nhóm thứ i ứng với α*max.
Khi đồ thị đại diện được tính theo cách trên nhận thấy αỈ1và αỈ∞: ZdhỈXtb (đồ thị
trung bình của tồn tập dữ liệu), vì rằng:
* Khi αỈ1, Zi Ỉ Ztbi (đồ thị trung bình của nhóm thứ i)


Z dh =

n
n1
n
Z tb1 + 2 Z tb 2 + ... + k Z tbk = X tb
n
n
n
ni

∑X

do: Z tbi =

i =1

ni

k



∑n
i =1

i

i


=n

* Khi αỈ∞, Zi Ỉ Xtb (đồ thị trung bình của tập dữ liệu)

Z dh =

n
n1
n
X tb + 2 X tb + ... + k X tb = X tb
n
n
n

Đề tài đề xuất phương án xây dựng đồ thị đại diện như trên vì:
‐ Khi α* tăng dần, các giá trị hàm liên thuộc mờ wij dần tiến tới giá trị 1/k đồng nghĩa
với tỷ lệ của nhóm áp đảo sẽ giảm dần, còn khi α* nhỏ nhất cho tỷ lệ lớn nhất. Ứng với
giá trị α* nhỏ nhất, tỷ lệ xuất hiện nhóm áp đảo là cao nhất, lúc này tâm của nhóm áp đảo
sẽ được chọn làm đồ thị điển hình cho tồn tập dữ liệu.
‐ Tương tự, khi khơng xuất hiện nhóm áp đảo (số lượng khơng đủ 66.67%), chọn α*
lớn nhất sẽ đạt được tỷ lệ của các nhóm gần nhau nhất (chẳng hạn 0.6 0.4 hoặc 0.3 0.3
0.4...). Như vậy sự ảnh hưởng của các nhóm lên Zdd là như nhau, khơng có nhóm nào thật
sự vượt trội hơn nhóm nào.

12


Phương pháp luận (Trình tự của bài tốn):
Cách thức tiến hành cụ thể theo sơ đồ sau:


THU THẬP VÀ
XỬ LÝ DỮ LIỆU

ĐỒ THỊ
Đại diện

KIỂM TRA
PHÂN BỐ
CÁC TIÊU CHUẨN PHÂN
NHÓM:
PC, PE, MPC, XB, PBMF,
W

KHẢO SÁT THEO GC VÀ BZ

XÁC ĐỊNH TẬP CHỈ SỐ
MỜ ALPHA

PHÂN NHÓM
FKM

TỒN TẠI NHÓM
CÓ TỶ LỆ ÁP ĐẢO
( > 67%)
ĐỒ THỊ ĐẠI DIỆN = TÂM
CỦA NHĨM ÁP ĐẢO

KHƠNG TỒN TẠI NHÓM
CÓ TỶ LỆ ÁP ĐẢO

ĐỒ THỊ ĐẠI DIỆN =
(TÂM CỦA CÁC
NHÓM)*(CÁC TỶ LỆ)

Áp dụng của giải thuật này để tìm: đồ thị đại diện ngày trong năm, ngày làm việc và
ngày lễ, ngày của các thứ trong tuần, tháng...
2.3.2. Phương pháp nghiên cứu:
Áp dụng FKM để phân nhóm một số tập mẫu
Để khẳng định tính chính xác của giải thuật đề nghị, đề tài đã khảo sát trên các tập mẫu
nổi tiếng IRIS, WBCD và 2 tập mẫu được tạo ra. Kết quả cho thấy giải thuật đề nghị có
kết quả phù hợp:
• Tập WBCD (Wisconsin breast cancer diagnosis): là tập tập dữ liệu về xét nghiệm
ung thư vú của bệnh viện thuộc trường đại học Wisconsin. Dữ liệu có 10 thuộc tính và
gồm 683 xét nghiệm (hay vectơ). Tập phân làm hai nhóm. Có 65.5% là mẫu lành tính,
34.5% là ác tính.
13


Tập IRIS: là tập dữ liệu về ba loại hoa Iris: Iris Setosa, Iris Versicolour, Iris Virginica do
R.A. Fisher thu thập. Đây là tập dữ liệu thực và nổi tiếng nhất, được dùng ở hầu hết các
nghiên cứu về phân loại. Dữ liệu có 150 mẫu hoa, mỗi loại hoa có 50 mẫu. Mỗi mẫu có 4
thuộc tính đó là: chiều dài lá đài, chiều rộng lá đài, chiều dài cánh hoa, và chiều rộng
cánh hoa. Về mặt vật lý thì dữ liệu phân làm ba nhóm. Nhưng về mặt con số, thì có thể
xem là ba nhóm hoặc hai nhóm cũng đúng. Bởi hai trong ba nhóm dữ liều nằm rất sát
nhau, và xen kẽ vào nhau nên hai nhóm đó có thể xem là một nhóm hoặc hai nhóm
Mauthu 7_3: là một tập chia làm 7 phân nhóm rõ ràng. Mỗi nhóm gồm 100 phần tử, mỗi
phần tử gồm 3 thuộc tính, có hình dáng gần giống nhau Đây là một mẫu thử dễ, chỉ
để kiểm chứng lại các chỉ số độ chính xác.

Hình 2-2: Mẫu kiểm chứng 7-3


Mauthu 3_2: là tập dữ liệu gồm 150 phần tử, mỗi phần tử có 2 thuộc tính đó là toạ độ x
và toạ độ y. Nhìn vào hình dưới đây dễ dàng nhận ra tập chia làm ba nhóm rõ ràng. Tuy
nhiên để tăng thêm độ khó cho việc phân nhóm thì có 13 điểm nhiễu (noise) được tạo ra,
nằm ở vùng giữa các nhóm. Phải xét thêm khả năng chống nhiễu của các tiêu chuẩn vì dữ
liệu phụ tải của ta đưa vào chắc chắn sẽ có rất nhiều phần tử nhiễu.

Hình 2-3-Mẫu kiểm chứng 3-2
• Sau khi tính tốn các tiêu chuẩn phân nhóm, để xác định số nhóm, đề tài đề xuất 2
cách tiếp cận giải quyết việc dung hòa các tiêu chuẩn này (coi như một bài toán đa mục
14


tiêu-mỗi mục tiêu là 1 tiêu chuẩn xác định số nhóm). So sánh kết quả của 2 cách tiếp cận:
Belman-Zadhed và tiêu chuẩn toàn cục. Kết quả của 2 cách tiếp cận là như nhau. Tiến
hành khảo sát cho 15 giá trị  khác nhau (từ 1.1 tới 2.5) cho được kết quả sau:
Bảng 1- Kết quả chạy thử trên các tập mẫuAlpha = 1.1
Mẫu thử

k

PC

PE

MPC

XB

PBMF


W

GC

BZ

WBCD

2

2

2

2

2

2

3

2

2

IRIS

3 (2)


2

2

9

2

3

7

2

2

3_7

7

7

7

7

7

7


8

7

7

3_2

3

2

2

3

2

3

3

3

3

Alpha = 1.5
Mẫu thử


k

PC

PE

MPC

XB

PBMF

W

GC

BZ

WBCD

2

2

2

2

2


2

2

2

2

IRIS

3 (2)

2

2

2

2

3

5

2

2

3_7


7

7

7

7

7

7

7

7

7

3_2

3

3

3

4

2


3

3

3

3

Alpha = 2
Mẫu thử

k

PC

PE

MPC

XB

PBMF

W

GC

BZ

WBCD


2

2

2

2

2

4

2

2

2

IRIS

3 (2)

2

2

2

2


7

3

2

2

3_7

7

7

2

7

7

7

7

7

7

3_2


3

3

2

3

2

3

3

3

3

Alpha = 2.5
Mẫu thử

k

PC

PE

MPC


XB

PBMF

W

GC

BZ

WBCD

2

2

2

2

2

10

2

2

2


IRIS

3 (2)

2

2

2

2

10

3

2

2

3_7

7

2

2

7


7

10

7

6

5

3_2

3

2

2

3

2

9

3

3

3


Tóm tắt số lần cho kết quả chính xác của các tiêu chuẩn (nếu chấp nhận số nhóm của tập
IRIS là 2 hoặc 3 đều chính xác):

15


×