Tải bản đầy đủ (.pdf) (77 trang)

Xây dựng nội dung cho bản đồ chuyên đề kinh tế xã hội dựa trên các thuật toán phân tích nhân tố và tự động hóa phân loại tổng hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1 MB, 77 trang )

Đại Học Quốc Gia Tp. Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-------------------

PHAN NGỌC TRƯỜNG

XÂY DỰNG NỘI DUNG CHO BẢN ĐỒ
CHUYÊN ĐỀ KINH TẾ XÃ HỘI DỰA TRÊN
CÁC THUẬT TOÁN PHÂN TÍCH NHÂN TỐ
VÀ TỰ ĐỘNG HỐ PHÂN LOẠI TỔNG HỢP

Chun ngành: Kỹ thuật trắc địa
Mã ngành: 60 52 85

LUẬN VĂN THẠC SĨ

Tp.Hồ Chí Minh, tháng năm 2007


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học: Tiến sĩ Nguyễn Thơ Các

Cán bộ chấm nhận xét 1:
………………………………………………………………………………………
……………………

Cán bộ chấm nhận xét 2:
………………………………………………………………………………………
……………………



Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC
SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 03 tháng 01 năm 2008.

ii


TRƯỜNG ĐẠI HỌC BÁCH KHOA
PHÒNG ĐÀO TẠO SĐH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
Tp. HCM, ngày . . . . tháng . . . . năm 2007

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: PHAN NGỌC TRƯỜNG...................... Phái: NAM
Ngày, tháng, năm sinh: 07-12-1977 ................................. Nơi sinh: TIỀN GIANG
Chuyên ngành: KỸ THUẬT TRẮC ĐỊA......................... MSHV: 02205532
I- TÊN ĐỀ TÀI: XÂY DỰNG NỘI DUNG CHO BẢN ĐỒ CHUYÊN ĐỀ KINH
TẾ XÃ HỘI DỰA TRÊN CÁC THUẬT TỐN PHÂN TÍCH NHÂN TỐ VÀ TỰ
ĐỘNG HOÁ PHÂN LOẠI TỔNG HỢP
II- NHIỆM VỤ VÀ NỘI DUNG:
.................................................................................................................................
.................................................................................................................................
.................................................................................................................................
.................................................................................................................................
III- NGÀY GIAO NHIỆM VỤ (Ngày bắt đầu thực hiện LV ghi trong Quyết định
giao đề tài): 05/02/2007
4- NGÀY HOÀN THÀNH NHIỆM VỤ: 05/07/2007
V- CÁN BỘ HƯỚNG DẪN : Tiến sĩ Nguyễn Thơ Các

CÁN BỘ HƯỚNG DẪN

CN BỘ MÔN
QL CHUYÊN NGÀNH

(Học hàm, học vị, họ tên và chữ ký)

Nội dung và đề cương luận văn thạc sĩ đã được Hội đồng chun ngành thơng qua.
Ngày
tháng
năm 2007
TRƯỞNG KHOA QL NGÀNH

TRƯỞNG PHỊNG ĐT – SĐH

iii


HVTH: Phan Ngọc Trường
1
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

LỜI CÁM ƠN
Xin chân thành cảm ơn :
- TS. Nguyễn Thơ Các về những hướng dẫn, động viên chân thành ngay từ
những buổi đầu thực hiện đề tài cũng như những góp ý trong q trình hồn thiện
nội dung luận văn.
- TS. Lê Văn Trung - Trưởng Bộ môn Địa tin học đã động viên và tạo điều
kiện tốt trong quá trình học tập.

- Các Quý Thầy, Cô Bộ môn Địa Tin học đã tận tình truyền đạt kiến thức
chun mơn trong suốt q trình học tập.
- Các anh chị đồng nghiệp Trung tâm Đo đạc Bản đồ – Sở Tài nguyên và
Môi trường thành phố Hồ Chí Minh đã tạo điều kiện thuận lợi giúp tơi hồn thành
luận văn cao học này.

Phan Ngọc Trường

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
2
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

TÓM TẮT
Yêu cầu của đời sống đặt ra trong quá trình thành lập bản đồ chuyên đề, đặt
biệt là các chuyên đề về kinh tế xã hội thường xuyên biến động và có mối quan hệ
hữu cơ với nhau là xử lý số liệu thống kê, số liệu điều tra, đo đạc một cách khoa học
và nhanh chóng. Nhưng việc nghiên cứu áp dụng mơ hình tốn – bản đồ, xử lý
thơng tin tạo ra các bản đồ có tính tổng hợp cịn nhiều hạn chế mặc dù phương pháp
phân tích nhân tố đã xuất hiện và được áp dụng xử lý thông tin ở nhiều lĩnh vực
khác nhau từ cuối thế kỷ 19. Đề tài đã áp dụng thuật tốn phân tích nhân tố và tự
động hoá phân loại tổng hợp vào việc xây dựng nội dung và mơ hình hố nội dung
chun đề cho các bản đồ kinh tế xã hội. Kết quả thực nghiệm cho thấy đã loại bỏ
tính chủ quan của con người trong quá trình đánh giá đối tượng và rút ngắn thời
gian so với phương pháp xử lý thông tin truyền thống. Điều này thể hiện rõ trong
việc phân tích bản đồ kết quả. Đề xuất hướng nghiên cứu tiếp theo đối với các

trường hợp ma trận tương quan cặp giữa các tiêu thức đưa vào đánh giá là phi tuyến
tính.

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hoá phân loại tổng hợp”


HVTH: Phan Ngọc Trường
3
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

ABSTRACT
Scientific and prompt statistical data processing, investigative data
processing, survey processing is requirements of the thematic mapping such as
social economical theme which is fluctuant and reciprocal effect. Although factor
analysis was appeared and applied in order to process data in various field in end of
19th century, the research and application of mathematic – cartographical model,
information processing to get synthetic map is still restricted. This thesis applied
factor analysis and automatic synthetic classification in building content and
modelling content of theme for social economic maps. Experimental results prove
rejection of human’s subjectiveness during evaluating object. This remedy takes
less time than traditional information processing, this thing is represented in
analysis of final map clearly. Proposal direction for following research is nonlinear
correlative matrixs.

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật toán phân tích nhân tố và tự động hố phân loại tổng hợp”



HVTH: Phan Ngọc Trường
4
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

MỤC LỤC
LỜI CÁM ƠN................................................................................................. 1
TÓM TẮT ....................................................................................................... 2
MỤC LỤC ...................................................................................................... 4
DANH SÁCH BẢNG BIỂU ............................................................................ 6
CHƯƠNG 1: MỞ ĐẦU .................................................................................. 7
1.1. Lý do chọn đề tài................................................................................. 7
1.2. Mục tiêu đề tài..................................................................................... 8
1.3. Giới hạn của đề tài.............................................................................. 8
1.4. Ý nghĩa khoa học và thực tiễn của đề tài............................................ 9
CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU................................................. 10
2.1. Tình hình nghiên cứu ngồi nước..................................................... 10
2.2. Tình hình nghiên cứu trong nước ..................................................... 10
CHƯƠNG 3: CƠ SỞ KHOA HỌC .............................................................. 12
3.1 Bản đồ chuyên đề: ............................................................................. 12
3.1.1 Đặc điểm ..................................................................................... 12
3.1.2 Bản đồ chuyên đề kinh tế xã hội ................................................. 12
3.2 Phân tích nhân tố ............................................................................... 13
3.3 Phân loại tổng hợp............................................................................. 15
3.3.1. Thuật toán phân hạng ................................................................ 17
3.3.2. Thuật tốn phân kiểu.................................................................. 19
CHƯƠNG 4: QUY TRÌNH ........................................................................... 21
XÂY DỰNG BẢN ĐỒ PHÂN LOẠI TỔNG HỢP......................................... 21
4.1. Chuẩn hóa dữ liệu............................................................................. 22
4.1.1. Chuẩn hóa theo cấu trúc ngang ................................................ 22

4.1.2. Chuẩn hóa theo phương sai....................................................... 23
4.1.3. Chuẩn hóa theo ngưỡng đánh giá ............................................. 23
4.2. Phân tích tương quan ....................................................................... 24
4.3 Các kỹ thuật phân tích nhân tố .......................................................... 26
4.3.1. Phân tích thành phần (Component Analysis)............................. 26
4.3.2. Phân tích nhân tố chính (Principal Factor Analysis)................... 27
4.3.3. Phân tích hợp lý cực đại (Maximum Likelihood Analysis).......... 27
4.3.4. Phép quay Varmax (Varmax rotation) ........................................ 27
4.4 Phân hạng tổng hợp và phân kiểu tổng hợp...................................... 28
CHƯƠNG 5: THỰC NGHIỆM ..................................................................... 29
5.1. Bài toán 1: Phân hạng...................................................................... 29
5.1.1. Mục tiêu ...................................................................................... 29
5.1.2. Số liệu......................................................................................... 29
5.1.3. Kết quả: ...................................................................................... 30
5.2. Bài toán 2: Phân hạng...................................................................... 39
5.2.1. Mục tiêu ...................................................................................... 39
5.2.2. Số liệu......................................................................................... 39
5.2.3. Kết quả ....................................................................................... 40

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
5
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

5.3. Bài toán 3: Phân kiểu ....................................................................... 44
5.3.1. Mục tiêu ...................................................................................... 44

5.3.1. Số liệu......................................................................................... 44
5.3.2. Kết quả ....................................................................................... 44
CHƯƠNG 6: NHẬN XÉT KẾT QUẢ ........................................................... 45
CHƯƠNG 7: KẾT LUẬN............................................................................. 48
DANH MỤC TÀI LIỆU THAM KHẢO .......................................................... 49
CƠNG TRÌNH CƠNG BỐ CỦA TÁC GIẢ ................................................... 51
PHỤ LỤC ..................................................................................................... 52
LÝ LỊCH TRÍCH NGANG: ........................................................................... 72

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật toán phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
6
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

DANH SÁCH BẢNG BIỂU
Bảng 5.1: Tiêu chí đánh giá mức độ phát triển Giáo dục
Bảng 5.2: Ma trận tương quan : 18 tiêu chí Giáo dục
Bảng 5.3: Ma trận các tải trọng thành phần : 18 tiêu chí Giáo dục
Bảng 5.4: Kết quả phân loại: Mức độ phát triển Giáo dục
Bảng 5.5: Các phương án phân hạng: Mức độ phát triển Giáo dục
Bảng 5.6: Các phương án phân hạng: Mức độ phát triển Giáo dục 2

DANH SÁCH HÌNH ẢNH
Hình 5.1 : Mơ hình hố nội dung chuyên đề Mức độ phát triển Giáo dục
Hình 5.2 : Mơ hình hố nội dung chun đề:Trình độ học vấn dân cư
Hình 5.3 : Mơ hình hố nội dung chun đề:Trình độ học vấn dân cư (có

biểu đồ)
Hình 6.1: So sánh kết quả 2 bài tốn
Hình 6.2: Mơ hình hố nội dung chun đề bản đồ Dân tộc
DANH SÁCH SƠ ĐỒ
Sơ đồ 4.1: Quy trình xây dựng bản đồ phân loại tổng hợp
DANH SÁCH PHỤ LỤC
Phụ lục 1: Số liệu, kết quả trung gian cho bài toán 1
Phụ lục 2: Số liệu, kết quả trung gian cho bài toán 2
Phụ lục 3: Kết quả trung gian cho bài toán 3

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
7
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

CHƯƠNG 1: MỞ ĐẦU
1.1. Lý do chọn đề tài
Bản đồ học là một ngành khoa học độc lập, có đối tượng nghiên cứu riêng, có
nền cơng nghiệp sản xuất và sản phẩm riêng. Có rất nhiều định nghĩa về bản đồ học,
tuy nhiên những nội dung cơ bản của các định nghĩa tương đối gần nhau. Định
nghĩa được Hội Bản đồ quốc tế thông qua năm 1973 ghi nhận rằng: “Bản đồ học là
khoa học về các bản đồ như một phương pháp đặt biệt để phản ánh hiện thực, về
việc thành lập và sử dụng chúng”.
Để đáp ứng nhu cầu thực tiễn, cần phải có bản đồ theo kiểu phân tích nhằm
phản ánh từng khía cạnh chi tiết của hiện tượng và đối tượng trong thế giới khách
quan (nhưng không phản ánh mối tương quan giữa các tính chất của đối tượng đó).

Mặt khác đồng thời cũng cần có nhiều loại bản đồ mang tính tổng hợp nhằm nhận
thức đối tượng trong tính tồn vẹn của nó thơng qua việc cơ đúc các thông tin riêng
lẻ thành các loại tin ở nhiều mức độ tổng hợp khác nhau từ thấp đến cao.
Quá trình điều tra, thu thập thông tin để thành lập bản đồ chuyên đề tạo ra một
khối lượng thông tin lớn. Cụ thể trong lĩnh vực kinh tế xã hội, các hiện tượng có
tính biến động thường xun và mối quan hệ giữa chúng thường phức tạp và đa
chiều. Việc bản đồ hóa các thơng tin này khơng phức tạp trong thời buổi công nghệ
thông tin phát triển như hiện nay. Tuy nhiên, tình thế sẽ phức tạp hơn ở bước xử lý
các loại tin phân tích với khối lượng lớn và nhiều chiều để tạo ra các loại thông tin
mới có chất lượng cao ở những mức độ tổng hợp khác nhau, tạo ra các bản đồ đánh
giá và phân loại tổng hợp, đáp ứng nhanh nhu cầu của đời sống.
Để giải quyết nhu cầu tổng hợp nêu trên, hiện nay có rất nhiều cách mơ hình
hố khác nhau. Phương pháp phân tích nhân tố là một trong những phương pháp đó.
Với các vấn đề trên tác giả đề tài nhận thấy cần nghiên cứu, áp dụng phương
pháp phân tích nhân tố (factor analysis) để xử lý các thông tin chủ yếu, loại bỏ các

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hoá phân loại tổng hợp”


HVTH: Phan Ngọc Trường
8
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

thông tin thứ yếu và kết hợp các thuật tốn tự động hóa phân loại tổng hợp tạo ra
các bản đồ tổng hợp (synthetic) một cách tự động, hiệu quả và nhanh chóng.
1.2. Mục tiêu đề tài
Trên cơ sở tham khảo các hướng nghiên cứu cũng như nhu cầu thực tế và
khả năng thực hiện, mục tiêu đề tài cần đạt được bao gồm những vấn đề sau:

Tìm hiểu lý thuyết và phương pháp luận của phép phân tích nhân tố và tự
động hóa phân loại tổng hợp.
Thực hiện các bước công nghệ và thủ tục xử lý tin cho những bài toán đánh
giá tổng hợp và phân loại, hỗ trợ quan trọng cho việc mơ hình hố nội dung
chun đề.
Thực hiện các thí dụ cụ thể:
a. Cho bản đồ phân hạng: Đánh giá phân hạng trình độ phát triển của hiện
tượng:
-

Trình độ phát triển về sự nghiệp giáo dục.

-

Trình độ học vấn của dân cư.

b. Cho bản đồ phân kiểu: Phân kiểu các phường xã theo cấu trúc các dân tộc.
1.3. Giới hạn của đề tài
Trong điều kiện các nguồn dữ liệu hiện có, nhu cầu nghiên cứu ứng dụng thực
tiễn, cũng như thời gian thực hiện, nội dung đề tài luận văn cao học được giới hạn
như sau:
Phép phân tích nhân tố có hơn 10 thuật tốn phức tạp khác nhau. Bước đầu
chỉ mới tiếp cận được phép phân tích thành phần (component analysis)
Bài toán tự động hoá phân loại (phân hạng và phân kiểu) cũng có rất nhiều
thuật tốn cụ thể khác nhau. Chỉ thực hiện thuật toán phân loại tuyệt đối và
tương đối của Tiến sĩ Tikunov (theo “Mơ hình hoá nội dung chuyên đề của
bản đồ”)
Kỹ thuật biên tập và phương pháp trình bày bản đồ chun đề khơng thuộc
phạm vi nghiên cứu của đề tài.
Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa

trên các thuật tốn phân tích nhân tố và tự động hoá phân loại tổng hợp”


HVTH: Phan Ngọc Trường
9
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

Số liệu:
-

Số liệu trong “niên giám thống kê năm 2005” của Tổng cục Thống kê.

-

Số liệu điều tra dân số ngày 01/4/1999
1.4. Ý nghĩa khoa học và thực tiễn của đề tài
Xử lý thông tin thống kê thành lập bản đồ chuyên đề kinh tế xã hội thường

được thực hiện theo phương pháp chuyên gia, ít nhiều có mang tính chủ quan của
con người, không phản ánh hết sự thay đổi và sự tương quan của các đối tượng.
Trong khi đó các hiện tượng, đối tượng kinh tế xã hội luôn biến động theo không
gian và thời gian cùng với sự phát triển mạnh mẽ về kinh tế.
Đề tài áp dụng thuật toán phân tích nhân tố cùng với tri thức chuyên gia để
xử lý thông tin kinh tế xã hội với khối lượng lớn một cách nhanh chóng và loại bỏ
tính chủ quan của con người nhằm cung cấp cho người sử dụng bản đồ những ý
niệm đúng đắn về bản chất và mối tương quan giữa các hiện tượng, đối tượng.
Quy trình đề nghị trong đề tài nhằm chuẩn bị phương pháp luận cho việc xây
dựng các bản đồ chuyên đề kinh tế xã hội trong chương trình Atlas tổng hợp thành
phố Hồ Chí Minh đang được triển khai.


Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hoá phân loại tổng hợp”


HVTH: Phan Ngọc Trường
10
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

CHƯƠNG 2: TỔNG QUAN NGHIÊN CỨU
2.1. Tình hình nghiên cứu ngồi nước
Các phương pháp phân tích nhân tố được xuất phát ở Châu Âu từ cuối thế kỷ
19, đến năm 1944 Harry Harman (Mỹ) hệ thống lại. Phương pháp này chuyển các
nhân tố đa chiều thành các cấu trúc đơn giản, được ứng dụng trong rất nhiều lĩnh
vực, điển hình như:
- Năm 1954 Goodall áp dụng trong việc phân loại cây trồng (Australian
Journal of Botany 2: 304-324)
- Năm 1960 Berry áp dụng vào việc xử lý thông tin, nghiên cứu tâm lý con
người.
- Năm 1964, Kelley nghiên cứu khả năng trí nhớ của con người dựa trên
phương pháp phân tích nhân tố.
- Cuối những năm 1960, Nga ứng dụng vào việc thành lập bản đồ đánh giá
điều kiện tự nhiên ảnh hưởng đến sức khỏe con người và nhiều bài toán đánh giá
tổng hợp khác trong nghiên cứu địa lý và quy hoạch lãnh thổ.
- Năm 1982 Muniz, Osvaldo.. (Tây Ban Nha) áp dụng trong địa lý học.
- Năm 1995, Hunsacker và cộng sự đã nghiên cứu, áp dụng phương pháp
phân tích nhân tố trong việc lập mơ hình cảnh quan. (Landscape Ecol 10:23–39)
Nhìn chung phương pháp phân tích nhân tố được áp dụng trong nhiều lĩnh
vực tự nhiên, kinh tế, xã hội. Riêng việc áp dụng phương pháp này trong việc xử lý

thông tin thành lập bản đồ chuyên đề, Atlas còn khiêm tốn: Norton Ginsburg vận
dụng để thành lập Atlas về sự phát triển kinh tế.
2.2. Tình hình nghiên cứu trong nước
Ở Việt Nam, các phương pháp phân tích nhân tố hiện đại được nghiên cứu áp
dụng trong kinh doanh, giáo dục, y tế, nơng nghiệp, bản đồ:
- Mơ hình nghiên cứu những nhân tố ảnh hưởng đến ý định và quyết định sử
dụng thẻ ATM tại Việt Nam

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hoá phân loại tổng hợp”


HVTH: Phan Ngọc Trường
11
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

- Trong maketing, nghiên cứu sản phẩm: phân tích nhân tố để xác định phẩm
chất của nhãn hiệu có ảnh hưởng đến sự lựa chọn của khách hàng; phân tích bằng
phương pháp phân tích nhân tố để tìm ra những giá trị “văn hóa chất lượng” hiện tại
và tương lai có ý nghĩa nhất đối với doanh nghiệp;
- Nghiên cứu thành lập bản đồ đánh giá mức độ đảm bảo phúc lợi y tế ở Hà
Nội (trong Atlas thành phố Hà Nội những năm 1980),…
- Đại học Nông nghiệp I Hà Nội áp dụng phương pháp phân tích nhân tố đưa
ra các giải pháp chuyển đổi cây trồng.
- Đại học khoa học tự nhiên: Đánh giá độ ảnh hưởng của khí tượng để phát
triển cây bông ở Tây Nguyên.
Hiện nay, việc áp dụng các phương pháp phân tích nhân tố vào cơng tác
thành lập bản đồ chuyên đề, Atlas ở Việt Nam còn rất mới mẽ, chưa được nghiên
cứu rộng rãi và áp dụng.


Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật toán phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
12
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

CHƯƠNG 3: CƠ SỞ KHOA HỌC
3.1 Bản đồ chuyên đề:
3.1.1 Đặc điểm
Theo Hội bản đồ thế giới (ICA): Bản đồ chuyên đề là bản đồ được thiết kế để
luận chứng tường tận những nét đặt biệt hoặc những khái niệm. Theo tập quán sử
dụng thì thuật ngữ này loại trừ các bản đồ địa hình.
Bản đồ chuyên đề được dùng để phản ánh một hiện tượng hay nhóm hiện
tượng nào đó đặc trưng về địa lý tự nhiên hay xã hội. Trong nội dung của bản đồ
chuyên đề bao giờ cũng có yếu tố cảnh quan địa lý nhưng được thể hiện ở mức độ
khác nhau đối với các loại bản đồ chuyên đề khác nhau.
Theo các nhà bản đồ Mỹ (trong Element of Cartography, 1995) thì ngồi tiêu
chí tập trung thể hiện sâu một số khía cạnh hay hợp phần, các mơi trường địa lý,
bản đồ chuyên đề đặt trọng tâm vào sự phân bố (distribution) của hiện tượng chứ
khơng vào vị trí phân bố cụ thể.
Sự phát triển của khoa học công nghệ và của các ngành chuyên môn làm cho
lĩnh vực ứng dụng của bản đồ chuyên đề ngày càng mở rộng, các bản đồ chuyên đề
ngày càng đa dạng và phong phú hơn.
3.1.2 Bản đồ chuyên đề kinh tế xã hội
- Kinh tế - xã hội là một lĩnh vực rất rộng lớn, là đối tượng và nội dung
nghiên cứu của nhiều ngành khoa học.

- Các bản đồ kinh tế - xã hội có nhiệm vụ biểu hiện sự phân bố, những đặc
điểm sản xuất, đời sống, sự phát triển và hoạt động của từng lĩnh vực kinh tế - xã
hội và đời sống xã hội của lãnh thổ.
- Việc thành lập các bản đồ chuyên đề kinh tế - xã hội địi hỏi phải xử lý một
lượng thơng tin rất lớn thuộc nhiều lĩnh vực, tổng hợp nhiều chỉ tiêu, chỉ số khác
nhau theo không gian và thời gian khác nhau. Vì thế các bản đồ này thường được
được thành lập trên cơ sở kết hợp giữa thống kê học, địa lý kinh tế và bản đồ học.

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật toán phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
13
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

Thống kê là phương pháp tìm hiểu thực tế quan trọng nhất, là cơng cụ mạnh
của sự nghiên cứu các đối tượng, hiện tượng kinh tế - xã hội. Các số liệu thống kê
không chỉ đơn thuần là lượng mà có mối quan hệ mật thiết với chất của đối tượng
kinh tế - xã hội. Thơng qua sự phân tích và từ những mối liên hệ của các số liệu
thống kê, có thể biết được bản chất, đặc điểm và quy luật của các đối tượng kinh tế xã hội.
Các bản đồ chuyên đề kinh tế xã hội thông thường chỉ mới dừng lại ở việc trả
lời câu hỏi “ở đâu? có gì? bao nhiêu?“, cần phải trả lời câu hỏi “tại sao?“ và tìm ra
những nhân tố tác động gây ra hiện tượng ấy. Một khi đã biết “tại sao“ thì có thể dự
báo đối tượng, hiện tượng phát triển như thế nào trong tương lai.
3.2 Phân tích nhân tố
Các kỹ thuật phân tích nhân tố thường được vận dụng để xử lý các kết quả
điều tra cơ bản vì chúng có những ưu điểm:
- Cô đúc những khối lượng thông tin lớn về một mức cần và đủ để mô tả đặc

trưng của các đối tượng đang được nghiên cứu. Số tiêu thức của đối tượng đưa vào
đánh giá được lựa chọn theo mục tiêu bài tốn đặt ra. Sau vịng xử lý đầu tiên, nhờ
khả năng cô đúc thông tin này mà ta có thể loại bớt những tiêu thức có mức ý nghĩa
thấp.
- Chuyển các vector mơ tả vị trí các đối tượng trong khơng gian các thuộc
tính m chiều thành tổ hợp tuyến tính nhưng lại nằm trong khơng gian đã được trực
giao hóa, tạo cơ sở cho phép phân loại dựa vào việc tính khoảng cách giữa vị trí các
đối tượng.
Lý thuyết phân tích nhân tố đã đưa ra kết luận quan trọng: giả thuyết rằng
giữa các nhân tố chung độc lập nhau, khơng tính đến các nhân tố riêng và sai số, ta
có thể viết được biểu thức :
r jk = α j1α k 1 + α j 2α k 2 + α j 3α k 3 + ... + α jmα km (3.1)

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hoá phân loại tổng hợp”


HVTH: Phan Ngọc Trường
14
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

Trong đó: r jk là hệ số tương quan cặp giữa tiêu thức thứ j với tiêu thức thứ k;
α jα k là các tải trọng nhân tố chung, chúng tác động đến số đo ở
các tiêu thức thứ j và thứ k.
Như vậy, hệ số tương quan giữa hai đối tượng mang trong nó những thơng
tin về các nhân tố chung nào đó, có ảnh hưởng đến các trị đánh giá các đối tượng
trong tập mẫu. Đây chính là cơ sở để từ các hệ số tương quan cặp, thông qua các kỹ
thuật phân tích thích hợp, ta có thể ước lượng mức độ mà các nhân tố chung tác
động đến chỉ số đánh giá các đối tượng. Hơn nữa, bằng phép quay Varmax, ta cịn

có thể định loại và đặt tên cho các nhân tố chính.
Bằng các kỹ thuật phân tích nhân tố, ta không chỉ ước lượng được các tổng
điểm đánh giá mà cịn biết được mức đóng góp của từng hợp phần trong kết quả
chung (nếu là phân hạng), hoặc cơ cấu các thành phần tạo nên kiểu đối tượng (nếu
là phân kiểu). Điều này có ý nghĩa thực tiễn rất lớn, giúp người sử dụng các đối
tượng tài nguyên, dù là thiên nhiên hay xã hội, có thể tác động một cách có định
hướng, khai thác thế mạnh và hạn chế mặt yếu nhằm đạt hiệu quả cao nhất cho mục
tiêu đặt ra.
Trong tiến trình sử dụng các kỹ thuật nhân tố, ta thường gặp một khó khăn:
để ước lượng gần đúng nhất các tải trọng nhân tố chung cần phải biết chính xác các
trị số h 2j nằm trên đường chéo chính của ma trận tương quan rút gọn. Song muốn
tính chính xác các trị này, lại cần xác định đúng số lượng nhân tố chung. Vì rằng,
nếu loại trừ ảnh hưởng của các nhân tố riêng, nhân tố đặc thù và sai số, có thể viết
ra cơng thức tính các phần tử trên đường chéo chính của ma trận tương quan rút gọn
như sau :
h 2j = a 2jl + a 2j 2 + a 2j 3 + ... + a 2jm (3.2)

Có nhiều cách giải quyết vấn đề này đã được đề xuất nhưng chưa thật trọn vẹn.
Kafser Henry cho rằng về vai trò của các thành phần có mức đóng góp lớn hơn 1, và
tiến hành như sau: sử dụng ma trận tương quan toàn phần (có các phần tử trên
đường chéo là 1), trước hết tiến hành phép phân tích thành phần (Component

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật toán phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
15
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________


Analysis), tách ra m thành phần cùng các trị riêng của chúng. Sau đó giả thuyết
rằng số chiều của không gian các nhân tố chung bằng số lượng của thành phần
chính có trị riêng lớn hơn 1, dùng bộ phận phương sai do các thành phần ấy tách ra
được làm ước lượng cho các trị h 2j . Dựa vào kết quả phân tích thành phần, người sử
dụng có thể có căn cứ để chọn số lượng nhân tố chính.
Kết quả của phép phân tích nhân tố là trọng số

α

ứng với từng tiêu thức

trong mơ hình đánh giá tổng hợp:

φi = α1φ1i + α 2φ2i + α 3φ3i + ... + α mφmi

(3.3)

Trong đó:
- φi : là kết quả đánh giá tổng hợp ở đối tượng thứ i (i = 1,2,3,…,n)
- φ1i , φ 2i , φ3i ...φ mi là kết quả đánh giá về đối tượng thứ i ở từng tiêu thức.
- α 1 , α 2 , α 3 ...α m là các trọng số ứng với từng tiêu thức.
Mơ hình trên giải quyết vấn đề xác định kết quả đánh giá tổng hợp theo cách
tiếp cận hệ thống của địa lý học hiện đại dựa trên 2 thành phần:
Một là, các chỉ số đánh giá thành phần

φ1i

tự thân chúng chỉ là số đo cho


mỗi đối tượng ở từng tiêu thức, cần được xử lý theo cả hai chiều, trong toàn tập
gồm n đối tượng (theo chiều đứng) và trong tập m tiêu thức (theo chiều ngang);
Hai là, các hệ số

αj

là các vector gồm các trọng số, được xác định qua mối

liên hệ giữa các đối tượng trong toàn tập mẫu và tập các tiêu thức mà thông thường
người ta chỉ xác định bằng kinh nghiệm chủ quan.
3.3 Phân loại tổng hợp
Đánh giá tổng hợp là sự đánh giá được thực hiện đồng thời trên nhiều mặt,
nhiều thuộc tính của đối tượng (được thực hiện cùng một lúc). Kết quả của việc
đánh giá tổng hợp cho mỗi đối tượng không chỉ là danh sách liệt kê các mặt tốt xấu,
liệt kê số đo các giá trị cho từng thuộc tính riêng biệt, mà phải là chỉ số định lượng
duy nhất được tổng hợp theo những phương thức nào đó từ các tiêu thức riêng lẻ đã
Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hoá phân loại tổng hợp”


HVTH: Phan Ngọc Trường
16
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

được đưa vào bài toán đánh giá và một bảng phân loại (phân hạng hoặc phân kiểu)
toàn bộ các đối tượng trong tập. Tất nhiên, chỉ số đánh giá tổng hợp đó khơng thể là
kết quả của phép lấy tổng giản đơn từ các chỉ số đánh giá theo từng tiêu thức.
- Thực hiện bài toán phân kiểu nhằm sắp xếp các đối tượng đã được đánh giá
theo cách tổ hợp các thành phần của chúng. Các đối tượng có các kiểu cấu trúc

thành phần tương tự nhau sẽ được xếp chung vào một nhóm. Số lượng nhóm được
xác định bởi kết quả phân tích tổng thể các đối tượng trong tồn tập mẫu và yêu cầu
của nhiệm vụ đặt ra.
- Phân hạng ở đây được hiểu là sự sắp xếp các đối tượng theo cùng trình độ
phát triển, theo cùng mức độ thích hợp mục tiêu cụ thể đang đặt ra.
Cơng thức chính
Thực chất, mỗi dòng của ma trận các điểm đánh giá đã qua bước cân bằng lại
theo các tải trọng thành phần hay nhân tố chính là một vector xác định vị trí của một
đối tượng trong khơng gian các thuộc tính, có số chiều bằng số thành phần hay nhân
tố chính. Kỹ thuật tự động hóa phân loại thường dựa vào khái niệm “khoảng cách
phân loại” (Taxonomic Distance), được tính theo cơng thức:

m

d ik =

∑ (φ

,
ij

− φ kj,

)

2

(3.4)

j =l


Trong đó:
j = 1,2,3,...m; i = 1,2,3,..., n; và k = 1,2,3..., n
d ik - là khoảng cách giữa các đối tượng thứ i và thứ k;

φij, , φkj, - là điểm đánh giá ở tiêu thức thứ j của các đối tượng thứ i và thứ k.

Số đo khoảng cách d giữa các đối tượng thứ i và thứ k là “xa” hay “gần”, khi
xét trong mối tương quan với toàn tập các đối tượng, sẽ cho ta biết chúng thuộc
cùng một nhóm hay khác nhóm theo cấu trúc các hợp phần.
Trong thực tế điều tra cơ bản để lập bản đồ, khơng hiếm khi các cặp đối
tượng cùng khơng có biểu hiện thuộc tính ở một hay một số tiêu thức như nhau, tức
là cùng lấy giá trị 0 ở những cột như nhau trong ma trận dữ liệu, nhưng các đối

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
17
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

tượng này khác hẳn nhau về bản chất hay trình độ phát triển. Để hạn chế “độ gần”
giả tạo trong những tình huống ấy, tiến sĩ Tikunov hiệu chỉnh công thức (3.4) như
sau:
p

p


d ik =

∑ (φ

,
ij

− φ kj,

∑ (φ

)

2

+

,
ij

− φ kj,

j =l

2

* (m − P )

P


j =l

)

(3.5)

Trong đó : P là số lượng các tiêu thức mà ở các số đo không đồng thời cùng
lấy trị 0, tức là:
φij, ≠ 0 và φ kj, ≠ 0, hoặc là φij, = 0 nhưng φ kj, ≠ 0, hoặc ngược lại.

Trường hợp tối đa, khi P = m, tức là khi khơng có tiêu thức nào cùng lấy trị 0
đồng thời ở cả hai đối tượng, thì ta trở về cơng thức kinh điển. Tiến sĩ Tikunov cũng
đã đưa ra hai thuật toán cơ bản:
+ Thuật tốn phân loại so sánh, cịn gọi là phân hạng
+ Thuật tốn phân loại theo cấu trúc, cịn gọi là phân kiểu.
3.3.1. Thuật toán phân hạng
Ý tưởng của thuật toán “phân loại so sánh” khá đơn giản. Bằng cách sử dụng
ma trận các điểm đánh giá đã cân bằng qua trọng số ở giai đoạn trước và công thức
(3.5), ta có thể lập ra ma trận các khoảng cách phân loại, trong đó bao hàm khoảng
cách từ mỗi đối tượng đến tất cả các đối tượng khác trong tập:
0

D =

d12

d 13

d 21


0

d 23

d 31

d 32

0







d n1

d n2

d n3







d 1n
d 2n


d 3n

(3.6)


0

Tiếp theo, tìm trong ma trận D cặp đối tượng có khoảng cách gần nhất, gộp
chúng lại và tạo một vector trung bình của các tiêu thức giữa hai đối tượng để đại
diện cho chúng. Sau mỗi lần gộp, ma trận D co lại một dòng và một cột. Quá trình

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
18
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

gộp nhóm cứ thế tiếp tục cho đến khi đạt được số nhóm (cịn lại) cần thiết theo yêu
cầu của việc phân loại. Bài toán phân loại theo khoảng cách gần nhất cho kết quả
nhanh. Tiến sĩ Tikunov khuyến cáo rằng không nên khẳng định trước số lượng
nhóm cần phân, mà nên ước lượng một số nhóm tối đa t max và một số lượng nhóm
tối thiểu t mim . Trong tiến trình xử lý, khi số nhóm cịn lại bằng t max , cần tính ngay
các hệ số đồng nhất :

- Hệ số đồng nhất tuyệt đối
k




{i /

j =1


ξ

i∈ j

}

d ,ij

A k = --------------------n



(3.7)

d ,iξ 0

i =1

Trong đó :
k = t max , t max −1 , t min
ξ - là tập đoàn thể các đối tượng cần đưa vào phân hạng;
ξ 0 - là đối tượng qui ước mà vector mô tả nó gồm các trị trung


bình tồn tập.
- Hệ số đồng nhất tương đối :
k


j =1


{ ξ }

d ,ij

i / i∈ j

O k = ---------------------t max


i =1


{ ξ }

(3.8)

d ,ij

i / i∈ j

k = t max , t max −1 , t min

Nói cách khác, hệ số đống nhất tuyệt đối A k biểu diễn mối quan hệ giữa
tổng của các tổng khoảng cách các đối tượng trong từng nhóm với tổng khoảng
cách từ tất cả các đối tượng đến đối tượng trung bình qui ước của tồn tập. Hệ số

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật toán phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
19
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

đồng nhất tương đối chỉ khác ở chỗ không so với đối tượng trung bình mà so với
tổng khoảng cách giữa các đối tượng trong phương án t max . Nơi có sự tăng trưởng
đột biến của các trị A k và O k , khi giảm dần số lượng nhóm phân hạng là cơ sở để
xác định số hạng một cách tương đối khách quan. Các hệ số là cơ sở để tham khảo.
Đối với các bài toán phân hạng để lập bản đồ, tính hợp lý của một phương án phân
loại khơng chỉ biểu hiện ở khơng gian các thuộc tính mà cịn trong khơng gian lãnh
thổ mà các đối tượng phân bố.
3.3.2. Thuật toán phân kiểu
Thuật toán phân kiểu bắt đầu bằng việc xác định đối tượng mang trị trung
bình của bộ tiêu thức tồn tập như một “điểm khởi tính”. Đối tượng qui ước này
cũng được đưa vào ma trận các khoảng cách phân loại. Sau đó, tìm chuẩn (etalon)
phân loại đầu tiên: đó là đối tượng nằm cách “xa” nhất so với điểm khởi tính. Chuẩn
phân loại thứ hai sẽ là đối tượng nào có tổng khoảng cách đến điểm khởi tính và
chuẩn đầu tiên là lớn nhất. Các chuẩn phân loại tiếp theo cũng được xác định theo
trị lớn nhất của tổng khoảng cách đến điểm khởi tính và các chuẩn đã được tìm thấy
trước đó. Q trình cứ thế tiếp tục cho đến khi tìm đủ số lượng chuẩn cần thiết theo
“sự ấn định trước”. Mỗi chuẩn là một hạt nhân tạo ra nhóm phân kiểu. Các đối

tượng cịn lại, khơng phải là chuẩn, sẽ được phân phối vào các nhóm theo khoảng
cách gần nhất.
Thuật tốn này có ưu điểm là tách rất nhanh các chuẩn có cấu trúc đặc thù
nhất. Khi xem xét kết quả của nhiều bài toán tương tự, ta thấy rằng các chuẩn là
những đối tượng thường phân bố ngay tại hoặc rất gần một trong các trục nào đó
của khơng gian các thuộc tính, có điểm đánh giá cao nhất theo thuộc tính đó, cịn
trên các trục khác thường lấy các trị rất thấp. Điều phát hiện thấy ở đây là sau khi
tách được một số chuẩn nhất định nào đó (tuỳ từng bài tốn), dù có tính lặp vơ số
lần cũng khơng thể tìm thêm chuẩn mới có cấu trúc điểm khác với những chuẩn đã
tách.

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hoá phân loại tổng hợp”


HVTH: Phan Ngọc Trường
20
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

Do vậy, Tikunov đã bổ sung một thuật tốn tìm chuẩn tương đối. Tư tưởng
của thuật toán này là sau khi tách được các chuẩn phân kiểu tuyệt đối (như trên), lần
lượt lấy các đối tượng còn lại (chưa phải là chuẩn) thử làm chuẩn. Đối tượng nào
tạo ra giá trị tổng tất cả các tổng khoảng cách trong từng nhóm phân kiểu này đến
tất cả các nhóm phân kiểu khác có giá trị nhỏ nhất thì nó trở thành chuẩn tương đối
mới.
Tuy nhiên, thuật tốn này địi hỏi khối lượng tính tốn cực kỳ lớn, cần có
máy tính mạnh, xử lý thơng tin nhanh và thường chỉ thích hợp với các bài tốn phân
kiểu có số lượng đối tượng tham gia khơng lớn và số chiều khơng gian thuộc tính
cũng khơng q lớn.


Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật toán phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
21
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

CHƯƠNG 4: QUY TRÌNH
XÂY DỰNG BẢN ĐỒ PHÂN LOẠI TỔNG HỢP
Chuẩn hoá dữ liệu:
Ma trận
số liệu gốc

Bản đồ

o

Cấu trúc ngang

o

Phương sai

o

Ngưỡng đánh giá


Bảng số

Ma trận
số liệu
đã
chuẩn

Phân tích nhân tố chính

Phân
tích
thành

Phân tích hợp lí cực đại

phần

Ma trận
tương quan
tuyến tính

Phân
tích
tương
quan

hóa

Ma trận
các tải


chính

trọng
nhân tố

Quay VARMAX

Ma trận
Các thực thể đồ họa

Phân hạng tổng hợp

các số
liệu đã

Phân kiểu tổng hợp
BẢN ĐỒ CÁC PHƯƠNG ÁN
PHÂN LOẠI TỔNG HỢP

trực
giao
hóa

Sơ đồ 4.1: Quy trình xây dựng bản đồ phân loại tổng hợp
Dữ liệu cần cho bài toán phân loại tổng hợp và thành lập bản đồ gồm có hai
loại cơ bản :
- Dữ liệu không gian các đối tượng cần nghiên cứu: tên gọi, thể loại, vị trí và
phạm vi phân bố trong khơng gian .
- Dữ liệu thuộc tính: thể hiện các đặc trưng, các thuộc tính của các đối tượng

trong quan hệ với không gian và thời gian, qui định bởi mục tiêu của bài tốn.
Về hình thức, biểu hiện cụ thể của dữ liệu thuộc tính được đưa vào bài toán
đánh giá tổng hợp và phân loại được tổ chức như một ma trận gồm N dòng và M

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật toán phân tích nhân tố và tự động hố phân loại tổng hợp”


HVTH: Phan Ngọc Trường
22
GVHD: TS.Nguyễn Thơ Các
________________________________________________________________________

cột. Cột đầu tiên chính là mã số định danh cho từng đối tượng trong tập gồm N đối
tượng. Mỗi cột tiếp theo dành cho tiêu thức cần đưa vào bài toán, đại diện cho đặc
trưng cần trích ra từ mỗi đối tượng. Về ngun tắc, khơng có giới hạn cho trị số M,
tức là số lượng cột. Các máy tính hiện đại có thể xử lý khá nhanh các tập số tương
đối lớn. Đồng thời kỹ thuật phân tích thành phần cho phép cơ đúc thơng tin khá
mạnh. Sau vịng xử lý đầu tiên ta có thể loại bớt những thơng tin có mức ý nghĩa
thấp.
Trong những tình huống số lượng tiêu thức cần đưa vào quá lớn ta nên chia
bài toán lớn thành nhiều bài toán nhỏ (số cột) để xử lý từng cụm. Sau đó, ở bước
tiếp theo, dữ liệu của các cột chính là kết quả tổng hợp từ những bài tốn nhỏ đã
được thực hiện trước đó.
Theo cách tổ chức này, mỗi dòng của ma trận dữ liệu được dành để mơ tả
một đối tượng. Nói cách khác, đó là một vector xác định vị trí của mỗi đối tượng
trong khơng gian M chiều các thuộc tính.
4.1. Chuẩn hóa dữ liệu
Thơng tin đầu vào của bài tốn đánh giá phân loại tổng hợp thường rất đa
dạng. Chúng khác nhau về bản chất, đơn vị đo, phạm vi biến thiên, kiểu phân phối

của chuỗi số liệu. Đơi khi cịn có những đặc trưng định tính. Do vậy, cơng việc đầu
tiên phải làm là chuẩn hóa các số liệu ban đầu. Chuẩn hóa ở đây được hiểu là quy
các chuỗi số liệu thô trong ma trận dữ liệu về cùng số đo, cùng phạm vi biến thiên,
và nếu cần, cả kiểu phân phối. Dưới đây là một số kỹ thuật chuẩn hóa thường sử
dụng:
4.1.1. Chuẩn hóa theo cấu trúc ngang
Trường hợp đơn giản nhất là khi số liệu thuộc tất cả các tiêu thức ở đầu vào
đều có cùng bản chất, cùng một hệ đo ta chỉ cần tính tỉ lệ phần trăm từng hợp phần
ở từng đối tượng nghiên cứu. Kết quả phân tích nhiều bài tốn loại này cho thấy
rằng sau khi chuẩn hóa theo cấu trúc ngang như vậy, chỉ cần tiến hành phép phân

Luận văn Thạc sĩ: “Xây dựng nội dung cho bản đồ chuyên đề Kinh tế xã hội dựa
trên các thuật tốn phân tích nhân tố và tự động hoá phân loại tổng hợp”


×