Tải bản đầy đủ (.doc) (91 trang)

Quy trình sản xuất bột giấy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.78 MB, 91 trang )

LỜI MỞ ĐẦU
Ngày 28/11/1982, trên vùng đất Phong Châu lịch sử, Nhà máy Giấy Bãi
Bằng – công trình của tình hữu nghị, hợp tác Việt Nam – Thụy Điển chính thức
khánh thành và đi vào sản xuất, mở ra một bức tranh mới trong lịch sử ngành
công nghiệp giấy Việt Nam.
Trong hơn 25 năm qua, công ty Giấy Bãi Bằng đã trải qua một chặn
đường nhiều gian nan, thử thách, nhưng cũng đầy kiêu hãnh, tự hào để trở thành
con chim đầu đàn của Tổng công ty Giấy Việt Nam.
Giấy Bãi Bằng đã trở thành một thương hiệu nổi tiếng, đạt giải Sao vàng
Đất Việt, hàng Việt Nam chất lượng cao. Áp dụng hệ thống quản lý chất lượng
theo tiêu chuẩn ISO 9001:2000, sản phẩm Giấy Bãi Bằng càng ngày được nâng
cao chất lượng, mẫu mã đa dạng, đáp ứng nhu cầu sử dụng trong nước cũng như
xuất khẩu.
Giấy Bãi Bằng đã có nhiều đóng góp cho nền kinh tế đất nước và phát
triển kinh tế địa phương. Thông qua đóng góp ngân sách, giảm nhập khẩu hàng
hoá, kích thích sản xuất nguyên liệu, góp phần xóa đói giảm nghèo cho nông
dân các tỉnh trung du, miền núi phía bắc; hình thành một số ngành công nghiệp,
tiểu thủ công nghiệp liên quan đến sản xuất và gia công chế biến các sẩn phẩm
từ giấy, nhà máy đã tham gia giải quyết việc làm cho hàng vạn lao động xã hội
Bài luận văn này là một thử nghiệm nghiên cứu định lượng về tình hình sản
xuất kinh doanh của công ty Giấy Bãi Bằng nay là Tổng công ty Giấy Việt Nam.
Số liệu được lấy từ nhà máy Giấy của Tổng công ty. Số liệu trên được tổ chức
thành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổng
công ty trong ba năm 2006, 2007 và 2008. Bằng các phương pháp thống kê thích
hợp, luận văn này sẽ phác thảo một phần thực trạng sản xuất tại Tổng công ty
trong ba năm trên.
Sau lời mở đầu, luận văn này sẽ có 3 chương và danh mục tài liệu tham
khảo. Chương 1 sẽ trình bày về mục đích nghiên cứu của luận văn. Chương 2
dành để giới thiệu cơ sở lý thuyết của các phương pháp phân tích thống kê được
sử dụng trong quá trình phân tích số liệu. Chương 3 đưa ra các kết quả phân tích
trong hoạt động sản xuất của Tổng công ty, tìm ra những điểm bất hợp lý trong


việc phối hợp các thành phần nguyên vật liệu, đề xuất phương án sử dụng
nguyên vật liệu tiết kiệm hơn cho quá trình sản xuất. Tại đây các phương pháp
thống kê được áp dụng một cách phù hợp để đưa ra những kết luận có tính
thuyết phục, đảm bảo tính khoa học. Phần cuối của chương 3 đã đề xuất một số
kiến nghị đối với ban lãnh đạo của Tổng công ty về việc phối hợp sử dụng các
nguyên vật liệu một cách thích hợp trong quá trình sản xuất để nâng cao hiệu
quả sản xuất kinh doanh.
Luận văn này được hoàn thành tại Viện Toán học, Viện Khoa Học Công
Nghệ Việt Nam dưới sự hướng dẫn của Tiến sỹ Hồ Đăng Phúc. Tôi xin được
bày tỏ lòng biết ơn sâu sắc đối với sự quan tâm chỉ dẫn đầy nhiệt tình của thầy.
Tôi xin chân thành cảm ơn các thầy trong Ban lãnh đạo Viện Toán học, các
thầy, cô tham gia giảng dạy lớp cao học khóa 15, cùng các thầy cô ở Trung tâm
đào tạo sau đại học của Viện Toán học đã giúp đỡ tôi trong suốt thời gian học
tập. Tôi cũng xin giửi lời cảm ơn tới các anh chị em cao học khóa 15, nhóm
Semina Xác suất Thống kê, cùng các bạn đồng nghiệp và gia đình đã nhiệt tình
đóng góp ý kiến, động viên, giúp đỡ tôi trong suốt quá trình học tập và hoàn
thành luận văn.
Đặc biệt, tôi xin giửi lời cảm ơn sâu sắc tới Lãnh đạo Tổng công ty giấy
Việt Nam, lãnh đạo và các anh em trong nhà máy giấy đã nhiệt tình và nghiêm
túc cung cấp những dữ liệu chính xác quý báu, mà nếu thiếu nguồn số liệu này
thì nghiên cứu của tôi không thể thực hiện được.
Tuy đã có nhiều cố gắng nhưng bản luận văn này cũng không tránh khỏi
những thiếu sót, tác giả rất mong có được sự tham gia đóng góp ý kiến của các
thầy cô giáo, các nhà nghiên cứu Xác suất Thống kê, nghiên cứu kinh tế và các
độc giả quan tâm đến bản luận văn này.
Hà Nội, ngày 25 tháng 08 năm 2009
Lã Phan Trúc Quỳnh
2
Chương 1
MỤC TIÊU NGHIÊN CỨU

Quá trình sản xuất bao gồm hai công đoạn chính là công đoạn sản xuất bột giấy
và công đoạn sản xuất giấy. Trước tiên ta sẽ đề cập đến công đoạn sản xuất bột
giấy với chức năng gia công các loại nguyên liệu thô (gỗ, tre nứa, v.v.) thành bột
giấy, làm nguyên liệu đầu vào cho công đoạn sản xuất giấy tiếp sau đó.
1. Quy trình sản xuất bột giấy
Quy trình sản xuất bột giấy được tóm tắt thành sơ đồ khối trong Hình 1.1.
Hình 1.1 Sơ đồ khối của quá trình sản xuất bột giấy
3
Nồi nấu
Bể hòa
loãng dịch
đen
Tháp
phóng
Bể chứa
dịch trắng
lọc dịch
trắng
Rửa bùn
vôi
Rửa bột
Chưng bốc
dịch đen
Bể chứa
dịch đen
đặc
Lọc bùn
vôi
Lò vôi
Bể xút hóa

Lọc dịch
xanh
Bể chứa
dịch xanh
Rửa cặn
Tôi vôi
Bể hòa tan
dịch nóng
chảy
Bể dịch
yếu
Nồi hơi
thu hồi
nóng chảy
cặn
dịch xanh
dịch yếu
nước
Cặn
nước
Bể chứa
dịch yếu
Bùn vôi
dịch trắng
Bột
Vôi
dịch đen
Mảnh
Dăm mảnh (gỗ) sau khi được xử lý một cách thích hợp sẽ được chuyển đến nồi
nấu. Ở đây, dăm mảnh sẽ được gia công nhiệt, thẩm thấu dịch bằng nhiệt độ.

Bột được nấu chín được chuyển sang tháp phóng bột, từ tháp phóng bột bột
được chuyển sang khu vực rửa bột. Bột sau khi được rửa sẽ chuyển sang khu
vực sản xuất giấy.
Hình 1.2 Sơ đồ công nghệ hệ thống chuẩn bị bột
Toàn bộ nước rửa bột (dịch đen) sẽ được thu hồi vào bể dịch đen loãng. Dịch
đen sẽ được chuyển đến các tháp chưng bốc để cô đặc đến nồng độ thích hợp.
Sau khi được cô đặc dịch đen được chuyển đến bể chứa dịch, rồi được chuyển
đến nồi hơi thu hồi. Ở nồi hơi thu hồi, dịch đen được đun để tạo thành dịch nóng
chảy và tạo ra hơi. Hơi sẽ được chuyển sang khu vực sản xuất giấy để sử dụng
tiếp.
Bể chứa bột hỗn
hợp tẩy trắng MC
Bể chứa bột Cô đặc
Nghiền đĩa
DD
Bể chứa bột
Máy làm
sạch HD
Bể chứa bột
đã nghiền
Bể
phối trộn
Đánh tơi, nghiền
(kiểu vít ép)
Phụ gia
Bể bột
giấy rách
thu hồi
hệ thống tiếp cận
4

Dịch nóng chảy sẽ được hòa tan và chuyển thành dịch xanh. Dịch xanh sau khi
được lọc sẽ được chuyển vào bể chứa dịch xanh. Bước tiếp theo, cho dịch xanh
vào tôi cùng với vôi ta thu được dịch trắng. Chuyển dịch trắng sang bể xút hóa,
tiếp theo dịch trắng sẽ được lọc cặn để thu được dịch trắng sạch. Dịch trắng sạch
lại dùng vào để nấu bột thay cho dịch nấu.
Hình 1.3 Sơ đồ hệ thống tiếp cận và máy xeo
Dịch trắng sau khi được lọc sẽ thải ra cặn (bùn vôi). Bùn vôi được mang đi rửa
rồi lọc, tiếp theo sẽ được chuyển vào lò vôi để tôi thành đá vôi và lại mang đi tôi
cùng dịch xanh.
Bể bột trước xeo
Bộ tráng phấn
Tháp điều tiết bột
Cuộn giấy Φ 3000
Phần sấy
trước tráng
Cán 3 lô
Máy làm sạch cấp 1
Bể bột + bơm quạt
Sàng áp lực cấp 1
Máy làm sạch cấp 2
Máy làm sạch cấp 3
Máy làm sạch cấp 4
Sàng áp lực cấp 2
Phần sấy
sau tráng
Hòm phun bột
Bộ phận lưới
Bộ phận ép
Dịch tráng
Hoàn thành

MÁY XEO
5
Công nghệ giấy ở đây là một vòng tuần hoàn khép kín, lượng thải ra môi trường
không đáng kể, lợi nhuận của nhà máy giấy là lớn nếu ta làm tốt các công đoạn
thu hồi dịch.
2. Quy trình sản xuất giấy
Quá trình sản xuất giấy, sử dụng bột giấy có được từ công đoạn trên đây (hoặc
được mua từ các nguồn khác) để sản xuất thành các loại giấy thành phẩm, được
tiến hành thông qua các giai đoạn chuẩn bị bột giấy và giai đoạn xử lý bằng hệ
thống tiếp cận và máy xeo. Các giai đoạn này được tóm tắt thành sơ đồ khối
trong các Hình 1.2 và 1.3.
Trong giai đoạn đầu, bột giấy được chuyển sang hệ thống chuẩn bị bột để được
nghiền. Bột giấy sau khi được nghiền sẽ có các thông số về đặc tính thích hợp
với loại bột định sản xuất như độ thoát nước, kích thước sơ sợi, ... Lúc đó, bột
giấy sẽ được chuyển sang hệ thống tiếp cận và máy xeo.
Tại hệ thống tiếp cận, bột giấy sẽ được làm sạch nhiều cấp. Sau khi làm sạch,
bột chuyển sang bộ phận sàng để sàng lấy những bột hợp cách, tiếp theo bột hợp
cách được chuyển sang máy xeo để làm thành giấy thành phẩm và giấy thành
phẩm được chuyển sang khu vực hoàn thành để gia công thành các sản phẩm
bán ra thị trường.
3. Mục đích nghiên cứu
Mục tiêu nghiên cứu của bản luận văn này là xác định trong các nguyên vật liệu
đưa vào sản xuất bột giấy hoặc sản xuất giấy những nguyên vật liệu nào có tác
động ảnh hưởng chính đến quá trình sản xuất, từ đó có ảnh hưởng đến doanh thu
trong hoạt động sản xuất kinh doanh của Tổng công ty. Qua việc phân tích xử lý
số liệu, xem xét trong quá trình sản xuất của Tổng công ty có yếu tố nào là bất
hợp lý trong việc phối hợp dùng các nguyên vật liệu để đưa ra các kiến nghị sử
dụng định mức tiết kiệm nguyên vật liệu, giúp Tổng công ty xây dựng các
phương án điều hành hợp lý, có thể hạ giá thành sản xuất, hạ giá thành sản phẩm
và làm cho hoạt động kinh doanh của Tổng công ty có hiệu quả hơn.

6
4. Mô tả số liệu
Nghiên cứu thực hiện trên bộ số liệu được thu thập tại nhà máy giấy Bãi Bằng.
Số liệu được lấy từ nhà máy Giấy của Tổng công ty. Số liệu trên được tổ chức
thành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổng
công ty trong ba năm 2006, 2007 và 2008. Mỗi tuần Tổng công ty sản xuất một
lô bột giấy và một lô giấy có thông số kỹ thuật khác nhau là bột giấy trắng cao,
bột giấy trắng thấp, giấy trắng cao và giấy trắng thấp.
Bảng 1.1. Danh sách các biến sử dụng trong quá trình phân tích
Quá trình sản xuất bột giấy Qúa trình sản xuất giấy
Tên biến Mô tả biến Tên biến Mô tả biến
NlieuthoTB Nguyên liệu thô trung bình botgiaytb Khối lượng bột giấy trung bình (TB)
TreTB Khối lượng tre trung bình botgiaytsxtb Khối lượng bột giấy tự sản xuất TB
BodeTB Khối lượng bồ đề TB botngoaitb Khối lượng bột giấy ngoại TB
BdanTB Khối lượng bạch đàn TB keoakdtb Khối lượng keo akd trung bình
VoiTB Khối lượng vôi trung bình betonittb Khối lượng betonit trung bình
CloTB Khối lượng Clo trung bình botdatb Khối lượng bột đá trung bình
H2O2TB Khối lượng H2O2 TB tinhbottb Khối lượng tinh bột trung bình
Na2SO4TB Khối lượng Na2SO4 TB botbemattb Khối lượng bột bề mặt trung bình
OxyTB Khối lượng Oxy trung bình chatbaoluutb Khối lượng chất bảo lưu trung bình
CphabotTB Lượng chất phá bọt TB keopvatb Khối lượng Oxy trung bình
CPTNhuatTB Lượng chất phân tán nhựa
trung bình
phammautb Khối lượng phẩm màu trung bình
CDCanTB Lượng chất đóng cặn TB tangtrangtb Khối lượng chất tăng độ trắng TB
DienTB Khối lượng điện trung bình luoitrongtb Số lưới trong trung bình
HoiTB Khối lượng hơi trung bình luoingoaitb Số lưới ngoài trung bình
NuocTB Khối lượng nước TB luoidaitb Số lưới dài trung bình
XuTCTB Khối lượng xút trung bình chaf1tb Số chăn F1 trung bình
chaf2tb Số chăn F2 trung bình

chaf3tb Số chăn F3 trung bình
dientb Khối lượng điện trung bình
hoitb Khối lượng hơi trung bình
nuoctb Khối lượng nước trung bình
Trong các năm Tổng công ty đều có thời gian ngừng sản xuất để sửa chữa bảo
dưỡng máy móc nên số liệu thu được cụ thể là ở năm 2006 là 42 tuần tương ứng
với 42 lô bột giấy và 42 lô giấy. Năm 2007 Tổng công ty sản xuất trong 47 tuần
ứng với 47 lô bột giấy và 47 lô giấy. Đối với năm 2008 số lô bột giấy và số lô
giấy đã sản xuất được đều là 48 lô. Khối lượng sản phẩm của từng lô bột giấy
7
hay từng lô giấy cũng không giống nhau. Sau khi thu thập số liệu, để tiến hành
nghiên cứu phân tích số liệu đã có, chúng ta lấy số nguyên liệu đưa vào trong
sản xuất từng lô bột giấy hay lô giấy chia cho sản lượng từng tuần để được số
nguyên vật liệu trung bình để sản xuất 1 tấn bột giấy hoặc 1 tấn giấy tương ứng.
Các biến được sử dụng trong phân tích quá trình sản xuất 1 tấn bột giấy hoặc 1
tấn giấy được cho trong Bảng 1.1.
5. Phương pháp phân tích
Trước hết, chúng ta sử dụng phương pháp nghiên cứu thành phần chính để xem
trong tổ hợp các nguyên liệu đưa vào sản xuất bột giấy và giấy, tìm ra những
yếu tố nào là yếu tố chi phối chủ đạo trong quá trình sản xuất.
Tiếp theo, chúng ta sẽ tách riêng hai loại bột giấy và giấy có thông số kỹ thuật
khác nhau là bột trắng cao, bột trắng thấp, giấy trắng cao, giấy trắng thấp và tách
riêng từng năm, dùng phép kiểm định t – Student để so sánh giá trị trung bình
của các nguyên liệu đầu vào xem có gì khác nhau hay không, từ đó tìm ra các
yếu tố chưa hợp lý trong quá trình sản xuất của Tổng công ty.
Từ việc tìm ra những yếu tố chưa hợp lý trong quá trình sản xuất nói trên, chúng
ta sẽ đưa ra kiến nghị về tiêu chuẩn sử dụng các nguyên vật liệu để vừa đảm bảo
chất lượng cho quá trình sản xuất vừa tiết kiệm được nguyên vật liệu từ đó có
thể giúp Tổng công ty hạ giá thành sản xuất, hạ giá thành sản phẩm giúp hoạt
động kinh doanh của Tổng công ty có hiệu quả hơn.

Trong tính toán để đưa ra định mức kiến nghị đối với các chất phụ gia, khoảng
tin cậy 95% của giá trị trung bình của từng chất phụ gia được dùng để xác định
mức tối đa của từng chất phụ gia dùng sản xuất 1 tấn bột giấy hay 1 tấn giấy.
8
CHƯƠNG 2
CƠ SỞ LÝ THUYẾT CỦA CÁC PHƯƠNG PHÁP
PHÂN TÍCH THỐNG KÊ
I. Phương pháp phân tích thành phần chính
1. Giới thiệu bài toán phân tích thành phần chính
Khi nghiên cứu tổng thể bao gồm các cá thể mang nhiều đặc trưng khác nhau,
người ta có thể áp dụng hai cách tiếp cận gọi là phân tích dọc và phân tích
ngang. Phân tích dọc có mục đích chỉ ra các đặc tính hay dấu hiệu khác nhau tồn
tại trong tổng thể có quan hệ với nhau như thế nào, trong khi phân tích ngang lại
nghiên cứu cá thểvới những dấu hiệu nói trên trong các mối quan hệ xét theo
từng cặp hay trong những nhóm cá thể. Hãy xét một thí dụ sau: Các doanh
nghiệp vừa và nhỏ ở thành phố A thường được xem xét như những cá thể của
một tổng thể. Để mô tả một doanh nghiệp người ta dùng 4 chỉ tiêu
- Giá trị tài sản cố định,
- Lượng lao động thường xuyên được sử dụng,
- Tỷ lệ lợi nhuận thô,
- Lương tháng bình quân của người lao động.
Rõ ràng là hệ thống các chỉ tiêu này có thể dùng so sánh các doanh nghiệp và nó
có thể cho biết các quan hệ giữa chính các chỉ tiêu này trong phạm vi đang xét,
chẳng hạn lượng lao động và giá trị tài sản cố định quan hệ chặt chẽ với nhau và
cùng chiều nhưng có thể giá trị tài sản cố định và lương bình quân quan hệ cũng
rất chặt chẽ nhưng lại ngược chiều. Điều đó có thể đúng với các doanh nghiệp
vừa và nhỏ ở thành phố A mà không đúng với các doanh nghiệp vừa và nhỏ ở
thành phố B.
Về phía các doanh nghiệp, với những chỉ báo cụ thể nó trên người ta có thể và
rất muốn định vị các doanh nghiệp vừa và nhỏ thành phố A từ đó thấy được sự

khác biệt của mỗi doanh nghiệp so với doanh nghiệp khác.
9
Để làm được các phân tích trên người ta có thể có thể dùng các phương pháp
phân tích tương quan nhiều chiều, tuy nhiên điều đó hầu như không giải quyết
được bằng các công cụ thông thường. Việc giải quyết bài toán trên dựa trên tư
tưởng cơ bản sau đây:
Mỗi cá thể coi như một phần tử của tổng thể (P) với số phần tử (M) hữu hạn hay
vô hạn, mỗi chỉ tiêu coi như một biến, một số đo hay một đặc trưng của cá thể.
Mỗi cá thể được xác định bởi một véc tơ p chiều mà mỗi thành phần của véc tơ
đó là giá trị của một biến.
Trong nghiên cứu tổng thể với các biến như trên, nhiều khi người ta cần tìm
cách tổ hợp của các biến, tức là tổ hợp p véc tơ M chiều, lại thành các véc tơ đôi
một trực giao. Mỗi véc tơ này coi là một thành phần hay một biến mới, đo lường
các cá thể trên một mặt nào đó. Với số tổ hợp xác định trước, chúng ta thu được
một hệ thống chỉ báo (nói chung không có thực). Trong hệ thống này, mỗi chỉ
tiêu ban đầu, cũng là mỗi biến ban đầu, có phần đóng góp của mình tạo nên các
chỉ báo đó.
Chẳng hạn với p tiêu thức (biến) ban đầu ta lập
Y
k
= u
k1
X
1
+ u
k2
X
2
+ ..... + u
kp

X
p
.
Mỗi bộ số (véc tơ) u
k
xác định một biến y
k
và tương ứng với Y
k
ta có các giá trị
tương ứng của các cá thể.
Mỗi cá thể có thể được biểu diễn bởi một véc tơ mới mà mỗi thành phần của véc
tơ này là hệ số phân tích qua một biến mới (gọi là một thành phần chính). Nhờ
đó, ta có thể mô tả được quan hệ giữa các cá thể đó.
Thí dụ. Trong thí dụ này các thành phần chính sẽ không hình thành theo một tiêu
chuẩn khách quan mà hình thành theo ý tưởng chủ quan của người thiết kế.
Trong Bảng 1.a là số liệu của 13 nước với các chỉ tiêu: P là tổng số dân (1000
người), F là mật độ dân số (người/km2) và U là tỉ lệ dân thành thị.
10
Bảng 1.a. Số dân, mật độ dân số và tỷ lệ dân thành thị
P E U
Afghanistan 20500 25.0 18
Argentina 33900 12.0 86
Armenia 3700 126.0 68
Australia 17800 2.3 85
Austria 8000 94.0 58
Azerbaijan 7400 86.0 54
Bahrain 600 828.0 83
Bangladesh 125000 800.0 16
Barbados 256 605.0 45

Belarus 10300 50.0 65
Belgium 10100 329.0 96
Bolivia 7900 6.9 51
Giả sử có hai tiêu chuẩn nhân khẩu học được áp dụng để phân tích các tiêu thức
cũng như các quốc gia này. Các trọng số để xây dựng hai tiêu chuẩn đó được ấn
định như trong Bảng 1.b.
Bảng 1.b. Trọng số xác định các tiêu thức nhân khẩu học mới
P F U
Quan điểm 1 -0,15 0,05 0,25
Quan điểm 2 -0,2 -0,1 0,40
Các trọng số này không xuất phát từ chính số liệu mà xuất phát từ quan niệm
chủ quan (sau này ta sẽ mô tả cách xác định chúng một cách khách quan theo
những chuẩn mực nhất định)
Mỗi quốc gia được mô tả bởi 1 véc tơ 2 chiều S = [S(1), S(2)] với
S(1) = - 0,15P + 0,05F + 0,25U
S(2) = - 0,20P - 0,10F + 0,40U
Trong không gian hai chiều (S1, S2) ta có thể mô tả các biến. Mỗi biến tương
ứng là 1 véc tơ n chiều: P, F, U. Để đánh giá mối quan hệ giữa các tiêu chuẩn
mới lập với các tiêu thức ban đầu, người ta tính các hệ số tương quan (rPS1,
rPS2); (rFS1, rFS2) ; (rUS1, rUS2). Mỗi cặp hệ số này xác định 1 điểm trong
siêu phẳng tạo bởi S1 và S2. Với thí dụ này ta có vị trí của các biến P, F, U như
trong Hình 1.a.
11
Bảng 1.c. Số liệu nhân khẩu học theo các tiêu thức ban đầu và tiêu thức mới
P E U S1 S2
Afghanistan 20500 25.0 18 -3069.25 -4095.3
Argentina 33900 12.0 86 -5062.9 -6746.8
Armenia 3700 126.0 68 -531.7 -725.4
Australia 17800 2.3 85 -2646.64 -3526.23
Austria 8000 94.0 58 -1180.8 -1586.2

Azerbaijan 7400 86.0 54 -1092.2 -1467
Bahrain 600 828.0 83 -27.85 -169.6
Bangladesh 125000 800.0 16 -18706 -25073.6
Barbados 256 605.0 45 3.1 -93.7
Belarus 10300 50.0 65 -1526.25 -2039
Belgium 10100 329.0 96 -1474.55 -2014.5
Bolivia 7900 6.9 51 -1171.91 -1560.29
Nếu dùng SPSS để thành lập các tiêu thức mới thay cho các thành lập mang tính
chủ quan trên đây, ta sẽ có biểu diễn của các tiêu thức ban đầu trên mặt phẳng
của hai tiêu thức mới trong Hình 1.b.
Với kết quả này ta giải thích ý nghĩa các véc tơ S1, S2 dễ dàng hơn. Vì U nằm
sát trục S1, còn F nằm gần trục S2, nên có thể xem S1 là tỉ lệ dân cư thành thị và
S2 là mật độ dân số. Ở phần sau, khi đã được cung cấp đầy đủ hơn về cơ sở lý
thuyết, chúng ta sẽ nói rõ thêm về cách phân tích đối với các thành phần chính.
vÞ TRÝ C¸C BIÕN
U
0.60
0.40
0.20
0.00
-0.20
-0.40
-0.60
-0.80
-1.00
-1.20
0.5
-0.5
-1
-1.5

f
p
Hình 1.a. Các biến ban đầu trong mặt phẳng xác định bởi hai tiêu thức mới
12
1.0
0.0
5
-5
-1.0
u
f
-1.0
-5
0.0
5
1.0
p
Component 2
Component 2
Hình 1.b. Các biến ban đầu trong mặt phẳng của hai tiêu thức mới do SPSS tạo ra
Kỹ thuật phân tích thành phần chính là một bộ phận của phân tích nhân tố. Phân
tích nhân tố nói chung và phân tích thành phần chính nói riêng, được sử dụng
cho phân tích những số liệu lớn. Về mặt công cụ, đối với kỹ thuật này người ta
cần sử dụng các phép biến đổi trong không gian tuyến tính. Đặc biệt, các kỹ
thuật liên quan đến véc tơ riêng và giá trị riêng của ma trận đối xứng xác định
dương sẽ là công cụ yếu tố không thể thiếu trong việc xác định các thành phần
chính, các nhân tố chính cũng như các thành phần khác trong phương pháp này.
Cũng chính vì lý do này, người ta chỉ có thể thực hiện các mô hình phân tích
nhân tố cho các bộ số liệu cỡ lớn khi có sự hỗ trợ của các phần mềm thống kê
chuyên dụng.

2. Bài toán phân tích nhân tố trong không gian 2 và 3 chiều
Hãy xem xét trường hợp có hai biến X và Y được quan sát trên n cá thể. Phương
pháp thống kê toán học cung cấp lý thuyết phân tích tương quan để xem xét mối
quan hệ của hai biến ngẫu nhiên. Mỗi cá thể A
i
có thể mô tả bởi một điểm trong
R
2
nhờ các tọa độ (x
i
, y
i
) như trong các biểu đồ ở Hình 2.a.
Hình 2.a bên trái cho thấy sự khác nhau giữa hai đối tượng A1 và A2 có thể đặc
trưng bằng khoảng cách d(A1,A2) giữa hai điểm A1 và A2 trên đồ thị. Tuy
13
nhiên khi chiếu vuông góc lên trục x (không quan tâm đến y) thì khoảng cách
này gần hơn khi chiếu vuông góc lên trục y và cả hai khoảng cách sau phép
chiếu đề nhỏ hơn d(A1,A2), nói chính xác hơn là d
2
(A
1
A
2
) = d
2
(x
1
,x
2

) + d
2
(y
1
,
y
2
). Nói một cách khác, khi chỉ dùng một yếu tố là x hoặc y để xem xét sự khác
biệt giữa hai đối tượng A1 và A2 thì một phần thông tin đã bị mất đi. Nếu không
muốn mất thông tin thì tốt nhất là chọn một đường thẳng song song với đường
thẳng đi qua A1, A2. Khi chiếu vuông góc hai điểm này lên đường thẳng như
vậy khoảng cách ảnh bằng khoảng cách ban đầu.
z1
y1
A1
A2
y1
y2
A1
A2
y
x1
x2
x
y
x
x2
w2
x1
w1

0
z2
y2
Hình 2.a. Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng
Hình 2.a bên phải cũng cho kết luận tương tự, nhưng có thể chứng tỏ rằng theo
các toạ độ ban đầu khi trục Ox không vuông góc với trục Oy thì
d
2
(A
1
A
2
)=d
2
(x
1
,x
2
)+d
2
(y
1
,y
2
)=d
2
(u
1
,u
2

)+d
2
(w
1
,w
2
) - 2 d
2
(u
1
,u
2
)(w
1
,w
2
)cosin(xOy)
Như vậy nếu muốn phản ánh sát nhất liên hệ của hai cá thể A
1
và A
2
, cần phải
chọn một trục sao cho khoảng cách của các hình chiếu xấp xỉ tốt nhất khoảng
cách ban đầu. Với n > 2 cá thể, ý tưởng trên dẫn đến yêu cầu bảo toàn tối đa sự
khác biệt của các cá thể khi xét trên cả p tiêu thức.
Để có thể tưởng tượng rõ ràng hơn cách tiếp cận này chúng ta xét trường hợp
các cá thể trong không gian ba chiều R
3
. Giả sử mỗi cá thể được đặc trưng bởi 3
tiêu thức X

1
, X
2
, X
3
và xét hai cá thể A
i
, A
j
được mô tả bởi hai điểm trong R
3
.
14
Gọi ∆
1
và ∆
2
là hai đường thẳng trực giao tạo nên mặt phẳng (F), hãy xem xét
phép chiếu trong Hình 2.b.
2
1
Ai
Aj
fj
fi
c1i
c2j
c2i
(F)
c1j

Hình 2.b. Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng
Khoảng cách của ảnh A
i
, A
j
sau phép chiếu là khoảng cách d
2
(f
i
, f
j
). Khoảng
cách này có thể xác định như sau:
d
2
(f
i
, f
j
) = d
2
(c
1i
,c
1j
) + d
2
(c
2i
, c

2j
) <= d
2
(Ai, Aj)
Như vậy nếu chọn một trục để chiếu ta sẽ chọn trục nào có khoảng cách hai tọa
độ chiếu lớn hơn. Tổng quát, đối với trường hợp có n điểm, ta cần chọn các trục

1
, ∆
2
sao cho trung bình của tổng bình phương các khoảng cách giữa các điểm
f
i
ảnh của A
i
là lớn nhất.
3. Bài toán trong không gian p chiều
Xét bài toán trong trường hợp mỗi cá thể có thể xem xét qua p chỉ tiêu. Một hệ
trục tọa độ của không gian p chiều gồm các trục: ∆
1
, ∆
2
,… ∆
p
đôi một trực giao
có thể được hình thành nhờ việc chọn lần lượt các trục ∆
1
, ∆
2
.... theo thứ tự

giảm dần của tổng bình phương các khoảng cách của các hình chiếu. Việc lựa
chọn số chiều không gian chiếu phụ thuộc vào nhiều yếu tố khác nhau, như mức
phân tán trong các mối quan hệ của p tiêu thức ban đầu, yêu cầu về bảo toàn
thông tin, ...
Tuy vậy, với ý muốn quan sát được số liệu một cách trực quan, người ta có thể
cố gắng bảo toàn thông tin ở mức chấp nhận được với số chiều không gian nhỏ
15
nhất. Người ta luôn hướng tới tới không gian 2 chiều hay 3 chiều, vì trong các
không gian này việc mô tả hình học khá thuận tiện đối với người sử dụng.
Trong phân tích nhân tố người ta sử dụng các khái niệm sau:
+ Mỗi véc tơ

i
gọi là một trục chính của đám mây số liệu ban đầu.
+ Mỗi điểm A
i
chiếu lên p trục chính sẽ có p giá trị tương ứng, các giá trị này lập
nên véc tơ C
i
trong không gian p chiều.
+ Với n cá thể (n điểm) A
i
, A
j
, .....A
n
, ta có ma trận C = (c
ij
). Mỗi cột của ma trận
này là một véc tơ trong R

n
, được gọi là một thành phần chính.
+ Mỗi thành phần chính C
k
có thể biểu diễn qua các cột tương ứng với các tiêu
thức ban đầu (X
i
) dưới dạng: C
k
= u
k1
X
1
+ ...... + u
kp
X
p

Véc tơ các hệ số tổ hợp nối trên (U
k
) được gọi là nhân tố chính thứ k.
Trường hợp bản thân các tiêu thức ban đầu hoàn toàn độc lập, phân tích này
cũng cho phép lựa chọn một không gian có số chiều ít hơn mà qua đó việc mô tả
mối liên hệ của các cá thể bị sai lệch ít nhất. Trong trường hợp các tiêu thức ban
đầu không độc lập, ta có kết quả tốt hơn rất nhiều, đó là tìm được cách diễn đạt
mỗi cá thể qua các tiêu thức hoàn toàn độc lập với nhau.
Tuy nhiên, khó khăn ở đây chính là ban đầu mỗi cá thể được thể hiện qua p tiêu
thức quan sát được, nhưng kết quả mỗi cá thể thể hiện qua q tiêu thức không
quan sát được. Việc xác định ý nghĩa kinh tế, xã hội của các tiêu thức này luôn
khó khăn đối với người thực hành

Ngoài phương pháp phân tích thành phần chính, một sô phương pháp khác như
phân tích tương ứng, phân tích tương quan chính tắc, phân nhóm, ... cũng được
xây dựng trên ý tương cơ bản đã trình bày trên đây.
4. Biểu diễn số liệu
Trước tiên ta đề cập tới việc biểu diễn số liệu trong các phân tích thống kê nhiều
chiều nói chung và trong phân tích nhân tố nói riêng. Thông thường việc biểu
16
diễn các số liệu nhiều chiều được trình bầy dưới ngôn ngữ véc tơ và ma trận
trong các không gian tuyến tính thực.
a. Số liệu và các đặc trưng
i - Bảng số liệu
Giả sử có n quan sát (n cá thể lập nên 1 mẫu), mỗi quan sát có p tiêu thức (biến).
Số liệu đó có thể trình bầy trong bảng sau:
11 1
1
p
n np
x x
X
x x
 
 ÷
=
 ÷
 ÷
 
K
M O M
L
Gọi X*

i
là dòng thứ i của x với các phần tử x
i1
, x
i2
.... x
ip
. Đó là véc tơ các giá trị
của các biến quan sát được ở cá thể thứ i . Một dòng của X còn có thể gọi một
cách ngắn gọn là một cá thể.
- X
j
là là cột thứ j của X nó bao gồm các giá trị của một biến tại tất cả các cá thể.
Một cột của X có thể gọi là một biến hay một tiêu thức.
Như vậy, mỗi cá thể biểu hiện bằng một véc tơ dòng p chiều, mỗi tiêu thức thể
hiện qua n cá thể bởi một véc tơ cột n chiều.
ii – Ma trận trọng số
Nếu như mỗi dòng của X tương ứng duy nhất 1 cá thể thì trọng số của các cá thể
như nhau và có thể lấy bằng 1/n. Tuy nhiên, thực tế có thể một dòng của X ứng
với một số cá thể nào đó, như vậy để thể hiện đúng vai trò của đám đông trong
phân tích thống kê ta có thể đặt cho mỗi dòng (mỗi cá thể đại diện) một trọng số
p
i
. Các trọng số như vậy có thể mô tả bởi một ma trận gọi là ma trận trọng số
như sau:
1
0
0
n
p

D
p
 
 ÷
=
 ÷
 ÷
 
O
17
Các trọng số này thông thường là các tần suất dòng trong bảng số liệu thô. Mỗi
dòng chỉ mang thông tin của một cá thể thì có thể viết D = E trong đó E là ma
trận đơn vị cấp n.
iii - Điểm trung bình (trung tâm) của đám mây số liệu và ma trận quy tâm
Mỗi dòng của X có thể xem là một điểm trong không gian R
p
, n điểm tạo nên
một tập hợp gọi là một đám mây số liệu, ta gọi véc tơ trung tâm của X hay điểm
trung tâm của đám mây này là g thì g có thể tính như sau:
g = X
T
DI,
trong đó I là véc tơ có tất cả các thành phần bằng 1 trong không gian R
n
. Dễ
dàng kiểm tra thấy g là một véc tơ p chiều. Chẳng hạn cho ma trận X ở Bảng 2.a
với các biến
X1 = tuổi thọ trung bình
X2 = tỷ lệ tăng dân số
X3 = tỷ lệ chết trẻ em

X4 = GDP/đầu dân cư
Bảng 2.a. Số liệu nhân khẩu học theo các tiêu thức ban đầu
i X1 X2 X3 X4
1. 44 2.8 168.0 205
2. 75 1.3 25.6 3408
3. 75 1.4 27.0 5000
4. 80 1.4 7.3 16848
5. 79 2 6.7 18396
6. 75 1.4 35.0 3000
7. 74 2.4 25.0 7875
8. 53 2.4 106.0 202
9. 78 2 20.3 6950
10. 76 3 19.0 6500
Tæng 709 13.8 439.9 68384
Giả sử các số liệu này thống kê ở 10 nước khác nhau. Ta chọn các trọng số đều
là 0,1. Véc tơ trung tâm của đám mây số liệu có các thành phần là trung bình
18
của các thành phần trung bình của các quan sát. Véc tơ chuyển vị của véc tơ
trung tâm là
g
T
= (70.9, 1.38, 43.99, 6838.4)
Việc quy tâm hóa đám mây số liệu thực hiện bằng cách lập các véctơ chênh lệch
của các cá thể với véc tơ g qua việc lập ma trận
Y = X - Ig
T
(g
T
là chuyển vị của g)
Trong thí dụ trên tích Ig

T
là một ma trận có n dòng (n = 10) như sau:
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4
70.9 1.38 43.99 6838.4




















 
 
 
 
 
 

Từ đó, thực hiện phép trừ ma trận Y
Y =
26,9 1.42 124.01 6633.4
4.1 0.08 18.39 3430.4
4.1 0.02 16.99 1838.4
9.1 0.02 36.69 10009.6
8.1 1.18 37.29 11557.6
4.1 0.02 8.99 3838.4
3.1 1.02 18.99 1036.6
17.9 1.02 62.01 6636.4
7.1 1.18 23.69 111.6
5.1 1.08 24.99 338
− −
− − −
− −

− −
− −

− −
− −
− − − .4

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Ma trận này mô tả thô sự khác biệt hay sự phân tán của các cá thể so với mức
trung bình.
iv – Ma trận hiệp phương sai và ma trận hệ số tương quan
19
Rõ ràng ma trận Y trên đây chưa cung cấp một đặc trưng rõ ràng về sự khác biệt
giữa các đối tượng. Một cách thông thường nếu Y chỉ có hai dòng thi khoảng
cách của hai véc tơ này (được định nghĩa theo một cách nào đó) sẽ cho một độ
đo về sự khác biệt. Trong trường hợp tổng quát hoàn toàn có thể làm tương tự
như vậy, chỉ có khác là chúng ta không thể dùng một số thực để đo sự khác biệt
giữa nhiều cá thể mà phải dùng một ma trận. Dễ dàng thấy việc đo sự khác biệt
giữa các dòng của ma trận Y hoàn toàn tương đương với việc tìm cách đo sự
khác biệt của các dòng của X. Sau đây trở lại với chính ma trận X và thấy rõ hơn
vai trò của Y.
Đặc trưng quan trọng nói lên mức phân tán của mỗi biến và độ liên hệ giữa

chúng là ma trận hệ số tương quan và ma trận hiệp phương sai. Các ma trận này
có thể tính như sau:
+ Ma trận hiệp phương sai
Với các trọng số 1/n ta có thể tính ma trận hiệp phương sai V theo công thức
V = X
T
D X - gg
T
Một cách tổng quát, các phần tử của V = X
T
D X - gg
T
được tính qua biểu thức
1
n
ij k ki kj
k
q p x x
=
=

,
véc tơ trung tâm g cũng được tính theo trọng số như sau:
1
n
j i ij
k
g p x
=
=


.
Với ví dụ trong Bảng 2a ta có ma trận hiệp sai V là
V=
13289 7672 561.821 44687.44
7.672 0.8056 31.9138 2817.43
561.821 31.9138 2421.443 191741
44687.44 2817.43 191741 35289619
− −
 
 
− −
 
 
− −
 
− −
 
Như đã biết Cov(Xi,Xi) = Var(Xi) nên từ ma trân này dễ dàng tìm được các
phương sai của các biến (các cột của X). Có thể chứng tỏ rằng:
20
V = X
T
D X- gg
T
= Y
T
D X,
+ Ma trận hệ số tương quan
Gọi ma trận D

1/S
là ma trận đường chéo với các thành phần là 1/Se(X
j
)=1/s
j
)
D
1/s
=
1
2
1/ 0
........ 0
1/
........ 0
0
........
0 ......
........ ...
...... .......
0 0 ........ 0
0 ..... ........ ...
0 0 ........ 1/
p
s
s
s
 
 
 

 
 
 
 
 
 
 
 
Như đã biết Cov(X
i
,X
i
) = Var(X
i
) nên từ ma trận này dễ dàng tìm được các
phương sai của các biến (các cột của X). Có thể chứng tỏ rằng:
V = X
T
D X- gg
T
= Y
T
D X,
Chuẩn hóa ma trận X ta có ma trận Z = (z
ij
), trong đó
ij
ij
j
y

z
s
=
có thể nhận được ma trận này nhờ công thức:
Z = YD
1/s
Nhờ các công thức trên ta có ma trận chuẩn hóa của ma trận X ở thí dụ trên là
Z =
2.33349 1.582081 2.520111 1.11664
0.355662 0.08913 0.37372 0.57746
0.355662 0.022283 0.34527 0.30947
0.789397 0.022283
0.70265 1.31469
0.355662 0.022283
0.268915 1.136424
1.55277 1.136424
0.615903 1.31469
0.442409
− −
− − −
− −




0.74561 1.684974
0.7578 1.945558
0.18269 0.64614
0.38591 0.174497
1.260157 1.11714

0.48142 0.018786
1.20327 0.50784 0.05696
 
 
 
 
 

 
 

 
− −
 
 

 

 
 

 
 − −
 
Ma trận hệ số tương quan tuyến tính của các biến (R) được tính như sau:
R = D
1/s
VD
1/s
= Z

T
DZ
21
Và ma trận hệ số tương quan nhận được là
R =
1.0000 0.7415 0.9904 0.6526
0.7415 1.0000 0.7226 5284
0.9904 0.7226 1.0000 0.6559
0.6526 0.5284 0.6559 1.0000
− −
 
 
− −
 
 
− −
 
− −
 
Chú ý Z có véc tơ trung tâm là véc tơ 0, nên R cũng chính là ma trận hiệp
phương sai của Z.
5. Không gian các cá thể
Các cá thể của tổng thể được mô tả bằng véc tơ với các thành phần là các giá trị
của p biến như đã nêu ở trên. Ta sẽ coi mỗi cá thể như vậy là một điểm trong
không gian F
P
(với số chiều bằng p) Tập hợp một số các cá thể tạo nên một đám
mây trong F với g là điểm trung tâm của đám mây này.
Để có thể phân tích thống kê đối với các đám mây trong F ta thống nhất một số
khái niệm làm cơ sở phân tích sau này.

a- Khoảng cách
Khoảng cách trong không gian tuyến tính thông thường được sử dụng là khoảng
cách Ơcolit. Thông thường người ta định nghĩa khoảng cách giữa 2 điểm X1 và
X2 theo công thức Pithagorre như sau:
d
2
= (x
11
– x
21
)
2
+ (x
12
– x
22
)
2
+ ..... + (x
1j
– x
2j
)
2
+ ....... + (x
1p
– x
2p
)
2

Tuy nhiên nếu như mỗi cột của X có một trọng số aj > 0 thì khoảng cách trên có
thể được tính bằng cách thêm các nhân tử tương ứng, tức là
d
2
= a
1
(x
11
– x
21
)
2
+ a
2
(x
12
– x
22
)
2
+ ... + a
i
(x
1j
– x
2j
)
2
+ ... + a
p

(x
1p
– x
2p
)
2
,
hay
d
2
= (X
1
– X
2
)
T

1
2
0 ... 0
0 ... 0
... ... ... ...
0 0 ...
p
a
a
a
 
 
 

 
 
 
 
(X
1
– X
2
) .
b- Khoảng cách M (metric M)
22
Một cách tổng quát có thể chọn một ma trận đường chéo dương M và khoảng
cách hai điểm trong không gian được xác định theo công thức sau:
d
2
= (X
i
– X
j
)
T
M (X
i
– X
j
),
trong đó M là một ma trận đường chéo dương cấp p.
Trong trường hợp này tích vô hướng của hai véc tơ cũng xác định tương tự,
<X
i

; X
j
> = X
i
T
MX
j
Chuẩn của một véc tơ được tính theo công thức
1/ 2
( )
T
M
X X MX=P P
Trong phân tích thống kê nếu chỉ quan tâm đến độ phân tán của các biến, thì M
thường xác định qua ma trận hiệp phương sai. Để có một độ đo khoảng cách
theo nghĩa mức tương ứng, trong phân tích thành phần chính ta có thể sử dụng
ma trận M có đường chéo là nghịch đảo của các phương sai của các biến. Điều
đó tương đương với việc chia tất cả các biến cho độ lệch tiêu chuẩn của nó.
Cách làm này làm cho sự khác biệt về độ đo dùng cho các biến khác nhau không
còn nữa. Ma trận hiệp phương sai của các biến đã biến đổi chính là ma trận hệ
số tương quan của các biến ban đầu. Với cách tính này ta có
2
1
2
1/
2
1/
1/
0
0

S
p
S
M D
S
 
 ÷
=
 ÷
 ÷
 ÷
 
O
Chú ý rằng ma trận M được xác định như trên là một ma trận xác định dương
nên nó luôn tồn tại biểu diễn M = T
T
T là ma trận vuông cấp p. Từ đó ta sẽ có
tích vô hướng được tính bằng
<X
i
; X
j
> = X
i
T
MX
j
= X
i
T

T
T
TX
j
= (TX
j
)
T
(TX
i
)
Biểu thức này cho thấy mối liên hệ giữa các độ đo trong không gian nhiều. Với
độ đo M bất kỳ nhờ phép biến đổi trên ta có thể quy về độ đo M = E, đây chính
là độ đo Ơcơlit thông thường.
c- Quán tính
23
Người ta gọi tổng quán tính của đám mây với tâm của nó là tổng các khoảng
cách (đo bằng metric – M) từ các điểm đến tâm của đám mây đó. Đại lượng này
được tính như sau:
1
( ) ( )
n
T
g i i i
i
I p X g M X g
=
− −

Nếu ta chọn một điểm a nào đó thay cho g ta sẽ tính được I

a
theo công thức trên.
Theo công thức Huyghens ta có
( - ) ( - ) -
T
a g g
I I g a M g a I g a= + = +
,
trong đó
-g a
là chuẩn của véc tơ (g-a) theo metric M. Ngoài ra khi g = 0 ta có
1
n
T
g i i i
i
I p X MX
=
=

.
Người ta còn chứng minh được rằng
2
1 1
2
n n
g i j i j
j i
I p p X X
= =

= −
∑∑
,
tức là 2 lần tổng quán tính bằng trung bình bình phương của các khoảng cách
giữa các cá thể.
Theo công thức xác định ma trận hiệp phương sai, ta có thể tính tổng quán tính
I
g
qua ma trận V và m như sau:
I
g
= TraceMV = TraceVM,
trong đó TraceA (vết của A) là tổng các phần tử trên đường chéo của A. Như
vậy,
- Nếu M=E (E là ma trận đơn vị) thì tổng quán tính chính là tổng phương sai của
các biến.
- Nếu M = D
1/S
2
thì tổng này sẽ là tổng các phần tử trên đường chéo ma trận R
hay tổng quán tính bằng p (số biến số), mà không phụ thuộc vào các giá trị của
các biến số đó.
24
Trở lại thí dụ trên nếu ta chọn khoảng cách Ơcolit cho không gian các cá thể thì
tổng quán tính của đám mây số liệu nói trên là tổng các phần tử trên đường chéo
của V, tính được như sau:
I
g
= 132.89 + 0.8056 + 2421.4429 + 35289619.24 = 35292174.3175
Còn nếu ta chọn M = D

1/S
2
thì I
g
= 4. Như vậy quán tính của một đám mây số
liệu không xác định một cách duy nhất, mà phụ thuộc vào metric được dùng để
đo khoảng cách giữa các điểm của đám mây. Hệ quả của điều đó là các kết quả
phân tích thành phần chính sẽ khác nhau nếu ta dùng ma trận hiệp phương sai và
ma trận hệ số tương quan để xác định hai metric khác nhau trong không gian các
quan sát.
6. Tạo biến và phép chiếu trong không gian tuyến tính
a- Tạo biến mới
Trong không gian tuyến tính mỗi véc tơ n chiều là một tập hợp có thứ tự các hệ
số phân tích của chính véc tơ đó theo một hệ cơ sở đơn vị. Tuy nhiên không gian
n chiều có vô số các hệ cơ sở (mỗi hệ n véc tơ độc lập tuyến tính là một cơ sở).
Như vậy một véc tơ X
j
khác không bất kỳ có thể trở thành một véc tơ cơ sở của
một cơ sở nào đó. Mặt khác cho trước một hệ p véc tơ của R
n
ta luôn có thể tạo
ra các véc tơ khác nhờ tổ hợp tuyến tính từ hệ này. Trong phân tích thống kê thì
mỗi cách tổ hợp như vậy tạo nên một thống kê từ một mẫu có kích thước p.
Thực chất của một thống kê là một cách tổng hợp thông tin, theo đó người ta có
được những hiểu biết về tổng thể mà mỗi cá thể không thể hiện được.
Trở lại với không gian cá thể F đã nói ở trên, ta có thể tạo nên những véc tơ mới
từ n véc tơ đã có nhờ các phép tổ hợp tuyến tính, mà theo đó các cá thể được
phản ánh tập trung hơn ở một khía cạnh nào đó. Chẳng hạn khi xác định véc tơ
g (véc tơ trung bình mẫu hay véc tơ trung tâm) ta đã có một véc tơ mới mà từ đó
có thể mô tả cá thể nhờ khoảng cách từ nó đến g, hay nhờ véc tơ chỉ sự khác biệt

của mỗi cá thể với trung bình chung. Tuy nhiên mục đích của chúng ta, như đã
nêu từ đầu, là tóm tắt thông tin p chiều thành thông tin có số chiều ít hơn. Phép
chiếu từ R
p
lên một siêu phẳng cho phép chúng ta tóm tắt thông tin như vậy.
25

×