Tải bản đầy đủ (.doc) (90 trang)

Bằng phương pháp thống kê toán học đề ra các biện pháp giảm chi phí cho Công ty giấy Bãi bằng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 90 trang )

LỜI MỞ ĐẦU
Ngày 28/11/1982, trên vùng đất Phong Châu lịch sử, Nhà máy Giấy Bãi
Bằng – cơng trình của tình hữu nghị, hợp tác Việt Nam – Thụy Điển chính thức
khánh thành và đi vào sản xuất, mở ra một bức tranh mới trong lịch sử ngành
công nghiệp giấy Việt Nam.
Trong hơn 25 năm qua, công ty Giấy Bãi Bằng đã trải qua một chặn
đường nhiều gian nan, thử thách, nhưng cũng đầy kiêu hãnh, tự hào để trở thành
con chim đầu đàn của Tổng công ty Giấy Việt Nam.
Giấy Bãi Bằng đã trở thành một thương hiệu nổi tiếng, đạt giải Sao vàng
Đất Việt, hàng Việt Nam chất lượng cao. Áp dụng hệ thống quản lý chất lượng
theo tiêu chuẩn ISO 9001:2000, sản phẩm Giấy Bãi Bằng càng ngày được nâng
cao chất lượng, mẫu mã đa dạng, đáp ứng nhu cầu sử dụng trong nước cũng như
xuất khẩu.
Giấy Bãi Bằng đã có nhiều đóng góp cho nền kinh tế đất nước và phát
triển kinh tế địa phương. Thông qua đóng góp ngân sách, giảm nhập khẩu hàng
hố, kích thích sản xuất nguyên liệu, góp phần xóa đói giảm nghèo cho nơng
dân các tỉnh trung du, miền núi phía bắc; hình thành một số ngành cơng nghiệp,
tiểu thủ cơng nghiệp liên quan đến sản xuất và gia công chế biến các sẩn phẩm
từ giấy, nhà máy đã tham gia giải quyết việc làm cho hàng vạn lao động xã hội
Bài luận văn này là một thử nghiệm nghiên cứu định lượng về tình hình sản
xuất kinh doanh của cơng ty Giấy Bãi Bằng nay là Tổng công ty Giấy Việt Nam.
Số liệu được lấy từ nhà máy Giấy của Tổng công ty. Số liệu trên được tổ chức
thành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổng
công ty trong ba năm 2006, 2007 và 2008. Bằng các phương pháp thống kê thích
hợp, luận văn này sẽ phác thảo một phần thực trạng sản xuất tại Tổng công ty
trong ba năm trên.
Sau lời mở đầu, luận văn này sẽ có 3 chương và danh mục tài liệu tham
khảo. Chương 1 sẽ trình bày về mục đích nghiên cứu của luận văn. Chương 2
dành để giới thiệu cơ sở lý thuyết của các phương pháp phân tích thống kê được



sử dụng trong q trình phân tích số liệu. Chương 3 đưa ra các kết quả phân tích
trong hoạt động sản xuất của Tổng cơng ty, tìm ra những điểm bất hợp lý trong
việc phối hợp các thành phần nguyên vật liệu, đề xuất phương án sử dụng
nguyên vật liệu tiết kiệm hơn cho quá trình sản xuất. Tại đây các phương pháp
thống kê được áp dụng một cách phù hợp để đưa ra những kết luận có tính
thuyết phục, đảm bảo tính khoa học. Phần cuối của chương 3 đã đề xuất một số
kiến nghị đối với ban lãnh đạo của Tổng công ty về việc phối hợp sử dụng các
nguyên vật liệu một cách thích hợp trong quá trình sản xuất để nâng cao hiệu
quả sản xuất kinh doanh.
Luận văn này được hồn thành tại Viện Tốn học, Viện Khoa Học Công
Nghệ Việt Nam dưới sự hướng dẫn của Tiến sỹ Hồ Đăng Phúc. Tôi xin được
bày tỏ lòng biết ơn sâu sắc đối với sự quan tâm chỉ dẫn đầy nhiệt tình của thầy.
Tơi xin chân thành cảm ơn các thầy trong Ban lãnh đạo Viện Toán học, các
thầy, cô tham gia giảng dạy lớp cao học khóa 15, cùng các thầy cơ ở Trung tâm
đào tạo sau đại học của Viện Toán học đã giúp đỡ tôi trong suốt thời gian học
tập. Tôi cũng xin giửi lời cảm ơn tới các anh chị em cao học khóa 15, nhóm
Semina Xác suất Thống kê, cùng các bạn đồng nghiệp và gia đình đã nhiệt tình
đóng góp ý kiến, động viên, giúp đỡ tơi trong suốt q trình học tập và hồn
thành luận văn.
Đặc biệt, tơi xin giửi lời cảm ơn sâu sắc tới Lãnh đạo Tổng công ty giấy
Việt Nam, lãnh đạo và các anh em trong nhà máy giấy đã nhiệt tình và nghiêm
túc cung cấp những dữ liệu chính xác quý báu, mà nếu thiếu nguồn số liệu này
thì nghiên cứu của tơi khơng thể thực hiện được.
Tuy đã có nhiều cố gắng nhưng bản luận văn này cũng khơng tránh khỏi
những thiếu sót, tác giả rất mong có được sự tham gia đóng góp ý kiến của các
thầy cô giáo, các nhà nghiên cứu Xác suất Thống kê, nghiên cứu kinh tế và các
độc giả quan tâm đến bản luận văn này.
Hà Nội, ngày 25 tháng 08 năm 2009
Lã Phan Trúc Quỳnh
2



Chương 1

MỤC TIÊU NGHIÊN CỨU
Quá trình sản xuất bao gồm hai cơng đoạn chính là cơng đoạn sản xuất bột giấy
và công đoạn sản xuất giấy. Trước tiên ta sẽ đề cập đến công đoạn sản xuất bột
giấy với chức năng gia công các loại nguyên liệu thô (gỗ, tre nứa, v.v.) thành bột
giấy, làm nguyên liệu đầu vào cho cơng đoạn sản xuất giấy tiếp sau đó.
1. Quy trình sản xuất bột giấy
Quy trình sản xuất bột giấy được tóm tắt thành sơ đồ khối trong Hình 1.1.
Hình 1.1 Sơ đồ khối của quá trình sản xuất bột giấy
Mảnh

nước
dịch trắng

Nồi nấu

Bể chứa
dịch trắng

Bùn vơi

lọc dịch
trắng

Rửa bùn
vơi
Bể chứa

dịch yếu

Tháp
phóng

Lọc bùn
vơi

Bể xút hóa

Vơi

Rửa bột

Bột

Tơi vơi

Lị vơi

dịch đen

Bể hịa
lỗng dịch
đen

Bể chứa
dịch xanh
nước
cặn


Chưng bốc
dịch đen

Lọc dịch
xanh

Rửa cặn
Cặn

dịch xanh

Bể chứa
dịch đen
đặc

Nồi hơi
thu hồi

nóng chảy

3

Bể hịa tan dịch yếu
dịch nóng
chảy

Bể dịch
yếu



Dăm mảnh (gỗ) sau khi được xử lý một cách thích hợp sẽ được chuyển đến nồi
nấu. Ở đây, dăm mảnh sẽ được gia công nhiệt, thẩm thấu dịch bằng nhiệt độ.
Bột được nấu chín được chuyển sang tháp phóng bột, từ tháp phóng bột bột
được chuyển sang khu vực rửa bột. Bột sau khi được rửa sẽ chuyển sang khu
vực sản xuất giấy.
Hình 1.2 Sơ đồ cơng nghệ hệ thống chuẩn bị bột
Bể bột
giấy rách
thu hồi

Bể chứa bột hỗn
hợp tẩy trắng MC

Bể chứa bột

Cô đặc

Nghiền đĩa
DD

Bể chứa bột

Bể chứa bột
đã nghiền

Đánh tơi, nghiền
(kiểu vít ép)

Máy làm

sạch HD

Phụ gia
Bể
phối trộn

hệ thống tiếp cận

Toàn bộ nước rửa bột (dịch đen) sẽ được thu hồi vào bể dịch đen loãng. Dịch
đen sẽ được chuyển đến các tháp chưng bốc để cô đặc đến nồng độ thích hợp.
Sau khi được cơ đặc dịch đen được chuyển đến bể chứa dịch, rồi được chuyển
đến nồi hơi thu hồi. Ở nồi hơi thu hồi, dịch đen được đun để tạo thành dịch nóng
chảy và tạo ra hơi. Hơi sẽ được chuyển sang khu vực sản xuất giấy để sử dụng
tiếp.
4


Dịch nóng chảy sẽ được hịa tan và chuyển thành dịch xanh. Dịch xanh sau khi
được lọc sẽ được chuyển vào bể chứa dịch xanh. Bước tiếp theo, cho dịch xanh
vào tôi cùng với vôi ta thu được dịch trắng. Chuyển dịch trắng sang bể xút hóa,
tiếp theo dịch trắng sẽ được lọc cặn để thu được dịch trắng sạch. Dịch trắng sạch
lại dùng vào để nấu bột thay cho dịch nấu.
Hình 1.3 Sơ đồ hệ thống tiếp cận và máy xeo
MÁY XEO

Phần sấy
sau tráng

Cán 3 lơ


Dịch tráng
Hồn thành
Bể bột trước xeo

Cuộn giấy Φ 3000

Bộ tráng phấn

Tháp điều tiết bột

Phần sấy
trước tráng

Máy làm sạch cấp 1

Bể bột + bơm quạt

Bộ phận lưới

Máy làm sạch cấp 2

Sàng áp lực cấp 1

Hòm phun bột

Máy làm sạch cấp 3

Sàng áp lực cấp 2

Bộ phận ép


Máy làm sạch cấp 4

Dịch trắng sau khi được lọc sẽ thải ra cặn (bùn vôi). Bùn vôi được mang đi rửa
rồi lọc, tiếp theo sẽ được chuyển vào lị vơi để tơi thành đá vơi và lại mang đi tôi
cùng dịch xanh.
5


Cơng nghệ giấy ở đây là một vịng tuần hồn khép kín, lượng thải ra mơi trường
khơng đáng kể, lợi nhuận của nhà máy giấy là lớn nếu ta làm tốt các cơng đoạn
thu hồi dịch.
2. Quy trình sản xuất giấy
Q trình sản xuất giấy, sử dụng bột giấy có được từ công đoạn trên đây (hoặc
được mua từ các nguồn khác) để sản xuất thành các loại giấy thành phẩm, được
tiến hành thông qua các giai đoạn chuẩn bị bột giấy và giai đoạn xử lý bằng hệ
thống tiếp cận và máy xeo. Các giai đoạn này được tóm tắt thành sơ đồ khối
trong các Hình 1.2 và 1.3.
Trong giai đoạn đầu, bột giấy được chuyển sang hệ thống chuẩn bị bột để được
nghiền. Bột giấy sau khi được nghiền sẽ có các thơng số về đặc tính thích hợp
với loại bột định sản xuất như độ thoát nước, kích thước sơ sợi, ... Lúc đó, bột
giấy sẽ được chuyển sang hệ thống tiếp cận và máy xeo.
Tại hệ thống tiếp cận, bột giấy sẽ được làm sạch nhiều cấp. Sau khi làm sạch,
bột chuyển sang bộ phận sàng để sàng lấy những bột hợp cách, tiếp theo bột hợp
cách được chuyển sang máy xeo để làm thành giấy thành phẩm và giấy thành
phẩm được chuyển sang khu vực hồn thành để gia cơng thành các sản phẩm
bán ra thị trường.
3. Mục đích nghiên cứu
Mục tiêu nghiên cứu của bản luận văn này là xác định trong các nguyên vật liệu
đưa vào sản xuất bột giấy hoặc sản xuất giấy những nguyên vật liệu nào có tác

động ảnh hưởng chính đến q trình sản xuất, từ đó có ảnh hưởng đến doanh thu
trong hoạt động sản xuất kinh doanh của Tổng cơng ty. Qua việc phân tích xử lý
số liệu, xem xét trong quá trình sản xuất của Tổng cơng ty có yếu tố nào là bất
hợp lý trong việc phối hợp dùng các nguyên vật liệu để đưa ra các kiến nghị sử
dụng định mức tiết kiệm nguyên vật liệu, giúp Tổng công ty xây dựng các
phương án điều hành hợp lý, có thể hạ giá thành sản xuất, hạ giá thành sản phẩm
và làm cho hoạt động kinh doanh của Tổng cơng ty có hiệu quả hơn.
6


4. Mô tả số liệu
Nghiên cứu thực hiện trên bộ số liệu được thu thập tại nhà máy giấy Bãi Bằng.
Số liệu được lấy từ nhà máy Giấy của Tổng công ty. Số liệu trên được tổ chức
thành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổng
công ty trong ba năm 2006, 2007 và 2008. Mỗi tuần Tổng công ty sản xuất một
lơ bột giấy và một lơ giấy có thơng số kỹ thuật khác nhau là bột giấy trắng cao,
bột giấy trắng thấp, giấy trắng cao và giấy trắng thấp.
Bảng 1.1. Danh sách các biến sử dụng trong quá trình phân tích
Q trình sản xuất bột giấy
Tên biến
Mơ tả biến
NlieuthoTB
Ngun liệu thơ trung bình
TreTB
Khối lượng tre trung bình
BodeTB
Khối lượng bồ đề TB
BdanTB
Khối lượng bạch đàn TB
VoiTB

Khối lượng vơi trung bình
CloTB
Khối lượng Clo trung bình
H2O2TB
Khối lượng H2O2 TB
Na2SO4TB
Khối lượng Na2SO4 TB
OxyTB
Khối lượng Oxy trung bình
CphabotTB
Lượng chất phá bọt TB
CPTNhuatTB
Lượng chất phân tán nhựa
trung bình
CDCanTB
Lượng chất đóng cặn TB
DienTB
Khối lượng điện trung bình
HoiTB
Khối lượng hơi trung bình
NuocTB
Khối lượng nước TB
XuTCTB
Khối lượng xút trung bình

Qúa trình sản xuất giấy
Tên biến
Mơ tả biến
botgiaytb
Khối lượng bột giấy trung bình (TB)

botgiaytsxtb Khối lượng bột giấy tự sản xuất TB
botngoaitb
Khối lượng bột giấy ngoại TB
keoakdtb
Khối lượng keo akd trung bình
betonittb
Khối lượng betonit trung bình
botdatb
Khối lượng bột đá trung bình
tinhbottb
Khối lượng tinh bột trung bình
botbemattb
Khối lượng bột bề mặt trung bình
chatbaoluutb Khối lượng chất bảo lưu trung bình
keopvatb
Khối lượng Oxy trung bình
phammautb Khối lượng phẩm màu trung bình
tangtrangtb
luoitrongtb
luoingoaitb
luoidaitb
chaf1tb
chaf2tb
chaf3tb
dientb
hoitb
nuoctb

Khối lượng chất tăng độ trắng TB
Số lưới trong trung bình

Số lưới ngồi trung bình
Số lưới dài trung bình
Số chăn F1 trung bình
Số chăn F2 trung bình
Số chăn F3 trung bình
Khối lượng điện trung bình
Khối lượng hơi trung bình
Khối lượng nước trung bình

Trong các năm Tổng cơng ty đều có thời gian ngừng sản xuất để sửa chữa bảo
dưỡng máy móc nên số liệu thu được cụ thể là ở năm 2006 là 42 tuần tương ứng
với 42 lô bột giấy và 42 lô giấy. Năm 2007 Tổng công ty sản xuất trong 47 tuần
ứng với 47 lô bột giấy và 47 lô giấy. Đối với năm 2008 số lô bột giấy và số lô
giấy đã sản xuất được đều là 48 lô. Khối lượng sản phẩm của từng lô bột giấy
7


hay từng lô giấy cũng không giống nhau. Sau khi thu thập số liệu, để tiến hành
nghiên cứu phân tích số liệu đã có, chúng ta lấy số nguyên liệu đưa vào trong
sản xuất từng lô bột giấy hay lô giấy chia cho sản lượng từng tuần để được số
nguyên vật liệu trung bình để sản xuất 1 tấn bột giấy hoặc 1 tấn giấy tương ứng.
Các biến được sử dụng trong phân tích q trình sản xuất 1 tấn bột giấy hoặc 1
tấn giấy được cho trong Bảng 1.1.
5. Phương pháp phân tích
Trước hết, chúng ta sử dụng phương pháp nghiên cứu thành phần chính để xem
trong tổ hợp các nguyên liệu đưa vào sản xuất bột giấy và giấy, tìm ra những
yếu tố nào là yếu tố chi phối chủ đạo trong quá trình sản xuất.
Tiếp theo, chúng ta sẽ tách riêng hai loại bột giấy và giấy có thơng số kỹ thuật
khác nhau là bột trắng cao, bột trắng thấp, giấy trắng cao, giấy trắng thấp và tách
riêng từng năm, dùng phép kiểm định t – Student để so sánh giá trị trung bình

của các nguyên liệu đầu vào xem có gì khác nhau hay khơng, từ đó tìm ra các
yếu tố chưa hợp lý trong q trình sản xuất của Tổng cơng ty.
Từ việc tìm ra những yếu tố chưa hợp lý trong quá trình sản xuất nói trên, chúng
ta sẽ đưa ra kiến nghị về tiêu chuẩn sử dụng các nguyên vật liệu để vừa đảm bảo
chất lượng cho quá trình sản xuất vừa tiết kiệm được nguyên vật liệu từ đó có
thể giúp Tổng công ty hạ giá thành sản xuất, hạ giá thành sản phẩm giúp hoạt
động kinh doanh của Tổng công ty có hiệu quả hơn.
Trong tính tốn để đưa ra định mức kiến nghị đối với các chất phụ gia, khoảng
tin cậy 95% của giá trị trung bình của từng chất phụ gia được dùng để xác định
mức tối đa của từng chất phụ gia dùng sản xuất 1 tấn bột giấy hay 1 tấn giấy.

8


CHƯƠNG 2

CƠ SỞ LÝ THUYẾT CỦA CÁC PHƯƠNG PHÁP
PHÂN TÍCH THỐNG KÊ
I. Phương pháp phân tích thành phần chính
1. Giới thiệu bài tốn phân tích thành phần chính
Khi nghiên cứu tổng thể bao gồm các cá thể mang nhiều đặc trưng khác nhau,
người ta có thể áp dụng hai cách tiếp cận gọi là phân tích dọc và phân tích
ngang. Phân tích dọc có mục đích chỉ ra các đặc tính hay dấu hiệu khác nhau tồn
tại trong tổng thể có quan hệ với nhau như thế nào, trong khi phân tích ngang lại
nghiên cứu cá thểvới những dấu hiệu nói trên trong các mối quan hệ xét theo
từng cặp hay trong những nhóm cá thể. Hãy xét một thí dụ sau: Các doanh
nghiệp vừa và nhỏ ở thành phố A thường được xem xét như những cá thể của
một tổng thể. Để mô tả một doanh nghiệp người ta dùng 4 chỉ tiêu
-


Giá trị tài sản cố định,

-

Lượng lao động thường xuyên được sử dụng,

-

Tỷ lệ lợi nhuận thô,

-

Lương tháng bình quân của người lao động.

Rõ ràng là hệ thống các chỉ tiêu này có thể dùng so sánh các doanh nghiệp và nó
có thể cho biết các quan hệ giữa chính các chỉ tiêu này trong phạm vi đang xét,
chẳng hạn lượng lao động và giá trị tài sản cố định quan hệ chặt chẽ với nhau và
cùng chiều nhưng có thể giá trị tài sản cố định và lương bình quân quan hệ cũng
rất chặt chẽ nhưng lại ngược chiều. Điều đó có thể đúng với các doanh nghiệp
vừa và nhỏ ở thành phố A mà không đúng với các doanh nghiệp vừa và nhỏ ở
thành phố B.
Về phía các doanh nghiệp, với những chỉ báo cụ thể nó trên người ta có thể và
rất muốn định vị các doanh nghiệp vừa và nhỏ thành phố A từ đó thấy được sự
khác biệt của mỗi doanh nghiệp so với doanh nghiệp khác.
9


Để làm được các phân tích trên người ta có thể có thể dùng các phương pháp
phân tích tương quan nhiều chiều, tuy nhiên điều đó hầu như khơng giải quyết
được bằng các công cụ thông thường. Việc giải quyết bài toán trên dựa trên tư

tưởng cơ bản sau đây:
Mỗi cá thể coi như một phần tử của tổng thể (P) với số phần tử (M) hữu hạn hay
vô hạn, mỗi chỉ tiêu coi như một biến, một số đo hay một đặc trưng của cá thể.
Mỗi cá thể được xác định bởi một véc tơ p chiều mà mỗi thành phần của véc tơ
đó là giá trị của một biến.
Trong nghiên cứu tổng thể với các biến như trên, nhiều khi người ta cần tìm
cách tổ hợp của các biến, tức là tổ hợp p véc tơ M chiều, lại thành các véc tơ đôi
một trực giao. Mỗi véc tơ này coi là một thành phần hay một biến mới, đo lường
các cá thể trên một mặt nào đó. Với số tổ hợp xác định trước, chúng ta thu được
một hệ thống chỉ báo (nói chung khơng có thực). Trong hệ thống này, mỗi chỉ
tiêu ban đầu, cũng là mỗi biến ban đầu, có phần đóng góp của mình tạo nên các
chỉ báo đó.
Chẳng hạn với p tiêu thức (biến) ban đầu ta lập
Yk = uk1 X1 + uk2X2 + ..... + ukpXp.
Mỗi bộ số (véc tơ) uk xác định một biến yk và tương ứng với Yk ta có các giá trị
tương ứng của các cá thể.
Mỗi cá thể có thể được biểu diễn bởi một véc tơ mới mà mỗi thành phần của véc
tơ này là hệ số phân tích qua một biến mới (gọi là một thành phần chính). Nhờ
đó, ta có thể mơ tả được quan hệ giữa các cá thể đó.
Thí dụ. Trong thí dụ này các thành phần chính sẽ khơng hình thành theo một tiêu
chuẩn khách quan mà hình thành theo ý tưởng chủ quan của người thiết kế.
Trong Bảng 1.a là số liệu của 13 nước với các chỉ tiêu: P là tổng số dân (1000
người), F là mật độ dân số (người/km2) và U là tỉ lệ dân thành thị.

10


Bảng 1.a. Số dân, mật độ dân số và tỷ lệ dân thành thị

P

20500
33900
3700
17800
8000
7400
600
125000
256
10300
10100
7900

Afghanistan
Argentina
Armenia
Australia
Austria
Azerbaijan
Bahrain
Bangladesh
Barbados
Belarus
Belgium
Bolivia

E
25.0
12.0
126.0

2.3
94.0
86.0
828.0
800.0
605.0
50.0
329.0
6.9

U
18
86
68
85
58
54
83
16
45
65
96
51

Giả sử có hai tiêu chuẩn nhân khẩu học được áp dụng để phân tích các tiêu thức
cũng như các quốc gia này. Các trọng số để xây dựng hai tiêu chuẩn đó được ấn
định như trong Bảng 1.b.
Bảng 1.b. Trọng số xác định các tiêu thức nhân khẩu học mới

Quan điểm 1

Quan điểm 2

P
-0,15
-0,2

F
0,05
-0,1

U
0,25
0,40

Các trọng số này khơng xuất phát từ chính số liệu mà xuất phát từ quan niệm
chủ quan (sau này ta sẽ mô tả cách xác định chúng một cách khách quan theo
những chuẩn mực nhất định)
Mỗi quốc gia được mô tả bởi 1 véc tơ 2 chiều S = [S(1), S(2)] với
S(1) = - 0,15P + 0,05F + 0,25U
S(2) = - 0,20P - 0,10F + 0,40U
Trong không gian hai chiều (S1, S2) ta có thể mơ tả các biến. Mỗi biến tương
ứng là 1 véc tơ n chiều: P, F, U. Để đánh giá mối quan hệ giữa các tiêu chuẩn
mới lập với các tiêu thức ban đầu, người ta tính các hệ số tương quan (rPS1,
rPS2); (rFS1, rFS2) ; (rUS1, rUS2). Mỗi cặp hệ số này xác định 1 điểm trong
siêu phẳng tạo bởi S1 và S2. Với thí dụ này ta có vị trí của các biến P, F, U như
trong Hình 1.a.
11


Bảng 1.c. Số liệu nhân khẩu học theo các tiêu thức ban đầu và tiêu thức mới


P
20500
33900
3700
17800
8000
7400
600
125000
256
10300
10100
7900

Afghanistan
Argentina
Armenia
Australia
Austria
Azerbaijan
Bahrain
Bangladesh
Barbados
Belarus
Belgium
Bolivia

E
25.0

12.0
126.0
2.3
94.0
86.0
828.0
800.0
605.0
50.0
329.0
6.9

U
18
86
68
85
58
54
83
16
45
65
96
51

S1
-3069.25
-5062.9
-531.7

-2646.64
-1180.8
-1092.2
-27.85
-18706
3.1
-1526.25
-1474.55
-1171.91

S2
-4095.3
-6746.8
-725.4
-3526.23
-1586.2
-1467
-169.6
-25073.6
-93.7
-2039
-2014.5
-1560.29

Nếu dùng SPSS để thành lập các tiêu thức mới thay cho các thành lập mang tính
chủ quan trên đây, ta sẽ có biểu diễn của các tiêu thức ban đầu trên mặt phẳng
của hai tiêu thức mới trong Hình 1.b.
Với kết quả này ta giải thích ý nghĩa các véc tơ S1, S2 dễ dàng hơn. Vì U nằm
sát trục S1, cịn F nằm gần trục S2, nên có thể xem S1 là tỉ lệ dân cư thành thị và
S2 là mật độ dân số. Ở phần sau, khi đã được cung cấp đầy đủ hơn về cơ sở lý

thuyết, chúng ta sẽ nói rõ thêm về cách phân tích đối với các thnh phn chớnh.

vị TRí CáC BIếN
0.60
0.40

U

0.20
-1.5

0.00

-0.5

-1

-0.20

f

0.5

-0.40
-0.60
-0.80

p

-1.00

-1.20

Hỡnh 1.a. Cỏc bin ban đầu trong mặt phẳng xác định bởi hai tiêu thức mới

12


f

1.0
p
5

u

Component 2

0.0

-5

-1.0
-1.0

-5

0.0

5


1.0

Component 2

Hình 1.b. Các biến ban đầu trong mặt phẳng của hai tiêu thức mới do SPSS tạo ra

Kỹ thuật phân tích thành phần chính là một bộ phận của phân tích nhân tố. Phân
tích nhân tố nói chung và phân tích thành phần chính nói riêng, được sử dụng
cho phân tích những số liệu lớn. Về mặt cơng cụ, đối với kỹ thuật này người ta
cần sử dụng các phép biến đổi trong khơng gian tuyến tính. Đặc biệt, các kỹ
thuật liên quan đến véc tơ riêng và giá trị riêng của ma trận đối xứng xác định
dương sẽ là công cụ yếu tố không thể thiếu trong việc xác định các thành phần
chính, các nhân tố chính cũng như các thành phần khác trong phương pháp này.
Cũng chính vì lý do này, người ta chỉ có thể thực hiện các mơ hình phân tích
nhân tố cho các bộ số liệu cỡ lớn khi có sự hỗ trợ của các phần mềm thống kê
chuyên dụng.
2. Bài toán phân tích nhân tố trong khơng gian 2 và 3 chiều
Hãy xem xét trường hợp có hai biến X và Y được quan sát trên n cá thể. Phương
pháp thống kê tốn học cung cấp lý thuyết phân tích tương quan để xem xét mối
quan hệ của hai biến ngẫu nhiên. Mỗi cá thể Ai có thể mơ tả bởi một điểm trong
R2 nhờ các tọa độ (xi, yi) như trong các biểu đồ ở Hình 2.a.
Hình 2.a bên trái cho thấy sự khác nhau giữa hai đối tượng A1 và A2 có thể đặc
trưng bằng khoảng cách d(A1,A2) giữa hai điểm A1 và A2 trên đồ thị. Tuy
13


nhiên khi chiếu vng góc lên trục x (khơng quan tâm đến y) thì khoảng cách
này gần hơn khi chiếu vng góc lên trục y và cả hai khoảng cách sau phép
chiếu đề nhỏ hơn d(A1,A2), nói chính xác hơn là d2(A1A2) = d2(x1,x2) + d2 (y1,
y2). Nói một cách khác, khi chỉ dùng một yếu tố là x hoặc y để xem xét sự khác

biệt giữa hai đối tượng A1 và A2 thì một phần thơng tin đã bị mất đi. Nếu khơng
muốn mất thơng tin thì tốt nhất là chọn một đường thẳng song song với đường
thẳng đi qua A1, A2. Khi chiếu vng góc hai điểm này lên đường thẳng như
vậy khoảng cách ảnh bằng khoảng cách ban đầu.
y

y

y1
y1

A1

A1

z1
y2
A2
A2

y2

z2

x1

x2

x


0

w1

x1

w2

x2

x

Hình 2.a. Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng

Hình 2.a bên phải cũng cho kết luận tương tự, nhưng có thể chứng tỏ rằng theo
các toạ độ ban đầu khi trục Ox khơng vng góc với trục Oy thì
d2(A1A2)=d2(x1,x2)+d2(y1,y2)=d2(u1,u2)+d2(w1,w2) - 2 d2(u1,u2)(w1,w2)cosin(xOy)
Như vậy nếu muốn phản ánh sát nhất liên hệ của hai cá thể A1 và A2, cần phải
chọn một trục sao cho khoảng cách của các hình chiếu xấp xỉ tốt nhất khoảng
cách ban đầu. Với n > 2 cá thể, ý tưởng trên dẫn đến yêu cầu bảo toàn tối đa sự
khác biệt của các cá thể khi xét trên cả p tiêu thức.
Để có thể tưởng tượng rõ ràng hơn cách tiếp cận này chúng ta xét trường hợp
các cá thể trong không gian ba chiều R3. Giả sử mỗi cá thể được đặc trưng bởi 3
tiêu thức X1, X2, X3 và xét hai cá thể Ai, Aj được mô tả bởi hai điểm trong R3.

14


Gọi ∆1 và ∆2 là hai đường thẳng trực giao tạo nên mặt phẳng (F), hãy xem xét
phép chiếu trong Hình 2.b.

Ai

2

Aj

fi
fj

c2i

c2j

c1i

c1j

1

(F)

Hình 2.b. Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng

Khoảng cách của ảnh Ai, Aj sau phép chiếu là khoảng cách d2(fi, fj). Khoảng
cách này có thể xác định như sau:
d2(fi, fj) = d2(c1i,c1j) + d2(c2i, c2j) <= d2 (Ai, Aj)
Như vậy nếu chọn một trục để chiếu ta sẽ chọn trục nào có khoảng cách hai tọa
độ chiếu lớn hơn. Tổng quát, đối với trường hợp có n điểm, ta cần chọn các trục
∆1, ∆2 sao cho trung bình của tổng bình phương các khoảng cách giữa các điểm
fi ảnh của Ai là lớn nhất.

3. Bài tốn trong khơng gian p chiều
Xét bài tốn trong trường hợp mỗi cá thể có thể xem xét qua p chỉ tiêu. Một hệ
trục tọa độ của không gian p chiều gồm các trục: ∆1, ∆2,… ∆p đơi một trực giao
có thể được hình thành nhờ việc chọn lần lượt các trục ∆1, ∆2 .... theo thứ tự
giảm dần của tổng bình phương các khoảng cách của các hình chiếu. Việc lựa
chọn số chiều khơng gian chiếu phụ thuộc vào nhiều yếu tố khác nhau, như mức
phân tán trong các mối quan hệ của p tiêu thức ban đầu, u cầu về bảo tồn
thơng tin, ...
Tuy vậy, với ý muốn quan sát được số liệu một cách trực quan, người ta có thể
cố gắng bảo tồn thông tin ở mức chấp nhận được với số chiều không gian nhỏ
15


nhất. Người ta luôn hướng tới tới không gian 2 chiều hay 3 chiều, vì trong các
khơng gian này việc mơ tả hình học khá thuận tiện đối với người sử dụng.
Trong phân tích nhân tố người ta sử dụng các khái niệm sau:
+ Mỗi véc tơ ∆i gọi là một trục chính của đám mây số liệu ban đầu.
+ Mỗi điểm Ai chiếu lên p trục chính sẽ có p giá trị tương ứng, các giá trị này lập
nên véc tơ Ci trong không gian p chiều.
+ Với n cá thể (n điểm) Ai, Aj, .....An, ta có ma trận C = (cij). Mỗi cột của ma trận
này là một véc tơ trong Rn , được gọi là một thành phần chính.
+ Mỗi thành phần chính Ck có thể biểu diễn qua các cột tương ứng với các tiêu
thức ban đầu (Xi) dưới dạng: Ck = uk1X1 + ...... + ukpXp
Véc tơ các hệ số tổ hợp nối trên (Uk) được gọi là nhân tố chính thứ k.
Trường hợp bản thân các tiêu thức ban đầu hoàn toàn độc lập, phân tích này
cũng cho phép lựa chọn một khơng gian có số chiều ít hơn mà qua đó việc mô tả
mối liên hệ của các cá thể bị sai lệch ít nhất. Trong trường hợp các tiêu thức ban
đầu khơng độc lập, ta có kết quả tốt hơn rất nhiều, đó là tìm được cách diễn đạt
mỗi cá thể qua các tiêu thức hoàn toàn độc lập với nhau.
Tuy nhiên, khó khăn ở đây chính là ban đầu mỗi cá thể được thể hiện qua p tiêu

thức quan sát được, nhưng kết quả mỗi cá thể thể hiện qua q tiêu thức không
quan sát được. Việc xác định ý nghĩa kinh tế, xã hội của các tiêu thức này ln
khó khăn đối với người thực hành
Ngồi phương pháp phân tích thành phần chính, một sơ phương pháp khác như
phân tích tương ứng, phân tích tương quan chính tắc, phân nhóm, ... cũng được
xây dựng trên ý tương cơ bản đã trình bày trên đây.
4. Biểu diễn số liệu
Trước tiên ta đề cập tới việc biểu diễn số liệu trong các phân tích thống kê nhiều
chiều nói chung và trong phân tích nhân tố nói riêng. Thơng thường việc biểu

16


diễn các số liệu nhiều chiều được trình bầy dưới ngôn ngữ véc tơ và ma trận
trong các không gian tuyến tính thực.
a. Số liệu và các đặc trưng
i - Bảng số liệu
Giả sử có n quan sát (n cá thể lập nên 1 mẫu), mỗi quan sát có p tiêu thức (biến).
Số liệu đó có thể trình bầy trong bảng sau:
 x11 K x1 p 


X = M O
M
x

 n1 L xnp 
Gọi X*i là dòng thứ i của x với các phần tử xi1, xi2 .... xip. Đó là véc tơ các giá trị
của các biến quan sát được ở cá thể thứ i . Một dòng của X cịn có thể gọi một
cách ngắn gọn là một cá thể.

- Xj là là cột thứ j của X nó bao gồm các giá trị của một biến tại tất cả các cá thể.
Một cột của X có thể gọi là một biến hay một tiêu thức.
Như vậy, mỗi cá thể biểu hiện bằng một véc tơ dòng p chiều, mỗi tiêu thức thể
hiện qua n cá thể bởi một véc tơ cột n chiều.
ii – Ma trận trọng số
Nếu như mỗi dòng của X tương ứng duy nhất 1 cá thể thì trọng số của các cá thể
như nhau và có thể lấy bằng 1/n. Tuy nhiên, thực tế có thể một dịng của X ứng
với một số cá thể nào đó, như vậy để thể hiện đúng vai trị của đám đơng trong
phân tích thống kê ta có thể đặt cho mỗi dịng (mỗi cá thể đại diện) một trọng số
pi. Các trọng số như vậy có thể mô tả bởi một ma trận gọi là ma trận trọng số
như sau:
 p1

D=
O
0


17

0



pn 



Các trọng số này thông thường là các tần suất dịng trong bảng số liệu thơ. Mỗi
dịng chỉ mang thơng tin của một cá thể thì có thể viết D = E trong đó E là ma

trận đơn vị cấp n.
iii - Điểm trung bình (trung tâm) của đám mây số liệu và ma trận quy tâm
Mỗi dòng của X có thể xem là một điểm trong khơng gian R p, n điểm tạo nên
một tập hợp gọi là một đám mây số liệu, ta gọi véc tơ trung tâm của X hay điểm
trung tâm của đám mây này là g thì g có thể tính như sau:
g = XTDI,
trong đó I là véc tơ có tất cả các thành phần bằng 1 trong không gian R n. Dễ
dàng kiểm tra thấy g là một véc tơ p chiều. Chẳng hạn cho ma trận X ở Bảng 2.a
với các biến
X1 = tuổi thọ trung bình
X2 = tỷ lệ tăng dân số
X3 = tỷ lệ chết trẻ em
X4 = GDP/đầu dân cư
Bảng 2.a. Số liệu nhân khẩu học theo các tiêu thức ban đầu

i
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Tæng

X1
44

75
75
80
79
75
74
53
78
76
709

X2
2.8
1.3
1.4
1.4
2
1.4
2.4
2.4
2
3
13.8

X3
168.0
25.6
27.0
7.3
6.7

35.0
25.0
106.0
20.3
19.0
439.9

X4
205
3408
5000
16848
18396
3000
7875
202
6950
6500
68384

Giả sử các số liệu này thống kê ở 10 nước khác nhau. Ta chọn các trọng số đều
là 0,1. Véc tơ trung tâm của đám mây số liệu có các thành phần là trung bình

18


của các thành phần trung bình của các quan sát. Véc tơ chuyển vị của véc tơ
trung tâm là
gT = (70.9, 1.38, 43.99, 6838.4)
Việc quy tâm hóa đám mây số liệu thực hiện bằng cách lập các véctơ chênh lệch

của các cá thể với véc tơ g qua việc lập ma trận
Y = X - IgT

(gT là chuyển vị của g)

Trong thí dụ trên tích IgT là một ma trận có n dịng (n = 10) như sau:
70.9
70.9

70.9

70.9
70.9

70.9
70.9

70.9
70.9

70.9


1.38
1.38
1.38
1.38
1.38
1.38
1.38

1.38
1.38
1.38

43.99
43.99
43.99
43.99
43.99
43.99
43.99
43.99
43.99
43.99

6838.4 
6838.4 

6838.4 

6838.4 
6838.4 

6838.4 
6838.4 

6838.4 
6838.4 



6838.4 

Từ đó, thực hiện phép trừ ma trận Y
 −26,9
 4.1

 4.1

 9.1
 8.1
Y= 
 4.1
 3.1

 −17.9
 7.1

 5.1


1.42
−0.08
0.02
0.02
−1.18
0.02
1.02
1.02
−1.18
−1.08


124.01
−18.39
−16.99
−36.69
−37.29
−8.99
−18.99
62.01
−23.69
−24.99

−6633.4 
−3430.4 

−1838.4 

10009.6 
11557.6 

−3838.4 
1036.6 

−6636.4 
111.6 

−338.4 


Ma trận này mô tả thô sự khác biệt hay sự phân tán của các cá thể so với mức

trung bình.
iv – Ma trận hiệp phương sai và ma trận hệ số tương quan

19


Rõ ràng ma trận Y trên đây chưa cung cấp một đặc trưng rõ ràng về sự khác biệt
giữa các đối tượng. Một cách thơng thường nếu Y chỉ có hai dòng thi khoảng
cách của hai véc tơ này (được định nghĩa theo một cách nào đó) sẽ cho một độ
đo về sự khác biệt. Trong trường hợp tổng quát hồn tồn có thể làm tương tự
như vậy, chỉ có khác là chúng ta không thể dùng một số thực để đo sự khác biệt
giữa nhiều cá thể mà phải dùng một ma trận. Dễ dàng thấy việc đo sự khác biệt
giữa các dịng của ma trận Y hồn tồn tương đương với việc tìm cách đo sự
khác biệt của các dịng của X. Sau đây trở lại với chính ma trận X và thấy rõ hơn
vai trò của Y.
Đặc trưng quan trọng nói lên mức phân tán của mỗi biến và độ liên hệ giữa
chúng là ma trận hệ số tương quan và ma trận hiệp phương sai. Các ma trận này
có thể tính như sau:
+ Ma trận hiệp phương sai
Với các trọng số 1/n ta có thể tính ma trận hiệp phương sai V theo công thức
V = XT D X - ggT
Một cách tổng quát, các phần tử của V = XT D X - ggT được tính qua biểu thức
n

qij = ∑ pk xki xkj ,
k =1

véc tơ trung tâm g cũng được tính theo trọng số như sau:
n


g j = ∑ pi xij .
k =1

Với ví dụ trong Bảng 2a ta có ma trận hiệp sai V là
−7672
−561.821 44687.44 
 13289
 −7.672
0.8056
31.9138 −2817.43 


V= 
−561.821 31.9138 2421.443 −191741 


 44687.44 −2817.43 −191741 35289619 

Như đã biết Cov(Xi,Xi) = Var(Xi) nên từ ma trân này dễ dàng tìm được các
phương sai của các biến (các cột của X). Có thể chứng tỏ rằng:
20


V = XT D X- ggT = YT D X,
+ Ma trận hệ số tương quan
Gọi ma trận D1/S là ma trận đường chéo với các thành phần là 1/Se(Xj)=1/sj)

D1/s =

1/ s1

0

0

......
 0

 0
 0


0

........

1/ s2 ........
........

......

....... ........
0

........

.....
0

........
........


0 
0 



... 
0 

... 
1/ s p 


Như đã biết Cov(Xi,Xi) = Var(Xi) nên từ ma trận này dễ dàng tìm được các
phương sai của các biến (các cột của X). Có thể chứng tỏ rằng:
V = XT D X- ggT = YT D X,
Chuẩn hóa ma trận X ta có ma trận Z = (zij), trong đó
zij =

yij
sj

có thể nhận được ma trận này nhờ công thức:
Z = YD1/s
Nhờ các công thức trên ta có ma trận chuẩn hóa của ma trận X ở thí dụ trên là

Z=

 −2.33349
 0.355662


 0.355662

0.789397
0.70265

0.355662
0.268915

 −1.55277
0.615903

0.442409


1.582081
−0.08913
0.022283
0.022283
−1.31469
0.022283
1.136424
1.136424
−1.31469
−1.20327

2.520111 −1.11664 
−0.37372 −0.57746 

−0.34527 −0.30947 


−0.74561 1.684974 
−0.7578 1.945558 

−0.18269 −0.64614 
−0.38591 0.174497 

1.260157 −1.11714 
−0.48142 0.018786 

−0.50784 −0.05696 


Ma trận hệ số tương quan tuyến tính của các biến (R) được tính như sau:
R = D1/s VD1/s = ZTDZ
21


Và ma trận hệ số tương quan nhận được là

R=

 1.0000 −0.7415 −0.9904 0.6526 
 −0.7415 1.0000
0.7226
−5284 


 −0.9904 0.7226 1.0000 −0.6559 



 0.6526 −0.5284 −0.6559 1.0000 

Chú ý Z có véc tơ trung tâm là véc tơ 0, nên R cũng chính là ma trận hiệp
phương sai của Z.
5. Không gian các cá thể
Các cá thể của tổng thể được mô tả bằng véc tơ với các thành phần là các giá trị
của p biến như đã nêu ở trên. Ta sẽ coi mỗi cá thể như vậy là một điểm trong
không gian FP (với số chiều bằng p) Tập hợp một số các cá thể tạo nên một đám
mây trong F với g là điểm trung tâm của đám mây này.
Để có thể phân tích thống kê đối với các đám mây trong F ta thống nhất một số
khái niệm làm cơ sở phân tích sau này.
a- Khoảng cách
Khoảng cách trong khơng gian tuyến tính thơng thường được sử dụng là khoảng
cách Ơcolit. Thông thường người ta định nghĩa khoảng cách giữa 2 điểm X1 và
X2 theo công thức Pithagorre như sau:
d2 = (x11 – x21)2 + (x12 – x22)2 + ..... + (x1j – x2j)2 + ....... + (x1p – x2p)2
Tuy nhiên nếu như mỗi cột của X có một trọng số aj > 0 thì khoảng cách trên có
thể được tính bằng cách thêm các nhân tử tương ứng, tức là
d2 = a1(x11 – x21)2 + a2(x12 – x22)2 + ... + ai(x1j – x2j)2 + ... + ap(x1p – x2p)2,
hay
 a1 0
0 a
2
2
T 
d = (X1 – X2)  ... ...

0 0



b- Khoảng cách M (metric M)

22

... 0 
... 0 
 (X – X ) .
1
2
... ... 

... a p 



Một cách tổng quát có thể chọn một ma trận đường chéo dương M và khoảng
cách hai điểm trong không gian được xác định theo công thức sau:
d2 = (Xi – Xj)T M (Xi – Xj),
trong đó M là một ma trận đường chéo dương cấp p.
Trong trường hợp này tích vơ hướng của hai véc tơ cũng xác định tương tự,
<Xi ; Xj> = XiTMXj
Chuẩn của một véc tơ được tính theo cơng thức P X PM = ( X T MX )1/ 2
Trong phân tích thống kê nếu chỉ quan tâm đến độ phân tán của các biến, thì M
thường xác định qua ma trận hiệp phương sai. Để có một độ đo khoảng cách
theo nghĩa mức tương ứng, trong phân tích thành phần chính ta có thể sử dụng
ma trận M có đường chéo là nghịch đảo của các phương sai của các biến. Điều
đó tương đương với việc chia tất cả các biến cho độ lệch tiêu chuẩn của nó.
Cách làm này làm cho sự khác biệt về độ đo dùng cho các biến khác nhau khơng
cịn nữa. Ma trận hiệp phương sai của các biến đã biến đổi chính là ma trận hệ

số tương quan của các biến ban đầu. Với cách tính này ta có
 1/ S 2
0 
1


2
M = D1/ S 
O



 0
1/ S 2 
p

Chú ý rằng ma trận M được xác định như trên là một ma trận xác định dương
nên nó ln tồn tại biểu diễn M = TTT là ma trận vng cấp p. Từ đó ta sẽ có
tích vơ hướng được tính bằng
<Xi ; Xj> = XiTMXj = XiTTTTXj = (TXj)T (TXi)
Biểu thức này cho thấy mối liên hệ giữa các độ đo trong không gian nhiều. Với
độ đo M bất kỳ nhờ phép biến đổi trên ta có thể quy về độ đo M = E, đây chính
là độ đo Ơcơlit thơng thường.
c- Qn tính
23


Người ta gọi tổng quán tính của đám mây với tâm của nó là tổng các khoảng
cách (đo bằng metric – M) từ các điểm đến tâm của đám mây đó. Đại lượng này
được tính như sau:

n

I g ∑ pi ( X i − g )T M ( X i − g )
i =1

Nếu ta chọn một điểm a nào đó thay cho g ta sẽ tính được I a theo cơng thức trên.
Theo cơng thức Huyghens ta có
I a = I g + ( g - a)T M ( g - a) = I g + g - a ,
trong đó g - a là chuẩn của véc tơ (g-a) theo metric M. Ngoài ra khi g = 0 ta có
n

I g = ∑ pi X iT MX i .
i =1

Người ta còn chứng minh được rằng
n

n

2 I g = ∑ ∑ pi p j X i − X j

2

j =1 i =1

,

tức là 2 lần tổng quán tính bằng trung bình bình phương của các khoảng cách
giữa các cá thể.
Theo công thức xác định ma trận hiệp phương sai, ta có thể tính tổng qn tính

Ig qua ma trận V và m như sau:
Ig = TraceMV = TraceVM,
trong đó TraceA (vết của A) là tổng các phần tử trên đường chéo của A. Như
vậy,
- Nếu M=E (E là ma trận đơn vị) thì tổng qn tính chính là tổng phương sai của
các biến.
- Nếu M = D1/S2 thì tổng này sẽ là tổng các phần tử trên đường chéo ma trận R
hay tổng quán tính bằng p (số biến số), mà không phụ thuộc vào các giá trị của
các biến số đó.

24


Trở lại thí dụ trên nếu ta chọn khoảng cách Ơcolit cho khơng gian các cá thể thì
tổng qn tính của đám mây số liệu nói trên là tổng các phần tử trên đường chéo
của V, tính được như sau:
Ig = 132.89 + 0.8056 + 2421.4429 + 35289619.24 = 35292174.3175
Còn nếu ta chọn M = D1/S2 thì Ig = 4. Như vậy qn tính của một đám mây số
liệu khơng xác định một cách duy nhất, mà phụ thuộc vào metric được dùng để
đo khoảng cách giữa các điểm của đám mây. Hệ quả của điều đó là các kết quả
phân tích thành phần chính sẽ khác nhau nếu ta dùng ma trận hiệp phương sai và
ma trận hệ số tương quan để xác định hai metric khác nhau trong không gian các
quan sát.
6. Tạo biến và phép chiếu trong khơng gian tuyến tính
a- Tạo biến mới
Trong khơng gian tuyến tính mỗi véc tơ n chiều là một tập hợp có thứ tự các hệ
số phân tích của chính véc tơ đó theo một hệ cơ sở đơn vị. Tuy nhiên khơng gian
n chiều có vơ số các hệ cơ sở (mỗi hệ n véc tơ độc lập tuyến tính là một cơ sở).
Như vậy một véc tơ Xj khác khơng bất kỳ có thể trở thành một véc tơ cơ sở của
một cơ sở nào đó. Mặt khác cho trước một hệ p véc tơ của Rn ta luôn có thể tạo

ra các véc tơ khác nhờ tổ hợp tuyến tính từ hệ này. Trong phân tích thống kê thì
mỗi cách tổ hợp như vậy tạo nên một thống kê từ một mẫu có kích thước p.
Thực chất của một thống kê là một cách tổng hợp thông tin, theo đó người ta có
được những hiểu biết về tổng thể mà mỗi cá thể không thể hiện được.
Trở lại với khơng gian cá thể F đã nói ở trên, ta có thể tạo nên những véc tơ mới
từ n véc tơ đã có nhờ các phép tổ hợp tuyến tính, mà theo đó các cá thể được
phản ánh tập trung hơn ở một khía cạnh nào đó. Chẳng hạn khi xác định véc tơ
g (véc tơ trung bình mẫu hay véc tơ trung tâm) ta đã có một véc tơ mới mà từ đó
có thể mơ tả cá thể nhờ khoảng cách từ nó đến g, hay nhờ véc tơ chỉ sự khác biệt
của mỗi cá thể với trung bình chung. Tuy nhiên mục đích của chúng ta, như đã
nêu từ đầu, là tóm tắt thơng tin p chiều thành thơng tin có số chiều ít hơn. Phép
chiếu từ Rp lên một siêu phẳng cho phép chúng ta tóm tắt thông tin như vậy.
25


×