Tải bản đầy đủ (.pdf) (53 trang)

Phân tích thống kê hoạt động sản xuất kinh doanh của Công ty Sách Giáo dục Hà Nội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 53 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN







ĐÀO VĂN THÁI






PHÂN TÍCH THỐNG KÊ HOẠT ĐỘNG SẢN XUẤT KINH
DOANH CỦA CÔNG TY SÁCH GIÁO DỤC HÀ NỘI








LUẬN VĂN THẠC SĨ KHOA HỌC











Hà Nội - Năm 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN







ĐÀO VĂN THÁI


PHÂN TÍCH THỐNG KÊ HOẠT ĐỘNG SẢN XUẤT KINH
DOANH CỦA CÔNG TY SÁCH GIÁO DỤC HÀ NỘI



Chuyên ngành: Xác suất thống kê
Mã số: 60 46 15






LUẬN VĂN THẠC SĨ KHOA HỌC



NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. HỒ ĐĂNG PHÚC




Hà Nội - Năm 2013

Mục lục

Mở đầu ……………………………………………………………… 1
Chương 1 HỒI QUY LOGISTIC …………………………………… 3
1.1 Mô hình hồi quy logistic ……………………………………… 3
1.1.1 Ước lượng các tham số của mô hình hồi quy logistic …… 5
1.1.2 Kiểm định sự phù hợp của mô hình hồi quy logistic…… 6
1.2 Mô hình hồi quy logistic bội ……………………………… 9
1.2.1 Ước lượng mô hình hồi quy logistic bội………………… 14
1.2.2 Kiểm định sự phù hợp của mô hình hồi quy logistic bội 16
1.3 Ý nghĩa hệ số của mô hình hồi quy logistic…………………… 18
1.3.1 Mô hình có biến độc lập là nhị phân………………… 19
1.3.2 Mô hình có biến độc lập là biến nhận nhiều giá trị… 21
1.3.3 Mô hình có biến độc lập là liên tục …………………… 23
Chương 2. PHÂN TÍCH SỐ LIỆU KINH DOANH SÁCH………… 24
2.1 Nguồn gốc số liệu………………………………………………… 24
2.2 Mô tả số liệu……………………………………………………… 26
2.3 Ảnh hưởng các nhân tố lên khả năng in mới, tái bản và nối bản 34

A. Phân tích ảnh hưởng của các nhân tố lên khả năng in mới ……. 35
B. Phân tích ảnh hưởng của các nhân tố lên khả năng tái bản … 38
C .Phân tích ảnh hưởng của các nhân tố lên khả năng nối bản …. 41
2.4 Bàn Luận …………………………………………………… 42
KỂT LUẬN ……………………………………………………… 24
Tài liệu tham khảo ……………



Mở Đầu

Trong thời đại ngày nay, kinh tế trên toàn thế giới đang phát triển
nhanh. Ở Việt nam, nền kinh tế đang phắt triển rất mạnh mẽ, kéo theo sự ra
đời thường xuyên của hàng loạt các công ty. Nhưng chính sự phát triển ngày
càng mạnh mẽ đó thì tính cạnh tranh của các công ty ngày càng gay gắt và
khốc liệt dẫn đến hàng năm ở Việt nam có tới hành nghìn công ty được thành
lập, đồng thời cũng có hàng nghìn công ty bị phá sản và giải thể.
Một công ty muốn tồn tại và phát triền thì vai trò của hoạt động sản
xuất và kinh doanh là then chốt. Muốn hoạt động và sản xuất và kinh doanh
của công ty đem lại hiệu quả ổn định, bền vững và lâu dài, công ty phải có kế
hoạch xây dựng chiến lược đúng đắn, định hướng các hoạt động của mình.
Các công cụ phân tích thống kê có thể hỗ trợ các nhà kinh tế phân tích
các thông tin về hoạt động của công ty trong quá khứ để tìm ra các quy luật ẩn
chứa trong dữ liệu, từ đó tư vấn cho lãnh đạo công ty thiết lập chiến lược hoạt
động của công ty trong tương lai
Mục tiêu của luận văn này là sử dụng các phương pháp thống kê thích
hợp để phân tích các số liệu liên quan đến hoạt động của Công ty Cổ phần
Sách giáo dục Hà Nội trong những năm gần đây nhằm đưa ra các kết luận về
một số nhân tố ảnh hưởng đến các hoạt động sản xuất kinh doanh của Công
ty, làm bằng chứng khuyến nghị Công ty đưa ra những định hướng mới giúp

cải thiện hiệu quả hoạt động của Công ty trong những năm sau.
Chương 1 của luận văn giới thiệu cơ sở lý thuyết của phương pháp hồi
quy logistic, là phương pháp thống kê cơ bản được sử dụng trong phần sau
của luận văn. Dựa trên cơ sở lý thuyết đó, Chương 2 của luận văn trình bày
các kết quả và phân tích thống kê được tiến hành thông qua việc sử dụng phần
mềm SSPS, đưa ra các kết luận về những yếu tố ảnh hưởng đến khả năng một
đầu sách được in ra là sách in mới, sách tái bản, hay sách nối bản. Các kết
luận đó có thể hỗ trợ các nhà điều hành sản xuất đưa ra các quyết định hợp lý,
nhằm đem lại hiệu quả cao nhất cho Công ty.
Luận văn được hoàn thành dưới sự hướng dân trực tiếp của PGS.TS.
Hồ Đăng Phúc, Viện Toán học, Viện Khoa học và Công nghệ Việt Nam. Tôi
xin bày tỏ long biết ơn chân thành và sâu sắc nhất tới thầy, người đã tận tình
hướng dẫn, chỉ bảo và giúp đỡ tôi trong suốt quá trình làm luận văn này.
Tôi xin chân thành gửi lời cảm ơn sâu sắc tới các thầy cô giáo, các anh
chị thành viên trong seminar “Thống kê toán học”, Viện Toán học về những ý
kiến đóng góp quý báu sự giúp đỡ tận tình và sự cổ vũ hết sức to lớn trong
thời gian qua.
Nhân đây tôi cũng trân trọng gửi lời cảm ơn tới các thầy cô khoa Toán -
Cơ - Tin học trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội
đối với công lao dậy dỗ trong suốt quá trình giáo dục và đào tạo của nhà
trường.
Cho phép tôi gửi tới ban lãnh đạo Công ty Cổ phần Sách giáo dục Hà
nội. Đặc biệt là ông Hà Sĩ Tuyển, thành viên hội đồng quản trị công ty, lời
cảm ơn chân thành về những điều kiện thuận lợi dành cho tôi trong quá trình
thu thập số liệu hướng dẫn những kiến thức chuyên môn về sản xuất và kinh
doanh sách.
Hà nội, tháng 4 năm 2013

Học viên



Đào Văn Thái



Chương 1
HỒI QUY LOGISTIC


1.1 Mô hình hồi quy logistic
Phân tích hồi quy nghiên cứu mối quan hệ phụ thuộc của một biến (gọi là biến
phụ thuộc hoặc biến được giải thích) với một hay nhiều biến khác (được gọi
là (các) biến độc lập hay biến giải thích). Ta sử dụng các ký hiệu
* Y là biến phụ thuộc (hay biến được giải thích),
* X
i
là biến độc lập (hay biến giải thích thứ i).
Một trong các vấn đề phân tích hồi quy giải quyết là ước lượng giá trị
trung bình của biến phụ thuộc ứng với giá trị đã cho của biến độc lập E(Y/X
i
).
Nói chung, E(Y/X
i
) là một hàm của X
i
:
E(Y/X
i
) = f(X
i

),
trong đó f(X
i
) được gọi là hàm hồi quy tổng quát. Khi đó
• Nếu hàm hồi quy tổng quát có một biến độc lập thì được gọi là hàm
hồi quy đơn.
• Nếu hàm hồi quy tổng quát có nhiều hơn một biến độc lập thì được
gọi là hàm hồi quy bội.
Nếu hàm hồi quy tổng quát có dạng
f(X
i
)= β
0
+ β
1
X
i
trong đó β
0

1
là các hệ số chưa biết nhưng cố định, thì f(X
i
) được gọi là hàm
hồi quy tuyến tính đơn và β
0

1
gọi là hệ số hồi quy.
Trong các mô hình hồi quy quen biết, biến phụ thuộc thường là biến

dịnh lượng (biến liên tục). Tuy nhiên trong thực tế người ta hay bắt gặp
những trường hợp mà biến được giải thích lại không phải là biến liên tục.
Do vậy cần xây dựng các mô hình hồi quy thích hợp cho các trường hợp
đó.
Phổ biến nhất là mô hình với biến phụ thuộc là một biến định tính
chỉ nhận hai giá trị đối lập nhau (có – không có, đau ốm – khỏe mạnh, thất
nghiệp – được tuyển dụng, …)
Mô hình hồi quy logictis là một trong những mô hình được xây
dựng tương ứng với biến phụ thuộc là biến định tính nhận hai giá trị, còn
các biến độc lập có thể là các biến định lượng hoặc / và các biến định
tính.
Để thuận tiện trong tính toán, ta thường mã hoá hai giá trị của biến
phụ thuộc là 1 và 0. Lúc ấy, biến đó được gọi là biến nhị phân. Nếu không
có ghi chú gì đặc biệt, trong luận văn này chúng ta luôn xét biến phụ
thuộc là biến nhị phân.
Mô hình hồi quy logistic là một mô hình hồi quy phi tuyến, trong đó các
biến độc lập là định tính hoặc định lượng, đồng thời biến phụ thuộc là một
biến định tính nhị phân.
Định nghĩa 1.1.1. Hàm hồi quy logistic đơn dùng để ước lượng giá trị của
biến phụ thuộc nhị phân Y theo một biến độc lập X có dạng
01
01
( / )
1
X
X
e
E Y X
e







(1.1)
Trong đó
* β
0
là hệ số tự do (hay hệ số chặn),
* β
1
là hệ số dốc.
Chú ý. Hàm
01
01
( ) ( / )
1
x
X
e
x E Y x
e









là kỳ vọng có điều kiện của biến phụ thuộc Y cho bởi giá trị x của biến độc lập
X. Từ (1.1) ta có
 
0 1 0 1
01
01
( )(1 ) ,
( ) 1 ( ) ,
()
1 ( )
xx
x
x
x e e
x x e
x
e
x
   















Định nghĩa 1.1.2. Phép biến đổi sau được gọi là phép biến đổi logit


g(x)= ln
()
1 ( )
x
x







(1.2)
Nhận xét.
(i) g(x)= β
0
+ β
1
x là hàm tuyến tính của x với
x
 (−∞,+∞).
(ii) 0  π(x)  1 với mọi giá trị của X.
(iii) Giả sử giá trị quan sát y của biến phụ Y có dạng y = π(x)+


, trong đó 
gọi là sai số (hiệu giá trị quan sát và kì vọng có điều kiện của biến phụ thuộc).
Khi đó  nhận hai giá trị sau:
* Nếu y =1 thì  =1 − π(x) với xác suất π(x).
* Nếu y = 0 thì  = −π(x) với xác suất 1 − π(x).
Từ đó,  có phân phối nhị thức với
E()=0 và Var()= Var(Y)= π(x)[1 − π(x)].
1.1.1 Ước lượng các tham số của mô hình hồi quy logistic
Để xác định được mô hình, ta cần ước lượng các tham số của mô hình qua số
liệu thu được trong mẫu quan sát. Có nhiều phương pháp ước lượng tham số.
Ta hãy xét phương pháp ước lượng hợp lý cực đại.
Giả sử mẫu có n quan sát độc lập (x
i
,y
i
),i =
1, n
,với y
i
là giá trị của biến
phụ thuộc và x
i
là giá trị của biến độc lập tại quan sát thứ i. Việc ước lượng
các tham số của mô hình bằng phương pháp hợp lý cực đại được thực hiện
theo quy trình như sau:
a. Theo (1.1) ta có P(Y =1/x)= π(x), do đó P(Y =0/x)=1 − π(x).
Như vậy Y nhận giá trị 1 với xác suất bằng π(x
i
) và nhận giá trị 0 với xác suất

bằng 1 − π(x
i
), i =
1, n
,. Với mỗi cặp (x
i
,y
i
), i =
1, n
, đặt

 
1
( ) ( ) 1 ( )
i
i
y
y
i i i
x x x
  



b. Với mẫu n quan sát độc lập (x
i
,y
i
),i =

1, n
, ta thành lập hàm hợp lý có dạng.

 
1
11
( ) ( ) ( ) 1 ( )
i
i
nn
y
y
i i i
ii
l x x x
   


  

(1.3)
Lấy logarit hàm hợp lý (1.3) ta nhận được hàm số có dạng

   
1
( ) { ln ( ) (1 )ln 1 ( ) }
n
i i i i
i
L y x y x

  

   

(1.4)
c. Lấy đạo hàm hàm L(β) theo β
0
và β
1
ta có hệ phương trình hợp lý

 
 
1
1
11
1
( ) 0
( ) 0
n
i
i
n
i
i
yx
x y x
















(1.5)
d. Giải hệ (1.5) ta có nghiệm của hệ phương trình hợp lý là ước lượng hợp lý
cực đại của các tham số β =(β
0

1
). Ta ký hiệu
ˆ

là ước lượng hợp lý cực đại
của β.
1.1.2 Kiểm định sự phù hợp của mô hình hồi quy logistic
Việc kiểm định sự phù hợp của mô hình, nhằm trả lời câu hỏi: "Mô
hình chứa biến độc lập cho chúng ta thông tin về biến phụ thuộc nhiều hơn
một cách đáng kể (có ý nghĩa thống kê) so với mô hình không chứa biến độc
lập hay không?"
a. Kiểm định tỷ lệ hàm hợp lý
Đánh giá ý nghĩa sự có mặt của biến độc lập trong mô hình ta đi xét sự thay

đổi độ lệch của hai mô hình khi không có biến độc lập và khi có biến độc lập.
Định nghĩa 1.1.3. Độ lệch của mô hình hồi quy logistic, ký hiệu là D, có dạng

2lnD




Hµm hîp lý logisstic
Hµm hîp lý b·o hßa
(1.6)
Ký hiệu
ˆˆ
()
ii
x


. Từ (1.3) ta thấy (1.6) có dạng

 
1
1
1
1
ˆˆ
(1 )
2ln
(1 )
ˆˆ

1
= -2 ln 1 ln
1
i i i
ii
y y y
n
i
yy
i
ii
n
ii
ii
i
ii
D
yy
yy
yy














   



   


   




Như vậy, độ lệch D của mô hình hồi quy logistic là giá trị so sánh giữa logarit
hàm hợp lý của mô hình hồi quy logitstic và logarit hàm hợp lý bão hòa (mô
hình bão hoà là mô hình có số hệ số bằng số quan sát).
Định nghĩa 1.1.4. Hiệu độ lệch của hai mô hình không có và có biến độc lập
được gọi là tiêu chuẩn tỷ lệ hợp lý, ký hiệu là G:
G = D(Mô hình không có biến độc lập) − D(Mô hình có biến độc lập).
Vì hai mô hình này có chung hàm hợp lý bão hòa nên ta có:

2lnG




Hµm hîp lý logistic kh«ng cã biÕn ®éc lËp
Hµm hîp logistic cã biÕn ®éc lËp

(1.7)
Ta kiểm tra sự phù hợp của mô hình hồi quy logistic đơn bằng cách
kiểm định giả thuyết H: β
1
=0, với đối thuyết K: β
1
 0, tức là ta xét xem biến
độc lập X thực sự có tác động tới biến phụ thuộc Y hay không.
Xét mẫu có n quan sát, giải phương trình hợp lý khi mô hình không có
biến độc lập (tức là β
1
=0) ta có
 
1
0
1
ˆ
ln
1
n
i
i
n
i
i
y
y















Đặt
 
10
11
, 1
nn
ii
ii
n y n y

  

ta có
1
0
0
n
n



. Khi đó giá trị của G có dạng
0
1
0
1
(1 )
1
2ln
ˆˆ
(1 )
ii
n
n
n
yy
ii
i
n
n
nn
G



















,
hay
1 1 0 0
1
ˆˆ
2{ [ ln( ) (1 )ln(1 )] [ ln( ) ln( ) ln( )]}
n
i i i i
i
G y y n n n n n n


      


Định lý 1.1.1. [8] Với giả thuyết β
1
= 0 thì tiêu chuẩn thống kê G có phân
phối tiệm cận phân phối 𝜒
2

với bậc tự do bằng 1.
Với hiệu lực của định lý trên, để thực hiện kiểm định sự phù hợp của
mô hình hồi quy logistic đơn ta có thể tiến hành các bước như sau:
• Tính tiêu chuẩn tỷ lệ hợp lý G và giá trị -2logarit hàm hợp lý của mô
hình có

1
 0, đặt giá trị ấy bằng -2l.
• Với 𝜒
2
(1)là biến ngẫu nhiên có phân phối khi bình thường 1 bậc tự
do, tính xác xuất ý nghĩa

= P[𝜒
2
(1) >2l].
• So sánh α với mức ý nghĩa α
0
cho trước (thường được ấn định bằng
0.01 hoặc bằng 0.05).
* Nếu α  α
0
, ta bác bỏ H (với mức ý nghĩa α
0
).
* Nếu α > α
0
, ta chấp nhận H (với độ tin cậy 100(1 − α
0
)%).

b. Kiểm định theo tiêu chuẩn Wald
Bên cạnh phương pháp kiểm định tỷ lệ hàm hợp lý ta có thể sử dụng
phép kiểm định thống kê Wald (đơn).
Định nghĩa 1.1.5. Tiêu chuẩn thống kê Wald là tỷ số
1
1
ˆ
W
ˆ
()SE




với
1
ˆ

là giá trị ước lượng của tham số

1
theo phương pháp ước lượng hợp lý
cực đại,
1
ˆ
()SE

là sai số chuẩn của ước lượng

1

Định lý 1.1.2 [8] Với giả thuyết

1
= 0 thì tiêu chuẩn thống kê W có phân
phối tiệm cận chuẩn N(0,1).
Với định lý trên, phép kiểm định theo tiêu chuẩn Wald với giả thuyết
H:

1
= 0 và đối thuyết K:

1
 0 thì tiêu chuẩn thống kê W có phân phối tiệm
cận chuẩn N(0,1).
• Tính tiêu chuẩn thông kê W.
• Với Z là biến ngẫu nhiên có phân phối chuẩn N(0,1), tính xác suất ý
nghĩa

= P[|Z| > |W|].
• So sánh  với mức ý nghĩa 
0
cho trước
* Nếu α  α
0
, ta bác bỏ H (với mức ý nghĩa α
0
).
* Nếu α > α
0
, ta chấp nhận H (với độ tin cậy 100(1 − α

0
)%).
1.2 Mô hình hồi quy logistic bội
Xét tập p biến độc lập X
1
,X
2
, ,X
p
. Kí hiệu vectơ X = (X
1
,X
2
, , X
p
). Xác
suất điều kiện của biến phụ thuộc Y theo các giá trị của biến độc lập X có dạng
P(Y =1/x)= π(x)
P(Y =0/x)=1 − π(x).
Khi đó hàm logit của mô hình hồi quy logistic bội được biểu diễn qua các
biến độc lập bằng phương trình
g(x)= β
0
+ β
1
x
1
+ β
2
x

2
+ + β
p
x
p
(1.8)
trong đó β
i
,i =
1, p
, là các hệ số chưa biết còn β
0
là số hạng chắn.
Định nghĩa 1.2.1. Mô hình hồi quy logistic bội có dạng
()
()
()
1
gx
gx
e
x
e



(1.9)
Trong một số trường hợp, biến độc lập là rời rạc hoặc là biến định tính,
ví dụ như địa chỉ, nghề nghiệp của sản phụ, sản phụ sinh vào mùa nào trong
năm, v.v. Để đưa những biến này vào mô hình ta sử dụng phương pháp thiết

kế biến (lập biến giả).
Giả sử biến độc lập thứ j là định tính có k
j
khả năng, khi đó có k
j
−1
biến giả D
ju
với u =
1, 1k 
. Ta gọi hệ số của các biến giả này trong mô hình
hồi quy là β
ju
. Lúc đó, hàm logit của mô hình hồi quy logistic tương ứng có
dạng

 
1
0 1 1
1
···
j
k
ju ju p p
u
g x x D x
   


     



(1.10)
Mô hình hồi quy logistic với hàm logit g(x) dạng (1.10) được sử dụng
nhiều trong các bài toán thực tế.
1.2.1 Ước lượng mô hình hồi quy logistic bội
Để ước lượng mô hình hồi quy logistic bội ta phải ước lượng vectơ hệ số β =

0

1
, , β
p
). Tương tự như trong mô hình hồi quy logistic đơn, ta sử dụng
phương pháp ước lượng hợp lý cực đại.
Giả sử (x
i
,y
i
); x
i
=(x
i1
,x
i2
, ,x
in
), I =
1, p
, là mẫu gồm n quan sát độc lập.

Quy trình tiến hành ước lượng vectơ hệ số của mô hình được thực hiện như
sau:
a. Lập hàm hợp lý và logarit hàm hợp lý của mẫu n có dạng
1
1
1
( ) ( ) [1 ( )]
( ) {y ln[ ( )]+(1-y )ln[1 ( )]}
ii
n
yy
ii
i
n
i i i i
i
l X X
l X X
  
  








b. Đạo hàm logarit hàm hợp lý theo p +1 tham số β
0


1
, , β
p
, ta có hệ phương
trình hợp lý gồm p +1 phương trình
1
1
1
1
[y - (X )] 0
x [y - (X )] 0

x [y - (X )] 0
n
ii
i
n
i i i
i
n
ip i i
i

























c. Giải hệ phương trình hợp lý trên, ta nhận được nghiệm là ước lượng hợp lý
cực đại của vectơ hệ số β =(β
0

1
, ,β
p
), kí hiệu
01
ˆ ˆ ˆ ˆ
( , , , )
p
   



Lấy đạo hàm riêng cấp 2 của logarit hàm hợp lý theo các biến
β
0

1
, ,β
p
, ta có
2
2
ij
2
1
()
(1 )
n
ii
i
j
L
x





  





2
ij
1
()
(1 )
n
iu i i
i
ju
L
xx





  



với j, u =
0, p
. Ký hiệu
22
2
i1 1
2

11
11
22
1 2 2
11
2 1 2
( ) ( )
(1 ) (1 )
( ) ( )
(1 ) (1 )
[]

nn
i i i ip i i
ii
p
nn
i i i i i ip i i
ii
p
LL
x x x
LL
x x x x
I

   
  

   

   




     
  

     
   


22
2
1
2
11
1

( ) ( )
(1 ) (1 )
nn
i ip i i ip i i
ii
pp
LL
x x x

   
  












     

  




Khi đó, ma trận hiệp phương sai của các hệ số ước lượng được xác định bởi
phương trình

(

) = I
-1
[

]
trong đó


2
1 1 2 1
2
1 2 2 2
2
12
( ) ( , ) ( , )
( , ) ( ) ( , )
()

( , ) ( , ) ( )
P
P
P P P
       
       

       











   



với σ
2

j
) là phương sai của
ˆ
, j =1,
j
p

, σ(β
j
, β
u
) là hiệp phương sai của
ˆ
j


ˆ
u

, với j, u =
=1, p

Từ các công thức trên ta thấy ước lượng của ma trận hiệp phương sai
ˆ
()



là giá trị của Σ(β) tại
ˆ

. Ước lượng này có dạng

2
1 1 2 1
2
1 2 2 2
2
12
ˆ ˆ ˆ ˆ ˆ
( ) ( , ) ( , )
ˆ ˆ ˆ ˆ ˆ
( , ) ( ) ( , )
ˆ
()

ˆ ˆ ˆ ˆ ˆ
( , ) ( , ) ( )
P
P
P P P
       
       

       











   


Từ đó ước lượng các sai số chuẩn của các hệ số ước lượng bằng

2 1/2
ˆ ˆ ˆ
ˆ
( ) [ ( )]
ij
SE
  

với
0,jp

Ta sẽ sử dụng các ký hiệu này khi kiểm định sự phù hợp của các hệ số
trong mô hình và xác định khoảng ước lượng của các hệ số đó.
1.2.2 Kiểm định sự phù hợp của mô hình hồi quy logistic bội
Để kiểm định sự phù hợp của mô hình hồi quy logistic bội, ta tiến hành việc
kiểm định giả thuyết

H: β
1
= β
2
= = β
p
= 0, với đối thuyết
K: Một trong số các tham số β
1
; β
2
; ; β
p
khác 0.
a. Kiểm định tỷ lệ hàm hợp lý
Hàm hợp lý của mô hình logistic khi giả thuyết H đúng có dạng
0
0
()
1
H
e
l
e







Ngược lại, khi đối thuyết K đúng, hàm hợp lý của mô hình sẽ là
1
1
( ) ( ) [1- ( )]
ii
n
yy
K i i
i
l X X
  





Gọi
ˆˆ
,
HK
ll
là giá trị cực đại các hàm hợp lý. Theo (1.6) và (1.7), ta có
tiêu chuẩn tỷ số hợp lý G dạng
ˆ
2ln
ˆ
H
K
l
G

l






Định lý 1.2.1. [8] Nếu giả thuyết H đúng thì đại lượng thống kê G có phân
phối tiệm cận phân phối 𝜒
2
với p bậc tự do.
Với hiệu lực của định lý trên, để thực hiện kiểm định sự phù hợp của
mô hình hồi quy logistic bội ta có thể tiến hành các bước như sau:
• Tính tiêu chuẩn tỷ số hợp lý G và giá trị -2logarit hàm hợp lý của mô
hình ứng với đối thuyết K. Ta gọi giá trị này là −2l.
• Với 𝜒
2
(p) là biến ngẫu nhiên có phân phối khi bình phương p bậc tự
do, tính xác suất ý nghĩa α = P[𝜒
2
(p) > −2l].
• So sánh α với mức ý nghĩa α
0
cho trước
* Nếu α  α
0
, ta bác bỏ H (với mức ý nghĩa α
0
).
* Nếu α > α

0
, ta chấp nhận H (với độ tin cậy 100(1 − α
0
) %).
b. Kiểm định theo tiêu chuẩn Wald
Định nghĩa 1.2.2. Trong mô hình hồi quy logistic bội, tiêu chuẩn thống kê
Wald xác định như sau:
'1
''
ˆ
ˆ ˆ ˆ
W [ | ( )]
ˆˆ
= ( )X VX
  




trong đó ma trận X có dạng
11 1
21 2
1
1 x x
1 x x

1 x x
p
p
n np

X










   


còn ma trận V là V =
1 1 2 2
ˆ ˆ ˆ ˆ ˆ ˆ
[ (1 ), (1 ), , (1 )]
nn
diag
     
  

Theo tài liệu [8] ta có định lý sau:
Định lý 1.2.2. Khi giả thuyết H đúng thì thống kê W có phân phối tiệm cận
phân phối Khi – bình phương

với p +1 bậc tự do.
Thực hiện phép kiểm định theo tiêu chuẩn Wald trong mô hình hồi quy
logistic bội được thực hiện theo các bước sau:

• Tính tiêu chuẩn thống kê W.
• Với Z là biến ngẫu nhiên có phân phối 𝜒
2
(p+1), tính xác suất ý nghĩa
α = P[Z > W].
• So sánh α với mức ý nghĩa α
0
cho trước
* Nếu α  α
0
, ta bác bỏ H (với mức ý nghĩa α
0
).
* Nếu α > α
0
, ta chấp nhận H (với độ tin cậy 100(1 − α
0
) %).
1.3 Ý nghĩa hệ số của mô hình hồi quy logistic
Sau khi ước lượng và kiểm định sự phù hợp của mô hình hồi quy logistic,
chúng ta đi đánh giá ý nghĩa, tầm quan trọng của các hệ số trong mô hình, tức
là chúng ta đi trả lời câu hỏi: "Với các hệ số đã được ước lượng thì biến độc
lập tương ứng có tác động như thế nào tới mô hình nghiên cứu?".
Trước khi đi đánh giá ý nghĩa hệ số của mô hình hồi quy, ta giả sử mô
hình đã được ước lượng và kiểm định sự phù hợp. Đầu tiên ta xác định hàm
của biến phụ thuộc cho bởi một hàm tuyến tính của biến độc lập. Đối với một
số mô hình gần với mô hình tuyến tính, hàm này được gọi là hàm liên kết.
Đối với mô hình hồi quy tuyến tính, hàm liên kết cũng chính là hàm hồi quy y
= ax + b. Như vậy, khi biến độc lập tăng thêm một đơn vị thì biến phụ thuộc
trong mô hình tuyến tính tăng thêm a đơn vị.

Trong mô hình hồi quy logistic hàm liên kết là hàm biến đổi logit
g(x)= ln{π(x)/[1 − π(x)]} = β
0
+ β
1
x.
Khi đó ta có hệ số dốc β
1
= g(x +1) − g(x).
Ý nghĩa của mỗi hệ số trong mô hình hồi quy logistic được lý giải tuỳ
thuộc kiểu của biến độc lập tương ứng. Sau đây ta sẽ xét mô hình chứa từng
loại biến độc lập cụ thể.
1.3.1 Mô hình có biến độc lập là nhị phân
Trong khuôn khổ luận văn ta chỉ xét trường hợp biến độc lập X nhị phân nhận
hai giá trị 0 và 1. Khi đó ta có bảng các giá trị hồi quy của mô hình như sau:
Bảng 1.1: Giá trị hồi quy logistic với biến độc lập là nhị phân.

x = 1
x = 0
y = 1
01
01
(1)
1
e
e









0
0
(0)
1
e
e






y = 0
01
1
(1)
1 e






0
1
(0)

1 e





Tổng
1.0
1.0
Độ chênh (odds) giá trị hồi quy giữa hai giá trị của biến phụ thuộc tại x
=1 là π(1)/[1 − π(1)]. Tương tự độ chênh giá trị hồi quy giữa hai giá trị của
biến phụ thuộc tại x = 0 là π(0)/[1 − π(0)]. Khi đó ta có logarit các độ chênh
này là
g(1) = ln{π(1)/[1 − π(1)]} = β
0
+ β1,
g(0) = ln{π(0)/[1 − π(0)]} = β
0
.
Tỷ số chênh (odds ratio), kí hiệu là ψ, là tỷ lệ giữa hai độ chênh giá trị
hồi quy tại x =1 và tại x =0. Ta có phương trình
   
   
1 / 1 1
0 / 1 0












Gọi π(1) là xác suất xảy ra sự cố (ứng với các trường hợp biến phụ
thuộc nhận giá trị 1 trong nhóm thử, khi đó 1 −π(1) là xác suất không xảy ra
sự cố trong nhóm thử. Gọi π(0) là xác suất xảy ra sự cố trong nhóm chứng,
1−π(0) là xác suất không xảy ra sự cố trong nhóm chứng. Tỷ số chênh là tỷ lệ
giữa độ chênh (nguy cơ xảy ra sự cố) trong nhóm thử và độ chênh (nguy cơ
xảy ra sự cố) trong nhóm chứng. Các khả năng có thể xảy ra của tỷ số chênh
ψ như sau:
* ψ =1: nguy cơ xảy ra sự cố giữa nhóm thử và nhóm chứng là như
nhau.
* ψ > 1: nguy cơ xảy ra sự cố ở nhóm thử lớn hơn nguy cơ xảy ra sự cố
ở nhóm chứng.
* ψ < 1: nguy cơ xảy ra sự cố ở nhóm thử nhỏ hơn nguy cơ xảy ra sự cố
ở nhóm chứng.
Lấy logarit của tỷ số chênh ta có log-tỷ số chênh hoặc log-độ chênh,
 
   
   
   
1 / 1 1
ln ln 1 0
0 / 1 0
gg








  







Theo Bảng 1.1 ta có tỷ số chênh ψ có dạng
01
0 1 0
01
1
0
0
0 0 1
1
11
1
11
e
ee
e
e
e

e
ee

  




  












  









Từ đó, log-tỷ số chênh có dạng
 
 
1
1
ln ln e




Như vậy log-tỷ số chênh bằng β
1
. Từ Định lý 1.1.2 ta có khoảng ước
lượng của β
1
với độ tin cậy 100(1 − α)% là
   
 
1 /2 1 1 /2 1
ˆ ˆ ˆ ˆ ˆ ˆ
; Z SE Z SE

   


Do đó khoảng ước lượng của tỷ số chênh ψ, độ tin cậy 100(1 − α)%, là
   
ˆ ˆ ˆ ˆ ˆ ˆ
/2 /2
; e

Z SE Z SE
ju ju ju ju
e
   






Nhận xét. Tỷ số chênh ψ khác 1 một cách có ý nghĩa (khi 1 không thuộc
khoảng tin cậy của tỷ số chênh) khi tham số β
1
khác 0 một cách có ý
nghĩa(khi 0 không thuộc khoảng tin cậy của β
1
). Lúc đó xác suất xảy ra sự cố
giữa nhóm thử và nhóm chứng khác nhau một cách có ý nghĩa thống kê.
Ví dụ 1. Để mô tả mối liên hệ giữa khả năng tái bản của một cuốn sách với việc
ruột sách được in đen – trắng hay in nhiều màu, ta dùng mô hình hồi quy
locgictic với biến phụ thuộc nhận giá trị 1 nếu sách được in là sách tái bản, nhận
giá trị 0 nếu sách được in không phải là sách tái bản. Biến độc lập trong mô hình
nhận giá trị 1nếu ruột in đen trắng, nhận giá trị 0 trong trường hợp ngược lại.
Bảng 1.2: Hồi quy logistic khả năng tái bản theo màu in ruột của sách


B
S.E.
Wald
df

Sig.
Exp(B)
95.0% C.I.for EXP(B)






Lower
Upper
Step
1(a)
DenTrang
119
.102
1.366
1
.243
.887
.726
1.084

Constant
612
.088
48.338
1
.000
.542



Kết quả tính toán trong Bảng 1.2 cho thấy mô hình có hệ số hồi quy, 𝛽
1
=
- 0.119 với xác suất ý nghĩa bằng 0.243. Khi đó tỷ số chênh có giá trị bằng 0.887
với khoảng tin cậy 95% là (0.726 ; 1.084). Như vậy, tỷ số chênh không khác 1
một cách có ý nghĩa thông kê, chính tỏ khả năng sách được tái bản không phụ
thuộc vào việc sách được in đen trắng hay in nhiều màu.
1.3.2 Mô hình có biến độc lập là biến nhận nhiều giá trị
Tương tự như trong mục 1.3.1, chúng ta đã xét biến độc lập X là một biến
định tính nhận k giá trị với k > 2. Ta xét trường hợp biến độc lập X có 3 giá
trị có thể, khi đó ta cần 2 biến giả D
1
,D
2
. thay thế cho X. Các giá trị hồi quy
của mô hình được trình bày trong Bảng 1.2.
Từ Bảng 1.2 ta có các tỷ số chênh
1
1 2 1 2
1, 0; ()0, 0
j
D D D D e


    

 
2

1 2 1 2
0, 1; 0, 0
j
D D D D e


    

Bảng 1.3 Bảng giá trị hồi quy logistic với biến độc lập nhận nhiều giá trị.

D
1
= 1, D
2
= 0
D
1
= 0, D
2
= 1
D
1
= 0, D
2
= 0
y = 1
01
01
(1,0)
1

j
j
e
e








02
02
(0,1)
1
j
j
e
e








0
0

(0,0)
1
e
e






y = 0
01
1
(1,0)
1
j
e






0
2
1
(0,1)
1 e







0
1
(0,0)
1 e





Tổng
1.0
1.0
1.0

Từ đó, ta có các log-tỷ số chênh
ln(ψ(D
1
= 1,D
2
= 0; D
1
= 0,D
2
= 0)) = β
j1


ln(ψ(D
1
= 0,D
2
=1; D
1
= 0,D
2
= 0)) = β
j2

Khoảng ước lượng của tỷ số chênh ψ(·,·) với độ tin cậy 100(1 −α)% là
   
ˆ ˆ ˆ ˆ ˆ ˆ
/2 /2
; e
Z SE Z SE
ju ju ju ju
e
   






với u =1, 2.
Ví dụ 2. Mối liên hệ giữa khả năng tái bản của một cuốn sách với loại khổ sách
được mô tả bằng mô hình hồi quy locgictic với biến phụ thuộc nhận giá trị 1 nếu
sách được in là sách tái bản, nhận giá trị 0 nếu sách được in không phải là sách

tái bản. Có ba loại khổ sách là loại nhỏ, loại vừa và loại lớn. Như vậy trong mô
hình ta dùng hai biến độc lập nhị phân D
1
,D
2
ứng loại sách khổ nhỏ và loại sách
khổ lớn, nhóm sách khổ vừa được lấy làm nhóm chứng.
Bảng 1.4: Hồi quy logistic khả năng tái bản theo các loại khổ sách


B
S.E.
Wald
df
Sig.
Exp(B)
95.0% C.I.for EXP(B)






Lower
Upper
Step 1
KhoNho
394
.157
6.293

1
.012
.675
.496
.918

KhoTo
368
.181
4.145
1
.042
.692
.485
.986

Constant
637
.049
170.760
1
.000
.529


Kết quả tính toán trong Bảng 1.4 cho ra các hệ số hồi quy ứng với hai
nhóm sách khổ nhỏ và khổ lớn lần lượt là -0.394 và -0.368, với các xác suất ý
nghĩa tương ứng bằng 0.012 và 0.042. Khi đó tỷ số chênh của nhóm sách khổ
nhỏ so với nhóm sách khổ vừa có giá trị bằng 0.675 với khoảng tin cậy 95% là
(0.496;0.918), tỷ số chênh của nhóm sách khổ lớn so với nhóm sách khổ vừa có

giá trị bằng 0.692 với khoảng tin cậy 95% là (0.485;0.986).
Như vậy, cả hai tỷ số chênh đều khác 1 một cách có ý nghĩa thống kê,
chính tỏ khả năng sách được tái bản của các sách khổ nhỏ chỉ bằng 67,5% khả
năng tái bản sách khổ vừa, khả năng sách được tái bản của các sách khổ lớn
cũng chỉ bằng 69,2% khả năng tái bản sách khổ vừa.
1.3.3 Mô hình có biến độc lập là liên tục
Trong trường hợp biến độc lập X là liên tục, ta đã biết hàm logit g(x)= β
0
+
β
1
x cũng là log-tỷ số chênh của mô hình. Từ đó ta có hệ số dốc β
1
= g(x +1) −
g(x) với mọi giá trị của x. Có nghĩa là khi biến độc lập thay đổi 1 đơn vị thì tỷ
số chênh sẽ thay đổi
1
exp

đơn vị.
Log-tỷ số chênh khi x thay đổi c đơn vị là: g(x+c)−g(x)= cβ
1
,từ đó tỷ
số chênh ψ(c)ψ(x + c,x)=
1
c
e

. Khoảng ước lượng của tỷ số chênh ψ(c) với độ
tin cậy 100(1 − α)% là:

 
 


ˆ
ˆ
1
1 /2 1
/2 1
; ce
Z SE
Z SE
ce








Ví dụ 3. Để mô tả mối liên hệ giữa khả năng tái bản của một cuốn sách với số
lượng bản sách được in, ta dùng mô hình hồi quy locgictic với biến phụ thuộc
nhận giá trị 1 nếu sách được in là sách tái bản, nhận giá trị 0 nếu sách được in
không phải là sách tái bản. Biến độc lập trong mô hình nhận là một biến định
lượng.
Bảng 1.5: Hồi quy logistic tỷ lệ tái bản theo số lượng bản in (1000 cuốn)


B

S.E.
Wald
df
Sig.
Exp(B)
95.0% C.I.for EXP(B)






Lower
Upper
Step 1
SoLuong
.000
.001
.072
1
.789
1.000
.999
1.001

Constant
755
.046
264.585
1

.000
.470












Kết quả tính toán được đưa ra trong Bảng 1.5 cho thấy hệ số hồi quy ứng với
biến số lượng bản in là 0.0001767 với xác suất ý nghĩa bằng 0.789. Khi đó tỷ số
chênh có giá trị xấp xỉ 1 với khoảng tin cậy 95% là (0.999;1.001). Như vậy, tỷ số
chênh không khác 1 một cách có ý nghĩa thông kê, chính tỏ khả năng sách được
tái bản không phụ thuộc vào số lượng bản in.
Các kiến thức về hồi quy logistic được xem trong các tài liệu [5, 6, 7,
8]. Ngoài ra, các vấn đề liên quan đến xác suất và thống kê toán học nói
chung thì có thể tham khảo các tài liệu [1, 2, 3, 4].
















Chương 2.

PHÂN TÍCH SỐ LIỆU KINH DOANH SÁCH
2.1 Nguồn gốc số liệu
Số liệu dùng trong luận văn này do Công ty Cổ phần Sách giáo dục Thành
phố Hà Nội cung cấp. Công ty này có trụ sở nằm trên đường Nguyễn Khánh
Toàn, Nghĩa Tân, Cầu Giấy, Hà Nội. Công ty có chức năng xuât bản các loại
sách giáo khoa, sách tham khảo, sách bồi dưỡng, truyện thiếu nhi, các ấn
phẩm giáo dục và các sách khác.
Tiền thân của Công ty là Trung tâm phát hành sách tham khảo, một đơn
vị thành viên của Nhà xuất bản giáo dục, với nhiệm vụ là tổ chức in và phát
hành sách tham khảo của Nhà xuất bản giáo dục. Chính vì thế công ty có rất
nhiều lợi thế trong việc đấu thầu sách tham khảo, và kế thừa được thương
hiệu, đầu vào và đầu ra ổn định. Ngoài ra, so với một số công ty khác trực
thuộc Nhà xuất bản giáo dục, Công ty còn được chủ động về việc in sách
tham khảo, khai thác các bản thảo tạo điều kiện tốt cho công tác phát hành.
Thương hiệu Nhà xuất bản giáo dục có uy tín rất lớn trên thị trường
sách trong nước, do đó Công ty có hệ thống bạn hàng ổn định. Hệ thống phân
phối qua các đại lý của Công ty cũng rộng khắp các miền với thị phần đáng kể
tại khu vực miền Bắc.
Trong những năm tới công ty vẫn xác định phát hành sách tham khảo
của Nhà xuất bản giáo dục là sản phẩm chính. Bên cạnh đó công ty sẽ đẩy
mạnh việc khai thác các đề tài mới để chủ động hơn trong kinh doanh bao

gồm: Mở rộng tủ sách gia đình; tủ sách di sản văn hoá thế giới; mảng sách
dịch, sách mua bản quyền nước ngoài; việc liên kết với các nhà xuất bản trong
và ngoài nước.
Đa dạng hoá đề tài, không chỉ bó gọn trong các đề tài sách tham khảo
bổ trợ cho giáo viên và học sinh như hiện nay, đưa ra được các đề tài phong
phú để có thể hoà nhập cùng khu vực đặc biệt là các bộ sách lớn có giá trị
khoa học và thực tiễn xã hội cao, phục vụ nhu cầu xã hội hoá giáo dục hiện
nay.
Tuy nhiên hiện nay Công ty phải đối mặt với sự cạnh tranh từ các nhà
xuất bản trên địa bàn. Mặc dù theo quy định, những sách tham khảo bổ trợ
sách giáo khoa chỉ có Nhà xuất bản giáo dục được quyền xuất bản, nhưng
một số nơi vẫn tìm cách xuất bản các loại sách ”ăn theo” sách giáo khoa.
Hơn nữa, nguyên vật liệu chính của sách là giấy in ruột và giấy in bìa
luôn có biến động về giá cả. Giấy in ruột biến động là do bột giấy phải nhập
khẩu và giấy in bìa cũng phải nhập khẩu do trong nước chưa sản xuất được,
phụ thuộc vào biến động giá của thị trường thế giới.
Trước những tình hình trên, cần có những chiến lược điều hành các
hoạt động sản xuất của Công ty một cách khoa học nhất, khai thác tối đa các
lợi thế của Công ty, đồng thời hạn chế đến mức thấp nhất các ảnh hưởng tiêu
cực từ bên ngoài. Như vậy, cần xác định được những yếu tố quan trọng có
khả năng ảnh hưởng đến hiệu quả sản xuất trong quá trình in ấn – phát hành
sách. Chẳng hạn như chỉ ra được những yếu tố nào tác động đến khả năng
tái bản, nối bản, in mới đối với một đầu sách.
Mục tiêu của luận văn này là sử dụng các phương pháp thống kê thích
hợp để phân tích các số liệu liên quan đến hoạt động của Công ty trong những
năm gần đây nhằm đưa ra các kết luận về một số nhân tố ảnh hưởng đến các
hoạt động sản xuất kinh doanh của Công ty, làm bằng chứng khuyến nghị
Công ty đưa ra những định hướng mới giúp cải thiện hiệu quả hoạt động của
Công ty trong những năm sau.

×