Tải bản đầy đủ (.docx) (27 trang)

bài tieu luan môn Quy hoạch xử lý số liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.29 MB, 27 trang )

Lời nói đầu
Kính chào quý thầy và các bạn! Qua thời gian học tập, nghiên cứu môn học Quy
hoạch xử lý số liệu thực nghiệm, chúng em đã tiếp thu và lãnh hội được nhiều kiến
thức bổ ích về môn học này như: phân tích một mẫu, so sánh nhiều mẫu, so sánh
nhiều giá trị trung bình, phân tích tương quan hồi qui đơn giản, hồi qui đa thức, phân
tích hồi qui môn hình nhiều biến ….
Qua đó, nhằm hiểu rõ hơn về môn học, nhóm chúng em tiến hành chọn một bảng số
liệu thực tế về vấn đề nghiên cứu, kiểm tra nhiệt lượng phát sinh trong quá trình
đông cứng của xi măng porland thông qua hàm lượng các thành phần hoá học.
Trong quá trình học tập, nghiên cứu, tiến hành thực hiện tiểu luận sẽ không mắc
phải những thiếu sót do thời gian ngắn, kiến thức hạn chế nên rất mong sự đóng góp
ý kiến của thầy và các bạn để nhóm chúng em có thêm hiểu biết và điều chỉnh cho bài
tiểu luận hoàn chỉnh hơn.
Chúng em xin chân thành cám ơn thầy TS Châu Minh Quang đã hướng dẫn và tạo
điều kiện tốt nhất cho chúng em hoàn thành môn học. Cám ơn sự hỗ trợ và giúp đỡ
nhiệt tình của các bạn.
Thân chào!

Mục lục
GVHD: TS Châu Minh Quang

Nhóm 1

Trang 1


1/ Phân tích một mẫu

trang 05

2/ So sánh nhiều mẫu



trang 06

3/ So sánh nhiều giá trị trung bình

trang 08

4/ Phân tích tương quan hồi quy đơn giản
5/ Hồi quy đa thức

trang 09

trang 17

6/ Phân tích hồi quy mô hình nhiều biến trang 21

BÀI TIỂU LUẬN

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 2


Nghiên cứu kiểm tra nhiệt lượng phát sinh trong quá trình đông cứng của xi măng
Portland. Nhiệt lượng này được giả định là một hàm của các thành phần hóa học,
gồm các biến sau đây:
X1: số lượng tricalcium silicate (3CaO · SiO2)
X2: số lượng tetracalcium aluminoferrite [(CaO)4 · Al2O3 · Fe2O3]

X3: số lượng dicalcium silicate (2CaO · SiO2)
Y : nhiệt lượng toả ra tính bằng calo trên mỗi gram xi măng.
Bảng 1: Dữ liệu quan sát
STT

X1

X2

X3

Y

1

6,8

6,2

8

17,9

2

12,1

13,3

14


57,2

3

7

2,9

7,8

12

4

11,2

6,4

11,7

40,1

5

10,5

9,8

16,7


98,4

6

6,2

2,5

9,5

9,7

7

13,8

16

10,9

67,6

8

9,6

7,1

9,3


29

9

12,1

9,1

11,5

47,9

10

11,4

9,1

9,3

40

11

13,6

13,8

13,5


53,4

12

6,5

7

6,2

14,7

13

13,4

13,2

14

75,9

14

9,3

5,7

11,6


21,8

15

13,5

10,7

15,1

77,6

16

10,6

9,6

12,9

54,2

17

5,6

1,3

12,2


7,7

18

10,2

7

10,9

33,1

19

7,2

5,3

10,4

13,5

20

10,2

3,8

12,1


35,4

21

8,5

13,8

10,3

25,2

22

11,7

0,8

14,3

44,2

23

7

2,5

9,4


11,9

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 3


24

1/

9,1

6,2

7,2

20

PHÂN TÍCH MỘT MẪU

Chọn mẫu: X1: số lượng tricalcium silicate (3CaO · SiO2)

GVHD: TS Châu Minh Quang

Nhóm 1


Trang 4


Bảng này hiển thị tóm tắt số liệu thống kê của 2 mẫu thí nghiệm. Các số liệu hiển
thị trong việc phân tích này dùng để kiểm tra xem liệu có sự khác biệt lớn nào ở hai
mẫu thí nghiệm hay không là hết sức quan trọng. Điều quan trọng ở đây là độ lệch
chuẩn và độ nhọn để xác định xem các mẫu thí nghiệm có phân bố bình thường hay
ko. Những giá trị nằm ngoài khoảng [-2;2] sẽ được bỏ đi. Sau khi loại bỏ, những giá
trị của độ lệch chuẩn và độ nhọn đã ở trong khoảng cho phép.
Biểu đồ biểu thị mật độ phân phối

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 5


The StatAdvisor
Tùy chọn này thực hiện một lập bảng tần số bằng cách chia khoảng CDN vào
khoảng chiều rộng bằng nhau và đếm số lượng các giá trị dữ liệu trong mỗi khoảng
thời gian. Các tần số hiển thị số của các giá trị dữ liệu trong mỗi khoảng thời gian,
trong khi tần suất tương đối cho thấy tỷ lệ trong mỗi khoảng thời gian. Bạn có thể
thay đổi định nghĩa của khoảng thời gian bằng cách nhấn nút chuột thay thế và chọn
Pane Options. Bạn có thể xem kết quả của các bảng biểu đồ bằng cách chọn tần số
Histogram từ danh sách các đồ họa Options.

2/

SO SÁNH NHIỀU MẪU


So sánh 2 mẫu thí nghiệm – X1 và X3
Mẫu X1: số lượng tricalcium silicate (3CaO · SiO2)
Mẫu X3: số lượng dicalcium silicate (2CaO · SiO2)
Mẫu X1 gồm 24 giá trị khác nhau từ 5,6 đến 13,8
Mẫu X3 gồm 24 giá trị khác nhau từ 6,2 đến 16,7
Quy trình này được thiết kế để so sánh 2 mẫu thí nghiệm của dữ liệu. Nó sẽ hiển thị
ra những số liệu thống kê và những đồ thị minh họa cho mỗi mẫu thí nghiệm, và nó
sẽ kiểm nghiệm có sự khác nhau giữa 2 mẫu thí nghiệm hay không.

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 6


Bảng này hiển thị tóm tắt số liệu thống kê của 2 mẫu thí nghiệm. Các số liệu hiển
thị trong việc phân tích này dùng để kiểm tra xem liệu có sự khác biệt lớn nào ở hai
mẫu thí nghiệm hay không là hết sức quan trọng. Điều quan trọng ở đây là độ lệch
chuẩn và độ nhọn để xác định xem các mẫu thí nghiệm có phân bố bình thường hay
ko. Những giá trị nằm ngoài khoảng [-2;2] sẽ được bỏ đi. Sau khi loại bỏ, những giá
trị của độ lệch chuẩn và độ nhọn đã ở trong khoảng cho phép.
Biểu đồ biểu thị mật độ phân phối

Kết luận: Từ bảng thống kê số liệu và biểu đồ phân phối cho thấy:
- Độ nhọn và độ lệch chuẩn nằm ngoài khoảng [-2;2].
- Số liệu được chọn là phù hợp.

So sánh các tiêu chuẩn độ lệch


Ý nghĩa của việc so sánh
95% khoảng tin cậy của X1: 9,8625 +/- 1,08609 [8,77641; 10,9486]
95% khoảng tin cậy của X3: 11,1792 +/- 1,11268 [10,0665; 12,2919]
95% khoảng tin cậy sự khác nhau giữa những ý nghĩa giả thiết phương sai bằng nhau:
-1,31667 +/- 1,51297 [-2,82963; 0,196301]
Biểu đồ biểu thị mật độ phân phối
Đồ thị độ nhọn

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 7


Đồ thị box và whisker

3/

SO SÁNH NHIỀU GIÁ TRỊ TRUNG BÌNH

Đầu tiên ta so sánh 2 mẫu X1 và X2
X1: số lượng tricalcium silicate (3CaO · SiO2)
X2: số lượng tetracalcium aluminoferrite [(CaO)4 · Al2O3 · Fe2O3]
Ta được bảng số liệu

Qua bảng so sánh này, ta thấy độ lệch và độ nhọn của X1 và X2 nằm trong khoảng
cho phép [-2,2]
Ta thấy 2 mẫu phân bố đều

Kết luận: số liệu X1 và X2 là phù hợp.
GVHD: TS Châu Minh Quang

Nhóm 1

Trang 8


Tương tự, ta so sánh mẫu X2 và X3:
Ta được bảng số liệu:

Qua bảng so sánh này, ta thấy độ lệch và độ nhọn của X2 và X3 nằm trong khoảng
cho phép [-2,2]
Kết luận: số liệu X2 và X3 là phù hợp.

4/

PHÂN TÍCH TƯƠNG QUAN HỒI QUI ĐƠN GIẢN

Đầu tiên ta viết phương trình của X1 và Y. Ta được:
Biến số lệ thuộc Y : nhiệt lượng toả ra tính bằng calo trên mỗi gram xi măng.
Biến số độc lập X1: số lượng tricalcium silicate (3CaO · SiO2)
Phương trình hồi quy có dạng: Y = a + b*X

KẾT LUẬN:
Phương trình hồi quy có dạng:
Vì giá trị P = 0,0000 nên phương trình có ý nghĩa thống kê.
Bảng so sánh các mẫu thay thế:

GVHD: TS Châu Minh Quang


Nhóm 1

Trang 9


Bảng này thể hiện:
Double reciprocal có giá trị R2 = 89,72 % là chính xác nhất.
Các đồ thị minh họa:

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 10


GVHD: TS Châu Minh Quang

Nhóm 1

Trang 11


Tương tự: ta viết phương trình của X2 và Y. Ta được:
Biến số lệ thuộc: Y
Biến số độc lập: X2
Phương trình hồi quy có dạng: Y = a + b*X

KẾT LUẬN:

Phương trình hồi quy có dạng:
Vì giá trị P = 0,0004 nên phương trình có ý nghĩa thống kê.
Bảng so sánh các mẫu thay thế:

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 12


Bảng này thể hiện:
Exponential có giá trị R2 = 49,46 % là chính xác nhất.
Các đồ thị minh họa:

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 13


GVHD: TS Châu Minh Quang

Nhóm 1

Trang 14


Tương tự: ta viết phương trình của X3 và Y. Ta được:

Biến số lệ thuộc: Y
Biến số độc lập: X3
Phương trình hồi quy có dạng: Y = a + b*X

KẾT LUẬN:
Phương trình hồi quy có dạng:
Vì giá trị P = 0,0000 nên phương trình có ý nghĩa thống kê.

Bảng so sánh các mẫu thay thế:

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 15


Bảng này thể hiện:
Squared-X có giá trị R2 = 65,86 % là chính xác nhất.
Các đồ thị minh họa:

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 16


GVHD: TS Châu Minh Quang


Nhóm 1

Trang 17


5/

HỒI QUY ĐA THỨC

Đầu tiên xét X1 và Y
Biến số lệ thuộc Y : nhiệt lượng toả ra tính bằng calo trên mỗi gram xi măng.
Biến số độc lập X1: số lượng tricalcium silicate (3CaO · SiO2)
Nhấn Improve – Regression Analyss – One factor – Polynominal Regression

Ta được hộp thoại Polynominal Regression:
Nhấn OK để hiển thị hộp thoại Polinominal Regression Analysis

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 18


Phương trình có dạng:
Các giá trị P ứng với các hệ số hồi quy > 0,01.
Mô hình không phù hợp để mô tả mối liên hệ giữa X1 và Y.
Tương tự ta xét X2 và Y

Phương trình có dạng:


GVHD: TS Châu Minh Quang

Nhóm 1

Trang 19


Các giá trị P ứng với các hệ số hồi quy > 0,01.
Mô hình không phù hợp để mô tả mối liên hệ giữa X2 và Y.
Tương tự ta xét X3 và Y

Phương trình có dạng:
Các giá trị P ứng với các hệ số hồi quy > 0,01.
Mô hình không phù hợp để mô tả mối liên hệ giữa X3 và Y.

6/

PHÂN TÍCH HỒI QUY MÔ HÌNH NHIỀU BIẾN

Lựa chọn biến số ảnh hưởng: Improve/Regression Analysis/Multiple
Factors/Regression Model Selection. Trong hộp thoại chọn biến phụ thuộc và các
GVHD: TS Châu Minh Quang

Nhóm 1

Trang 20


biến độc lập thăm dò, thông thường hàm Power mô phỏng tốt quan hệ phi tuyến, do

đó nên lấy log các biến số phụ thuộc và độc lập

Kết luận:
Kết quả thăm dò tìm biến độc lập ảnh hưởng cho thấy theo tiêu chuẩn bé
nhất Cp và R2 cao nhất thì cả 3 biến số X1 , X2 và X3 tham gia vào mô hình là tốt
nhất (Cp gần bằng số biến số là 4 (3 biến số + sai số của mô hình), đồng thời và
R2 cao nhất
Xây dựng mô hình đa biến số: Improve/Regression Analysis/Multiple
Factors/Multiple Regression.

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 21


Chọn mô hình (tuyến tính hay phi tuyến) và tổ hợp biến khác nhau trong hộp thoại. Mô
hình được lựa chọn là mô hình có các chỉ tiêu tốt nhất về R2 cao nhất, các tham số gắn biến
số tồn tại ở mức P <0.05, MAE bé nhất, biến động residuals rải đều quanh giá trị dự báo
trong phạm vi ±2. Sau đây là kết quả thử nghiệm các mô hình khác nhau.

Ta được bảng số liệu:

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 22



Phương trình có dạng:
Mô hình phi tuyến với đa biến số đơn:

Ta được bảng số liệu:

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 23


Phương trình có dạng:
Mô hình phi tuyến tổ hợp biến:

Ta được bảng số liệu:

GVHD: TS Châu Minh Quang

Nhóm 1

Trang 24


Phương trình có dạng:
Với kết quả thử nghiệm 3 loại mô hình trên cho thấy trong trường hợp này
mô hình phi tuyến với đa biến số đơn là tốt nhất với R2 cao nhất, các tham số có
P< 0.05, chỉ số MAE bé nhất và biến động residuals rải đều quanh giá trị ước lượng.
Vì vậy mô hình được lựa chọn là:


GVHD: TS Châu Minh Quang

Nhóm 1

Trang 25


×