Tải bản đầy đủ (.pdf) (64 trang)

XỬ LÍ SỐ LIỆU THỰC NGHIỆM VỀ ĐIỆN Ô TÔ VỚI PHẦN MỀM R

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (958.01 KB, 64 trang )

ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ

NỘI DUNG:
CHƯƠNG I
GIỚI THIỆU VỀ PHẦN MỀM R
1.1 Giới thiệu ngôn ngữ R :
Phân tích và xử lý số liệu là một trong những thao tác cần thiết và quan trọng đối với các
nhà nghiên cứu trong nhiều ngành, như sinh học, địa lý, toán học,Trước đây, các công ty
phần mềm đã phát triển các phần mềm chuyên nghiệp như SPSS, Excel, Stata, cho việc
phân tích số liệu. Tuy nhiên, các phần mềm này đều là các phần mềm thương mại, có giá từ
vài trăm đến vài nghìn USD, không phải trường đại học hay trung tâm nghiên cứu nào cũng
có thể mua được. Do đó, trong khoảng mười năm lại đây, các nhà nghiên cứu thống kê trên
thế giới đã tập hợp nhau lại và phát triển một công cụ theo hướng mã nguồn mở sao cho tất
cả mọi người đều có thể sử dụng và hoàn toàn miễn phí. Công cụ này có tên là ngôn ngữ R,
một trong những ngôn ngữ được giới nghiên cứu sử dụng nhiều nhất hiện nay.
Ở Việt Nam, việc sử dụng ngôn ngữ R vẫn còn mới mẻ, vì nhiều lý do. Trong tài liệu
này, chúng tôi muốn cung cấp một cách nhìn tổng quan về ngôn ngữ R. Các nội dung chuyên
sâu hơn sẽ được cung cấp trong thời gian tới.
1.2 Sơ lược công dụng R :
Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân tích thống kê và đồ thị.
Thật ra về bản chất, R là ngôn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu
khác nhau, từ tính toán đơn giản, toán học giả trí, tính toán ma trận, đến các phân tích thống
kê phức tạp. Vì là một ngôn ngữ cho nên người ta có thể sử dụng R để phát triển các thành
phần mềm chuyên môn cho một vẫn đề tính toán cá biệt.

1.3 Các dòng lệnh và các hàm cơ bản:
1.3.1 Tính toán dòng lệnh trong R:
R thường sử dụng dưới dạng "command line" có nghĩa là chúng ta phải gõ trực tiếp các
lệnh vào prompt mầu đỏ trên hình. Các lệnh phải tuân thử nghiêm ngặt các luật của ngôn
ngữ R.
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP



Trang 1


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
Một câu lệnh sẽ được thực thi ngay sau khi nhấn phím Enter ,R phân biệt chữ hoa và chữ
thường .
Ví dụ: library khác với Library.
Một văn phạm khác nữa là khi có hai chữ rồi nhau, R thường dùng dấu chấm để thay
khoảng trống, chẳng hạn như data.frame, t.test, read.table ... Điều này rất là quan trọng nếu
không để ý sẽ làm mất thì giờ của ngườ sử dụng.
Nếu lệnh gõ ra đúng "Văn phạm" thì R sẽ cho chúng ta
một cái prompt khác hay cho ra
kết quả nào đó (tùy theo lệnh); nếu lệnh không đúng "Văn Phạm" thì R sẽ đưa ra một thông
báo ngắn là không đúng hay không hiểu.

1.3.2 "Văn phạm" ngôn ngữ R :
Văn phạm chung của R là một lệnh (command) hay function. Mà đã là hàm thì phải có
tham số , cho nên theo sau hàm là những tham số mà chúng ta phải cung cấp .
Để biết một hàm có những tham số nào, chúng ta dùng lệnh args(x), mà trong đó x là hàm mà
chúng ta cần biết
R là một ngôn ngữ "đối tượng ". Điều này có nghĩa là các dữ liệu trong R được chứa trong
object. Định hướng này cũng có vài ảnh hưởng đến cách viết cảu R. Chẳng hạn như thay vì
viết x = 5 như thông thường chúng ta vẫn viết, thì R yêu cầu viết x == 5.
Một số kí hiệu hay dùng trong R :
x==y
x!=y

x bằng y
x không bằng y


y
y nhỏ hơn x

x>y

x lớn hơn y

x<=y

x nhỏ hơn hoặc bằng y

x>=y

x lớn hơn hoặc bằng y

is.na(x)

có phải x là biến số missing

A&B

A và B

Với R thì tất cả các câu chữ hay lệnh sau kí hiệu # đều không có hiệu ứng, vì # là kí hiệu
dành cho người sử dụng thêm vào các ghi chú.
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 2



ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ

1.3.3 Làm việc với dữ liệu trong R :
1.3.3.1 Nhập dữ liệu trực tiếp :
Muốn làm phân tích dữ liệu bằng R, chúng ta phải có sẵn dữ liệu ở dạng mà R có thể
hiểu được để xử lí. Dữ liệu mà R hiểu được phải là dữ liệu trong một data.frame. Có nhiều
cách để nhập số liệu vào một data.frame trong R, từ nhập trực tiếp đến nhập từ các nguồn
khác nhau. Sau đây là những cách thông dụng nhất:
Nhập số liệu bằng dòng lệnh :
Để nhập số liệu trực tiếp chúng ta sử dụng function c( ). Lệnh này cho phép chúng ta
tạo ra một cột dữ liệu . Cú pháp của hàm này :
>Tên_biến_lưu_dữ_liệu <- c(phần_tử_thứ_1, phần_tử_thứ_2, phần_tử_thứ_n).
Nhập số liệu trực tiếp :
Chúng ta có thể nhập số liệu về số năm lưu hành và số km cho 10 hãng xe bằng một
function rất có ích, đó là: edit(data.frame()).
Với function này, R sẽ cung cấp cho chúng ta một window mới với một dãy cột và
dòng giống như Excel, và chúng ta có thể nhập số liệu trong bảng đó. Ví dụ:
> ins <- edit(data.frame())
Chúng ta sẽ có một cửa sổ như sau:

BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 3


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
Hình 1.3.3.1: cách nhập số liệu trực tiếp
1.3.3.2 Nhập dữ liệu từ file xls (Excel) :

R cũng cho phép chúng ta có thể nhập dữ liệu từ một file định dạng xls của Excel một cách
đơn giản chỉ với vài thao tác. Trước tiên chúng ta lưu lại file xls dưới định dạng *.csv để R
có thể xử lý được. Sau đó sử dụng lệnh read.csv() để xử lý. Cú pháp của lệnh này như sau :
Tên_biến_lưu_liệu<-read.csv("đường_dẫn_đến_file_csv",HEADER=true)
Tham số HEADER = true cho R biết chúng ta muốn chọn dòng đầu tiên của file xls
làm tên của các cột. Sau khi thực hiện lệnh này chúng ta đã có một đối tượng chuNn của R để
lưu trữ dữ liệu của file xls ban đầu. Chúng ta có thể lưu lại đối tượng này cho các lần làm
việc sau băng lện save() đã được giới thiệu ở trên.

1.3.3.3 Xử lý dữ liệu:
Biên tập số liệu ở đây không có nghĩa là thay đổi số liệu gốc, mà chỉ có nghĩa tổ chức số liệu
sao cho R có thể phân tích một cách hữu hiệu. Nhiều khi trong phân tích thống kê, chúng ta
cần phải tập trung số liệu thành một nhóm, hay tách rời thành từng nhóm, hay thay thế từ kí
tự (characters) sang số (numeric) cho tiện việc tính toán. Trong chương này, tôi sẽ bàn qua
một số lệnh căn bản cho việc biên tập số liệu. Chúng ta sẽ quay lại với dữ liệu chol trong ví
dụ 1
> setwd("c:/works/stats")
> chol <- read.table("chol.txt", header=TRUE)
> attach(chol)

1.3.3.4 C

ệnh h

n

n :

Để cài thêm các Packages cần thiết cho R:
install.packages( boot ) # cài packages boot cho R

VD:
s rt( ) # tìm căn bậc của
(s rt( )) # tìm căn bậc của
Mean() # trung bình
Median() # trung vị
Var() # phương sai
Sd() # độ lệch chu n
Hist() # biểu đồ dạng cột
Plot() # biểu đồ tán xạ
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 4


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ

1.3.3.5 Nhập số liệu từ một text file: read.table :
Chúng ta thu thập số liệu về độ tuổi và cholesterol từ một nghiên cứu ở 50 bệnh nhân mắc
bệnh cao huyết áp. Các số liệu này được lưu trong một text file có tên là chol.txt tại directory
c:\works\insulin.
Số liệu này như sau: cột 1 là mã số của bệnh nhân, cột 2 là giới tính, cột 3 là bodymassindex
(bmi), cột 4 là HDL cholesterol (viết tắt là hdl), kế đến là LDL cholesterol, totalcholesterol
(tc) và triglycerides (tg).
Chúng ta muốn nhập các dữ liệu này vào R để tiện việc phân tích sau này. Chúng ta sẽ sử dụng
lệnh read.table như sau:
> setwd("c:/works/insulin")
> chol <- read.table("chol.txt", header=TRUE)
Lệnh thứ nhất chúng ta muốn đảm bảo R truy nhập đúng directory mà số liệu đang được
lưu giữ. Lệnh thứ hai yêu cầu R nhập số liệu từ file có tên là "chol.txt" (trong directory
c:\works\insulin) và cho vào đối tượng chol. Trong lệnh này, header=TRUE có nghĩa là

yêu cầu R đọc dòng đầu tiên trong file đó như là tên của từng cột dữ kiện.
Chúng ta có thể kiểm tra xem R đã đọc hết các dữ liệu hay chưa bằng cách ra lệnh:
> chol
Hay
> names(chol)
R sẽ cho biết có các cột như sau trong dữ liệu (names là lệnh hỏi trong dữ liệu có những cột
nào và tên gì):
[1] "id" "sex" "age" "bmi" "hdl" "ldl" "tc" "tg"
Bây giờ chúng ta có thể lưu dữ liệu dưới dạng R để xử lí sau này bằng cách ra lệnh:
> save(chol, file="chol.rda")

1.3.3.6 Nhập số liệu từ một SPSS: read.spss :

Phần mềm thống kê SPSS lưu dữ liệu dưới dạng "sav". Chẳng hạn như nếu chúng ta đã
có một dữ liệu có tên là testo.sav trong directory c:\works\insulin, và muốn chuyển dữ liệu
này sang dạng R có thể hiểu được, chúng ta cần sử dụng lệnh read.spss trong package có
tên là foreign. Các lệnh sau đây sẽ hoàn tất dễ dàng việc này:
Việc đầu tiên chúng ta cho truy nhập foreign bằng lệnh library:
> library(foreign)
Việc thứ hai là lệnh read.spss:
> setwd("c:/works/insulin")
> testo <- read.spss("testo.sav", to.data.frame=TRUE)
Lệnh thứ hai read.spss yêu cầu R đọc số liệu từ "testo.sav", và cho vào một data.frame có tên là
testo.
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 5


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ

Bây giờ chúng ta có thể lưu testo dưới dạng R để xử lí sau này bằng lệnh sau đây:
> save(testo, file="testo.rda")

1.3.4 Tạo dãy số bằng hàm seq, rep và gl :
R còn có công dụng tạo ra những dãy số rất tiện cho việc mô phỏng và thiết kế thí nghiệm.
Những hàm thông thường cho dãy số là seq (sequence), rep (repetition) và gl (generating
levels):
Áp dụng seq :
• Tạo ra một vector số từ 1 đến 12:
> x <- (1:12)
>x
[1] 1 2 3 4 5 6 7 8 9 10 11 12
> seq(12)
[1] 1 2 3 4 5 6 7 8 9 10 11 12
• Tạo ra một vector số từ 1 đến 5:
> x <- (12:5)
>x
[1] 12 11 10 9 8 7 6 5
> seq(12,7)
[1] 12 11 10 9 8 7
Công thức chung của hàm seq là seq(from, to, by= ) hay seq(from, to,
length.out= ). Cách sử dụng sẽ được minh hoạ bằng vài ví dụ sau đây:
• Tạo ra một vector số từ 4 đến 6 với khoảng cách bằng 0.25:
> seq(4, 6, 0.25)
[1] 4.00 4.25 4.50 4.75 5.00 5.25 5.50 5.75 6.00

Tạo ra một vector 10 số, với số nhỏ nhất
là 2 và số lớn nhất là 15
> seq(length=10, from=2, to=15)
[1] 2.000000 3.444444 4.888889 6.333333

13.555556 15.000000

7.777778

9.222222 10.666667 12.111111

Áp dụng rep :
Công thức của hàm rep là rep(x, times, ...), trong đó, x là một biến số và times
là số lần lặp lại. Ví dụ:
• Tạo ra số 10, 3 lần:
> rep(10, 3)
[1] 10 10 10


Tạo ra số 1 đến 4, 3 lần:

BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 6


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
> rep(c(1:4), 3)
[1] 1 2 3 4 1 2 3 4 1 2 3 4
• Tạo ra số 1.2, 2.7, 4.8, 5 lần:
> rep(c(1.2, 2.7, 4.8), 5)
[1] 1.2 2.7 4.8 1.2 2.7 4.8 1.2 2.7 4.8 1.2 2.7 4.8 1.2 2.7 4.8
• Tạo ra số 1.2, 2.7, 4.8, 5 lần:
> rep(c(1.2, 2.7, 4.8), 5)
[1] 1.2 2.7 4.8 1.2 2.7 4.8 1.2 2.7 4.8 1.2 2.7 4.8 1.2 2.7 4.8

Áp dụng gl :
gl được áp dụng để tạo ra một biến thứ bậc (categorical variable), tức biến không để tính toán,
mà là đếm. Công thức chung của hàm gl là gl(n, k, length = n*k, labels = 1:n, ordered =
FALSE) và cách sử dụng sẽ được minh hoạ bằng vài ví dụ sau đây:
• Tạo ra biến gồm bậc 1 và 2; mỗi bậc được lặp lại 8 lần:
> gl(1,2, 8)
[1] 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2
Levels: 1 2
Hay một biến gồm bậc 1, 2 và 3; mỗi bậc được lặp lại 5 lần:
> gl(1,2,3, 5)
[1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3
Levels: 1 2 3
• Tạo ra biến gồm bậc 1 và 2; mỗi bậc được lặp lại 10 lần (do đó length= 0):
> gl(1,2, 10, length=20)
[1] 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2
Levels: 1 2
Hay:
> gl(2, 2, length=20)
[1] 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2 1 1 2 2
Levels: 1 2

1.3.5 Biên tập số liệu :
1.3.5.1 Tách rời dữ liệu: subset
Chúng ta sẽ quay lại với dữ liệu chol trong ví dụ 1. Để tiện việc theo dõi và hiểu "câu
chuyện", xin nhắc lại rằng chứng ta đã nhập số liệu vào trong một dữ liệu R có tên là chol từ
một text file có tên là chol.txt:
> setwd("c:/works/insulin")
> chol <- read.table("chol.txt", header=TRUE)
> attach(chol)
Nếu chúng ta, vì một lí do nào đó, chỉ muốn phân tích riêng cho nam giới, chúng ta có thể

tách chol ra thành hai data.frame, tạm gọi là nam và nu. Để làm chuyện này, chúng ta dùng
lệnh subset(data, cond), trong đó data là data.frame mà chúng ta muốn tách rời, và cond là điều
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 7


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
kiện.
Ví dụ:
> nam <- subset(chol, sex=="Nam")
> nu <- subset(chol, sex=="Nu")
Sau khi ra hai lệnh này, chúng ta đã có dữ liệu (hai data.frame) mới tên là nam và nu. Chú ý
điều kiện sex == "Nam" và sex == "Nu" chúng ta dùng == thay vì = để chỉ điều kiện chính xác.
Tất nhiên, chúng ta cũng có thể tách dữ liệu thành nhiều data.frame khác nhau với những điều
kiện dựa vào các biến số khác. Chẳng hạn như lệnh sau đây tạo ra một data.frame mới tên là
old với những bệnh nhân trên 60 tuổi:
> old <- subset(chol, age>=60)
> dim(old)
[1] 25
8
Hay một data.frame mới với những bệnh nhân trên 60 tuổi và nam giới:
> n60 <- subset(chol, age>=60 & sex=="Nam")
> dim(n60)
[1] 9
8
1.3.5.2 Chiết số liệu từ một data .frame :
Trong chol có 8 biến số. Chúng ta có thể chiết dữ liệu chol và chỉ giữ lại những biến số
cần thiết như mã số (id), độ tuổi (age) và total cholestrol (tc). Để ý từ lệnh names(chol) rằng
biến số id là cột số 1, age là cột số 3, và biến số tc là cột số 7. Chúng ta có thể dùng lệnh sau

đây:
> data2 <- chol[, c(1,3,7)]
Ở đây, chúng ta lệnh cho R biết rằng chúng ta muốn chọn cột số 1, và 7, và đưa tất cả số
liệu của hai cột này vào data.frame mới có tên là data2. Chú ý chúng ta sử dụng ngoặc kép
vuông [] chứ không phải ngoặc kép vòng (), vì chol không phải làm một function. Dấu ph y
phía trước c, có nghĩa là chúng ta chọn tất cả các dòng số liệu trong data.frame chol.

1.3.5.3 Biến đổi số liệu bằng cách dùng replace :
Một cách biến đổi số liệu khác là dùng replace, dù cách này có vẻ rườm rà chút ít.
Tiếp tục ví dụ trên, chúng ta biến đổi từ bmd sang diagnosis như sau:
>
>
>
>

diagnosis
diagnosis
diagnosis
diagnosis

<<<<-

bmd
replace(diagnosis, bmd <= -2.5, 1)
replace(diagnosis, bmd > -2.5 & bmd <= 1.0, 2)
replace(diagnosis, bmd > -1.0, 3)

1.3.5.4 Biến đổi thành yếu tố (factor) :
Trong phân tích thống kê, chúng ta phân biệt một biến số mang tính yếu tố (factor) và
biến số liên tục bình thường. Biến số yếu tố không thể dùng để tính toán như cộng trừ nhân

chia ,nhưng biến số số học có thể sử dụng để tính toán. Chẳng hạn như trong ví dụ bmd và
diagnosis trên, diagnosis là yếu tố vì giá trị trung bình giữa 1 và 2 chẳng có ý nghĩa thực tế gì
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 8


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
cả; còn bmd là biến số số học.
Nhưng hiện nay, diagnosis được xem là một biến số số học. Để biến thành biến số yếu tố,
chúng ta cần sử dụng function factor như sau:
> diag <- factor(diagnosis)
> diag
[1] 3 3 3 1 2 1 2 3 3 2
Levels: 1 2 3
1.3.5.5 Chọn mẫu n ẫu nhiên (ran om samp in ):
Trong xác suất và thống kê, lấy mẫu ngẫu nhiên rất quan trọng, vì nó đảm bảo tính hợp lí
của các phương pháp phân tích và suy luận thống kê. Với R, chúng ta có thể lấy mẫu một
mẫu ngẫu nhiên bằng cách sử dụng hàm sample.
Ví dụ: Chúng ta có một quần thể gồm 40 người (mã số 1, 2, 3, , 40). Nếu chúng ta muốn
chọn 5 đối tượng quần thể đó, ai sẽ là người được chọn? Chúng ta có thể dùng lệnh sample()
để trả lời câu hỏi đó như sau:
> sample(1:40, 5)
[1] 32 26 6 18 9
Kết quả trên cho biết đối tượng , 6, 8, 18 và 9 được chọn. Mỗi lần ra lệnh này, R sẽ
chọn một mẫu khác, chứ không hoàn toàn giống như mẫu trên.
1.3.5.6 Kiểm định t (t.test) :
Kiểm định t dựa vào giả thiết phân phối chu n. Có hai loại kiểm định t: kiểm định t cho
một mẫu (one-sample t-test), và kiểm định t cho hai mẫu (two-sample t-test). Kiểm định t
một mẫu nằm trả lời câu hỏi dữ liệu từ một mẫu có phải thật sự bằng một thông số nào đó

hay không. Còn kiểm định t hai mẫu thì nhằm trả lời câu hỏi hai mẫu có cùng một luật phân
phối, hay cụ thể hơn là hai mẫu có thật sự có cùng trị số trung bình hay không. Tôi sẽ lần
lượt minh họa hai kiểm định này qua số liệu igfdata trên.
Kiểm định t một mẫu:
Ví dụ: Qua phân tích trên, chúng ta thấy tuổi trung bình của 100 đối tượng trong nghiên cứu
này là 19.17 tuổi. Chẳng hạn như trong uần thể này, trước đây chúng ta biết rằng tuổi trung
bình là 30 tuổi. Vấn đề đặt ra là có phải mẫu mà chúng ta có được có đại diện cho quần thể
hay không. Nói cách khác, chúng ta muốn biết giá trị trung bình 19.17 có thật sự khác với giá
trị trung bình 30 hay không.
Trong đó, x là giá trị trung bình của mẫu, s là độ lệch chu n, và n là số lượng mẫu (100).
Nếu giá trị t cao hơn giá trị lí thuyết theo phân phối t ở một tiêu chu n có ý nghĩa như 5%
chẳng hạn thì chúng ta có lí do để phát biểu khác biệt có ý nghĩa thống kê. Giá trị này cho
mẫu 100 có thể tính toán bằng hàm qt của R như sau:
> qt(0.95, 100)
[1] 1.660234
Nhưng có một cách tính toán nhanh gọn hơn để trả lời câu hỏi trên, bằng cách dùng hàm
t.test như sau:
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 9


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
> t.test(age, mu=30)
One Sample t-test
data: age
t = -27.6563, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 30
95 percent confidence interval:
18.39300 19.94700

sample estimates:
mean of x
19.17
Trong lệnh trên age là biến số chúng ta cần kiểm định, và mu=30 là giá trị giả thiết. R trình
bày trị số t = -27.66, với 99 bậc tự do, và trị số p < 2.2e-16 (tức rất thấp). R
cũng cho biết độ tin cậy 95% của age là từ 18.4 tuổi đến 19.9 tuổi (30 tuổi nằm quá ngoài
khoảng tin cậy này). Nói cách khác, chúng ta có lí do để phát biểu rằng độ tuổi trung bình
trong mẫu này thật sự thấp hơn độ tuổi trung bình của quần thể.
Kiểm định t hai mẫu:
Ví dụ : Qua phân tích mô tả trên (phầm summary) chúng ta thấy phụ nữ có độ hormone igfi cao
hơn nam giới (167.97 và 160.29). Câu hỏi đặt ra là có phải thật sự đó
là một khác biệt có hệ thống hay do các yếu tố ngẫu nhiên gây nên. Trả lời câu hỏi này,
chúng ta cần xem xét mức độ khác biệt trung bình giữa hai nhóm và độ lệch chu n của độ khác
biệt.
Trong đó x1 và x2 là số trung bình của hai nhóm nam và nữ, và SED là độ lệch chu n
của ( x1 - x2 )
Trong đó SE1 và SE2 là sai số chu n (standard error) của hai nhóm nam và nữ. Theo lí
thuyết xác suất, t tuân theo luật phân phối t với bậc tự do n1, n2 , trong đó n1 và n2 là
số mẫu của hai nhóm. Chúng ta có thể dùng R để trả lời câu hỏi trên bằng hàm t.test
như sau:
> t.test(igfi~ sex)
Welch Two Sample t-test
data: igfi by sex
t = 0.8412, df = 88.329, p-value = 0.4025
alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:
-10.46855 25.83627
sample estimates:
mean in group Female
mean in group Male
167.9741

160.2903
R trình bày các giá trị quan trọng trước hết:
t = 0.8412, df = 88.329, p-value = 0.4025
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 10


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ

df là bậc tự do. Trị số p = 0.4025 cho thấy mức độ khác biệt giữa hai nhóm nam và nữ
không có ý nghĩa thống kê (vì cao hơn 0.05 hay 5%).
95 percent confidence interval:
-10.46855 25.83627
Là khoảng tin cậy 95% về độ khác biệt giữa hai nhóm. Kết quả tính toán trên cho biết độ igf
ở nữ giới có thể thấp hơn nam giới 10.5 ng/L hoặc cao hơn nam giới khoảng 25.8 ng/L. Vì
độ khác biệt quá lớn và đó là thêm bằng chứng cho thấy không có khác biệt có ý nghĩa thống
kê giữa hai nhóm.
Kiểm định trên dựa vào giả thiết hai nhóm nam và nữ có khác phương sai. Nếu chúng ta
có lí do đề cho rằng hai nhóm có cùng phương sai, chúng ta chỉ thay đổi một thông số trong
hàm t với var.e ual=TRUE như sau:
> t.test(igfi~ sex, var.equal=TRUE)
Two Sample t-test
data: igfi by sex
t = 0.7071, df = 98, p-value = 0.4812
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-13.88137 29.24909
sample estimates:
mean in group Female

mean in group Male
167.9741
160.2903
Về mặc số, kết quả phân tích trên có khác chút ít so với kết quả phân tích dựa vào giả định
hai phương sai khác nhau, nhưng trị số p cũng đi đến một kết luận rằng độ khác biệt giữa hai
nhóm không có ý nghĩa thống kê.

1.3.5.7 Hệ số tương quan:

Hệ số tương uan (r) là một chỉ số thống kê đo lường mối liên hệ tương uan giữa hai biến
số, như giữa độ tuổi (x) và cholesterol (y). Hệ số tương uan có giá trị từ -1 đến 1. Hệ số
tương uan bằng 0 (hay gần 0) có nghĩa là hai biến số không có liên hệ gì với nhau; ngược
lại nếu hệ số bằng -1 hay 1 có nghĩa là hai biến số có một mối liên hệ tuyệt đối.
Nếu giá trị của hệ số tương uan là âm (r <0) có nghĩa là khi x tăng cao thì y giảm (và
ngược lại, khi x giảm thì y tăng); nếu giá trị hệ số tương uan là dương (r 0) có nghĩa là
khi x tăng cao thì y cũng tăng, và khi x tăng cao thì y cũng giảm theo.
Thực ra có nhiều hệ số tương uan trong thống kê, nhưng ở đây tôi sẽ trình bày 3 hệ số tương
quan thông dụng nhất: hệ số tương uan Pearson r, Spearman , và Kendall .

1.4
uđ :
1.4.1 Số liệu cho phân tích bi u đ :

Sau khi đã biết ua môi trường và những lựa chọn để thiết kế một biểu đồ, bây giờ chúng
ta có thể sử dụng một số hàm thông dụng để vẽ các biểu đồ cho số liệu. Theo tôi, biểu đồ có
thể chia thành 2 loại chính: biểu đồ dùng để mô tả một biến số và biểu đồ về mối liên hệ giữa
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 11



ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
hai hay nhiều biến số. Tất nhiên, biến số có thể là liên tục hay không liên tục, cho nên, trong
thực tế, chúng ta có 4 loại biểu đồ.
Trong phần sau đây, tôi sẽ điểm qua các loại biểu đồ, từ đơn giản đến phức tạp. Có lẽ cách
tốt nhất để tìm hiểu cách vẽ đồ thị bằng R là bằng một dữ liệu thực tế.
VD: chúng ta có dữ liệu gồm 4 cột (hay biến số): id, lx, nsx, wei
(Chú ý, id là mã số của 10 đối tượng nghiên cứu; lx là loại xe (SUV hay SENDAN); nsx là
năm sản xuất; eight là tỉ số trọng lương .
Dữ liệu được chứa trong directory directory c:\works\insulin dưới tên car.txt. Trước khi vẽ
đồ thị, chúng ta bắt đầu bằng cách nhập dữ liệu này vào R.
> setwd("c:/works/stats")
> oto <- read.table("car.txt", header=TRUE, na.strings=".")
> attach(oto)
Hay để tiện việc theo dõi tôi sẽ nhập các dữ liệu đó bằng các lệnh sau đây:
lx <- c("suv , sendan , "suv , sendan , "suv , sendan , "suv , sendan
nsx <- c(1990, 1992, 1994, 1996, 1991, 1896, 2000, 1998 )

wie <- c( 1.200, 800, 1.500, 1.100, 1.800, 1.600, 2.200, 1.300)
cong <- data.frame(lx, nsx, wie)

1.4.2 Bi u đ cho một biến số rời rạc (discrete variable): barplot
Biến lx trong dữ liệu trên có hai giá trị (suv và sendan), tức là một biến không liên tục. Chúng
ta muốn biết tần số của loại xe (bao nhiêu suv và bao nhiêu sendan) và vẽ một biểu đồ đơn
giản. Để thực hiện ý định này, trước hết, chúng ta cần dùng hàm table để biết tần số:
> lx.freq <- table(lx)
> lx.freq
lx
suv sendan
22 28

Có 22 suv và 28 sendan trong nghiên cứu. Sau đó dùng hàm barplot để thể hiện tần số này
như sau:
> barplot(lx.freq, main="Frequency of suv and sendan")
cũng có thể có được bằng một lệnh đơn giản hơn :
> barplot(table(lx), main="Frequency of suv and sendan"
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 12


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ

Thay vì thể hiện tần số suv và sendan bằng 2 cột, chúng ta có thể thể hiện bằng hai dòng
bằng thông số horiz = TRUE, như sau :
> barplot(lx.freq,
horiz = TRUE,
col = rainbow(length(lx.freq)),
main="Frequency of suv and sendan")

1.4.3 Bi u đ cho hai biến số liên tục :
Age là một biến số liên tục. Chúng ta có thể chia các xe thành nhiều nhóm dựa vào năm
sản xuất. Hàm cut có chức năng "cắt" một biến liên tục thành nhiều nhóm rời rạc. Chẳng
hạn như:
> nsx <- cut(nsx)
> table(nsx)
>nsx( 1998, 1990, 2000 ,2010, 2004, 1996 )
Có hiệu quả chia biến nsx thành 3 nhóm. Tần số của ba nhóm này là: sản xuất năm 1990
đến 000 thành nhóm 1, 2000 đến 2005 thành nhóm 2, và 2005 đến 2010 thành nhóm 3.
Nhóm 1 có 19 xe, nhóm 2 và 3 có 24 và 7 xe .
Bây giờ chúng ta muốn biết có bao nhiêu xe trong từng năm sản xuất và từng dòng xe bằng

lệnh table:
> nsx.slx <- table(lx, nsxg)
> nsx.lx
Để thể hiện tần số của hai biến này, chúng ta vẫn dùng barplot:
> barplot(nsx.lx, main="Number of suvs and sendan in each nsx group")
>barplot(nsx.lx, beside=TRUE, xlab="nsx group")

1.4.4 Bi u đ hình tròn :

Tần số một biến rời rạc cũng có thể thể hiện bằng biểu đồ hình tròn. Ví dụ sau đây vẽ biểu
đồ tần số của độ tuổi. Bi u đ 10a là nhóm độ tuổi, và Bi u đ 10b là biểu đồ tần số cho 5
nhóm tuổi:
> pie(table(ageg))
>pie(table(cut(age,5)))

BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 13


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ

Hình 1.4.4: Biểu đồ hình tròn 3 và 5 nhóm tuổi

1.4.5 Stripchart :
Biểu đồ strip cho chúng ta thấy tính liên tục của một biến số. Chẳng hạn như chúng ta
muốn tìm hiểu tính liên tục của triglyceride (tg), hàm stripchart() sẽ giúp trong mục tiêu
này:
> stripchart(tg, main="Strip chart for triglycerides", xlab="mg/L")


BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 14


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
Hình 1.4.5: Biểu đồ strip
Chúng ta thấy biến số tg có sự bất liên tục, nhất là các đối tượng có tg cao. Trong khi phần lớn
đối tượng có độ tg thấp hơn 5, thì có đối tượng với tg rất cao (>5).

1.4.6 Phân tích Bi u đ cho nhiều biến: pairs :
Chúng ta có thể tìm hiểu mối liên hệ giữa các biến số như age, bmi, hdl, ldl và tc bằng cách
dùng lệnh pairs. Nhưng trước hết, chúng ta phải đưa các biến số này vào một data.frame
chỉ gồm những biến số có thể vẽ được, và sau đó sử dụng hàm pairs trong R.
> lipid <- data.frame(age,bmi,hdl,ldl,tc)
> pairs(lipid, pch=16)
Kết quả sẽ là:

Hình 1.4.6: Biểu đồ nhiều biến pairs

BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 15


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ

CHƯƠNG II
HI
.1 ử


VỀ

số iệu hự n hiệm - b ớ ph

IỆ

H C NGHIỆ

riển ủa khoa họ hự n hiệm:

Nhiều công trình nghiên cứu khoa học công nghệ thường đưa đến giải bài toán cực
trị, tìm điều kiện tối ưu để tiến hành các uá trình hoặc lựa chọn thành phần tối ưu để tiến
hành các uá trình hoặc lựa chọn thành phần tối ưu của hệ nhiều phần tử.
Chẳng hạn, khi xem xét các uá trình CN hóa học mới, nhiệm vụ nghiên cứu thường là
thay đổi nhiệt độ, áp suất và tỉ lệ các chất phản ứng để tìm hiệu suất phản ứng cao nhất,
tính toán, lựa chọn giá trị thích hợp nhất của các thông số cấu trúc và động học, nhằm đạt
đến chất lượng làm việc và hiệu uả kinh tế cao nhất của uá trình.
Những bài toán này thường giải uyết ở các mức độ nghiên cứu các yếu tố ảnh hưởng đến
hệ, lập mô hình biểu diễn mối phụ thuộc giữa các phần tử của hệ, điều khiển hệ theo mục
đích cho trước, hoặc đưa về trạng thái tối ưu theo những chỉ tiêu đánh giá đã chọn.
Thông thường các hệ cần điều khiển và tối ưu rất phức tạp, đối tượng nghiên cứu ngày
càng đa dạng hơn, trở thành những hệ thống cồng kềnh với tập hợp lớn các yếu tố ảnh
hưởng và chỉ tiêu đánh giá. Mối uan hệ giữa các thành phần trong hệ thống càng không
thể mô tả bằng các hàm lý thuyết.
Vì vậy, đa số các bài toán cực trị được giải uyết bằng thực nghiệm. Ngày nay người ta
thường đề cập tới phương pháp kết hợp giữa lý thuyết và thực nghiệm. Tùy theo mức độ
hiểu biết về cơ chế của uá trình, ý nghĩa của nghiên cứu lý thuyết thường được giới hạn ở
tác dụng định hướng ban đầu, hỗ trợ giảm bớt khối lượng công việc, rút ngắn thời gian cho
nghiên cứu thực nghiệm.

Bên cạnh đó, thực nghiệm có tác dụng trở lại, bổ sung cho kết quả nghiên cứu lý thuyết,
xác định rõ hơn cơ chế của hiện tượng.

BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 16


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
Vai trò của thực nghiệm càng lớn thì mục tiêu đề ra cho chúng càng cao, vì vậy thực
nghiệm cũng có nhu cầu phát triển và trở thành đối tượng nghiên cứu, một ngành khoa
học.
Có thể nói, lý thuyết qui hoạch thực nghiệm từ khi ra đời đã thu hút sự quan tâm và nhận
được nhiều đóng góp hoàn thiện của các nhà khoa học. Những ưu điểm rõ rệt của phương
pháp này so với các thực nghiệm cổ điển là:
- Giảm đáng kể số lượng thí nghiệm cần thiết.
- Hàm lượng thông tin nhiều hơn rõ rệt, nhờ đánh giá được vai trò qua lại giữa các yếu tố
và ảnh hưởng của chúng đến hàm mục tiêu. Nhận được mô hình toán học thống kê thực
nghiệm theo các tiêu chu n thống kê, đánh giá được sai số của quá trình thực nghiệm theo
các tiêu chu n thống kê cho phép xét ảnh hưởng của các yếu tố với mức độ tin cậy cần
thiết.
- Cho phép xác định được điều kiện tối ưu đa yếu tố của đối tượng nghiên cứu một cách
khá chính xác bằng các công cụ toán học, thay cho cách giải gần đúng, tìm tối ưu cục bộ
như các thực nghiệm thụ động.
2.2 Những khái niệm ơ bản của số iệu hực nghiệm :
ử lý số liệu thực nghiệm là cơ sở phương pháp luận của nghiên cứu thực nghiệm
hiện đại. Đó là phương pháp nghiên cứu mới, trong đó công cụ toán học giữa vai trò tích
cực. Cơ sở toán học nền tảng của lý thuyết qui hoạch thực nghiệm là toán học xác suất
thống kê với hai lĩnh vực quan trọng là phân tích phương sai và phân tích hồi qui.
2.2.1 Định n hĩa qui hoạch thực nghiệm:

Qui hoạch thực nghiệm là tập hợp các tác động nhằm đưa ra chiến thuật làm thực nghiệm
từ giai đoạn đầu đến giai đoạn kết thúc của quá trình nghiên cứu đối tượng (từ nhận thông
tin mô phỏng đến việc tạo ra mô hình toán, xác định các điều kiện tối ưu), trong điều kiện
đã hoặc chưa hiểu biết đầy đủ về cơ chế của đối tượng.
2.2.2 Đối

ợng của qui hoạch thực nghiệm trong các ngành công nghệ:

Là một quá trình hoặc hiện tượng nào đó có những tính chất, đặc điểm chưa biết cần
nghiên cứu. Người nghiên cứu có thể chưa hiểu biết đầu đủ về đối tượng, nhưng đã có một
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 17


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
số thông tin tiên nghiệm dù chỉ là sự liệt kê sơ lược những thông tin biến đổi, ảnh hưởng
đến tính chất đối tượng. Có thể hình dung chúng như một hộp đen trong hệ thống điều
khiển gồm các tín hiệu đầu vào và đầu ra.
Các tín hiệu đầu vào được chia thành ba nhóm: Các biến kiểm tra được và điều khiển
được, mà người nghiên cứu có thể điều chỉnh theo dự định, biểu diễn bằng vectơ:
Z = [Z1, Z2, ..., Zk]
Các biến kiểm tra được nhưng không điều khiển được, biểu diễn bằng vectơ:
T = [T1, T2, ..., Th]
Các biến không kiểm tra được và không điều khiển được, biểu diễn bằng vectơ:
E = [E1, E2, ..., Ef]
Các tín hiệu đầu ra dùng để đánh giá đối tượng là vectơ Y = (y1, y2,..., yq). Chúng thường
được gọi là các hàm mục tiêu. Biểu diễn hình học của hàm mục tiêu được gọi là mặt đáp
ứng (bề mặt biếu diễn).
Phương pháp tóan học trong xử lý số liệu từ kế hoạch thực nghiệm là phương pháp

thống kê. Vì vậy các mô hình biểu diễn hàm mục tiêu chính là các mô hình thống kê thực
nghiệm. Các mô hình này nhận được khi có công tính nhiễu ngẫu nhiên. Cấu trúc mô hình
thống kê thực nghiệm có dạng như hình .
Trong tập hợp các mô hình thống kê khác nhau, mô hình được quan tâm nhiều nhất
trong thực tế là mô hình của phân tích hồi qui. Mô hình hồi ui được biểu diễn bằng quan
hệ tổng quát:
Y = φ (Z1, Z2, ..., Zk ; T1, T2, ..., Th ; β1, β2,..., βk) + e = φ [(Z, T) ; β] + e
Trong đó β = (β 1, β2,..., βk) là vectơ tham số của mô hình.
Dạng hàm φ được ấn định trước, còn các hệ số β là chưa biết, cần xác định từ thực nghiệm.
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 18


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
Để xác định các tham số của mô tả thống kê thực nghiệm ta phải làm các thực
nghiệm theo kế hoạch thực nghiệm. Đối tượng nghiên cứu chính của lý thuyết qui hoạch
thực nghiệm là các thực nghiệm tích cực. Đó là các thực nghiệm chỉ bao gồm các yếu tố
đầu vào thuộc nhóm Z, người thực nghiệm chủ động thay đổi chúng theo kế hoạch thực
nghiệm đã vạch sẵn .
. .3 C

ph ơn ph p qu hoạ h hự n hiệm :

Thực nghiệm sàng lọc : là thực nghiệm mà nhiệm vụ của nó là tách những yếu tố ảnh
hưởng đáng kể ra khỏi những yếu tố đầu vào để tiếp tục nghiên cứu chúng trong các thực
nghiệm cần thiết.
Thực nghiệm mô phỏng : là thực nghiệm liên quan tới việc mô phỏng hiện tượng cần
nghiên cứu. Có nhiều dạng mô phỏng, ở đây chỉ uan tâm đến dạng thực nghiệm được
hoàn tất bằng mô hình hồi ui đa thức.

Thực nghiệm cực trị : là thực nghiệm được phát triển từ thực nghiệm mô phỏng. Nhiệm vụ
của nó là xây dựng mô hình toán thực nghiệm, theo đó xác định giá trị tối ưu của hàm mục
tiêu và các tọa độ tối ưu của hàm. Nói cách khác là xác định bộ kết hợp giá trị các yếu tố
mà tại đó hàm mục tiêu đạt cực trị.
2.2.4 Kế hoạch thực nghiệm :
Đối với các thực nghiệm tích cực, miền tác động là miền các giá trị có thể có của các
yếu tố Z trong thực nghiệm. Trong miền tác động có miền qui hoạch - miền giá trị của các
yếu tố vào Z - trong đó chứa vừa đủ các điểm thí nghiệm của thực nghiệm. Nói cách khác,
đó là miền tạo bởi phạm vị thay đổi các yếu tố Z theo kế hoạch thực nghiệm xác định. Kế
hoạch thực nghiệm bao gồm các điểm thí nghiệm gọi là điểm của kế hoạch. Đó là một bộ
(còn gọi là phương án) kết hợp các giá trị cụ thể của các yếu tố vào Z, ứng với điều kiện
tiến hành một thí nghiệm trong tập hợp các thí nghiệm của thực nghiệm.

BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 19


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
Tại điểm thứ i của kế hoạch, bộ kết hợp các giá trị Zji bao gồm giá trị cụ thể của k yếu
tố đầu vào :
Zji = [Z1i, Z2i, ..., Zkj]
Trong đó:

là điểm thí nghiệm thứ i của kế hoạch thứ

i = 1, 2, ..., N

N là số điểm thí nghiệm của kế hoạch.
j = 1, 2, ..., k


là yếu tố thứ j , k là số yếu tố đầu vào.

2.2.5 Các mức yếu tố :
Các giá trị cụ thể của yếu tố vào Z được ấn định tại các điểm kế hoạch gọi là các mức
yếu tố. Khái niệm mức yếu tố dược sử dụng khi mô tả các điểm đặc trưng trong miền qui
hoạch: mức trên, mức dưới, mức cơ sở, mức sao * .
Mức cơ sở Z0j của các yếu tố là điều kiện thí nghiệm được un tâm đặc biệt. Thông thường
vectơ các yếu tố đầu vào tại mức cơ sở Z0 = [Z0j, Z0j, ..., Z0j] chỉ ra trong không gian yếu
tố một điểm đặc biệt nào đó gọi là tâm kế hoạch, mà trong vùng quanh nó phân bố toàn bộ
các điểm kế hoạch. Các tọa độ Z0j của vectơ Z0 được chọn theo công thức:

X 

Z Z

j

Zj 

j

Z

Z

max
j

; j = 1, ..., k


0
j

j

Z

min
j

; j = 1, ..., k

2

2.2.6 Giá trị mã hóa:
Để tiện tính các hệ số thực nghiệm của mô hình hồi qui toán học và tiến hành các bước xử
lý số liệu khác, trong kế hoạch thực nghiệm người ta sử dụng các mức yếu tố theo giá trị
mã hóa.
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 20


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
Giá trị mã hóa của yếu tố là đại lượng không thứ nguyên, ui đổi chu n hóa từ các mức giá
trị thực của yếu tố nhờ quan hệ :

xj 


Z j  Z 0j
Z j



2( Z j  Z 0j )
Z j max  Z j min

Trong tài liệu này chúng ta giữ nguyên các ký hiệu: Zj là giá trị thực của yếu tố (gọi
là biến thực) ; xj là giá trị mã hóa của yếu tố (gọi là biến mã).
Như vậy, theo tỉ lệ qui chu n, mức cơ sở mã hóa của yếu tố đầu vào là : x0j = 0.
Gốc tọa độ của các xj trùng với tâm thực nghiệm, bước thay đổi của các biến mã xj ứng với
các bước Δxj chính là 1 đơn vị.

x j 

Z j max  Z j min
2 Z j

1

2.2.7 Ma trận kế hoạch thực nghiệm:
Là dạng mô tả chu n các điều kiện tiến hành thí nghiệm (các điểm thí nghiệm) theo
bảng chữ nhật, mỗi hàng là một thí nghiệm (còn gọi là phương án kết hợp các yếu tố đầu
vào), các cột ứng với các yếu tố đầu vào.
Trong ma trận kế hoạch Z có thể có một số hàng mà mọi thông số vào đều giống nhau, ví
dụ, có một số hàng mà mọi thông số vào đều ở mức cơ sở, mọi Z0j.
Ma trận kế hoạch thực nghiệm X là ma trận chỉ gồm toàn các biến mã xj. Các cột biến mã
hoàn toàn khác nhau.


BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 21


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ

CHƯƠNG III
C C HƯƠNG H

N
IỆ
H C NGHIỆ
3.1 Các nguyên tắ

ơ bản của qui hoạch thực nghiệm :

3.1. 1 Nguyên tắc không lấy toàn bộ trạn

h i đầu vào :

Để có thông tin toàn diện về tính chất hàm mục tiêu về nguyên tắc cần tiến hành vô số
các thực nghiệm trong miền qui hoạch.

+1

* M(x1, x2)
O

-1


H nh 3.1.1 miền qui hoạ h
Ví dụ : trong trường hợp có hai yếu tố, nếu cho mỗi yếu tố biến đổi liên tục từ -1 đến +1
thì miền thực nghiệm sẽ là hình vuông chứa vô số điểm M(x1, x2) đặc trưng cho trạng thái
đầu vào.
Về lý thuyết nếu không tiến hành tất cả các thực nghiệm đó thì có thể bỏ sót đặc
điểm nào đó của hàm mục tiêu, tuy nhiên thực tế không thể thực hiện được điều đó.
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 22


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
Do vậy người nghiên cứu chỉ có thể lấy những giá trị rời rạc, chọn mức biến đổi nào
đó cho các yếu tố. Sự lựa chọn này cần có cơ sở khoa học, nó gắn liền với sự lựa chọn
dạng hàm, tức là dạng mô phỏng của bề mặt đáp ứng. Dạng hàm thông thường là bậc một
hoặc bậc 2 và số mức biến đổi thường là hai hoặc ba.
3.1.2 Nguyên tắc phức tạp dần mô hình toán học :
Khi chưa có thông tin ban đầu về các tính chất của hàm mục tiêu, thì không nên xây
dựng mô hình phức tạp của đối tượng để tránh chi phí vô ích về thời gian, phương tiện vật
chất nếu không dùng đến mô hình đó. Vì thế lý thuyết qui hoạch thực nghiệm hướng dẫn
nên bắt đầu từ những mô hình đơn giản nhất, ứng với những thông tin ban đầu đã có về đối
tượng.
Logic tiến hành thực nghiệm là nên làm ít thí nghiệm để có mô hình đơn giản (ví dụ mô
hình tuyến tính), kiểm tra tính tương hợp của mô hình :
- Nếu mô hình tương hợp, đạt yêu cầu thì dừng lại, hoặc cải tiến ;
- Nếu mô hình không thì tiến hành giai đoạn tiếp theo của thực nghiệm : làm những thí
nghiệm mới, bổ sung để rồi nhận được mô hình phức tạp hơn (ví dụ mô hình phi tuyến),
kiểm tra mô hình mới cho đến khi đạt được mô hình hữu dụng.
3.1.3. Nguyên tắ đối chứng với nhiễu :

Độ chính xác của mô hình phải tương xứng với cường độ nhiễu ngẫu nhiên mà
chúng tác động lên kết quả đo hàm mục tiêu. Trong cùng điều kiện như nhau, độ nhiễu
càng nhỏ thì mô hình càng phải chính xác, phải phức tạp hơn.
Bằng các công cụ tính toán thống kê, người ta đã xây dựng hoàn chỉnh các qui trình
chu n theo các tiêu chu n thống kê để giải quyết các nhiệm vụ xác định tính tương hợp
của mô hình tìm được, hiệu chỉnh dạng mô hình, kiểm tra tính đúng đắn của các giả thiết,
các tiên đề mà dựa vào đó tìm ra các mô hình.
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 23


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
3.2 C

b ớc qui hoạch thực nghiệm cực trị :

3.2.1 Chọn thông số nghiên cứu :
Phân loại các yếu tố ảnh hưởng lên đối tượng thành các nhóm Z, T và E. Một mặt đưa
ra những biện pháp tích cực để hạn chế tác động của các nhóm yếu tố T và E, mặt khác
phải phân tích để chọn từ Z các yếu tố ảnh hưởng chính, loại bớt những yếu tố không cần
thiết, nhằm đảm bảo tính khả thi và hiệu quả của thực nghiệm.
Lựa chọn chỉ tiêu (mục tiêu) đánh giá đối tượng, sao cho các chỉ tiêu này vừa đáp ứng các
yêu cầu của phương pháp ui hoạch thực nghiệm, vừa đại diện nhất cho các điều kiện tối
ưu của đối tượng nghiên cứu.
Căn cứ vào số yếu tố ảnh hưởng chính, chỉ tiêu đánh giá, mục đích, nhiệm vụ thực nghiệm,
người nghiên cứu phải biết nhóm các yếu tố vào theo kế hoạch thực nghiệm, vì tính hiệu
quả và khả năng làm việc của các mô hình hồi qui phụ thuộc nhiều vào kết quả xác định
yếu tố vào của chúng.
Trong giai đoạn này, miên qui hoạch và số mức thay đổi của các yếu tố ảnh hưởng phải

được xác định sơ bộ.
3.2.2 Lập kế hoạch thực nghiệm :
Chọn được dạng kế hoạch thí nghiệm phù hợp với điều kiện tiến hành thí nghiệm và
với đặc điểm các yếu tố của đối tượng.
Mỗi dạng kế hoạch đặc trưng bởi các chu n tối ưu và tính chất khác nhau. Nên quan tâm
nhiều đến điều kiện thí nghiệm và đặc điểm đo đạc, nhận giá trị của mục tiêu.
3.2.3 Tiến hành thí nghiệm nhận thông tin :
Sử dụng các phương pháp riêng cho từng đối tượng , Sử dụng một số phương pháp
xử lý số liệu, kiểm tả một số giả thiết thống kê. Việc xử lý nhanh các thông tin ngay trong
BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 24


ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HỒ CHÍ MINH – KHOA CKĐ
quá trình nhận chúng có tác dụng tích cực, giúp xác minh kịp thời những thí nghiệm cần
bổ sung khi điều kiện thí nghiệm còn đang cho phép với các phép kiểm tra đồng nhất
phương sai, tính liên thuộc của số liệu bị nghi ngờ, mức độ ảnh hưởng của các yếu tố...
3.2.4 Xây dựng và kiểm tra mô hình thực nghiệm :
Sử dụng phương pháp bình phương nhỏ nhất và các nội dung phân tích hồi qui, phân
tích phương sai để xác định giá trị của các hệ số trong mô hình hồi ui đa thức, kiểm tra
mô hình theo độ tương thích và khả năng làm việc. Tùy theo loại thực nghiệm mà mô hình
là tuyến tính hay phi tuyến. Ví dụ các dạng phương trình hồi qui:
- Mô hình bậc hai tuyến tính:

y   ( x , x ,..., x )  b   b x 
k

1


2

k

0

j 1

j

j

k

b

j , u 1

ju

x x  ...
j

u

ju

- Mô hình bậc hai phi tuyến:
k


y  b0   b j x j 
j 1

k

k

j , u 1

1

2
b
x
x

...

b
x
 ju j u
 jj j
j u

Các hệ số hồi qui B = [b0, b1, b2 ..., bk, b11, b12, ..., bjj] được xác định theo công thức tổng
uát dưới dạng ma trận :
B = [X*X]-1X*Y
Trong đó * - ma trận chuyển vị của ma trận kế hoạch
Mô hình thống kê thực nghiệm chỉ có thể sử dụng sau khi đã thỏa mãn các tiêu chu n
thống kê (Student và Fisher).


BÁO CÁO TIỂU LUẬN TỐT NGHIỆP

Trang 25


×