Tải bản đầy đủ (.doc) (40 trang)

Tiểu luận môn Công nghệ tri thức: LÝ THUYẾT THỐNG KÊ HỌC STATISTICS VÀ BÀI TẬP THỎ NÓI DỐI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (612.23 KB, 40 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA CÔNG NGHỆ THÔNG TIN
Tel. (84-511) 736 949, Website: itf.ud.edu.vn, E-mail:

TIỂU LUẬN MÔN HỌC
CÔNG NGHỆ TRI THỨC

NGÀNH KHOA HỌC MÁY TÍNH
ĐỀ TÀI :
LÝ THUYẾT THỐNG KÊ HỌC - STATISTICS
VÀ BÀI TẬP THỎ NÓI DỐI
Nhóm HV : 1. ĐẶNG VĂN NGHĨA
2. MAI XUÂN PHÚ
3. TRẦN HỮU PHƯỚC
Lớp Cao học KHMT Khóa 31 (2015 − 2017)

ĐÀ NẴNG, 5/2016



LỜI CẢM ƠN
Ngày nay Công nghệ Thông tin được ứng dụng trong hầu hết các lĩnh vực của đời
sống, từ kinh tế, chính trị, xã hội, văn hóa... đến các lĩnh vực nghiên cứu khoa học khác.
Do vậy, lượng dữ liệu đã được các cơ quan, tổ chức, cá nhân thu thập và lưu trữ ngày một
nhiều lên và hình thành các kho dữ liệu khổng lồ. Cùng với sự phát triển đó, yêu cầu có
một nghành khoa học để phục vụ việc phân tích, giải thích, trình bày và tổ chức các dữ
liệu khổng lồ đó là rất cần thiết. Vì vậy thống kê học đã ra đời.
Thống kê học là một môn khoa học xã hội, ra đời và phát triển do nhu cầu hoạt
động thực tiễn xã hội. Trước khi trở thành một môn khoa học độc lập, thống kê học đã


có một nguồn gốc lịch sử phát triển khá lâu. Đó là cả một quá trình tích luỹ kinh
nghiệm từ giản đơn đến phức tạp, được đúc rút dần thành lý luận khoa học ngày càng
hoàn chỉnh. Thống kê học là sự nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao
gồm phân tích, giải thích, trình bày và tổ chức dữ liệu, ngày càng phát triển mạnh mẽ và
hoàn thiện hơn về phương pháp luận, nó thực sự trở thành công cụ để nhận thức xã hội và
cải tạo xã hội. Trong phạm vi tiểu luận này, nhóm xin trình bày nghiên cứu các vấn đề cơ
bản về Thống kê học.
Xin chân thành cám ơn Thầy PGS.TS. Phan Huy Khánh đã cung cấp kiến thức, tài
liệu để chúng tôi hoàn thành báo cáo này. Kính mong sự chỉ bảo và góp ý của Thầy để
bài tiểu luận được hoàn thiện hơn.

Đà Nẵng, ngày 12 tháng 5 năm 2016
Nhóm học viên thực hiện
Đặng Văn Nghĩa
Mai Xuân Phú
Trần Hữu Phước


MỤC LỤC
ĐÀ NẴNG, 5/2016 ..............................................................................................I
LÝ THUYẾT THỐNG KÊ HỌC - STATISTICS...........................................1
.I Giới thiệu..........................................................................................................................1
.I.1.Lịch sử của thống kê học..........................................................................................1
.I.2.Tổng quan.................................................................................................................2
.I.3.Các phương pháp thống kê.......................................................................................2
.II Nội dung.........................................................................................................................3
.I.4.Thu thập dữ liệu.......................................................................................................3
.II.1.1. Phương pháp chọn mẫu.....................................................................................3
.II.1.2. Các nghiên cứu thực nghiệm và quan sát..........................................................9
.I.5.Các kiểu dữ liệu......................................................................................................10

.I.6.Thuật ngữ và lý thuyết của thống kê suy luận........................................................11
.II.1.3. Thống kê, ước tính và số lượng chính..............................................................11
.II.1.4. Giả thuyết vô nghĩa và các giả thuyết thay thế................................................12
.II.1.5. Sai số................................................................................................................13
.II.1.6. Ước lượng theo khoảng....................................................................................14
.II.1.7. Mức ý nghĩa......................................................................................................16
.II.1.8. Các ví dụ...........................................................................................................18
.I.7.Sử dụng thống kê sai..............................................................................................23
.III Ứng Dụng ...................................................................................................................25

BÀI TẬP............................................................................................................27
.IV Đề bài: (Đề 16) Thỏ nói dối........................................................................................27
.V Xây dựng cơ sở luật và sự kiện....................................................................................27
.VI Xây dựng câu hỏi truy vấn..........................................................................................31
.I.8.Câu hỏi có/không(Yes/No)....................................................................................31
.I.9.Câu hỏi tình huống (Wh-Questions)......................................................................31
.I.10.Câu hỏi điền chỗ trống (Fill -in-the-blank/Cloze Questions)...............................32
.VII Code...........................................................................................................................32

KẾT LUẬN........................................................................................................36
TÀI LIỆU THAM KHẢO................................................................................37
[1] Statistics: />[2] PGS.TS. Phan Huy Khánh. Áp dụng yếu tố tiền giả định tiếng Việt và lôgic vị từ, xây
dựng hệ thống đặt câu hỏi tự động......................................................................................37
[3] PGS.TS. Phan Huy Khánh. Giáo trình Hệ Chuyên Gia...............................................37
[4] TS. Trương Ngọc Châu. Giáo trình Khai Phá Dữ Liệu...............................................37


CHƯƠNG 1

LÝ THUYẾT THỐNG KÊ HỌC - STATISTICS

.I
.I.1.

Giới thiệu
Lịch sử của thống kê học
Phương pháp thống kê đã tồn tại ít nhất là thế kỷ thứ 5 trước công nguyên.
Một số học giả xác định được nguồn gốc của số liệu thống kê đến năm 1663, với

các ấn phẩm của tự nhiên và quan sát chính trị Bills do John Graunt. Ứng dụng đầu tiên
của thống kê xoay quanh nhu cầu chính sách các quốc gia trên cơ sở dữ liệu nhân khẩu
học và kinh tế, do đó hình thành ngành nghiên cứu nguồn gốc thống kê.
Các lĩnh vực hiện đại của số liệu thống kê xuất hiện vào cuối thế kỷ 19 và đầu thế
kỷ 20 trong 3 giai đoạn. Giai đoạn đầu tiên, vào thời điểm chuyển giao thế kỷ, được dẫn
dắt bởi các công việc của Sir Francis Galton và Karl Pearson, đã trở thành một hệ thống
thống kê toán học sử dụng trong phân tích, không chỉ trong các nghiên cứu khoa học, mà
còn sử dụng trong các ngành công nghiệp và chính trị.
Giai đoạn thứ hai của những năm 1910 và 1920 đã được khởi xướng bởi William
Gosset, và đỉnh cao trong tri thức của Sir Ronald Fisher, người đã viết cuốn sách để xác
định các ngành học trong các trường đại học trên toàn thế giới.
Ngày nay phương pháp thống kê được áp dụng trong tất cả các lĩnh vực có liên
quan đến việc ra quyết định, để cho các kết luận chính xác từ một bộ phận so với các dữ
liệu và đưa ra quyết định khi đối mặt với kết luận không chắc chắn dựa trên phương pháp
thống kê. Việc sử dụng máy tính hiện đại đã tính toán nhanh các tính toán thống kê quy
mô lớn, và cũng đã có những phương pháp mới có thể không chính xác bằng việc tính
bằng tay. Thống kê tiếp tục là một lĩnh vực nghiên cứu thiết thực, ví dụ như vấn đề làm
sao dể phân tích dữ liệu lớn

Công nghệ tri thức

1



Đề tài: Thống kê học - Statistics

.I.2.

Tổng quan
Thống kê là nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm phân tích,

giải thích, trình bày và tổ chức dữ liệu. Chúng ta áp dụng thống kể để nghiên cứu các lĩnh
vực khoa học, công nghiệp hoặc các vấn đề xã hội. Thống kê rất cần thiết để bắt đầu
nghiên cứu một tiến trình. Ví dụ, tổng thể có thể gồm nhiều loại khác nhau như “tất cả
mọi người đang sống trong một đất nước” hay “tập hợp các phân tử của tinh thể”. Nó đề
cập tới tất cả các khía cạnh của dữ liệu bao gồm việc lập kế hoạch, thu thập dữ liệu mẫu
cho các cuộc khảo sát và thí nghiệm.
Trong trường hợp không thể thu thập được trong quá trình điều tra tổng thể, thống
kê thu thập dữ liệu bằng cách phát triển các mẫu thí nghiệm và mẫu khảo sát cụ thể. Mẫu
đại diện cần được đảm bảo rằng những suy luận và kết luận có thể tin cậy được từ đó suy
ra toàn bộ tổng thể. Một nghiên cứu thực nghiệm liên quan đến việc lấy kích thước mẫu,
thao tác trên hệ thống và sau đó lấy kích thước mẫu cùng dạng để xác định xem các thao
tác đã thay đổi giá trị của các phép đo. Ngược lại, một quan sát nghiên cứu không liên
quan đến việc thực hiện thí nghiệm.

.I.3.

Các phương pháp thống kê
Hai phương pháp thống kê chính được sử dụng trong phân tích dữ liệu: thống kê

mô tả và thống kê suy luận.
Thống kê mô tả (Descriptive statistics): là phương pháp tóm tắt dữ liệu từ một mẫu

sử dụng các chỉ số như là giá trị trung bình hoặc độ lệch chuẩn.
Thống kê mô tả được sử dụng thường xuyên nhất với hai thuộc tính phân phối (mẫu
hoặc tổng thể): chiều hướng trung tâm (hoặc vị trí) tìm cách để mô tả giá trị trung bình
hoặc giá trị đặc trưng của phân phối, trong khi phân tán (hoặc thay đổi) mức độ đặc trưng
mà các thuộc tính của phân phối đi trệch so với nghiên cứu
Thống kê suy luận (Inferential statistic): rút ra kết luận từ dữ liệu biến thiên ngẫu
nhiên (ví dụ: các sai số quan sát, mẫu của tổng thể)
Suy luận về thống kê toán học được thực hiện trong khuôn khổ của lý thuyết xác
Công nghệ tri thức

2


Đề tài: Thống kê học - Statistics

suất, trong đó đề cập tới việc phân tích các hiện tượng ngẫu nhiên. Để thực hiện một suy
luận khi chưa biết số lượng, hoặc nhiều ước lượng được đánh giá bằng cách sử dụng mẫu.

.II Nội dung
.I.4.

Thu thập dữ liệu

.II.1.1.

Phương pháp chọn mẫu

Trong bộ dữ liệu điều tra tổng thể, trường hợp không thể thu thập số liệu, dữ liệu
thống kê phân tích được phát triển bằng các thiết kế thử nghiệm cụ thể và các mẫu khảo
sát. Thống kê chính là việc cung cấp công cụ để nói trước và dự báo việc sử dụng các dữ

liệu thông qua các mô hình thống kê. Để sử dụng một mẫu như một thông tin hướng dẫn
cho toàn bộ tổng thể, điều quan trọng là nó thực sự đại diện cho mẫu tổng thể. Lấy mẫu
đại diện phải đảm bảo rằng nó được suy luận và kết luận một cách chính xác từ việc chọn
mẫu cho toàn bộ tổng thể. Một vấn đề lớn nhằm làm tăng kích cỡ mẫu được lựa chọn là
mẫu đại diện. Thống kê cung các phương pháp thiết kê thử nghiệm mẫu, các thử nghiệm
này có thể làm giảm bớt các vấn đề ở việc bắt đầu nghiên cứu, tăng khả năng nhận biết
các mẫu tin tưởng về mẫu thống kê.
Để xây dựng phương pháp điều tra chọn mẫu cho riêng ngành Thống kê trước tiên
ta cần nghiên cứu đặc điểm của các cuộc điều tra thống kê.
a. Đặc điểm của các cuộc điều tra thống kê:
Ngành Thống kê thường xuyên tổ chức phối hợp các cuộc điều tra toàn bộ với các
cuộc điều tra chọn mẫu.
- Cùng một hệ thống chỉ tiêu năm nay điều tra toàn bộ, sang năm hoặc một số năm
sau đó lại điều tra chọn mẫu.
- Trong cùng một năm một số chỉ tiêu dùng điều tra toàn bộ, một số chỉ tiêu khác
dùng điều tra chọn mẫu.
Ký hiệu các chỉ tiêu điều tra chọn mẫu là Xi ( i= 1, 2, 3,....k)
Và ký hiệu các chỉ tiêu điều tra toàn bộ là Yj (j = 1, 2, 3,....h)
Công nghệ tri thức

3


Đề tài: Thống kê học - Statistics

b. Công thức sai số và cỡ mẫu
Để có thể so sánh mức độ sai số của nhiều chỉ tiêu ta nên dùng tỷ lệ sai số thay cho
mức sai số. Quan hệ giữa mức sai số và tỷ lệ sai số như sau:

Với:


là mức sai số của số bình quân mẫu

σ là phương sai của tổng thể, m là số bình quân mẫu, s là tỷ lệ sai số (tính bằng
phần trăm)

Và công thức xác định cỡ mẫu cần thiết:

Với

là mức sai số của số bình quân mẫu, σ là phương sai của tổng thể, n là số

đơn vị mẫu, t là hệ số tin cậy
Như vậy mức sai số và cỡ mẫu cần thiết đều phụ thuộc vào độ lớn của đại lượng

và đại lượng

này càng nhỏ thì sai số và cỡ mẫu càng nhỏ.

c. Đặc điểm của số liệu thống kê
Nếu ta tính độ lệch tương đối của bản thân các chỉ tiêu cần điều tra và chỉ tiêu trung
gian là thương của chỉ tiêu điều tra mẫu với chỉ tiêu điều tra toàn bộ ta thấy:
Công nghệ tri thức

4


Đề tài: Thống kê học - Statistics

Lấy số liệu điều tra doanh nghiệp 2001 làm ví dụ:

- Các chỉ tiêu điều tra mẫu là: tiền lương, giá trị tài sản, giá trị sản xuất, thu của
người sản xuất.
- Các chỉ tiêu điều tra toàn bộ gồm: Lao động, giá trị TSCĐ, doanh thu

Ta tính được giá trị của đại lượng

của bản thân chỉ tiêu điều tra và các chỉ tiêu

trung gian như sau:
Bảng 1. Giá trị của đại lượng
Các chỉ tiêu điều tra mẫu

Các cách tiếp cận
Tiền
Lương
Bản thân chỉ tiêu điều tra mẫu
3,06
Chỉ tiêu trung gian: Chỉ tiêu đt chia lao 0,73
động
Chỉ tiêu trung gian: Chỉ tiêu đt chia 2,54
TSCĐ
Chỉ tiêu trung gian: Chỉ tiêu đt chia 1,37
Doanh thu

Tài sản

Giá trị sản Thu của
xuất
người sx


4,37
2,67

4,47
2,10

3,11
0,70

0,69

2,71

2,53

3,07

0,12

1,35

Nhận xét:
- Giá trị của đại lượng

đại lượng

của chỉ tiêu trung gian

của bản thân chỉ tiêu cần điều tra


kỳ thì giá trị của đại lượng

của chỉ tiêu

Công nghệ tri thức

của tỷ lệ

nhỏ hơn nhiều giá trị số của

(Nếu



là những số bất

không nhỏ hơn giá trị của đại lượng

).

5


Đề tài: Thống kê học - Statistics

- Có những giá trị của đại lượng

điều tra toàn bộ

rất nhỏ, vấn đề đặt ra là ta chọn được chỉ tiêu


sao cho giá trị của đại lượng

là nhỏ nhất. Sau khi lựa

chọn được chỉ tiêu điều tra toàn bộ làm mẫu số cho chỉ tiêu điều tra trung gian,
công thức ước lượng của chỉ tiêu điều tra như sau.
d. Công thức ước lượng
Sau khi tiến hành điều tra ta thu thập được số liệu như sau:
- Số liệu của chỉ tiêu điều tra của các đơn vị mẫu:

,

, ...,

- Số liệu của chỉ tiêu điều tra toàn bộ của các đơn vị mẫu:

Tổng chỉ tiêu cần điều tra của các đơn vị mẫu

Tổng chỉ tiêu điều tra toàn bộ của các đơn vị mẫu

Chỉ tiêu cần điều tra ước lượng cho toàn tổng thể ký hiệu là X Tổng thể
Tổng của chỉ tiêu điều tra toàn bộ trên toàn tổng thể ký hiệu là Y Tổng thể, ta có
- Giá trị trung bình của các tỷ lệ

của các đơn vị mẫu (m):

e. Tỷ lệ sai số điều tra mẫu

Công nghệ tri thức


6


Đề tài: Thống kê học - Statistics

(tính bằng % )

Với



Vận dụng phương pháp chọn mẫu trong thống kê vào thực tiễn :
1. Trường hợp cùng một hệ thống chỉ tiêu năm nay điều tra toàn bộ, sang năm
hoặc một số năm sau đó điều tra chọn mẫu. Ví dụ cuộc điều tra các đơn vị hành
chính, sự nghiệp của Vụ hệ thống tài khoản quốc gia năm 2002 điều tra toàn bộ, năm
2003 điều tra mẫu trên các chỉ tiêu tổng số thu và tổng số chi của từng đơn vị. Với
trường hợp này chỉ tiêu trung gian thành tốc độ tăng thu hoặc chi của các đơn vị
điều tra. Nếu vận dụng phương pháp điều tra mẫu chung vào cuộc điều tra này thì cỡ
mẫu có tỷ lệ sai số 5% cho các tỉnh là gần như điều tra toàn bộ, còn nếu vận dụng
phương pháp điều tra mẫu trong thống kê thì cụ thể cỡ mẫu cho từng tỉnh như sau:
a) Thành phố Hà nội: Số đơn vị tổng thể 3629
Chỉ tiêu ước lượng từ mẫu
Đại lượng ( )
Cỡ mẫu cần chọn (Sai số 5%) Cỡ mẫu dự kiến
Tốc độ tăng thu 0,662 176 200
Tốc độ tăng chi 0,511 105 200
b) Thành phố Hải Phòng: Số đơn vị tổng thể 3253
Chỉ tiêu ước lượng từ mẫu
Cỡ mẫu cần chọn (Sai số 5%)

Tốc độ tăng thu 0,400 64
Tốc độ tăng chi 0,415 69

Đại lượng ( )
Cỡ mẫu dự kiến
200
200

c)Thành phố Hồ Chí Minh: Số đơn vị tổng thể 6522
Chỉ tiêu ước lượng từ mẫu

Đại lượng ( )

Cỡ mẫu cần chọn (Sai số 5%) Cỡ mẫu dự kiến
Tốc độ tăng thu 0,405 66

250

Tốc độ tăng chi 0,635 161

250

d)Thành phố Đà Nẵng: Số đơn vị tổng thể 1219
Công nghệ tri thức

7


Đề tài: Thống kê học - Statistics


Chỉ tiêu ước lượng từ mẫu
Đại lượng ( )
Cỡ mẫu cần chọn
(Sai số 5%)
Cỡ mẫu dự kiến
Tốc độ tăng thu 0,648 168 250
Tốc độ tăng chi 0,907 329 250
Như vậy, nếu vận dụng phương pháp mẫu trong thống kê thì chỉ cần điều tra
khoảng 200 đơn vị /tỉnh đối với các tỉnh phía Bắc và khoảng 250 đơn vị/tỉnh đối với các
tinh phía Nam là ta sẽ được kết quả điều tra với sai số dưới 5%. Cụ thể đối với Hà Nội
dùng tốc độ tăng chi tốt hơn dùng tốc độ tăng thu còn Thành phố Hồ Chí Minh thì ngược
lại. Tỉnh Hải Phòng có thể giảm cỡ mẫu ít nhiều, trong khi đối với Tỉnh Đà Nẵng thì nên
tăng cỡ mẫu chút ít.
2. Trường hợp trong cùng một năm một số chỉ tiêu điều tra toàn bộ, một số chỉ
tiêu thu thập bằng điều tra chọn mẫu. Ví dụ điều tra doanh nghiệp ta có
- Các chỉ tiêu điều tra toàn bộ: Số lao động, giá trị TSCĐ, doanh thu
- Các chỉ tiêu điều tra mẫu: Tiền lương, giá trị tài sản, giá trị sản xuất, thu của
người sản xuất.
Để ước lượng các chỉ tiêu điều tra mẫu ta dùng chỉ tiêu điều tra toàn bộ có quan hệ
gần gũi với nó làm chỉ tiêu mẫu số ví dụ.
Để ước lượng các chỉ tiêu điều tra mẫu là tiền lương ta chọn mẫu số là chỉ tiêu lao
động.
Để ước lượng các chỉ tiêu điều tra mẫu là giá trị tài sản ta chọn mẫu số lgiá trị
TSCĐ.
Để ước lượng các chỉ tiêu điều tra mẫu là giá trị sản xuất ta chọn mẫu số là chỉ tiêu
doanh thu.
Để ước lượng các chỉ tiêu điều tra mẫu là thu của người sản xuất ta chọn mẫu số là
chỉ tiêu lao động,v.v...
Tính toán cỡ mẫu cần điều tra cho từng chỉ tiêu điều tra mẫu với tỷ lệ sai số 5% cụ
thể như sau

Chỉ tiêu tiền lương cần cỡ mẫu là 213
Công nghệ tri thức

8


Đề tài: Thống kê học - Statistics

Chỉ tiêu giá trị tài sản cần cỡ mẫu là 190
Chỉ tiêu giá trị sản xuất cần cỡ mẫu là 60
Chỉ tiêu thu của người sản xuất cần cỡ mẫu là 196
Như vậy với một mẫu khoảng 250 doanh nghiệp, mỗi chỉ tiêu điều tra mẫu có một
cách ước lượng riêng, ta sẽ có số liệu của cả tổng thể với tỷ lệ sai số dưới 5%.

.II.1.2.

Các nghiên cứu thực nghiệm và quan sát

Các bước cơ bản của một nghiên cứu thống kê là:
1.

Lập kế hoạch nghiên cứu, bao gồm việc tìm kiêm số liệu để trả lời cho các
nghiên cứu. Sử dụng các thông tin sau: ước tính sơ lược về kích thước của hiệu
quả điều tra, các giả thuyết, các biến khảo sát dự định. Xem xét việc lựa chọn đối
tượng khảo sát và đúng quy trình nghiên cứu. Các nhà thống kê cho rằng nên so
sánh thử nghiệm một cách đáng tin cậy với tiêu chuẩn mẫu hoặc tiêu chuẩn so
sánh một kết quả nghiên cứu. Chấp nhận ước lượng không chệch của mức ý
nghĩa đáng tin cậy.

2.


Thiết kế nghiên cứu nhằm ngăn sự ảnh hưởng của các biến gây nhiễu và phân bố
mẫu ngẫu nhiên của hệ số tin cậy cho các đối tượng để ước lượng không chệch
của mức ý nghĩa đáng tin cậy và sai sót trong nghiên cứu. Ở giai đoạn này, các
thí nghiệm và các thống kê viết giao thức nghiên cứu mà chính việc hướng dẫn
thực hiện các thí nghiệm và chỉ ra những phân tích ban đầu của các dữ liệu
nghiên cứu.

3.

Kiểm tra các nghiên cứu sau các giao thức thử nghiệm và phân tích dữ liệu và
phân tích

4.

Kiểm tra thêm các dữ liệu thiết lập trong phân tích thứ cấp, đề xuất giả thuyết
mới cho các nghiên cứu sau này.

5.

Tìm kiếm tài liệu và trình bày kết quả nghiên cứu.
Mục đích cho một dự án nghiên cứu thống kê là điều tra nguyên nhân, và từ đó rút

ra kết luận của những thay đổi ảnh hưởng đến giá trị các nhân tố ảnh hưởng hoặc các biến
độc lập dựa trên các biến phụ thuộc hoặc trả lời cho nghiên cứu. Có hai loại chính của
nghiên cứu thống kê các biến nguyên nhân: nghiên cứu thực nghiệm và nghiên cứu quan
sát. Cả hai loại nghiên cứu này đều có sự tác động của biến độc lập (hoặc các biến) về
Công nghệ tri thức

9



Đề tài: Thống kê học - Statistics

hành vi của các biến phụ thuộc được quan sát. Sự khác biệt giữa hai biến này nằm ở cách
nghiên cứu dựa trên thực tế. Mỗi biến có thể có ý nghĩa. Nghiên cứu thực nghiệm liên
quan đến việc lấy kích thước mẫu nghiên cứu, thao tác hệ thống và thêm vào kích thước
mẫu sử dụng cho quá trình lấy mẫu, sau đó lấy mẫu bổ sung để xác định các thao tác sử
đổi giá trị của các phép đo. Ngược lại, một nghiên cứu quan sát không liên quan đến thao
tác thực nghiệm. Thay vào đó, dữ liệu được thu thập và mối tương quan giữa các yếu tố
dự báo và trả lời cho các khám phá và kiểm tra. Trong khi các công cụ của việc phân tích
dữ liệu có kết quả tốt từ việc phân tích ngẫu nhiên, cũng có thể áp dụng cho các loại dử
liệu khác- như nghiên cứu tự nhiên và nghiên cứu quan sát – mà một nhà thống kê sẽ sử
dụng như biến thay thế, nhiều lý thuyết đánh giá có cấu trúc (ví dụ: sự khác biệt trong các
đánh giá khác nhau và biến đo lường thông tin, trong rất nhiều biến khác) cung cấp kết
quả phù hợp cho các nhà nghiên cứu.

.I.5.

Các kiểu dữ liệu
Các biến thử khác nhau đã được tạo ra để phân loại mức độ đo lường. Các nhà tâm

lý Stanley Smith Stevens đã xác định thang đo danh nghĩa, thứ tự, khoảng thời gian và tỷ
lệ đo. Thang đo danh nghĩa không có thứ tự xếp hạng có ý nghĩa trong các giá trị, và cho
phép chuyển đổi một-một. Thang đo thứ tự có sự khác biệt chính xác giữa các giá trị liên
tiếp, nhưng có một thứ tự có ý nghĩa giá trị và cho phép bất kỳ chuyển đổi nào để chuyển
đổi. Đo khoảng thời gian có ý nghĩa và khoảng cách giữa các phép đo được xác định,
nhưng giá trị bằng không là tùy ý (như trong trường hợp số dô kinh độ và độ C hoặc độ
F), và cho phép bất kỳ chuyển đổi truyến tính. Đo tỷ lệ có cả một giá trị số không có ý
nghĩa và khoảng cách giữa các phép đo khác nhau được xác định, và cho phép chuyển đổi

sang sự thay đổi tỷ lệ.
Vì các biến chỉ phù hợp cho thang đo danh nghĩa hoặc thang đo thứ tự, không thể
đo lường một cách hợp lý về số lượng, đôi khi chúng được nhóm lại với nhau như các
biến phân loại, trong khi thang đo tỷ lệ và thang đo thời gian được nhóm lại với nhau như
là các biến định tính, những biến có thể rời rạc hoặc liên tục do tính chất số lượng húng
thường được phân biệt như vậy thường ít tương quan với các dữ liệu trong nghiên cứu
khoa học lưu trữ và phân tích thông tin được đưa vào. Trong đó các biến phân loại phân
Công nghệ tri thức

10


Đề tài: Thống kê học - Statistics

đôi có thể được đại diện với các kiểu dữ liệu Boolean (sử dụng hệ thống dữ liệu lý luận
như AND, OR, NOT để xác định quan hệ giữa các thực thể), biến phân loại Polytomous
với số nguyên....và các biến liên tục với các loại dữ liệu nghiên cứu khoa học lưu trữ và
phân tích thông tin được đưa vào. Nhưng các bản đồ của các kiểu dữ liệu khoa học lưu
trữ và phân tích thông tin đưa vào với các loại dữ liệu thống kê phụ thuộc vào phân loại
sau khi được thực hiện.

.I.6.

Thuật ngữ và lý thuyết của thống kê suy luận

.II.1.3.

Thống kê, ước tính và số lượng chính

Xem xét một mẫu các phân phối độc lập có cùng tính chất, các biến ngẫu nhiên với

một phân phối xác suất nhất định: suy luận thống kê và lý thuyết tính toán xác định một
mẫu ngẫu nhiên là vec-tơ ngẫu nhiên được đưa ra bởi các vec-tơ theo cột của các biền
phân phối độc lập có cùng tính chất.

Hình 1: Thống kê suy luận

- Tổng thể: được chọn làm mẫu được mô tả bởi một phân phối xác suất mà có thể
có tham số chưa biết.
- Một thống kê: là một biến ngẫu nhiên, đó là một chức năng của các mẫu ngẫu
nhiên, nhung không phải là chức năng của các tham số chưa biết. Mặc dù các
phân phối mẫu của xác suất thống kê có thể có tham số chưa biết.
Công nghệ tri thức

11


Đề tài: Thống kê học - Statistics

- Một ước lượng: là một thống kê được sử dụng để ước lượng hàm này. Ước
lượng thường được sử dụng bao gồm ý nghĩa của mẫu khảo sát, không gồm mẫu
phương sai và hiệp phương sai mẫu.
- Biến ngẫu nhiên: là một hàm của mẫu ngẫu nhiên và các tham số chưa biết,
nhưng có phân phối xác suất không phụ thuộc vào các tham số chưa biết, được
gọi là một đại lượng quan trọng hay biến phụ thuộc. Sử dụng biến phụ thuộc bao
gồm các chỉ số z, các số liệu thống kê chi bình phương và giá trị t-value của
phân phối Student.
Giữa hai ước lượng của một tham số cho trước, với ước lượng điểm trung bình bình
phương được cho rằng có hiệu quả hơn. Hơn nữa một ước lượng được cho là giá trị tiệm
cận nếu giá trị kỳ vọng của nó bằng với giá trị thực của tham số chưa biết được ước tính,
và là giá trị tiệm cận nếu giá trị kỳ vọng của nó hội tụ ở giới hạn với giá trị thực của tham

số như vậy. Các đặc tính thích hợp để ước lượng bao gồm: ước lượng UMVUE có
phương sai nhỏ nhất cho tất cả các giá trị có thể có của các tham số ước lượng (đây
thường là các đặc tính dễ dàng để xác minh hiệu quả) và đánh giá phù hợp cùng quy về
trong xác suất để đúng với giá trị của tham số.
Điều này vẫn còn để lại những câu hỏi làm thế nào để có ước lượng trong một tình
huống nhất định và thực hiện các tính toán, một phương pháp đã được đề xuất: các
phương pháp trong thời điểm hiện tại, những phương pháp likelihood lớn nhất, phương
pháp bình phương nhỏ nhất và phương pháp gần nhất của ước lượng phương trình.

.II.1.4.

Giả thuyết vô nghĩa và các giả thuyết thay thế

Giải thích thông tin thống kê có thể bao gồm sự phát triển của một giả thuyết trong
đó giả định rằng bất cứ điều gì xảy ra được đề xuất như là một nguyên nhân không có
hiệu quả trên các biến đo lường.
Minh họa tốt nhất cho một người mới làm thống kê là gặp phải tình trạng khó khăn
khi thử nghiệm với những người khảo sát. Các giả thuyết không có giá trị H0, khẳng định
rằng bị cáo là vô tội, trong khi các giả thuyết khác H1, khẳng định rằng bị cáo có tội. Bản
cáo trạng đưa ra những nghi ngờ về việc có tội. Các giả thuyết H0 (hiện trạng) đối lập với
giả thuyết H1 và được tồn tại khi H1 được hỗ trợ bằng các chứng cứ “bác bỏ những điều
vô lý”. Tuy nhiên “không đạt yêu cầu để bác bỏ giả thuyết H0” trong trường hợp không
Công nghệ tri thức

12


Đề tài: Thống kê học - Statistics

bao gồm tính vô tội, nhưng chỉ đơn thuần là không đủ bằng chứng để buộc tội. Vì vậy,

người được khảo sát không nhất thiết phải chấp nhận H0 nhưng không bác bỏ H0. Trong
khi người ta không thể “chứng minh” một giả thuyết, người ta có thể kiểm tra xấp xỉ để
đưa ra phương pháp thử nghiệm, phương pháp kiểm tra các sai số loại II.
Những gì các nhà thống kê gọi là một giả thuyết có một hoặc hai khả năng xảy ra
chỉ đơn giản là một giả thuyết trái ngược với giả thuyết vô nghĩa.

.II.1.5.

Sai số

Tác động từ giả thuyết hai loại sai số cơ bản được ghi nhận:
Sai số loại I là giả thuyết rỗng bị bác bỏ là sai khi “bác bỏ phủ định”.
Sai số lại II là giả thuyết không rỗng được bác bỏ để loại bỏ và sự khác biệt trên
thực tế giữa các quần thể được bỏ qua cho một “bác bỏ khẳng định”
Độ lệch chuẩn đề cập đến mức độ các quan sát cá nhân trong mẫu khác với một giá
trị trung tâm, chẳng hạn như các mẫu hoặc ý nghĩa tổng thể, trong khi sai số chuẩn đề cập
đến một ước tính của sự khác biệt giữa trung bình mẫu và ý nghĩa tổng thể.
Một lỗi thống kê là số lượng mà một quan sát khác với giá tị kỳ vọng của nó, giá trị
thặng dư là số lượng một quan sát khác với giá trị ước lượng giả định giá trị dự kiến về
một mẫu nhất định (còn gọi là dự đoán).
Sai số bình phương có nghĩa khi được sử dụng cho việc ước lượng hiệu quả thu
thập dữ liệu, một lớp được sử dụng rộng rãi trong ước lượng. Sai số căn bậc hai đơn giản
là căn bậc hai của sai số căn bậc hai có nghĩa.
Nhiều phương pháp thống kê nhằm giảm thiểu tổng giá trị thặng dư của bình
phương, và chúng được gọi là “phương pháp bình phương nhỏ nhất” trái ngược với độ
lệch chuẩn nhỏ nhất. Sau đó cung cấp cung cấp số lượng bằng với các lỗi nhỏ và lớn,
trong khi trước đây chỉ ra rõ các sai số lớn hơn. Tổng giá trị thặng dư của giá trị bình
phương có thể phân biệt được, nó cung cấp thuộc tính có ích để tính hàm hồi quy. Bình
phương tối thiểu áp dụng hồi quy tuyến tính được gọi là bình phương nhỏ nhât thông
thường và bình phương nhỏ nhất chấp nhận cho hàm hồi quy phi tuyến tính được gọi là

bình phương tối thiểu phi tuyến tính. Cũng trong một mô hình hồi quy tuyến tính các
Công nghệ tri thức

13


Đề tài: Thống kê học - Statistics

phần không xác định của mô hình được gọi là sai số giới hạn, bị nhiễu hoặc có thể là dữ
liệu thừa.
Tiến trình đo lường tạo ra số liệu thống kê cũng có thể có sai số. Nhiều trong số các
sai số này được phân loại ngẫu nhiên (dữ liệu thừa) hoặc hệ thống (độ sai lệch), nhưng
các loại sai số khác (ví dụ: sai lệch, chẳng hạn như khi một báo cáo phân tích của các đơn
vị không chính xác) cũng quan trọng. Sự xuất hiện của dữ liệu bị mất và/ hoặc kiểm định,
điều này có thể dẫn đến ước lượng sai lệch và từ đó đã phát triển một phương pháp cụ thể
để giải quyết vấn đề này.

.II.1.6.

Ước lượng theo khoảng

Hầu hết các nghiên cứu chỉ ra là một phần của một mẫu tổng thể, vì vậy kết quả
không hoàn toàn đại diện cho toàn bộ tổng thể. Bất kỳ ước tính thu được từ mẫu chỉ gần
đúng với giá trị tổng thể.
Khoảng tin cậy (KTC): cho phép các nhà thống kê thể thiện chặt chẽ các mẫu dự
tính phù hợp với các giá giá trị thực trong toàn bộ tổng thể. Thông thường chúng được thể
hiện ở khoảng tin cậy 95%. Chính thức khoảng tin cậy 95% cho một giá ở phạm vi rộng,
nếu lấy mẫu và phân tích được lặp đi lặp lại trong cùng một điều kiện (cho ra bộ dữ liệu
khác nhau), khoảng cách giữa hai giá trị sẽ bao gồm giá trị thật (tổng thể) đạt 95% giá trị
trong tổng số các trường hợp có thể xảy ra. Điều này không có nghĩa là xác suất mà giá trị

thực trong khoảng tin cậy là 95%. Từ những quan điểm, kết luận như vậy là không có
nghĩa, như là giá trị thực không phải là một biến ngẫu nhiên. Hoặc là giá trị thực hoặc
trong phải trong một khoảng tin cậy. Tuy nhiên, sự thật là trước khi bất kỳ dữ liệu nào
được lấy mẫu và đưa ra kế hoạch làm thế nào để tạo ra khoảng tin cậy, xác suất là 95%
cho khoảng tin cậy chưa được thống kê sẽ bao gồm các giá trị đúng: tai thời điểm này,
giớí hạn của khoảng tin cậy là các biến ngẫu nhiên chưa được quan sát.

Công nghệ tri thức

14


Đề tài: Thống kê học - Statistics

Hình 2: Khoảng tin cậy: dòng màu đỏ là giá trị thực cho giá trị trung bình trong
ví dụ này, đường màu xanh là khoảng tin cậy ngẫu nhiên cho 100 giá trị.
Một phương pháp mà không mang lại một khoảng tin cậy được hiểu là một xác suất
nhất định có chứa các giá trị thực sử dụng trong một khoảng tin cậy từ thống kê Bayesian:
phương pháp này phụ thuộc vào cách giải thích khác nhau thế nào là “xác suất”, đó như
là xác suất Bayesian.

Công thức Bayes
Giả sử

mọi



là hệ đầy đủ các biến cố với P(


với

. Khi đó ta có

Ví dụ :
Dây chuyền lắp ráp nhận được các chi tiết do hai máy sản xuất. Trung bình máy thứ
nhất cung cấp 60% chi tiết, máy thứ hai cung cấp 40% chi tiết. Khoảng 90% chi tiết do
máy thứ nhất sản xuất là đạt tiêu chuẩn, còn 85% chi tiết do máy thứ hai sản xuất là đạt
tiêu chuẩn. Lấy ngẫu nhiên từ dây chuyền một sản phẩm, thấy nó đạt tiêu chuẩn. Tìm xác
suất để sản phẩm đó do máy thứ nhất sản xuất.
Lời giải:
Gọi

là biến cố: “Chi tiết lấy từ dây chuyền đạt tiêu chuẩn”,

tiết do máy thứ nhất sản xuất” và
Công nghệ tri thức

là biến cố: “Chi

là biến cố: “Chi tiết do máy thứ hai sản xuất”. Ta
15


Đề tài: Thống kê học - Statistics

cần tính xác suất

.


Theo công thức Bayes

Theo điều kiện bài toán
;

;

;

;

Thay vào ta có

Trong nguyên tắc chọn khoảng tin cậy có thể được đối xứng hoặc không đối xứng.
Một khoảng tin cậy có thể không đối xứng vì nó hoạt động thấp hơn hoặc cao hơn các
ràng buộc cho một tham số (khoảng tin cậy phía trái hoặc phải), nhưng nó cũng có thể là
không đối xứng vì khoảng hai chiều được xây dựng đối xứng trong dự tính. Đôi khi các
giới hạn cho một khoảng tin cậy đạt được tiệm cận và được sử dụng để ước tính giới hạn.

.II.1.7.

Mức ý nghĩa

Thống kê hiếm khi chỉ trả lời các câu hỏi dưới dạng có/không dưới các phân tích.
Sự giải thích thường đi xuống đến mức ý nghĩa thống kê áo dụng với số lượng và thường
đề cập đến xác suất của một giá trị chính xác từ chối giả thuyết rỗng (có thể xem như là
giá trị p-value).
Phân phối chuẩn là để thử nghiệm một giả thuyết đối với một giả thuyết khác. Một
miền quan trọng là đê tập hợp các giá trị của các ươc lượng dẫn dến bác bỏ giả thuyết
rỗng. Do đó xác suất của sai số loại I là xác suất mà các ước lượng thuộc các khu vực

quan trọng cho rẳng giải thuyết đúng (có ý nghĩa thống kê) và xác suất sai số loại II là xác
suất mà các ước lượng không thuộc miền quan trọng được ddauw ra bằng giả thuyết thay
Công nghệ tri thức

16


Đề tài: Thống kê học - Statistics

thế là đúng. Các số lượng thống kê của một thử nghiệm là xác suất mà nó đúng bác bỏ giả
thuyết rỗng khi giả thuyết là sai.
Đề cập đến mức ý nghĩa thống kê không nhất thiết là kết quả của tổng thể so với số
hạng thực. Ví dụ, trong một nghiên cứu lớn về một loại thuốc có thể chỉ ra rằng thuốc có
tác dụng mang lạ lợi ích đáng kể về mặt thống kê nhưng rất nhỏ, như vậy loại thuốc này
dường như không có khả năng tác dụng nhiều cho bệnh nhân.
Trong khi về nguyên tắc mức chấp nhận ý nghĩa được thống kê có phải xem xét vấn
đề, các giá trị p-value là mức ý nghĩa nhỏ nhất cho phép thử nghiệm để bác bỏ giả thuyết.
Kết quả tương đương nói rằng các giá trị p-value là xác suất, giả định giả thuyết là đúng,
kết quả quan sát là cực kỳ thấp như kiểm định thống kê. Do đó gái trị p-value càng nhỏ,
xác suất sai số loại I càng thấp.
Một vấn đề thường xảy ra với loại này:
Một sự khác biệt đó là có ý nghĩa thống kê cao vẫn có thể không có ý nghĩa, nhưng
nó có thể phát biểu đúng các kiểm định trong thống kê. Một câu trả lời trở thành giả
thuyết chỉ có mức ý nghĩa bao gồm các giá trị p-value, tuy nhiên không biết được kích
thước hay tầm quan trọng của kiểm định quan sát được và cũng có thể kết luận được tầm
quan trọng của các khác biệt nhỏ trong các nghiên cứu lớn. Một cách tiếp cận tốt hơn và
ngày càng phổ biến là để báo cáo khoảng tin cậy. Mặc dù chúng được đưa ra từ việc tính
toán tương tự như những kiểm định giả thuyết hoặc giá trị p-value, mô tả kích thước của
ảnh hưởng và những điều không chắc chắn.
Độ sai lệch của thay đổi điều kiện, những ý kiến sai lầm của Aka: những lời phê

bình chỉ ra các giá trị để kiểm định giả thuyết (giả thuyết vô nghĩa) được ưa chuộng, vì
xác suất của kết quả của giả thuyết vô nghĩa đưa ra kết quả quan sát được. Một thay thế
cho phương pháp này được đưa ra bởi suy luận Bayesian, mặc dù nó đòi hỏi việc một xác
suất cho trước.
Bác bỏ giả thuyết không tự động chứng minh được giả thuyết thay thế.
Như tất cả mọi thứ trong thống kê suy luận nó dựa vào kích thước mẫu, và do đó
dưới miền giá trị p-value giá trị có thể không được tính.
Công nghệ tri thức

17


Đề tài: Thống kê học - Statistics

Hình 3: Mức ý nghĩa

Trong biểu đồ ở hình 3 dòng màu đen là phân phối xác suất cho các kiểm định
thống kê, các miền quan trọng là tập hợp các giá trị bên phải của điểm dữ liệu được quan
sát (giá trị quan sát của kiểm định thống kê) và giá trị p-value được đại diện bởi các khu
vực màu xanh lá cây.

.II.1.8.

Các ví dụ

Một số thử nghiệm và thống kê nổi tiếng là: Phân tích phương sai (ANOVA), Kiểm
định chi bình phương, Sự tương quan, Phân tích nhân tố, Mann-Whiteney, Độ lệch chuẩn
ý nghĩa bình phương, Hệ số tương quan Pearson, Phân tích hồi quy, Thứ bậc hệ số tương
Công nghệ tri thức


18


Đề tài: Thống kê học - Statistics

quan của Spearman, Kiểm định t-test, Chuỗi thời gian.
Ví dụ phân tích phương sai đơn giản (One-way analysis of variable - ANOVA):
Giả sử nhân tố A có k mức X1, X2, ... , Xk với Xj có phân phối chuẩn N(a, s2) và mẫu
điều tra

Với mức ý nghĩa a, hãy kiểm định giả thiết : H0 : a1 = a2 = ... =ak
Đặt:
- Tổng số quan sát:

- Trung bình mẫu nhóm j (j=1,..,k):

với

-

Trung bình mẫu chung:

với

- Phương sai hiệu chỉnh nhóm j:

Công nghệ tri thức

19



Đề tài: Thống kê học - Statistics

- Tổng bình phương các độ lệch:

- Tổng bình phương độ lệch riêng của các nhóm so với :

- Tính SST bằng cách chèn thêm x j và khai triển thì được:



với

Công nghệ tri thức

20


Đề tài: Thống kê học - Statistics

Tổng thứ nhất

đặc trưng sự khác nhau giữa các nhóm.

Tổng thứ hai

đặc trưng sự khác nhau giữa số liệu trong nội bộ

nhóm.


-

Nếu H0 đúng thì

-

Miền Ba : F > Fk-1; n-k; 1-a

Công nghệ tri thức

có phân phối Fisher bậc tự do k-1; n-k

21


×