BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT VÀ THỐNG KÊ ĐỀ TÀI SỬ DỤNG MÔ HÌNH HỒI QUY ĐỂ CHUẨN ĐOÁN CHẤT LƯỢNG NGUỒN NƯỚC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.32 MB, 41 trang )

Trang 1<div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA

----BÁO CÁO BÀI TẬP LỚNMÔN XÁC SUẤT VÀ THỐNG KÊ

ĐỀ TÀI:

SỬ DỤNG MƠ HÌNH HỒI QUY ĐỂ

CHUẨN ĐỐN CHẤT LƯỢNG NGUỒN NƯỚC

Khoa Kỹ thuật hóa học

Lớp L11 - Nhóm 11 – HK 232GVHD: TS. Nguyễn Bá Thi

</div>Trang 2<div class="page_container" data-page="2">

BÁO CÁO KẾT QUẢ LÀM VIỆC NHÓM

3 Lý Khánh Linh 2211852 Chương 6Tổng hợp

</div>Trang 3<div class="page_container" data-page="3">

1.2 Giải thích mơ hình hồi quy logistic...3

1.3 Phân loại các mơ hình hồi quy logistic...5

1.4 Mơ hình tối ưu...6

2. Mơ hình ANOVA...8

2.1Kháiniệm...8

2.2 Giải thích mơ hình ANOVA...8

2.3 Phân loại mơ hình ANOVA...9

CHƯƠNG 3: TIỀN XỬ LÝ SỐ LIỆU...10

1.Đọc dữ liệu...10

2.Làm sạch dữ liệu (Data cleaning)...10

CHƯƠNG 4: THỐNG KÊ MÔ TẢ...13

1.Làm rõ dữ liệu...13

2.Tạo bảng tần số và vẽ biểu đồ thống kê tần số cho biến “Potability”...13

3.Vẽ biểu đồ cho các biến liên tục...14

3.1 Biểu đồ Histogram...14

3.2 Biểu đồ hộp Boxplot...19

3.3 Thực hiện vẽ ma trận tương quan cho các yếu tố...23

CHƯƠNG 5: THỐNG KÊ SUY DIỄN...25

1. Mô hình hồi quy logistic...25

2. Mơ hình ANOVA một nhân tố...31

2.1 Kiểm định tính phân phối chuẩn...31

2.2 Kiểm định tính đồng nhất của phương sai...31

CHƯƠNG 6: THẢO LUẬN VÀ MỞ RỘNG...33

TÀI LIỆU THAM KHẢO...35

</div>Trang 4<div class="page_container" data-page="4">

DANH MỤC HÌNH ẢNH

Hình 3.1 Kết quả khi đọc dữ liệu và xem 10 dịng đầu tiên của dữ liệu...11

Hình 3.2 Code R và kết quả khi kiểm tra dữ liệu khuyết trong water...12

Hình 3.3 Code R và kết quả khi kiểm tra lại dữ liệu khuyết hay khơng...12

Hình 3.4 Code R và kiểm tra các cột số có âm hay khơng...13

Hình 4.1 Code R khi phân loại biến...14

Hình 4.2 Code R và kết quả sau khi tính các giá trị thống kê mơ tả...14

Hình 4.3 Code R và kết quả sau khi tạo bảng tần số...14

Hình 4.4 Code R và biểu đồ thống kê tần số cho biến Potability...15

Hình 4.5 Biểu đồ histogram thể hiện phân phối của biến pH...16

Hình 4.6 Biểu đồ histogram thể hiện phân phối của biến Hardness...16

Hình 4.7 Biểu đồ histogram thể hiện phân phối của biến Solids...17

Hình 4.8 Biểu đồ histogram thể hiện phân phối của biến Chloramines...17

Hình 4.9 Biểu đồ histogram thể hiện phân phối của biến Sulfate...18

Hình 4.10 Biểu đồ histogram thể hiện phân phối của biến Conductivity...18

Hình 4.11 Biểu đồ histogram thể hiện phân phối của biến Organic_carbon...19

Hình 4.12 Biểu đồ histogram thể hiện phân phối của biến Trihalomethanes...19

Hình 4.13 Biểu đồ histogram thể hiện phân phối của biến Turbidity...20

Hình 4.14 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “ph” vào biến “Potability”...21

Hình 4.15 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Hardness” vào biến “Potability”21 Hình 4.16 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Solids” vào biến “Potability”...22

Hình 4.17 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Chloramines” vào biến “Potability”...22

Hình 4.18 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Sulfate” vào biến “Potability”...22

Hình 4.19 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Conductivity” vào biến

Hình 4.22 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Turbidity” vào biến “Potability”24 Hình 4.23 Kết quả kiểm tra ma trận tương quan giữa các yếu tố...24

</div>Trang 5<div class="page_container" data-page="5">

Hình 4.24 Đồ thị ma trận tương quan giữa các yếu tố...25

Hình 5.1: Code R và tập dữ liệu train_data...26

Hình 5.2: Code R và tập dữ liệu test_data...26

Hình 5.3: Kết quả của mơ hình hồi quy logistic...28

Hình 5.4 : Kết quả tổng quan của mơ hình hồi quy logistic...28

Hình 5.5 : Kết quả khoảng tin cậy cho βi...29

Hình 5.6: Kết quả tỷ lệ chênh lệch và khoảng tin cậy cho tỷ lệ chênh lệch...29

Hình 5.7: Kết quả tập dự đốn Test_data...30

Hình 5.8: Kết quả đồ thị ROC dự đốn...31

Hình 5.9: Kết quả kiểm định tính phân phối chuẩn độ pH bằng Shapiro-Wilk...32

</div>Trang 6<div class="page_container" data-page="6">

CHƯƠNG 1 : TỔNG QUAN DỮ LIỆU1. Ngữ cảnh dữ liệu

Hiện nay, mơi trường nước trên tồn cầu đang phải đối mặt với nhiều vấn đề nghiêm trọng. Sự ô nhiễm nước từ các nguồn gốc khác nhau như công nghiệp, nông nghiệp và sinh hoạt đô thị đã ngày càng trở thành vấn đề quan tâm lớn. Các chất ô nhiễm như hóa chất độc hại, thuốc trừ sâu, phân bón hóa học thường xun được xả thải vào các dịng sông, hồ và biển, gây ảnh hưởng đến hệ sinh thái nước. Sự thải ra môi trường của chất thải nhựa cũng đang tạo ra một vấn đề khác biệt lớn, ảnh hưởng đến sinh vật biển và cả con người. Ngoài ra, sự mất rừng và biến đổi đất đai cũng làm giảm chất lượng và lượng nước ngầm, ảnh hưởng đến nguồn cung cấp nước sạch cho cộng đồng. Biến đổi khí hậu, với tác động của nó đến tăng mực nước biển và mưa lớn, cũng đang tạo ra sự biến đổi nghiêm trọng trong môi trường nước.

2. Thu thập dữ liệu

Bằng hai phương pháp hồi quy logistic và ANOVA để phân tích “Chất lượng nước - Khả năng uống nước uống” (Water Quality - Drinking water potability).

3. Các biến trong dữ liệu

- ph: pH là một thông số quan trọng trong việc đánh giá cân bằng axit-bazơ của nước. WHO đã khuyến nghị giới hạn pH tối đa cho phép là từ 6,5 đến 8,5. Phạm vi điều tra hiện tại là 6,52–6,83, nằm trong phạm vi tiêu chuẩn của WHO.

- Hardness: Độ cứng ban đầu được định nghĩa là khả năng của nước làm kết tủa xà phịng do Canxi và Magiê gây ra. Tính bằng lượng miligram trên lít (mg/L).

- Solids (Total dissolved solids - TDS): Đây là thông số quan trọng cho việc sử dụng nước. Nước có giá trị TDS cao chứng tỏ nước có độ khống hóa cao. Giới hạn mong muốn đối với TDS là 500 mg/l và giới hạn tối đa là 1000 mg/l được quy định cho mục đích uống.

- Chloramines: Mức clo lên tới 4 miligam mỗi lít (mg/L hoặc 4 phần triệu (ppm)) được coi là an tồn trong nước uống. Lượng Chloramines có trong nước, tính bằng ppm.

- Sulfate: Nồng độ sunfat trong nước biển là khoảng 2.700mg/L. Nó dao động từ 3 đến 30 mg/L trong hầu hết các nguồn cung cấp nước ngọt, mặc dù nồng độ cao hơn

</div>Trang 7<div class="page_container" data-page="7">

nhiều (1000 mg/L) được tìm thấy ở một số vị trí địa lý. Lượng lưu huỳnh hịa tan, tính bằng mg/L.

- Conductivity: Lượng chất rắn hòa tan trong nước quyết định độ dẫn điện. Độ dẫn điện (EC) thực sự đo q trình ion của dung dịch cho phép nó truyền dòng điện. Theo tiêu chuẩn của WHO, giá trị EC không được vượt quá 400 μS/cm.

- Organic_carbon: Tổng lượng cacbon hữu cơ (TOC) là thước đo tổng lượng carbon trong các hợp chất hữu cơ trong nước tinh khiết. Theo US EPA < 2 mg/L dưới dạng TOC trong nước đã qua xử lý/nước uống và < 4 mg/Lít trong nguồn nước được sử dụng để xử lý.

- Trihalomethanes (THM): THM là những hóa chất có thể tìm thấy trong nước được xử lý bằng clo. Nồng độ THM trong nước uống thay đổi tùy theo mức độ chất hữu cơ trong nước, lượng clo cần thiết để xử lý nước và nhiệt độ của nước đang được xử lý. Mức THM lên tới 80 ppm được coi là an toàn trong nước uống.

- Turbidity: Độ đục của nước phụ thuộc vào lượng chất rắn có ở trạng thái lơ lửng. Nó là thước đo đặc tính phát sáng của nước và thử nghiệm được sử dụng để chỉ ra chất lượng xả thải đối với chất keo. Thước đo đặc tính phát quang của nước đo bằng NTU (Nephelometric Turbidity Units). Giá trị độ đục trung bình thu được tại Cơ sở Wondo Genet (0,98 NTU) thấp hơn giá trị khuyến nghị của WHO là 5,00 NTU.

- Potability: Cho biết nước có an tồn cho con người hay không với uống được là 1 và không uống được là 0.

</div>Trang 8<div class="page_container" data-page="8">

CHƯƠNG 2 : KIẾN THỨC NỀN1. Hồi quy logistic

1.1 Khái niệm

Phương pháp hồi quy logistic là một phương pháp trong thống kê được sử dụng khi biến phụ thuộc (dependent variable) là một biến phân loại (categorical variable) hoặc biến đo lường ở mức độ thứ bậc (ordinal variable). Phương pháp này thường được sử dụng để dự đoán xác suất xảy ra của một sự kiện, dựa trên các biến độc lập (independent variables).

Cụ thể, hồi quy logistic thường được sử dụng khi chúng ta muốn dự đoán xác suất của một sự kiện như "có" hoặc "khơng có", "thành cơng" hoặc "khơng thành cơng", "được phân loại vào nhóm A" hoặc "nhóm B", v.v…

Ví dụ:

- Dự đốn xác suất một học sinh đậu (1) hoặc trượt (0) kỳ thi dựa vào số giờ học.

- Dự đoán xác suất một khách hàng mua sản phẩm (1) hoặc không mua (0) dựa vào độ tuổi, thu nhập, v.v.

Kết quả của mơ hình hồi quy logistic thường là xác suất của biến phụ thuộc thuộc vào các giá trị của biến độc lập. Mơ hình này được sử dụng rộng rãi trong nghiên cứu y học, khoa học xã hội, kinh tế, và nhiều lĩnh vực khác để phân tích và dự đốn các sự kiện nhị phân, ví dụ như dự đốn bệnh lý, quyết định tín dụng, hoặc đánh giá tác động của các biến độc lập lên kết quả cụ thể.

Trong hồi quy logistic, phép biến đổi logit được áp dụng theo tỷ lệ cược (odds) - tức là xác suất thành công chia cho xác suất thất bại. Đây còn được gọi là tỷ lệ log odds hoặc logarit tự nhiên của tỷ lệ cược (odds) và hàm logistic này được biểu thị

1.2 Giải thích mơ hình hồi quy logistic

Tỷ lệ log odds có thể khó hiểu trong q trình phân tích dữ liệu hồi quy logistic. Do đó, việc lũy thừa ước tính β là phổ biến để chuyển đổi kết quả thành tỷ lệ chênh

</div>Trang 9<div class="page_container" data-page="9">

lệch (odds ratio_OR), giúp dễ dàng giải thích kết quả. OR biểu thị tỷ lệ cược (odds) rằng một kết quả sẽ xảy ra trong một sự kiện cụ thể, so với tỷ lệ cược(odds) xảy ra khi khơng có sự kiện đó.

Nếu OR > 1 thì sự kiện đó có tỷ lệ tạo ra kết quả cụ thể cao hơn.

Ngược lại, nếu OR < 1 thì sự kiện đó có tỷ lệ xảy ra kết quả đó thấp hơn.

Dựa trên phương trình ở trên, việc giải thích tỷ lệ chênh lệch(odds ratio) có thể được biểu thị như sau: tỷ lệ thành công thay đổi theo exp(cB_1) lần cho mỗi lần tăng c-đơn vị trong x.

- Uớc tính khả năng tối đa (maximum likelihood estimation MLE) với Likelihood:

+ Xét mô hình hồi quy logictis dạng tổng qt: yi=E

(

yi

)

+εi. Trong đó yi là biến độc lập phân phối Bernoulli với tham số pi

Lấy đạo hàm hai vế và xác định xi'β sao cho đạo hàm bằng 0.

Theo ước lượng cực đại để xác định^xi'β sao cho hàm số L(xi'β¿ đạt giá trị cực đại.

xi'β=

∑

yin

</div>Trang 10<div class="page_container" data-page="10">

Theo phân phối chuẩn: Giả sử biến ngẫu nhiên X1, X2,…, Xn tuân theo quy luận phân phối chuẩn N(μ,σ2¿. f(X

|

μ,σ2

)

= 1

Lấy đạo hàm hai vế theo μ,σ2 và xác định sao cho đạo hàm bằng 0. Theo ước lượng cực đại để xác định μ,σ2 sao cho hàm số L đạt giá trị cực đại.

- Nhận xét: Khơng có công thức tường minh cho ước lượng β như hồi quy tuyến tính. Ước lượng sử dụng các thuật tốn tối ưu hóa(Gradient Descent, Phương pháp Newton-Raphson, Solyer của Excel...)

- Ước tính hệ số βi:

+Hệ số chặn (Intercept) β0 tỉ lệ log odds khi tất các yếu tố dự đoán là 0. + βi chênh lệch trong tỉ lệ log odds (odds ratio): βi=logoddsi+1

</div>Trang 11<div class="page_container" data-page="11">

- Khi biến x tăng 1 đơn vị thì giá trị log(Odds) tăng β đơn vị - Khi x tăng 1 đơn vị thì tỉ số Odds tang lên exp(β) lần - β > 0: x càng lớn, xác suất để y =1 càng lớn

- β < 0: x càng lớn, xác suất để y = 1 càng nhỏ

1.3 Phân loại các mơ hình hồi quy logistic

Có 3 loại mơ hình hồi quy logistic, bao gồm:

Hồi quy logistic nhị phân (Binary Logistic Regression): là một phương pháp

sử dụng để dự đoán xác suất của một biến phụ thuộc nhị phân (categorical variable có hai nhóm), dựa trên các biến độc lập (independent variables). Tức là nó chỉ có 2 kết quả “có” hoặc “khơng”, “0” hoặc “1”.

Ví dụ như dự đốn xem một cái bánh có bị hỏng hay khơng hay dự đốn xem một người có bị tiểu đường hay không. Trong hồi quy logistic, đây là cách tiếp cận được sử dụng phổ biến nhất và nói chung hơn, nó là một trong những cách phân loại phổ biến nhất để phân loại nhị phân.

Hồi quy logistic đa thức (Multinomial Logistic Regression): Là một phương

pháp được sử dụng khi biến phụ thuộc là biến phân loại (categorical variable) có ba hoặc nhiều hơn hai nhóm (categories), khơng chỉ là biến nhị phân như trong hồi quy logistic nhị phân. Mục tiêu của loại hồi quy này để dự đốn xác suất của mỗi nhóm (category) của biến phụ thuộc, dựa trên các biến độc lập, hay xác định mức độ ảnh hưởng của các biến độc lập đến xác suất của từng nhóm.

Ví dụ: Giả sử chúng ta muốn dự đoán xác suất của mỗi loại sản phẩm (A, B, C) một khách hàng có thể mua dựa vào độ tuổi và thu nhập. Chúng ta sử dụng mơ hình hồi quy logistic đa thức để dự đoán xác suất mỗi loại sản phẩm mà khách hàng có thể mua. Sau đó, chúng ta có thể đánh giá hiệu suất của mơ hình bằng các phương pháp như đã nêu ở trên.

Hồi quy logistic theo thứ tự (Ordinal Logistic Regression): Là một phương

pháp được sử dụng khi biến phụ thuộc là biến phân loại ở mức độ thứ bậc (ordinal variable), có thứ tự như "thấp", "trung bình", "cao" hoặc "rất khơng hài lịng", "khơng hài lòng", "hài lòng", "rất hài lòng". Hồi quy logistic thứ tự dùng để dự đoán xác suất của mỗi mức độ thứ bậc của biến phụ thuộc, dựa trên các biến độc lập hoặc xác định mức độ ảnh hưởng của các biến độc lập đến xác suất của từng mức độ.

</div>Trang 12<div class="page_container" data-page="12">

Ví dụ: Giả sử chúng ta muốn dự đốn mức độ hài lịng về một sản phẩm từ khách hàng, với các mức độ "rất khơng hài lịng", "khơng hài lịng", "hài lịng", "rất hài lịng". Chúng ta sử dụng mơ hình hồi quy logistic thứ tự để dự đoán xác suất của mỗi mức độ dựa vào các biến độc lập như giá sản phẩm, chất lượng, v.v... Sau đó, chúng ta có thể đánh giá hiệu suất của mơ hình để hiểu rõ hơn về mức độ ảnh hưởng của các biến độc lập đến mức độ hài lòng của khách hàng.

1.4 Mơ hình tối ưu

Một trong những vấn đề khó khăn và có khi khá nan giải trong việc phân tích hồi qui logistic đa biến là chọn một mơ hình để có thể mơ tả đầy đủ dữ liệu. Một nghiên cứu với một biến phụ thuộc y và 3 biến độc lập x1, x2 và x3, chúng ta có thể có những mơ hình sau đây để tiên đoán y:

y=f

(

x1

)

, y=f

(

x2), y=f

(

x3

)

, y=f

(

x1,x2), y=f

(

x1,x3

)

, y=f

(

x2, x3),và y=f (x1,x2,x3)

trong đó f là hàm số. Nói chung với k biến độc lập x1, x2, x3, . . . , xk, chúng ta có rất nhiều mơ hình (2k) để tiên đốn y. Một mơ hình tối ưu phải đáp ứng ba tiêu chuẩn sau đây:

Đơn giản: Một mơ hình nên được thiết kế sao cho đơn giản nhất có thể mà vẫn giải quyết được vấn đề cụ thể. Lý do chính là để tránh overfitting (quá khớp) và làm cho mơ hình tổng qt hóa tốt hơn trên dữ liệu mới, khơng được sử dụng trong q trình huấn luyện.

Trang bị quá mức: Đây là hiện tượng khi mơ hình q phức tạp và "học nhớ" cụ thể từng điểm dữ liệu trong tập huấn luyện mà không tổng quát hóa được cho dữ liệu mới. Điều này có thể dẫn đến kết quả dự đốn khơng chính xác khi áp dụng mơ hình vào dữ liệu thực tế. Một mơ hình đơn giản có thể giúp giảm overfitting và cải thiện khả năng tổng quát hóa của mơ hình.

Đầy đủ: Mơ hình cần phải đủ mạnh để có khả năng giải quyết vấn đề được đặt ra. Điều này có nghĩa là mơ hình cần phải chứa đựng đủ thông tin và biến động của dữ liệu để có thể dự đốn và giải thích được kết quả một cách hiệu quả.

Trang bị đầy đủ: Ngược với trang bị quá mức, trang bị đầy đủ xảy ra khi mơ hình q đơn giản và khơng có đủ khả năng biểu diễn sự biến động trong dữ liệu. Kết quả là mơ hình khơng thể dự đốn và giải thích được dữ liệu. Một mơ hình đủ mạnh sẽ giúp

</div>Trang 13<div class="page_container" data-page="13">

chúng ta tránh tình trạng underfitting và đảm bảo mơ hình có khả năng giải quyết vấn đề được đặt ra.

Thực tế: Mơ hình cần phải phản ánh một cách chân thực nhất có thể mối quan hệ giữa các biến và kết quả của mơ hình trong thực tế. Điều này đảm bảo rằng mơ hình có thể được sử dụng để đưa ra dự đoán và quyết định hợp lý dựa trên những thơng tin có sẵn.

Khả năng giải thích: Một mơ hình thực tế cũng nên có khả năng giải thích được dự đốn của mình. Điều này giúp người sử dụng hiểu được lý do vì sao mơ hình đưa ra dự đoán cụ thể và cách các biến độc lập ảnh hưởng đến kết quả. Khi một mơ hình đơn giản, đầy đủ và thực tế, chúng ta có được một công cụ mạnh mẽ và hiệu quả để dự đốn, giải thích và đưa ra quyết định từ dữ liệu. Điều này đồng thời cũng giúp tăng tính ứng dụng và tin cậy của mơ hình trong thực tế.

2. Mơ hình ANOVA2.1 Khái niệm

Phương pháp ANOVA (Analysis of Variance) là một phương pháp thống kê được sử dụng để kiểm tra sự khác biệt trung bình giữa ba hoặc nhiều nhóm. Nó cho phép chúng ta xác định xem liệu có sự khác biệt ý nghĩa giữa các nhóm này khơng, thơng qua việc so sánh phương sai (variance) của các nhóm. Với mục tiêu xác định xem có sự khác biệt ý nghĩa giữa ít nhất hai nhóm trung bình hay khơng hay Phát hiện và đánh giá ảnh hưởng của các biến độc lập đến biến phụ thuộc.

2.2 Giải thích mơ hình ANOVA

Đầu tiên, cấu trúc của mơ hình ANOVA bao gồm: Biến phụ thuộc, biến độc lập, các nhóm.

Biến Phụ Thuộc (Dependent Variable): Đây là biến mà chúng ta quan tâm đến sự khác biệt giữa các nhóm. Ví dụ: điểm số, chiều cao, hoặc lượng chất lượng sản phẩm.

Biến Độc Lập (Independent Variable): Đây là biến mà chúng ta muốn kiểm tra ảnh hưởng đến biến phụ thuộc. Ví dụ: loại phương pháp điều trị, loại phân loại, hoặc nhóm đối tượng.

Các Nhóm (Groups): Là các phân loại, nhóm của biến độc lập mà chúng ta muốn so sánh. Ví dụ: nhóm A, nhóm B, nhóm C.

</div>Trang 14<div class="page_container" data-page="14">

Giả thiết trong ANOVA bao gồm 2 giả thiết: Giả thiết khơng có sự khác biệt và giả thiết có sự khác biệt. Trong giả thiết khơng có sự khác biệt được thể hiện dưới dạng sau: H0: μ1¿μ3=…=μk Vậy trong giả thiết khơng có sự khác biệt này thì trung bình tất cả các nhóm bằng nhau. Tiếp đến, trong giả thiết có sự khác biệt: H1 được hiểu là ít nhất một cặp trung bình khác nhau

Cách thức thực hiện phân tích phương sai (Variance Analysis): Tính tốn phương sai giữa các nhóm (SSB) và phương sai bên trong các nhóm (SSW).

Trong đó:

SSB: Độ biến động giữa các nhóm.

SSW: Độ biến động bên trong từng nhóm.

F-Statistic: Sử dụng kiểm định F để so sánh tỉ lệ giữa SSB và SSW. Giá trị F lớn đồng nghĩa với sự khác biệt ý nghĩa giữa các nhóm.

G-Giá Trị p (p-value):Giá trị p được sử dụng để xác định xem có đủ bằng chứng để bác bỏ giả thiết khơng có sự khác biệt hay khơng. Nếu p-value nhỏ hơn mức ý nghĩa α đã chọn, ta bác bỏ giả thiết H0 và kết luận rằng có sự khác biệt trung bình giữa ít nhất hai nhóm.

2.3 Phân loại mơ hình ANOVA

Có 3 loại mơ hình ANOVA chính: ANOVA một nhân tố, ANOVA hai nhân tố, ANOVA MANOVA:

- Mơ hình ANOVAmột nhân tố: là một loại thử nghiệm thống kê so sánh

phương sai trong nhóm có nghĩa là trong một mẫu trong khi chỉ xem xét một yếu tố hoặc một biến độc lập. Phương sai một yếu tố so sánh ba hoặc nhiều hơn ba nhóm phân loại để xác định xem có sự khác biệt giữa chúng hay khơng. Trong mỗi nhóm nên có ba hoặc nhiều quan sát và phương tiện của các mẫu được so sánh.

Ví dụ như: Bạn có thể sử dụng phân tích phương sai một yếu tố để tìm hiểu liệu

hiệu suất kiểm tra có khác nhau hay khơng dựa trên mức độ lo lắng giữa các học sinh (chia học sinh thành ba nhóm độc lập: học sinh thấp, trung bình và cao bị căng thẳng).

một yếu tố. Với một yếu tố, bạn có một biến độc lập ảnh hưởng đến biến phụ thuộc.

Ví dụ: bạn có thể sử dụng phân tích ANOVA hai yếu tố để tìm hiểu liệu có sự tương tác giữa giới tính và trình độ học vấn đối với sự lo lắng kiểm tra giữa các sinh

</div>Trang 15<div class="page_container" data-page="15">

viên đại học. Trong đó giới tính (nam / nữ) và trình độ học vấn (đại học / sau đại học) là các biến độc lập của bạn, và kiểm tra lo lắng là biến phụ thuộc của bạn.

- Mơ hình ANOVA MANOVA (Multivariate Analysis of Variance) là một

phương pháp thống kê mở rộng của ANOVA, được sử dụng khi có hai hoặc nhiều biến phụ thuộc (dependent variables) mà chúng ta muốn kiểm tra sự khác biệt trung bình giữa các nhóm. Điều này có ý nghĩa rằng MANOVA cho phép chúng ta đánh giá sự ảnh hưởng của các biến độc lập đến nhiều biến phụ thuộc cùng một lúc. Mục tiêu của mơ hình này là xác định xem có sự khác biệt trung bình giữa các nhóm đối với tất cả các biến phụ thuộc hay không. Đánh giá tác động đồng thời của các biến độc lập lên nhiều biến phụ thuộc. Và tối ưu hóa sức mạnh thống kê và giảm độ biến thiên không cần thiết.

</div>Trang 16<div class="page_container" data-page="16">

CHƯƠNG 3 : TIỀN XỬ LÝ SỐ LIỆU

Hình 3.1 Kết quả khi đọc dữ liệu và xem 10 dòng đầu tiên của dữ liệu

2. Làm sạch dữ liệu (Data cleaning)

Tạo một dữ liệu mới, giữ lại các biến và thay thế dữ liệu water cũ. Kiểmtra dữ liệu khuyết trong water.

# làm sạch dữ liệu, giữ lại các biến chính cần thiết

</div>Trang 17<div class="page_container" data-page="17">

Hình 3.2 Code R và kết quả khi kiểm tra dữ liệu khuyết trong water

Nhận xét: Dựa vào kết quả thu được khi kiểm tra dữ liệu khuyết trong water, tanhận thấy có 491 dữ liệu khuyết tại biến ph và có 781 dữ liệu khuyết tại biến Sulfate.

Vậy nên ta cần xử lý các dữ liệu khuyết đó.

Phương pháp xử lí được đề xuất là thay thế các dữ liệu bị khuyết bằng giá trị

Kiểm tra lại xem còn dữ liệu khuyết hay khơng.

Hình 3.3 Code R và kết quả khi kiểm tra lại dữ liệu khuyết hay không.

</div>Trang 18<div class="page_container" data-page="18">

Cần kiểm tra để đảm bảo các cột số khơng âm

Hình 3.4 Code R và kiểm tra các cột số có âm hay khơng

Nhận xét: Ta nhận thấy sau khi xử lí, khơng cịn dữ liệu khuyết.

</div>Trang 19<div class="page_container" data-page="19">

CHƯƠNG 4 : THỐNG KÊ MÔ TẢ1. Làm rõ dữ liệu

Đối với biến phân loại: biến “Potability” biểu thị khả năng uống được của nước

mang giá trị “0” và “1”. Trong đó “0” là khơng uống được và “1” là uống được.

water$Potability = as.factor(water$Potability)

Hình 4.5 Code R khi phân loại biến

Đối với biến liên tục: bao gồm các biến: “ph”, “Hardness”, “Solids”,

“Chloramines”, “Sulfate”, “Conductivity”, “Organic_carbon”, “Trihalomethanes”, “Turbidity”.

# Tìm số liệu thống kê mơ tả cho các biến liên tục

Hình 4.6 Code R và kết quả sau khi tính các giá trị thống kê mơ tả

2. Tạo bảng tần số và vẽ biểu đồ thống kê tần số cho biến “Potability”

#Tạo bảng tần số cho biến phân loại

Hình 4.3 Code R và kết quả sau khi tạo bảng tần số #biểu đồ thống kê tần số cho biến “Potability”

barplot(table(water$Potability),xlab = "Potability", ylab = "Frequency",main = "Barplot of Potability", col = c("lightblue","lightpink"),ylim = c (0,2000))

</div>Trang 20<div class="page_container" data-page="20">

Hình 4.4 Code R và biểu đồ thống kê tần số cho biến Potability

Nhận xét: Số mẫu nước không uống được là 1998 chiếm tần suất cao hơn

khoảng 1.5 lần so với số mẫu nước uống được là 1278.

3. Vẽ biểu đồ cho các biến liên tục

</div>