Tải bản đầy đủ (.docx) (15 trang)

Báo cáo phân tích dữ liệu top streamer trên twitch

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (331.62 KB, 15 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO CUỐI KỲ
Nhập mơn lập trình Python cho phân tích

Ho Chi Minh City, 15/6/2022

MỤC LỤC



Chương 1. Tóm Tắt
-

Hiện nay việc livestream đang trở nên phổ biến và mở rộng trên khắp thế
giới. Và công việc này cũng đem lại được nguồn thu nhập to lớn. Vì đó
nhiều người mong muốn thực hiện việc livestream để có thể kiếm được
nguồn thu nhập ổn định. Tuy nhiên để có thể kiếm tiền từ việc livestream
thì kênh livestream cần phải được nhiều lượt đăng ký và yêu thích. Để
giải quyết vấn đề đó nhóm em đã quyết định nghiên cứu các top streamer
trên nền tảng twitch để có thể tìm được các yếu tố có thể ảnh hưởng đến
số lượt đăng ký của kênh.

-

Các phương pháp mà nhóm đã sử dụng trong q trình nghiên cứu : Thu
thập và xử lý số liệu, điều tra chọn mẫu, nghiên cứu mối liên hệ giữa các
biến và dự đoán.

-



Kết quả q trình nghiên cứu của nhóm: cịn có nhiều yếu tố khác ảnh
hưởng đến số lượng đăng ký mà nhóm vẫn chưa tìm thấy.

3


Chương 2. Giới thiệu
- Nhóm có 2 câu hỏi nghiên cứu chính:
+ Dựa vào tổng thời gian xem(view gained), dự đốn một kênh có càng

nhiều thời gian xem thì kênh đó có được nhiều lượt đăng kí hay khơng.
Câu hỏi này cho chúng ta biết được liệu yếu tố thời gian xem có ảnh
hưởng đến số lượng đăng ký hay khơng. Nếu có ta có thể dựa vào yếu tố
này để dự đoán số lượt đăng ký của kênh. Điều này có thể giúp cho những
kênh có số lượt đăng ký thấp sẽ có thể tập trung vào yếu tố này để cải
thiện số lượt đăng ký của kênh.
+ Partnered, Mature so với Stream time, dự đoán đâu là yếu tố quyết định
được 1 kênh có được nhiều sự quan tâm.Câu hỏi này cho chúng ta có thể
biết được đâu là yếu tố có thể ảnh hưởng đến số lượt đăng ký. Các yếu tố
này điều là các yếu tố mà có thể thực hiện dễ dàng hơn so với các yếu tố
khác để tăng số lượt đăng ký. Điều này có thể giúp cho nhiều kênh có thể
áp dụng thêm yếu tố này để tăng số lượt đăng ký ở kênh của mình.
- Input của bài tốn là tập dữ liệu gồm 1000 streamer trên nền tảng twitch
trong 1 năm. Chúng em sử dụng thuật toán Linear regression để dự đốn
số lượt đăng ký của một kênh. Trong đó biến kết quả là Followers(số lượt
đăng ký của kênh) còn Watch time(Minutes), Stream time(Minutes), Peak
Viewers, Average viewers, Followers gained , Views gained, Partnered,
Mature, Language là biến dự đoán.


4


Chương 3. Dữ liệu (Data)
-

-

+
+
+
-

-

Nguồn dữ liệu được lấy từ trang cá nhân của các streamer trên twitch và
tổng hợp lại .
Dữ liệu được một Creative Machine Learning, Data Science AaYush Mish
thu thập và làm sạch gồm 11 cột thuộc tính với các giá trị đầy đủ và
khơng lỗi source.
Dataset là tập dữ liệu 1000 streamer đã stream trên twitch được 1 năm.Dữ
liệu này bao gồm các thông tin khác nhau như số lượng người xem, số
lượng người xem đang hoạt động, số người theo dõi đã đạt được và nhiều
cột liên quan đến một người phát trực tiếp cụ thể. Nó có 11 cột khác nhau
với tất cả các thông tin cần thiết.
Các trường hợp xảy ra:
Số liệu cập nhập có thể bị trễ hơn so với thực tế.
Tài khoản bị khoá hoặc chủ tài khoản khoá kênh.
Bị sai sót trong q trình thu thập dữ liệu, sai về range,thiếu biến, ...
Nhóm em đã in ra các dịng đầu của dữ liệu để có thể thấy rõ các thuộc

tính và một số số liệu của dữ liệu.

Tiếp đó nhóm em có in ra các kiểu của dữ liệu để có thể hình dung rõ và
hiểu hơn về dữ liệu.

5


Chương 4. Trực quan hóa dữ liệu
-

Ở câu hỏi đầu tiên Dựa vào tổng thời gian xem(view gained), dự đoán
một kênh có càng nhiều thời gian xem thì kênh đó có được nhiều lượt
đăng kí hay khơng. Nhóm em đã vẽ ra một biểu đồ. Biểu đồ giúp chúng
em có thể thấy rõ sự tỉ lệ giữa thời gian xem (view gained) với số lượt
đăng ký ( Followers). Từ quan sát biểu đồ đó, có thể đưa ra một số suy
luận View gained với Followers.

-

Ở câu hỏi tiếp theo : Partnered, Mature so với Stream time, dự đoán đâu là
yếu tố quyết định được 1 kênh có được nhiều sự quan tâm.

-

Biểu đồ trên kết hợp cả 3 yếu tố Mature, Partnered và Stream time để có
thể thấy được sự ảnh hưởng của chúng với Followers. Từ quan sát biểu đồ
bên trái, ta thấy được nếu yếu tố Partnered = false, thì Streams time của
kênh là thưa thớt và ít Followers,yếu tố Mature dường như không ảnh
hưởng đến Followers. Qua biểu đồ bên phải thì với các kênh có Partnered

= true, thì Streamers trở nên phổ biến và rộng rãi hơn và những kênh có
followers càng cao thì đa số không cần đến yếu tố Mature = true và
Stream times ở biểu đồ này cũng không ảnh hưởng lớn đến Followers .
Như vậy việc một kênh trở nên được yêu thích và được sự quan tâm đăng
6


kí của người xem, yếu tố partnered là điều kiện cần thiết, trong khi đó yếu
tố Mature và Stream time khơng có ảnh hưởng lớn.
Chương 5. Mơ hình hóa dữ liệu (data modeling)
-

Nhóm em sử dụng thuật tốn Linear Regression hay cịn gọi là Hồi quy
tuyến tính là một phương pháp dự đoán kết quả dựa trên giá trị đầu vào và
mối quan hệ giữa đầu vào và đầu ra trước đó.

+ Input của bài tốn sẽ là vector X=[x1,x2,x3,…,xn] thể hiện các thuộc tính

của các biến dự đốn dưới dạng các số thực và output sẽ là y^=f(X)≈y,
với y là số lượt Followers của kênh . f(X) có thể được tính bằng cơng thức
sau:

+ Loss Function (Hàm mất mát) của Linear Regression

+ Để tìm nghiệm cho bài tốn Linear Regression, chúng ta có thể giải

phương trình đạo hàm của hàm loss bằng 0. Đạo hàm theo w của hàm loss
có dạng:

+ Nghiệm tối ưu cho bài tốn này có dạng như sau:


-

Kiểm định giả thuyết:

+ �0 : Trung bình mẫu và trung bình quần thể khơng khác nhau (no effect).

Giả thuyết này được đặt ra trước khi ta lựa chọn mẫu và tính giá trị thống
kê.
7


+ �0 ∶ � = �
+ �� : Trung bình mẫu và trung bình quần thể là khác nhau. Đây là giả

thuyết hai phía - (two-sided) �� ∶ � ≠ �
+ � là trung bình quần thể
+ � là trung bình mẫu
+ Ta cũng có thể đặt giả thuyết một phía (one-sided)

-

Mức ý nghĩa alpha:

+ Mức ý nghĩa alpha, (�), là một tiêu chí mà chúng ta sẽ sử dụng để quyết

định có nên giữ lại hay loại bỏ giả thuyết đặt ra
+ Thông thường � được chọn là 0.05.
+ Khi ta đã chọn �, nếu sự khác biệt giữa thống kê trên mẫu và tham số của


quần thể nhỏ hơn �, chúng ta có thể bác bỏ giả thuyết �0 và kết luận rằng
sự khác biệt này có lẽ khơng phải do tình cờ.
+ Khi ta bác bỏ giả thuyết �0 , ta có thể sai (bác bỏ �0 mặc dù nó đúng).

Lỗi như vậy được gọi là lỗi loại 1.
+ Mức độ alpha, (�), đại diện cho tỷ lệ lỗi loại 1 mà chúng ta sẵn sàng chấp

nhận trước khi tiến hành phân tích thống kê.
-

Phân tích thống kê:

+ Khi ta làm suy luận thống kê, ta muốn biết một hiện tượng mà ta quan sát

được trên mẫu có đại diện cho một hiện tượng thực tế trên quần thể hay
không.
+ Ta lập giả thuyết vô hiệu �0 là khơng có sự khác biệt
+ Ta chọn một mức ý nghĩa � làm tiêu chuẩn để chấp nhận hay bác bỏ giả

thuyết
+ Tính giá trị p (p-value)

8


+ Nếu � < �, ta bác bỏ giả thuyết �0 và kết luận sự khác biệt nhiều khả

năng không phải do tình cờ.
+ Khi bác bỏ �0 ta có khả năng mắc sai lầm, đây là sai lầm loại 1.
+ Nếu � > �, ta không bác bỏ được �0 và kết luận sự khác biệt nhiều khả


năng là do tình cờ hoặc dữ liệu quan sát được là khơng đủ để chứng tỏ
rằng có sự khác biệt.
-

Z – test cho giá trị trung bình:

+ Giả sử dữ liệu �1 , �2 , ⋯ , �� ∼ �(�, �2 ), � chưa biết, � đã biết.
+ Null hypothesis: �0 ∶ � = �0 , với �0 cho trước.
+ Alternative hypothesis:
+ Two-sided: �� ∶ � ≠ �0
+ Right-sided: �� ∶ � > �0
+ Left-sided: �� ∶ � < �0
+ Test statistic: � = � − �0 �/√ �
+ p-value
+ Two-sided: � = � (� > |�||�0 )
+ Right-sided: � = � (� > �|�0 )
+ Left-sided: � = � (� < �|�0 )

9


Chương 6. Thực nghiệm, kết quả, và thảo luận (experiments, results, and
discussions)
-

Mơ hình hồi quy dựa vào Wactch times để dự đoán lượng Followers:
Watch time(Minutess):biến độc lập w: hệ số của biến độc lập b: giá trị
lệch Followers = w.Watchtime + b


10


-

Nhóm em đã sử dụng thuật tốn Linear Regression để dự đoán kết quả từ
Watch time (minutes) để dự đoán ra Followers. Biểu đồ ở trên thể hiện kết
quả của thuật toán. Quan sát từ biểu đồ ta thấy rằng từ dưới 2 triệu
Followers và 200 triệu phút watch time thì các điểm tập trung nhưng từ 2
triệu Followers trở lên và 200 triệu phút Watch time trở lên thì các điểm
phân tán, khơng tập trung.

-

Để có thể xác định rõ điều đó thì nhóm em đã thực hiện dự đoán
Followers từ Watch time trong khoảng [100000000,170000000]. Kết quả
dự đoán followers tỉ lệ thuận với watchtimes.

11


-

Khi Watch time trong khoảng [200000000,300000000]. Mơ hình cho ta
kết quả dự đoán vẫn là followers vs watchtime tỉ lệ thuận nhưng các giá

trị followers có sự chênh lệch vẫn rất lớn như vậy mơ hình cho ta kết quả
dự đốn mang tính gần đúng, vậy vẫn chưa thể áp dụng mơ hình hồi quy
đơn biến để kết luận được
-


Mơ hình hồi quy dựa vào nhiều biến để dự đốn số lượng Followers

+ Các biến dự đoán được sử dụng: Watch time(Minutes),Stream

time(minutes) ,Peak viewers,Average viewers ,Followers gained,Views
gained.

+

Sau khi xây dựng thuật tốn có được chỉ số Accuracy như sau:
 Accuracy of training data: 53.69612929734367
 Accuracy of testing data: 53.29426334264469
Và chỉ số Error:
 Mean Absolute Error: 123148.59557367934
 Mean Squared Error: 47428017336.7476
 Root Mean Squared Error: 217779.74501029152

-

Biểu đồ dưới đây thể hiện Followers thực tế và Followers dự đoán được.

+

12


-

Quan sát từ biểu đồ có thể thấy từ khoảng 1 triệu Followers trở lại thì kết

quả dự đốn khá tương đồng nhưng từ 1 triệu trở đi thì kết quả dự đốn
khá chênh lệch với Followers thực tế.

-

Từ đó, có thể thấy rằng cịn có những yếu tố khác ảnh hưởng đến
Followers mà chưa được tìm thấy.

13


Chương 7. Kết Luận
-

-

Sử dụng ngôn ngữ python và thư viện cần thiết để trực quan hoá dữ liệu,
các hàm tính tốn, phân tích, trực quan bằng biểu đồ.
Áp dụng kiến thức môn học trên lớp: áp dụng kiểm định P-VALUES.
Áp dụng hồi quy tuyến tính, xây dựng mơ hình dự đốn được CHANNEL
nào sẽ có được nhiều lượt đăng kí.
Sau q trình nghiên cứu nhóm em đã thấy được có mốt số yếu tố có ảnh
hưởng đến Followers(Số lượt đăng ký) , ta có thể dựa vào những yếu tố
này để gia tăng Followers . Tuy nhiên để có thể dự đốn được Followers
chính xác thì vẫn cịn cần những yếu tố khác nữa để có thể gia tăng khả
năng dự đốn chính xác hơn.
Nếu có nhiều thời gian hơn, nhóm chúng em sẽ tìm kiếm thêm các yếu tố
có thể ảnh hưởng đến Follwers và áp dụng thêm mơ hình hồi quy
Logictisc để có nhiều dự đốn thực tế và chính xác hơn.


14


Chương 8. Tham Khảo
-

Tài liệu tham khảo môn học nhập mơn lập trình python phân tích của thầy
Qch Đình Hồng

-

Hồi qui tuyến tính wikipedia, web : />
-

Các hàm trực quan dữ liệu và vẽ biểu đồ: tham khảo từ youtube.com

-

Hồi quy đa biến : />
-

Tiếp cận dữ liệu: kaggle.com, twitch.com

15



×