Tải bản đầy đủ (.pdf) (15 trang)

Sử dụng excel thực hiện dự án thu thập,khai phá trình diễn dự liệu trên mạng thị trường chứng khoán và phân tích

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (788.69 KB, 15 trang )

TRƯỜNG ĐẠI HỌC ĐẠI NAM
KHOA CÔNG NGHỆ THÔNG TIN

TIỂU LUẬN KẾT THÚC HỌC PHẦN
CHƯƠNG 1: THÔNG KÊ VÀ KHAI PHÁ DỮ LIỆU
ĐỀ TÀI 1: Sử dụng Excel thực hiện dự án thu
thập,khai phá
trình diễn dự liệu trên mạng thị trường chứng
khốn và phân
tích.
Giảng viên hướng dẫn : Thầy Nguyễn
Văn Tuấn
Sinh viên thực hiện

: Giáp Thiên

Thanh
Lớp

: CNTT15-03

Mã sinh viên

: 1571020231

Hà Nội , Ngày 27 Tháng 3 Năm 2022
0


MỤC LỤC


N฀฀i dung
1.1..........................Dữ liệu và thông kê
2
1.2 Tổng quan về hồi quy quyến tính.2
1.2.1 Sơ đồ hồi quy tuyến tinh............2
1.2.2

Ví dụ về hồi quy tuyến tính.......2

1.3.........................Phân bố và thống kê
2
1.3.1.............................Phân bố gauss
2
1.3.2. Ứng dụng................................3
1.4 : Sử dụng Excel thực hiện dự án thu
thập,khai phá trình diễn dự liệu trên
mạng thị trường chứng khốn và phân
tích...................................................3
1.4.1. Thu thập dữ liệu chứng khốn....3
1.4.2 Sử dụng thư viện Python để
phân tích dữ liệu chứng khốn............4
1.4.2

Mơ tả dữ liệu chứng khốn.......4

1


1.4.3 Phân tích thăm dị bằng Python
........................................................5

1.4.4
Đường trung binh cộng bằng
python.............................................7
1.4.5
1.5

Giá trị cổ phiếu.......................7

Phần kết luận...............................8

2


CHƯƠNG 1: THÔNG KÊ VÀ KHAI PHÁ DỮ LIỆU
1.1 Dữ liệu và thông kê
- Thống kê là nghiên cứu về m฀฀t b฀฀ sưu tập đa dạng
của các lĩnh vực, bao gồm phân tích, giải thích, trình
bày và tổ chức dữ liệu. Khi áp dụng thống kê vào các
vấn đề khoa học và công nghiệp hoặc xã h฀฀i, người ta
thường bắt đầu bằng cách đếm dân số hoặc q trình
mơ hình thống kê được nghiên cứu. Tồn b฀฀ có thể bao
gồm nhiều loại khác nhau, chẳng hạn như "tất cả
những người sống trong m฀฀t quốc gia" hoặc "tập hợp
các hạt tinh thần". Nó bao gồm tất cả các khía cạnh của
dữ liệu, bao gồm lập kế hoạch, thu thập dữ liệu mẫu
cho các cu฀฀c khảo sát và thử nghiệm.
- Dữ liệu là m฀฀t tập hợp các dữ kiện, chẳng hạn như số,
từ ngữ, hình ảnh, được thiết kế để đo lường, quan sát
hoặc đơn giản là mô tả sự vật. Những tiến b฀฀ trong
công nghệ, đặc biệt là điện thoại thông minh, đã dẫn

đến việc đưa văn bản, video và âm thanh vào dữ liệu
cùng với nhật ký web. Phần lớn dữ liệu này là khơng có
cấu trúc.
1.2

Tổng quan về hồi quy quyến tính

- Hồồi quy là một phương pháp thồống kê được sử dụng trong tài
chính, đầồu tư và các lĩnh vự c khác để xác định mức độ và đ ặc đi ểm
của mồối quan hệ giữa một biêốn phụ thuộc (thường được ký hi ệu là Y)
3


và biêốn phụ thuộc. một loạt các biêốn khác (được g ọi là các biêốn đ ộc
lập)
- Hồồi quy tuyêốn tnh có nhiêồu ứ
ng d ụ
ng trong th ự
c têố. Hầồu hêốt các
ứng d ụng c ủa hồồi quy tuyêốn tnh thu ộc m ột trong hai lo ại chính:
- Nêốu m ục têu là d ựbáo ho ặc d ựbáo, thì hồồi quy tuốn tnh có thể
được sử dụng để phù h ợp mồ hình dự đốn v ới tập d ữ li ệu c ủa các
giá trị Y và X được quan sát.
- Cồố gắống mồ hình hóa mồối quan h giệ a ữhai biêốn bắồng cách điêồu
chỉ nh mộ t phươ ng trình tuyêốn tnh với d ữ li ệu quan sát.
- Hồồi quy có th ểgiúp các chuyên gia tài chính và đầồu tư cũng như các
chuyên gia trong các ngành khác. Hồồi quy cũng có thể giúp dự đoán
doanh sồố bán hàng củ a cồng ty dự a trên thờ i têốt, doanh sồố bán hàng
tr ướ
c đó, tắng tr ưở

ng GDP ho cặ các lo iạđiêồu ki ện khác.
1.2.1 Sơ đồ hồi quy tuyến tinh
- Mục đích của hồi quy là mơ hình hóa sự phụ thuộc của một biến Y
vào biến X
+ Y được gọi là biến phụ thuộc hoặc biến đáp ứng.
+ X được gắn nhãn là biến độc lập, hiệp biến hoặc biến giải
thích. Phương trình hồi quy tuyến tính đơn giản:
Y = mX + c.
Mục tiêu của hồi quy tuyến tính là tìm đường dự đốn tốt nhất của Y
từ X
1.2.2 Ví dụ về hồi quy tuyến tính.

Ví dụ 1:
- Hãy xem xét các vấn đề xác định sự phụ thu฀฀c của
đơn vị số lượng từ chức năng của các thành viên của
đ฀฀i ngũ nhân viên trung bình trong 6 doanh nghiệp
cơng nghiệp.
- Nhiệm vụ. Sau đó, cơng ty đã phân tích mức lương
trung bình hàng tháng và số lượng nhân viên từ bỏ cách
tự nguyện. Ta có bảng dạng dưới:

4


-Đối với vấn đề xác định sự phụ thu฀฀c của những người
lao đ฀฀ng số tách từ mức lương trung bình cho 6 doanh
nghiệp phục hồi mơ hình có dạng của trình Y = a 0 +
a 1 x 1 + ... + a k x k, trong đó x i - ảnh hưởng biến, a i hệ số hồi quy, ak - hệ số yếu tố.
Y đối với m฀฀t nhiệm vụ nhất định - đó là m฀฀t số chỉ để
bắn m฀฀t nhân viên, m฀฀t góp phần yếu tố - tiền lương,

được biểu thị bởi X.
Quy trinh làm ví dụ 1 và cho ra kết quả của ví dụ 1:
Giả sử bạn có m฀฀t bảng của sự năng đ฀฀ng của giá của
m฀฀t sản phẩm N đặc biệt đối với 8 tháng qua. Nó là cần
thiết để quyết định xem việc mua lại của đảng của ông
với mức giá năm 1850 rúp. / T.

5


- Để giải quyết vấn đề này trong b฀฀ vi xử lý bảng
"Excel" cần thiết để sử dụng đã được biết đến ví dụ cụ
"Phân tích dữ liệu" trình bày ở trên. Tiếp theo, chọn
"Regression" và thiết lập các thông số. Chúng ta phải
nhớ rằng trong "phạm vi Input Y» nên được giới thiệu
với m฀฀t loạt các giá trị của biến phụ thu฀฀c (trong
trường hợp này giá của hàng hóa trong tháng cụ thể
trong năm) và trong "Input khoảng X» - cho m฀฀t đ฀฀c lập
(tháng). Chúng tôi khẳng định hành đ฀฀ng bằng cách
nhấn vào «Ok». Trong m฀฀t bảng tính mới (nếu có chỉ
định), chúng tơi có được dữ liệu cho hồi quy.
Chúng tơi đang xây dựng trên đó phương trình tuyến
tính có dạng y = ax + b, trong đó là các thông số a và b
là các hệ số từ số dòng của tháng và tên của các hệ số
và «Y-ngã" dịng của tấm với các kết quả phân tích hồi
quy. Do đó, phương trình tuyến tính hồi quy (EQ) 3 cho
vấn đề có thể được viết như sau:
Giá hàng hóa N = 11.714 * 1727,54 tháng số + hoặc
trong ký hiệu đại số
6



y = 11.714 x + 1727,54
1.3

Phân bố và thống kê

- Trong xác suất thống kê, người ta dùng "phân bố thống kê"
(statistical distribution)

- Phân bố như trên là một ví dụ về phân bố rời rạc(discrete
distribution). Trong phân bố rời rạc, các giá trị chỉ có thể nhận
một số giá trị nhất định. - Trong nhiều trường hợp, phân bố rời
rạc không tiện để sử dụng hoặc không mô tả đúng bản chất của
vấn đề, người ra phải dùng đến phân bố liên tục (continuous
distribution).
1.3.1 Phân bố gauss
- Là m฀฀t phân phối xác suất cực kì quan trọng trong
nhiều lĩnh vực. Nó là họ phân phối có dạng tổng
quát giống nhau, chỉ khác tham số vị trí và tỉ lệ.
Phân phối chuẩn tắc là phân phối chuẩn với giá trị
trung bình bằng 0 và đ฀฀ lệch chuẩn bằng 1.
- Hàm mật đ฀฀
Trung bình
Phương sai
Hàm sinh moment

7



1.3.2. Ứng dụng

- Phân phối chuẩn là một phân phối quan trọng trong thống kê, định lý
hội tụ trung tâm (central limit theorem) nói rằng phân phối của trung
bình mẫu mẫu sẽ tiến tới phân phối chuẩn khi ta tăng cỡ mẫu. Phân
phối chuẩn thường được dùng trong thống kê suy luận dùng suy luận
trung bình tổng thể và kiểm định giả thiết thống kê.
1.4 : Sử dụng Excel thực hiện dự án thu
thập,khai phá trình diễn dự liệu trên mạng thị
trường chứng khốn và phân tích.
1.4.1. Thu thập dữ liệu chứng khoán
8


- Nhu cầu cổ phiếu tăng đ฀฀t biến có thể do nhiều
nguyên nhân, bao gồm cả những tin tức tích cực về m฀฀t
công ty hoặc m฀฀t thông báo từ m฀฀t công ty. Sau m฀฀t
thời gian, khi nhu cầu về cổ phiếu biến mất, giá của nó
sẽ từ từ giảm xuống do các nhà đầu tư mất hứng thú
với nó. Sự lên xuống của giá cổ phiếu là m฀฀t quá trình
lặp đi lặp lại. Sự biến đ฀฀ng này của cổ phiếu khiến các
nhà đầu tư lo lắng khi đầu tư vào các cơng ty. Vì vậy, để
hiểu được những rủi ro đi kèm, cần tiến hành phân tích
đúng đắn về cổ phiếu trước khi mua. Trong bài viết này,
chúng tôi chỉ cố gắng khám phá phần nổi của tảng
băng chìm trong phân tích thị trường chứng khốn, vì
phân tích kỹ thuật chứng khoán là m฀฀t lĩnh vực r฀฀ng
lớn.
1.4.2 Sử dụng thư viện Python để phân tích
dữ liệu chứng khốn.

-Sau đây là các thư viện bắt buộc phải cài đặt trước mà bạn có thể dễ
dàng tải xuống với sự trợ giúp của hàm pip. Mô tả ngắn gọn về tên
của Thư viện và ứng dụng của nó được cung cấp dưới đây.

1.4.2 Mơ tả dữ liệu chứng khốn

-Chúng tơi đã tải xuống dữ liệu giá cổ phiếu hàng ngày bằng chức
năng API tài chính của Yahoo. Đó là dữ liệu năm năm ghi lại Mở,
Cao, Thấp, Đóng và Âm lượng
 Mở cửa: Giá cổ phiếu khi thị trường mở cửa vào buổi sáng
 Đóng: Giá của cổ phiếu khi thị trường đóng cửa vào buổi tối
9


 Cao: Giá cao nhất mà cổ phiếu đạt được trong ngày đó
 Thấp: Giá thấp nhất mà cổ phiếu được giao dịch vào ngày đó
 Khối lượng: Tổng lượng cổ phiếu được giao dịch vào ngày hơm
đó
-Ở đây, chúng ta sẽ lấy Ví dụ về ba cơng ty TCS, Infosys và Wipro là
những công ty hàng đầu trong ngành cung cấp dịch vụ CNTT.

1.4.3 Phân tích thăm dị bằng Python

-Biểu đồ trên là biểu diễn giá cổ phiếu mở của ba công
ty này thông qua biểu đồ đường bằng cách tận dụng
thư viện matplotlib trong python. Biểu đồ cho thấy rõ
ràng rằng giá của Wipro cao hơn khi so sánh với hai
công ty khác nhưng chúng tôi không quan tâm đến giá

10



tuyệt đối của các công ty này mà muốn hiểu giá cổ
phiếu này biến đ฀฀ng như thế nào theo thời gian.

-Biểu đồ cho thấy khối lượng giao dịch của các công ty này, cho thấy
rõ ràng rằng cổ phiếu của Infosys được giao dịch nhiều hơn so với các
cổ phiếu CNTT khác.

11


- Chỉ khối lượng hoặc giá cổ phiếu không cung cấp sự so
sánh giữa các công ty. Trong trường hợp này, chúng tôi
đã vẽ biểu đồ cho Khối lượng * Giá cổ phiếu để so sánh
tốt hơn giữa các công ty. Như chúng ta có thể thấy rõ
ràng từ biểu đồ rằng Wipro dường như được giao dịch ở
mức cao hơn.
1.4.4

Đường trung binh cộng bằng python

- Như chúng ta biết giá cổ phiếu luôn biến đ฀฀ng mạnh
và giá thay đổi nhanh chóng theo thời gian. Để quan
sát bất kỳ xu hướng hoặc mơ hình nào, chúng ta có thể
sử dụng mức trung bình 50 ngày 200 ngày.

12



1.4.5

Giá trị cổ phiếu

- Giá trị cổ phiếu tăng phần trăm là sự thay đổi trong
kho so với ngày hôm trước. Giá trị dương hoặc âm càng
lớn thì chứng khốn càng biến đ฀฀ng.

13


- Rõ ràng từ biểu đồ rằng tỷ lệ phần trăm tăng trong
biểu đồ giá cổ phiếu của TCS là r฀฀ng nhất, điều này cho
thấy cổ phiếu của TCS là biến đ฀฀ng mạnh nhất trong số
ba công ty được so sánh.
1.5

Phần kết luận

- Phân tích trên có thể được sử dụng để hiểu hành vi
ngắn hạn và dài hạn của cổ phiếu. Hệ thống hỗ trợ
quyết định có thể được tạo ra để chọn cổ phiếu trong
ngành có rủi ro thấp, phần thưởng thấp hoặc rủi ro cao,
phần thưởng cao, dựa trên mức đ฀฀ rủi ro của nhà đầu
tư.

14




×