Tải bản đầy đủ (.pdf) (9 trang)

Bth1 nhoìm 13

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (485.51 KB, 9 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
🙤🙧🟍🙥🙦

CRAWL DỮ LIỆU MUA BÁN XE Ô TÔ CŨ
TRÊN WEBSITE CHỢ TỐT

Sinh viên thực hiện:
STT
Họ tên
1
Nguyễn Thanh Hiếu
2
Hồ Nguyễn Gia Huy

MSSV
20521328
20521386

TP. HỒ CHÍ MINH – 11/2022


Đồ án mơn học Phân tích Dữ liệu – IE224
1.

GIỚI THIỆU

Đề tài này tập trung vào việc thu thập dữ liệu liên quan đến thông tin mua bán ô
tô cũ trên trang web Chợ tốt ( ). Mục tiêu là nắm bắt thông tin về
thị trường mua bán ô tô cũ trực tuyến.
Để thực hiện việc thu thập dữ liệu, nhóm đã sử dụng Selenium, một cơng cụ tự


động hóa trình duyệt web, để tự động trích xuất thơng tin từ trang web Chợ tốt. Các
thông tin cơ bản về giao dịch ô tô cũ, bao gồm giá bán, nhà sản xuất, năm sản xuất,
tình trạng, và nhiều yếu tố khác đã được thu thập và lưu trữ dưới dạng tệp tin CSV.
Kết quả cuối cùng là một tập dữ liệu gồm 497 thông tin đầy đủ về các ô tô cũ
được niêm yết và bán trên trang web Chợ tốt.
Nhóm cam kết rằng bộ dữ liệu này là kết quả của quá trình sử dụng Selenium để
tự động thu thập dữ liệu trên trang web Chợ tốt và không phải là sự tự hợp nhất từ các
nguồn dữ liệu khác.
Bộ dữ liệu và đề tài do nhóm tự phân tích thiết kế và khơng dựa trên đề tài nào
khác.
2.

MÔ TẢ BỘ DỮ LIỆU
Bộ dữ liệu này là một tập hợp thông tin về mua bán ô tô cũ trên 30 trang đầu của
trang web Chợ tốt. Dữ liệu bao gồm các thông tin quan trọng về các chi tiết của ô tô
như tên người đăng bán, giá bán, hãng sản xuất, dòng xe, năm sản xuất, số kilomet đã
đi, tình trạng, loại hộp số, loại nhiên liệu, xuất xứ, kiểu dáng, số chỗ ngồi, chính sách
bảo hành, trọng lượng và trọng tải.
Bộ dữ liệu phân tích tự thu thập tại />Bộ dữ liệu này được nhóm thu thập từ trang web Chợ tốt, không dựa trên bất kỳ
nguồn dữ liệu bên ngoài nào khác.
Phương pháp thu thập dữ liệu cho bộ dữ liệu mua bán ô tô cũ trên trang web Chợ
tốt đã được thực hiện bằng cách sử dụng Selenium:
+ Trình duyệt web: Nhóm đã sử dụng Google Chrome để truy cập và tương tác
với trang web Chợ tốt.

Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy

Trang 1



Đồ án mơn học Phân tích Dữ liệu – IE224

+ Thực hiện tìm kiếm trên trang web Chợ tốt để lấy danh sách các liên kết đến
các bài đăng về mua bán ơ tơ cũ. Trong khi làm, nhóm nhận thấy các liên kết ơ
tơ có chung class name với các liên kết của những người bán ô tô nên nhóm đã
lọc ra và chỉ lấy những liên kết có mỗi dữ liệu về ô tô.

+ Sau khi thu thập danh sách các liên kết, nhóm đã sử dụng Selenium để truy cập
từng liên kết một. Khi truy cập vào một liên kết, đã thu thập thông tin về ô tơ cụ
thể đó, bao gồm Tên đăng bán, Giá bán, Hãng sản xuất, Dòng xe, Năm sản
xuất, Số kilomet đã đi, Tình trạng, Loại hộp số, Loại nhiên liệu, Xuất xứ, Kiểu
dáng, Số chỗ ngồi, Chính sách bảo hành, Trọng lượng và Trọng tải.

Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy

Trang 2


Đồ án mơn học Phân tích Dữ liệu – IE224

+ Xử lý và lưu trữ dữ liệu: Dữ liệu thu thập được đã được xử lý và lưu trữ vào
một tệp CSV.

+ Sau khi thu thập xong dữ liệu nhóm nhận thấy bộ dữ liệu có nhiều chỗ bị rỗng
và bị trùng vậy nên đã tiến hành lọc ra. Và lưu trữ lại vào tệp CSV.
+ Nhóm có nhận thấy cột Xuất xứ có 135 dữ liệu là “Đang cập nhật” vậy nên
cũng tiến hành đếm ra những ô tô cũ ko rõ nguồn gốc xuất xứ. Tuy nhiên nhận
thấy cũng khơng có vấn đề nên khơng lọc những data đó ra.

Ý nghĩa các cột dữ liệu:

● Tên đăng bán xe: Tiêu đề mà chủ xe ghi khi đăng bán

Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy

Trang 3


Đồ án mơn học Phân tích Dữ liệu – IE224
● Giá bán: Giá mà chủ ơ tơ mong muốn có thể bán được ở thời điểm đăng bài (vì
sau khi người mua muốn mua ơ tơ thì chủ có thể giảm giá theo ý muốn của chủ
ô tô)
● Hãng xe: Hãng sản xuất của ơ tơ được đăng bán
● Dịng xe: Dịng xe của ơ tơ được đăng bán
● Năm sản xuất: Năm sản xuất của ô tô được đăng bán
● Số km đã đi: Xe đăng bán đã đi được bao nhiêu km
● Tình trạng: Tình trạng của ơ tô được đăng bán (đã sử dụng,...)
● Hộp số: Xe thuộc loại số sàn, tự động hay bán tự động
● Nhiên liệu: Loại nhiên liệu mà ô tô sử dụng (xăng, dầu hoặc động cơ hybrid)
● Xuất xứ: Nơi xuất xứ của xe
● Kiểu dáng: Kiểu dáng hoặc loại hình của ô tô
● Số chỗ: Số chỗ ngồi trong xe
● Chính sách bảo hành: Thơng tin về chính sách bảo hành của ô tô
● Trọng lượng: Xe nặng bao nhiêu
● Trọng tải: Trọng tải tối đa mà ơ tơ có thể chở
Biến phân loại (categorical variables):









'Hãng'
'Dịng xe'
'Tình trạng'
'Hộp số'
'Nhiên liệu'
'Xuất xứ'
'Kiểu dáng'
Biến số (numeric variables):








'Giá bán'
'Năm sản xuất'
'Số Km đã đi'
'Số chỗ'
'Trọng lượng'
'Trọng tải'

Bộ dữ liệu ban đầu gồm có 15 cột 590 dòng, nhưng sau khi lọc ra 93 dịng bị
khuyết dữ liệu (trong đó 89 dịng bị thiếu dữ liệu và 4 dịng trùng nhau) thì cịn 497
dịng.
Dưới đây là một bảng thống kê sơ bộ về các biến dữ liệu và số lượng dòng bị

thiếu:

Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy

Trang 4


Đồ án mơn học Phân tích Dữ liệu – IE224

Biến dữ liệu

Số lượng dòng bị thiếu

Tên đăng bán

0

Giá bán

0

Hãng

0

Dòng xe

0

Năm sản xuất


0

Số Km đã đi

22

Tình trạng

0

Hộp số

1

Nhiên liệu

1

Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy

Trang 5


Đồ án mơn học Phân tích Dữ liệu – IE224

Biến dữ liệu

Số lượng dịng bị thiếu


Xuất xứ

0

Kiểu dáng

62

Số chỗ

64

Chính sách bảo hành

0

Trọng lượng

0

Trọng tải

0

Nguyễn Thanh Hiếu – Hồ Nguyễn Gia Huy

Trang 6


Đồ án mơn học Phân tích Dữ liệu – IE224


TÀI LIỆU THAM KHẢO
[1] (Truy cập lần cuối: 5/11/2023)
[2] (Truy cập lần cuối: 4/11/2023)

Họ tên SV thứ 1 – Họ tên SV thứ 2


Đồ án mơn học Phân tích Dữ liệu – IE224

PHỤ LỤC PHÂN CÔNG NHIỆM VỤ
ST
T

Thành viên

Nhiệm vụ

1

Nguyễn Thanh Hiếu - Tìm hiểu, code, mơ tả bộ dữ liệu
20521328

2

Hồ Nguyễn Gia Huy - Tìm hiểu, code, mơ tả bộ dữ liệu
20521386

Họ tên SV thứ 1 – Họ tên SV thứ 2




Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×