Cach crawl amazon thiet bi di dong

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (704.76 KB, 7 trang )

1. Tìm hiểu về thư viện Beautiful Soup.
BeautifulSoup là một thư viện Python dùng để lấy dữ liệu ra khỏi các file HTML và
XML. Nó hoạt động cùng với các parser (trình phân tích cú pháp) cung cấp cho bạn các
cách để điều hướng, tìm kiếm và chỉnh sửa trong parse tree (cây phân tích được tạo từ
parser). Nhờ các parser này nó đã giúp các lập trình viên tiết kiệm được nhiều giờ làm
việc.
2. Tìm hiểu sản phẩm cần lấy về trong trang website amazon.
Sản phẩm tôi cần làm là về thiết bị điện thoại di động.

3. Xác định các trường dữ liệu cần lấy về.

- Click vào một sản phẩm bất kỳ, ta có như hình:

- Sau đó xác định các trường dữ liệu như hình ảnh:

Chú thích:

STT
1
2
3
4
5

Chức năng
Tên sản phẩm.
Giá sản phẩm.
Số sao của sản phẩm
Số người đã đánh giá sản phẩm.

Còn hàng hay không.

4. Viết code.
- Đầu tiên, các thư viện cần thiết được import: BeautifulSoup để phân tích
HTML, requests để thực hiện yêu cầu HTTP, pandas để làm việc với dữ liệu và numpy để thao
tác với mảng.

- Chưa có thư viện trên thì tiến hành cài đặt: mở cmd lên ghi (pip install
BeautifulSoup).
- Import các thư viện cần thiết vào:

- Tiếp theo, mã định nghĩa một sớ chức năng để trích xuất thơng tin từ trang web
Amazon:
`get_title(soup)` - Trích xuất tiêu đề sản phẩm từ soup (một đới tượng Beautiful
Soup).
`get_price(soup)` - Trích xuất giá sản phẩm từ soup.
`get_rating(soup)` - Trích xuất xếp hạng sản phẩm từ soup.
`get_review_count(soup)` - Trích xuất sớ lượng đánh giá của người dùng từ soup.
`get_availability(soup)` - Trích xuất trạng thái sẵn có của sản phẩm từ soup.

- Kết quả: crawl từ 15 trang web có tất cả là 385 sản phẩm.

Cach crawl amazon thiet bi di dong

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về