Tải bản đầy đủ (.docx) (7 trang)

Cach crawl amazon thiet bi di dong

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (704.76 KB, 7 trang )

1. Tìm hiểu về thư viện Beautiful Soup.
BeautifulSoup là một thư viện Python dùng để lấy dữ liệu ra khỏi các file HTML và
XML. Nó hoạt động cùng với các parser (trình phân tích cú pháp) cung cấp cho bạn các
cách để điều hướng, tìm kiếm và chỉnh sửa trong parse tree (cây phân tích được tạo từ
parser). Nhờ các parser này nó đã giúp các lập trình viên tiết kiệm được nhiều giờ làm
việc.
2. Tìm hiểu sản phẩm cần lấy về trong trang website amazon.
Sản phẩm tôi cần làm là về thiết bị điện thoại di động.

3. Xác định các trường dữ liệu cần lấy về.


- Click vào một sản phẩm bất kỳ, ta có như hình:

- Sau đó xác định các trường dữ liệu như hình ảnh:

Chú thích:


STT
1
2
3
4
5

Chức năng
Tên sản phẩm.
Giá sản phẩm.
Số sao của sản phẩm
Số người đã đánh giá sản phẩm.


Còn hàng hay không.

4. Viết code.
- Đầu tiên, các thư viện cần thiết được import: BeautifulSoup để phân tích
HTML, requests để thực hiện yêu cầu HTTP, pandas để làm việc với dữ liệu và numpy để thao
tác với mảng.

- Chưa có thư viện trên thì tiến hành cài đặt: mở cmd lên ghi (pip install
BeautifulSoup).
- Import các thư viện cần thiết vào:

- Tiếp theo, mã định nghĩa một sớ chức năng để trích xuất thơng tin từ trang web
Amazon:
`get_title(soup)` - Trích xuất tiêu đề sản phẩm từ soup (một đới tượng Beautiful
Soup).
`get_price(soup)` - Trích xuất giá sản phẩm từ soup.
`get_rating(soup)` - Trích xuất xếp hạng sản phẩm từ soup.
`get_review_count(soup)` - Trích xuất sớ lượng đánh giá của người dùng từ soup.
`get_availability(soup)` - Trích xuất trạng thái sẵn có của sản phẩm từ soup.




- Kết quả: crawl từ 15 trang web có tất cả là 385 sản phẩm.




×