Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (704.76 KB, 7 trang )
1. Tìm hiểu về thư viện Beautiful Soup.
BeautifulSoup là một thư viện Python dùng để lấy dữ liệu ra khỏi các file HTML và
XML. Nó hoạt động cùng với các parser (trình phân tích cú pháp) cung cấp cho bạn các
cách để điều hướng, tìm kiếm và chỉnh sửa trong parse tree (cây phân tích được tạo từ
parser). Nhờ các parser này nó đã giúp các lập trình viên tiết kiệm được nhiều giờ làm
việc.
2. Tìm hiểu sản phẩm cần lấy về trong trang website amazon.
Sản phẩm tôi cần làm là về thiết bị điện thoại di động.
3. Xác định các trường dữ liệu cần lấy về.
- Click vào một sản phẩm bất kỳ, ta có như hình:
- Sau đó xác định các trường dữ liệu như hình ảnh:
Chú thích:
STT
1
2
3
4
5
Chức năng
Tên sản phẩm.
Giá sản phẩm.
Số sao của sản phẩm
Số người đã đánh giá sản phẩm.