Tôi đang cố gắng để xóa dữ liệu từ một trang web. Dữ liệu được cấu trúc dưới dạng nhiều đối tượng với mỗi tập hợp dữ liệu. Ví dụ: những người có tên, tuổi và nghề nghiệp.Cách thu thập dữ liệu từ nhiều trang vào một cấu trúc dữ liệu đơn lẻ với số liệu
Vấn đề của tôi là dữ liệu này được chia thành hai cấp trong trang web.
Trang đầu tiên là danh sách tên và độ tuổi có liên kết đến từng trang hồ sơ cá nhân.
Trang tiểu sử của họ liệt kê nghề nghiệp của họ.
Tôi đã có một con nhện được viết bằng cào trong python có thể thu thập dữ liệu từ lớp trên cùng và thu thập thông tin qua nhiều lần phân trang.
Nhưng, làm thế nào tôi có thể thu thập dữ liệu từ các trang bên trong trong khi vẫn giữ nó liên kết với đối tượng thích hợp?
Hiện nay, tôi đã đầu ra có cấu trúc với json như
{[name='name',age='age',occupation='occupation'],
[name='name',age='age',occupation='occupation']} etc
Can chức năng phân tích tầm trên các trang như vậy?