8

Tôi muốn có thể nhận các tệp HTML tĩnh tương đối cập nhật từ tệp kết xuất XML Wikipedia tiếng Anh khổng lồ (ngay cả khi được nén) enwiki-latest-pages-articles.xml.bz2 Tôi đã tải xuống từ WikiMedia dump page. Dường như có khá nhiều công cụ có sẵn, mặc dù tài liệu trên chúng khá là đáng sợ, vì vậy tôi không biết phần lớn chúng làm gì hoặc nếu chúng được cập nhật với các bãi mới nhất. (Tôi khá giỏi trong việc xây dựng các trình thu thập dữ liệu web có thể thu thập dữ liệu thông qua các trang/tệp HTML tương đối nhỏ, mặc dù tôi rất kinh khủng với SQL và XML và tôi không mong đợi sẽ rất tốt với một trong ít nhất một năm nữa.) Tôi muốn có thể thu thập dữ liệu thông qua các tệp HTML thu được từ một bãi chứa ngoại tuyến mà không cần phải thu thập dữ liệu Wikipedia trực tuyến.Lấy các tệp HTML tĩnh từ tệp XML của Wikipedia

Có ai biết về một công cụ tốt để lấy các tệp HTML tĩnh từ các bãi XML gần đây của Wikipedia không?

Trả lời

3

Đầu tiên, import the data. Sau đó, tạo các tệp HTML với DumpHTML. Mặc dù đơn giản trong lý thuyết, quá trình này có thể phức tạp trong thực tế do khối lượng dữ liệu có liên quan và DumpHTML bị bỏ qua một chút, vì vậy đừng ngần ngại ask for help.

+1

Ngoài ra, có thể mất vài tuần hoặc vài tháng. Tôi đã từng nhập Wiktionary vào một vài năm trước đây, một vài đơn đặt hàng có độ lớn nhỏ hơn và phải mất vài ngày. Làm nó trên một cỗ máy rất khỏe sẽ giúp ích. Tôi tự hỏi liệu có ai có thể cho chúng tôi biết họ phải nhập khẩu trong bao lâu. – hippietrail

+0

Thời gian xử lý chắc chắn sẽ được xem xét. Tôi có thể có thể có được một máy tính để bàn mạnh mẽ tại một số điểm, mặc dù tôi không biết nếu đó sẽ là đủ để đối phó với quy mô chúng tôi đang nói về ở đây. (Tôi tự hỏi nếu có một giải pháp song song.) Tôi biết có sẵn các bãi HTML tĩnh, mặc dù gần đây nhất là từ năm 2008, ít hơn rất nhiều so với lý tưởng. –

+0

Điều gì về động chỉ hiển thị các phần cần thiết để hiển thị một trang nhất định như là một phần của tập lệnh đi kèm với bản phân phối Ubuntu tùy chỉnh ngoại tuyến? @hippietrail –

Các vấn đề liên quan