Chín năm trước khi tôi bắt đầu phân tích cú pháp HTML và văn bản miễn phí với Perl, tôi đọc số Data Munging with Perl cổ điển. Có ai biết nếu David đang có kế hoạch cập nhật sách hoặc nếu có những cuốn sách hoặc trang web tương tự mà các mô-đun phân tích cú pháp mới như XML-Twig, Regexp-Grammars, v.v ..., được giải thích không? Tôi giả định rằng trong chín năm qua một số mô-đun vẫn tốt như trước đây, một số mô-đun được cập nhật nhưng với các phương pháp mới thú vị và một số phương pháp thay thế tốt hơn. Ví dụ: vẫn còn Parse-RecDescent tùy chọn duy nhất để phân tích cú pháp văn bản miễn phí hoặc sẽ là Perl 6 ảnh hưởng đến việc thay thế Regexp-Grammars trong nhiều trường hợp?Mô-đun Perl nào thích hợp cho việc truyền dữ liệu?
Tôi đã bốn năm mà không khai thác HTML, XML hoặc khai thác dữ liệu văn bản miễn phí với Perl, vì vậy có lẽ bộ công cụ của tôi trong lĩnh vực này hơi lỗi thời. Do đó, bất kỳ phản hồi nào về thao tác HTML và DOM, trích xuất/xác minh liên kết, kiểm tra web như Cơ chế, thao tác XML và phân tích cú pháp văn bản miễn phí, từ những người cập nhật các mô-đun CPAN hiện tại trong khu vực này sẽ được chào đón nhiều hơn.
Một số bổ sung mới cho bộ công cụ của tôi:
vẫn còn trong bộ công cụ của tôi:
- HTML-TableExtract # không được cập nhật kể từ 2006
- WWW-Mechanize
- Parse-RecDescent
- HTML-TokeParser
- URI-Escape
- [more ...]
Một số các chi tiết cụ thể đã thay đổi, nhưng các khái niệm đều giống nhau. :) –
Dave, thật vui khi đọc những bài đánh giá và công thức nấu ăn này trong blog của bạn một ngày nào đó. –
Có, tôi rất muốn đọc những bài đăng đó. Nếu bạn kết thúc đăng một số cập nhật bổ sung trên blog của bạn, đó là siêu. Chúc mừng! – blunders