Tôi đang cố gắng tìm nạp nội dung của bảng từ một wepage. Tôi jsut cần nội dung chứ không phải các thẻ <tr></tr>
. Tôi thậm chí không cần "tr" hoặc "td" chỉ là nội dung. cho ví dụ:Xóa các thẻ html trong sed hoặc tương tự
<td> I want only this </td>
<tr> and also this </tr>
<TABLE> only texts/numbers in between tags and not the tags. </TABLE>
tôi cũng muốn đưa sản lượng cột đầu tiên như thế này trong một tập tin csv mới column1, info1, INFO2, info3 coumn2, info1, INFO2, info3
Tôi đã cố gắng sed để xóa patters <tr>
<td>
nhưng khi tôi tìm nạp bảng cũng có các thẻ khác như <color>
<span>
v.v. vì vậy tôi muốn xóa tất cả các thẻ; trong tất cả mọi thứ ngắn với < và>.
Nội dung thường xuyên như thế nào? Bạn có thể sử dụng ['lynx'] (http://lynx.browser.org/) để lấy trang và chuyển đổi nó thành văn bản và sau đó phân tích cú pháp văn bản thuần túy. Khó nói mà không có nhiều chi tiết cụ thể hơn, việc cạo màn hình có xu hướng là sự lựa chọn giữa các hacks xấu xí khác nhau. –
ok điều này giải quyết được vấn đề đầu tiên ** sed -e 's/<.*> // g' input **. và để bình luận ở trên tôi đã wget'ed các trang và chỉ cạo phần bảng. do đó, tệp chỉ chứa thẻ và dữ liệu bảng sạch. một cái gì đó giống như một thói quen bảng thời gian thi. – user913492