2009-08-20 24 views
6

Tôi vừa mới bắt tay vào Stackoverflow data dump và tôi thất vọng khi thấy trường Nội dung của bài đăng nằm trong HTML thay vì Đánh dấu. Tôi nghi ngờ có Markdown trong cơ sở dữ liệu gốc vì đó là những gì tôi thấy nếu tôi cố chỉnh sửa câu trả lời.Cách dễ nhất để chuyển đổi kết xuất dữ liệu SO từ HTML trở lại thành Đánh dấu là gì?

Tôi muốn khôi phục Markdown từ một bộ câu trả lời lớn. Tôi sẽ xử lý hàng trăm mục nhập ở chế độ hàng loạt, sử dụng các công cụ dòng lệnh hoặc một số loại thư viện Lua hoặc C, do đó, một công cụ tương tác như wmd Markdown editor không phù hợp. Mọi người có thể nói công cụ nào có sẵn để giúp tôi khôi phục Markdown từ kết xuất dữ liệu Stackoverflow không?


(câu hỏi liên quan, không phải là một trùng lặp:. Convert HTML back to Markdown within wmd)

Trả lời

5

Markdownify chuyển HTML sang Markdown.

Xem thêm: MetaSO/Can Markdown be recovered from the SO data dump?

+0

Norman nên biết, anh ấy cũng đặt câu hỏi đó! :) –

+0

Khi nói đến việc sử dụng PHP trên dòng lệnh, tôi là một troglodyte. Tôi không thể hình dung ra từ hướng dẫn sử dụng nếu có một chức năng thư viện để đọc toàn bộ nội dung của một tập tin. Dio_read (STDIN) có đi đúng hướng không? –

+0

Nếu bạn muốn đọc nội dung của một tệp, có nhiều cách - một hàm đơn giản thực hiện là 'file_get_contents();' – Sampson

Các vấn đề liên quan