2013-04-27 31 views
13

Tôi muốn có thể lấy một đoạn mã HTML hiện có và chuyển đổi nó thành markdown. pandoc tôi đã cố gắng cho mục đích này:Làm cách nào để chuyển đổi HTML thành Đánh dấu trong khi vẫn giữ lại các thẻ HTML không đánh dấu?

pandoc test.html -o test.md 

nơi test.html trông như thế này:

Hello 

<!-- more --> 

and some more text 

<h2>some heading</h2>  

Kết quả là đây:

Hello and some more text 

some heading 
------------ 

Vì vậy, nó không chỉ cải các thẻ có ý nghĩa trực tiếp trong đánh dấu. Nó cũng xóa các thẻ mà tôi muốn giữ lại dưới dạng HTML (ví dụ: các nhận xét HTML, các thẻ iframe, v.v.).

  • Làm cách nào để chuyển đổi HTML thành đánh dấu theo cách mà bất kỳ thẻ nào không có dấu tương đương được giữ lại dưới dạng HTML thô?
  • Nói chung, làm cách nào để tôi có thể kiểm soát cách chuyển đổi HTML thành markdown được thực hiện?

Cụ thể, tôi muốn được quan tâm đến các tùy chọn chương trình dòng lệnh. Ví dụ, có lẽ có các tùy chọn có thể được cung cấp cho pandoc.

+2

thú vị, tôi có vấn đề ngược lại chính xác. Nó giữ các div trong khi tôi không yêu cầu – Sebas

Trả lời

17

Sau khi tìm kiếm thêm một chút, tôi đọc về tùy chọn --parse-raw trong thread on table parsing.

Thêm tùy chọn --parse-raw dường như không loại bỏ các thẻ HTML tương đương không đánh dấu.

pandoc test.html -o test.md --parse-raw 
Các vấn đề liên quan