2010-11-01 19 views
5

Tôi muốn lưu văn bản tôi cạo từ nhiều nguồn khác nhau mà không có thẻ HTML trên đó, nhưng cũng giữ được nhiều cấu trúc như tôi có thể hợp lý.Có một API phong nha, tùy chỉnh, HTML để Markdown Java không?

Đánh dấu có vẻ là giải pháp cho điều này (hoặc có thể là MultiMarkdown).

a question trong đó cung cấp một gợi ý về chuyển đổi từ HTML sang Markdown, nhưng tôi muốn chỉ định một số điều cụ thể:

  • ALL liên kết (bao gồm cả hình ảnh) được tham chiếu tại END chỉ (tức là không có url inline)
  • NO HTML embeded (tôi không phải là thậm chí chắc chắn 100% nhưng làm thế nào tôi muốn để đối phó với HTML khó khăn ... nhưng nó sẽ không được embeded!)

vì vậy, câu hỏi của tôi là như đã nêu trong tiêu đề: Có một phong nha, tùy chỉnh, HTML để Markdown J API ava?

Trả lời

2

Bạn có thể thử điều chỉnh HtmlCleaner mà cung cấp một giao diện hoàn toàn khả thi vào DOM:

TagNode root = htmlCleaner.clean(stream); 
Object[] found = root.evaluateXPath("//div[id='something']"); 
if(found.length > 0 && found instanceof TagNode) { 
    ((TagNode)found[0]).removeFromTree(); 
} 

này sẽ cho phép bạn cấu trúc dòng đầu ra của bạn trong bất kỳ định dạng mà bạn muốn sử dụng một API khá đơn giản.

Các vấn đề liên quan