2009-04-17 39 views

Trả lời

36

Module này sẽ giúp làm những gì bạn mô tả:

http://www.freewisdom.org/projects/python-markdown/Using_as_a_Module

Một khi bạn đã chuyển đổi các markdown sang HTML, bạn có thể sử dụng một phân tích cú pháp HTML để loại bỏ các văn bản đơn giản.

Mã của bạn có thể trông như thế này:

from BeautifulSoup import BeautifulSoup 
from markdown import markdown 

html = markdown(some_html_string) 
text = ''.join(BeautifulSoup(html).findAll(text=True)) 
+1

có vẻ như chuyển đổi sang html .. Tôi cần chuyển đổi thành văn bản thuần túy .. như stackoverflow, trong tóm tắt câu hỏi trên trang chủ, nó xóa định dạng – Krish

+0

Tôi đã cập nhật câu trả lời của mình để lấy văn bản thuần túy –

+0

Cảm ơn coonj .. Điều cần biết về BeatifulSoup – Krish

2

nhận xét và loại bỏ nó vì cuối cùng tôi nghĩ rằng tôi thấy chà ở đây: Nó có thể được dễ dàng hơn để chuyển đổi văn bản markdown của bạn sang HTML và loại bỏ HTML từ các văn bản . Tôi không biết bất cứ điều gì để loại bỏ markdown từ văn bản một cách hiệu quả nhưng có rất nhiều HTML để giải quyết văn bản đơn giản.

Các vấn đề liên quan