Tôi muốn sử dụng python2.7 để xóa bất kỳ thứ gì không phải là văn bản của tài liệu từ các bản ghi EDGAR (có sẵn trực tuyến dưới dạng các tệp .txt). Một ví dụ về những gì các tập tin giống như là ở đây:Phân tích các bản ghi EDGAR
EDGAR cung cấp Loại tài liệu của nó định nghĩa bắt đầu từ trang 48 của tập tin này:
Phần đầu của chương trình của tôi được tệp .txt từ cơ sở dữ liệu trực tuyến EDGAR vào tệp cục bộ mà tôi đã đặt tên là "parseme.txt". Những gì tôi muốn biết là làm thế nào để sử dụng DTD để phân tích cú pháp tập tin .txt. Tôi sẽ sử dụng một mô-đun phân tích đóng hộp như BeautifulSoup cho công việc, nhưng định dạng của EDGAR xuất hiện độc đáo, và tôi hy vọng sẽ tránh được một regex lớn để hoàn thành công việc.
import os
filename = 'parseme.txt'
with open(filename) as f:
lines = f.readlines()
Câu hỏi của tôi liên quan đến câu hỏi tại Parse SGML with Open Arbitrary Tags in Python 3 and Use lxml to parse text file with bad header in Python nhưng tôi tin riêng biệt như câu hỏi của tôi liên quan đến python2.7 và tôi không quan tâm đến tiêu đề - Tôi chỉ quan tâm đến nội dung của tập tin.
Tôi không nghĩ phiên bản Python quan trọng ở đây. Bạn có thử bất kỳ ý tưởng nào được cung cấp trong câu trả lời cho các câu hỏi được liên kết không? Bạn bị mắc kẹt ở đâu? – mzjn