Một vấn đề với tìm kiếm bên trong một tập tin từ tài liệu XML là văn bản có thể được chia thành các yếu tố tại bất kỳ ký tự. Nó chắc chắn sẽ bị phân tách nếu định dạng khác, ví dụ như trong Hello World. Nhưng nó có thể được tách tại bất kỳ điểm nào và điều đó hợp lệ trong OOXML. Vì vậy, bạn sẽ kết thúc giao dịch với XML như thế này ngay cả khi định dạng không thay đổi ở giữa cụm từ!
<w:p w:rsidR="00C07F31" w:rsidRDefault="003F6D7A">
<w:r w:rsidRPr="003F6D7A">
<w:rPr>
<w:b />
</w:rPr>
<w:t>Hello</w:t>
</w:r>
<w:r>
<w:t xml:space="preserve">World.</w:t>
</w:r>
</w:p>
Bạn có thể tất nhiên nạp nó vào một cây DOM XML (không chắc chắn điều này sẽ là bằng Python) và yêu cầu để có được văn bản chỉ như là một chuỗi, nhưng bạn có thể kết thúc với nhiều người khác "ngõ cụt" chỉ vì thông số OOXML dài khoảng 6000 trang và MS Word có thể viết rất nhiều "thứ" mà bạn không mong đợi. Vì vậy, bạn có thể kết thúc bằng văn bản thư viện xử lý tài liệu của riêng bạn.
Hoặc bạn có thể thử sử dụng Aspose.Words.
Nó có sẵn dưới dạng sản phẩm .NET và Java. Cả hai có thể được sử dụng từ Python. Một thông qua COM Interop khác thông qua JPype. Xem Aspose.Words Programmers Guide, Sử dụng Aspose.Words trong các ngôn ngữ lập trình khác (xin lỗi tôi không thể đăng một liên kết thứ hai, stackoverflow không cho tôi được nêu ra).
Ya tôi nhận được tất cả các xml file.Now i muốn hỏi bạn rằng Làm thế nào chúng ta có thể nhận được tất cả các giá trị như (đậm, nghiêng, màu, fonname, không gian) và tất cả các thiết lập định dạng, Làm thế nào chúng ta có thể nhận được các giá trị này từ xml. – user1006544