Tôi hầu như không biết gì về nén, vì vậy hãy chịu đựng tôi (đây có lẽ là một câu hỏi ngu ngốc và cực kỳ rõ ràng).Thuật toán nén tốt nhất cho XML?
Vì vậy, cho phép nói rằng tôi có một tệp XML với một vài thẻ.
<verylongtagnumberone>
<verylongtagnumbertwo>
text
</verylongtagnumbertwo>
</verylongtagnumberone>
Bây giờ, giả sử tôi có một loạt các thẻ rất dài này với nhiều thuộc tính trong nhiều tệp XML của tôi. Tôi cần phải nén chúng vào kích thước nhỏ nhất có thể. Cách tốt nhất là sử dụng thuật toán XML cụ thể, chỉ định các thẻ riêng lẻ như vlt1 hoặc vlt2. Tuy nhiên, điều này sẽ không được 'mở' một cách như tôi đang cố gắng để đi, và tôi muốn sử dụng một thuật toán phổ biến như DEFLATE hoặc LZ. Nó cũng giúp đỡ nếu lưu trữ là một tệp .zip.
Vì tôi đang xử lý văn bản thuần túy (không có tệp nhị phân như hình ảnh), tôi muốn một thuật toán phù hợp với văn bản thuần túy. Mà một trong những sản xuất kích thước tập tin nhỏ nhất (thuật toán lossless được ưa thích)?
Nhân tiện, kịch bản là: Tôi đang tạo một tiêu chuẩn cho các tài liệu, như ODF hoặc MS Office XML, có chứa các tệp XML, được đóng gói trong tệp .zip.
EDIT: Điều 'mã hóa' là lỗi chính tả; nó nên ave ben 'nén'.
Điều này liên quan đến mã hóa như thế nào? Và câu trả lời đơn giản là để cho ZIP thực hiện nén: nó có sẵn rộng rãi, thực hiện một công việc phong nha về văn bản và không đáng để tìm "kích thước nhỏ nhất có thể". – kdgregory
Tại sao không chỉ sử dụng OpenXML? Đó là cơ bản những gì bạn muốn :). Không chắc đó có phải là nén tốt nhất hay không, nhưng tôi thích nó cho đến nay. Và nếu bạn chưa biết, OpenXML cơ bản là một tệp nén, vì vậy bạn có thể đổi tên các tài liệu Office 2007 của bạn dưới dạng tệp .zip (ví dụ: something.docx thành something.zip) và mở nó dưới dạng tệp nén. Bên trong về cơ bản là bó XML. –
Bạn có thể chỉ cần sử dụng một loạt các tệp XML trong một tệp zip và bất kỳ phần mở rộng tệp nào bạn muốn.Tại sao các verylongtagnumbers ??? –