2008-09-24 25 views
14

Gần đây tôi đã tìm hiểu về cấu trúc cơ bản của tệp .docx (đây là một tệp lưu trữ zip có cấu trúc đặc biệt). Tuy nhiên, docx không được định dạng như một tài liệu.Định dạng .doc hoạt động như thế nào?

Tệp doc hoạt động như thế nào? Định dạng tệp, cấu trúc, v.v. là gì?

+0

Đó là nhị phân và thông số kỹ thuật có sẵn theo các điều khoản của [Hứa hẹn kỹ thuật mở của Microsoft] (http://en.wikipedia.org/wiki/Microsoft_Open_Specification_Promise) –

Trả lời

11

Định dạng đầy đủ cho các file .doc nhị phân được ghi chép lại trong this pdf từ định dạng (the Wikipedia article on .doc)

+0

Tại sao tôi có thể mở tệp .doc thông qua WinRar nếu nó chỉ là một định dạng tập tin nhị phân? – teenup

1

Các .doc là khá phức tạp. Giống như hầu hết các định dạng của Microsoft, nó phản ánh một lịch sử lâu dài về những thay đổi giữa các phiên bản và hỗ trợ kế thừa. Họ đã xuất bản nó cách đây không lâu, vì vậy nếu bạn muốn xem nó (và các định dạng trước Office 2007 khác), knock yourself out here.

0

Có Microsoft Word's .doc và sau đó có văn bản thuần túy .doc. Có vẻ như bạn đang tự hỏi về định dạng độc quyền của Microsoft.

Từ Wikipedia:

Định dạng DOC thay đổi giữa các định dạng Microsoft Lời Office. Các phiên bản từ lên tới 97 sử dụng một định dạng khác từ phiên bản Microsoft Word giữa 97 và 2003.

Cho đến khi Word 2007 nơi .docx, mặc dù tệp được đóng gói, không nhất thiết là tệp nén .zip. Nó là một tài liệu XML có cấu trúc.

14

Đây không phải là câu trả lời trực tiếp cho câu hỏi của bạn, nhưng tôi khuyên bạn nên đọc bài viết của Joel Spolsky, Why are the Microsoft Office file formats so complicated? (And some workarounds). Nó sẽ cung cấp cho bạn một số thông tin chi tiết về định dạng .doc phức tạp thực sự như thế nào - và tại sao. Joel cũng đưa ra một cái nhìn tổng quan rất cơ bản của những gì các định dạng .doc gồm:

Bạn thấy đấy, Excel 97-2003 file là các tài liệu hợp chất OLE, được, về cơ bản, nộp hệ thống bên trong một tập tin duy nhất. Đây là những phức tạp đầy đủ mà bạn phải đọc thông số 9 trang khác để tìm ra điều đó. Và những "thông số kỹ thuật" này trông giống như dữ liệu C cấu trúc hơn so với những gì chúng ta thường nghĩ là một đặc điểm kỹ thuật. Đó là toàn bộ hệ thống phân cấp hệ thống.

(Trích dẫn đề cập đến tệp Excel nhưng cũng áp dụng cho tài liệu Word). Bài viết cung cấp thông tin và hữu ích trong việc hiểu tại sao các tệp .docx và ODF được cấu trúc và được thiết kế hợp lý hơn nhiều khi được kiểm tra từ một quan điểm bên ngoài.

5

Ý tưởng cơ bản đằng sau định dạng MS Word DOC là một tài liệu OLE Compund, như Kibbee đã viết, về cơ bản là một kết xuất bộ nhớ. Đó là một cách rất phức tạp và phức tạp để lưu trữ tài liệu, nhưng nếu bạn đã thực sự đào sâu vào ứng dụng, bạn sẽ biết rất nhiều tính năng của nó, và nếu bạn đã sử dụng nó trong một môi trường kinh doanh, bạn sẽ có cảm giác về cách nó tích hợp với các chương trình khác trong chuỗi văn phòng.

Nói chung, Tài liệu OLE Compund là cấu trúc rất mở rộng cho phép bạn ghi tất cả các loại dữ liệu vào một tệp và thậm chí cả một số dữ liệu xử lý mà bạn chưa cài đặt ứng dụng. Ví dụ, nếu bạn chèn một đối tượng Equation (từ MS Equation Editor) vào một tài liệu nó được lưu trữ như một đối tượng con giống như một tệp bên trong tệp, nhưng đối tượng này không chỉ chứa dữ liệu cần thiết cho Equation Editor để chỉnh sửa và render nó, nó cũng có một bitmap chung (hoặc metafile, có thể) đại diện được lưu trữ để nó có thể được hiển thị, mặc dù không được chỉnh sửa, trên một máy tính mà không có Equation Editor được cài đặt.

Đây là lý do tại sao , cho cách bạn sẽ phải đọc các thông số kỹ thuật của người khác đã liên kết để đã;)

Nếu bạn muốn một cách dễ dàng ra để làm việc với các tập tin mặc dù, đảm bảo phần mềm của bạn chạy trên máy Windows có cài đặt Word, sau đó sử dụng COM/OLE Automation để mở và thao tác các tài liệu. Bạn sẽ không phải lo lắng về định dạng tệp sau đó.

Các vấn đề liên quan