2013-03-09 32 views
11

Tôi có một lượng lớn dữ liệu từ tài khoản email nhìn thấy có trong tệp .msg. Một cuộc gọi nhanh đến phương thức tập tin của ubuntu đã tiết lộ rằng chúng là Tài liệu Tập tin Tài liệu Composite (bất kể điều đó có nghĩa là gì). Tôi thực sự muốn có thể đọc những tập tin này dưới dạng văn bản thuần túy. Liệu có thể không?Đọc Tệp Tài liệu Composite (.msg) tệp trong ubuntu

Cập nhật: Hóa ra không hoàn toàn có thể làm những gì tôi muốn cho khai thác dữ liệu quy mô lớn trên các loại tệp này là một con số thấp. Trong trường hợp bạn phải đối mặt với cùng một vấn đề tôi đã thực hiện một thư viện để giải quyết vấn đề này. https://github.com/Slater-Victoroff/msgReader

Tài liệu không tuyệt vời, nhưng đó là một thư viện khá nhỏ nên nó phải tự giải thích.

+0

btw không phải là "tệp" của ubuntu "", đó là lệnh POSIX (hoặc ít nhất là UNIX). – JSmyth

+1

Về cơ bản, cùng một câu hỏi được trả lời trong cộng đồng người dùng Super [thích hợp hơn] - http://superuser.com/questions/99250/opening-a-msg-file-in-ubuntu – Juan

Trả lời

12

Tôi gặp phải vấn đề tương tự sáng nay. Tôi không tìm thấy bất kỳ thông tin về các định dạng tập tin nhưng nó đã có thể trích xuất các thông tin cần thiết từ các tập tin sử dụng dây và grep:

strings -e l *.msg | grep pattern 

Các l -e (đó là một L nhỏ) chuyển đổi từ UTF-16.

Điều này sẽ chỉ hoạt động nếu bạn có thể grep dữ liệu bạn cần từ tệp (nghĩa là tất cả các dòng bắt buộc chứa chuỗi hoặc mẫu chuẩn).

+0

Ah, quên cập nhật. Tôi đã đi trước và xây dựng một thư viện phân tích một phiên bản văn bản của email từ tệp .msg thô. Sẽ liên kết với nó cho tất cả các linh hồn nghèo phải đối mặt với vấn đề này. https://github.com/Slater-Victoroff/msgReader –

+0

Tìm thấy tài liệu về định dạng tệp tại đây: http://www.openoffice.org/sc/compdocfileformat.pdf; Tôi đã không đọc qua nó hoặc cố gắng sử dụng nó, nhưng nó có thể hữu ích. – retracile

+0

@retracile Tìm thấy tuyệt vời! Tôi sẽ hoàn toàn nhìn vào điều này. –