Tôi đang sử dụng Python 3.1, nhưng tôi có thể hạ cấp nếu cần.Python - số đếm tần số và bản dịch
Tôi có một tệp ASCII chứa một câu chuyện ngắn được viết bằng một trong các ngôn ngữ mà bảng chữ cái trong đó có thể được đại diện bằng ASCII trên và dưới. Tôi muốn:
1) Phát hiện một mã hóa để tốt nhất khả năng của tôi, có một số loại tự tin metric (sẽ khác nhau tùy thuộc vào độ dài của tập tin, phải)
2) Tự động dịch toàn bộ? sử dụng một số dịch vụ trực tuyến miễn phí hoặc một thư viện.
Câu hỏi bổ sung: Điều gì xảy ra nếu văn bản được viết bằng ngôn ngữ cần từ 2 byte trở lên để đại diện cho một chữ cái và dấu thứ tự byte không có sẵn để trợ giúp tôi?
Cuối cùng, làm cách nào để xử lý các dấu câu và các ký tự khác như không gian? Nó sẽ xảy ra thường xuyên hơn một số chữ cái, phải không? Làm thế nào về thực tế là dấu chấm câu và các ký tự đôi khi có thể được trộn lẫn - có thể có hai biểu diễn dấu phẩy, hai biểu diễn cho những gì trông giống như "a", v.v ...?
Có, tôi đã đọc . Xin hãy giúp tôi với ít nhất một số mặt hàng này.
Cảm ơn bạn!
P.S. Đây không phải là một bài tập về nhà, nhưng nó là dành cho mục đích tự học. Tôi thích sử dụng một thư viện tần số thư là mã nguồn mở và có thể đọc được như trái ngược với một thư đã đóng, hiệu quả, nhưng hoàn thành công việc tốt.
Cảm ơn. Xin vui lòng giải thích về đoạn thứ hai. Tôi đoán kiến thức của tôi về mã hóa không sâu như tôi nghĩ. –
Có ai nói UTF-8 ?! – jathanism