Tôi có một tệp chứa nhiều nguyên âm có dấu phụ. Tôi cần thực hiện các thay thế này:Làm thế nào để loại bỏ tất cả các dấu phụ từ một tập tin?
- Thay thế å, á, ǎ và à bằng a.
- Thay thế ē, é, ě và è bằng e.
- Thay thế ī, í, ǐ và ì bằng i.
- Thay thế ō, ó, ǒ và ò bằng o.
- Thay thế ū, ú, ǔ và ù bằng u.
- Thay thế ǖ, ǘ, ǚ và ǜ bằng ü.
- Thay thế là, một, Ǎ và với A.
- Thay E, E, E, và E với E.
- Thay i, i, Ǐ, và tôi với I.
- Thay O , Ó, Ǒ, và Ò với O.
- Thay thế Ū, Ú, Ǔ và Ù bằng U.
- Thay thế Ǖ, Ǘ, Ǚ và Ǜ bằng Ü.
Tôi biết tôi có thể thay thế chúng cùng một lúc với điều này:
sed -i 's/ā/a/g' ./file.txt
Có cách nào hiệu quả hơn để thay thế tất cả các?
sed có thể không phải là công cụ tốt nhất cho công việc này; iconv có lẽ tốt hơn. xem: http://stackoverflow.com/questions/8562354/remove-unicode-characters-from-textfiles-sed-other-bash-shell-methods – geoffspear