2012-10-29 41 views
10

Khi dán văn bản từ các nguồn bên ngoài vào một trình soạn thảo văn bản thuần túy (ví dụ: TextMate hoặc Văn bản siêu việt 2), một vấn đề thường gặp là các ký tự đặc biệt thường được dán vào. Một số ký tự này hiển thị tốt, nhưng tùy thuộc vào nguồn, một số có thể không hiển thị chính xác (thường hiển thị dưới dạng dấu hỏi với một hộp xung quanh nó).Làm cách nào để tìm mã ký tự của một ký tự đặc biệt trong trình soạn thảo văn bản?

Vì vậy, đây thực sự là 2 câu hỏi:

  1. Cho một kí tự đặc biệt (ví dụ, 'hoặc ♥) Tôi có thể xác định UTF-8 mã ký tự dùng để hiển thị rằng nhân vật từ bên trong soạn thảo văn bản của tôi, và/hoặc chuyển đổi các ký tự đó thành mã ký tự của chúng?

  2. Đối với những ký tự "đặc biệt" có trong thùng rác, có cách nào để tìm ra cách mã hóa được sử dụng để hiển thị ký tự đó trong văn bản nguồn và các ký tự đó có thể được chuyển đổi thành UTF-8 ?

+0

Bạn có thể sử dụng [công cụ trực tuyến] này (https://www.soscisurvey.de/tools/view-chars.php) để dán các chuỗi có ký tự không xác định và xem số unicode của chúng. – BurninLeo

+0

Là một trợ giúp cơ bản, tôi đã tạo ra một bảng của tất cả các mã ký tự trong phạm vi 0x80-0xFF trong mã hóa 8 bit kế thừa được biết đến với Python, mà tôi thường xuyên tham khảo: https://cdn.rawgit.com/tripleee /8bit/master/encodings.html – tripleee

Trả lời

15

Trang web yêu thích của tôi để tra cứu ký tự là fileformat.info. Họ có một tìm kiếm ký tự Unicode tuyệt vời bao gồm rất nhiều thông tin hữu ích về mỗi nhân vật và các mã hóa khác nhau của nó.

Nếu bạn thấy dấu chấm hỏi bằng một hộp, điều đó có nghĩa là bạn đã dán nội dung nào đó không thể diễn giải được, thường vì nó không phải là UTF-8 hợp pháp (không phải mỗi chuỗi byte là hợp pháp UTF-8). Một khả năng là UTF-16 có chế độ cuối cùng mà trình chỉnh sửa của bạn không mong đợi. Nếu bạn có thể lấy nguồn gốc đầy đủ vào một tệp, lệnh file thường là công cụ tốt nhất để xác định mã hóa.

+0

Liên kết này hữu ích và từ đó tôi đã kết thúc tại http://www.i18nqa.com/debug/utf8-debug.html hiển thị bảng chứa một số nghi phạm thông thường. – Michael

+0

@RobNapier nó không hoạt động cho các ký tự khoảng trắng. – user2284570

7

Tại &what Tôi đã tạo công cụ để tập trung vào tìm kiếm ký tự. Nó chỉ mục tất cả các bảng thực thể Unicode và HTML, nhưng cũng bổ sung từ điển hacker và cơ sở dữ liệu từ khóa tôi đã thu thập, vì vậy bạn có thể tìm kiếm các từ như heart, quot, weather, umlaut, hash, cloverleaf và nhận được những gì bạn muốn. Bằng cách tập trung vào tìm kiếm, nó tránh phải tìm kiếm xung quanh các trang Unicode, điều này có thể gây phiền toái. Hãy thử một lần.

Các vấn đề liên quan