2010-01-19 39 views
6

Trong một ứng dụng web gần đây tôi đã tạo, tôi đã rất ngạc nhiên khi một trong những người dùng của chúng tôi quyết định sử dụng nó để tạo thứ gì đó hoàn toàn bằng tiếng Nhật. Tuy nhiên, văn bản được gói lạ và lúng túng. Rõ ràng các trình duyệt không đối phó với việc gói văn bản tiếng Nhật rất tốt, có thể bởi vì nó chứa ít khoảng trắng, vì mỗi ký tự tạo thành một từ hoàn chỉnh. Tuy nhiên, đó không thực sự là một giả định an toàn để thực hiện khi một số từ được xây dựng bằng một số ký tự, và không an toàn để phá vỡ một số nhóm ký tự thành các dòng khác nhau.Thuật toán bọc từ cho tiếng Nhật

Googling xung quanh đã không thực sự giúp tôi hiểu vấn đề tốt hơn. Dường như với tôi, người ta sẽ cần một cuốn từ điển các mẫu không thể phá vỡ, và cho rằng mọi nơi khác đều an toàn để phá vỡ. Nhưng tôi sợ rằng tôi không biết đủ về tiếng Nhật để thực sự biết tất cả các từ, mà tôi hiểu từ một số tìm kiếm của tôi, khá phức tạp.

Bạn tiếp cận vấn đề này như thế nào? Có bất kỳ thư viện hoặc thuật toán nào mà bạn nhận thức được đã tồn tại mà thỏa thuận với điều này một cách thỏa đáng không?

+1

chính xác sao chép http://stackoverflow.com/questions/1605353/how-does-one-word-break-languages-without-spaces-between-words-like-asian-langua – Breton

+1

Tôi nghĩ bạn không thể từ bọc tiếng Nhật mà không hiểu những từ đó, vì vậy những gì bạn cần ở mức tối thiểu là từ điển tiếng Nhật. Tôi không thể nói cho bạn biết nó sẽ khó khăn như thế nào hoặc nếu có bất kỳ sự mơ hồ nào (có nghĩa là từ chính xác phụ thuộc vào ngữ cảnh, điều này sẽ làm phức tạp nó rất nhiều). – cletus

+2

không thực sự trùng lặp - câu hỏi đó là về việc phá vỡ văn bản thành các từ với mục đích lập chỉ mục. Đó là một vấn đề khó khăn. May mắn thay, nó có thể được bỏ qua phần lớn khi gói cho bố trí. –

Trả lời

12

Quy tắc quấn từ tiếng Nhật được gọi là kinsoku shori và thật đáng ngạc nhiên. Chúng thực sự chủ yếu quan tâm đến các ký tự dấu câu và không cố gắng giữ cho các từ không bị gián đoạn.

Tôi vừa mới kiểm tra bằng một cuốn tiểu thuyết Nhật Bản và cả hai từ trong kịch bản kana âm tiết và những từ có nhiều chữ tượng hình Trung Quốc được bọc giữa từ và không bị trừng phạt.

+0

Tôi vừa thử trên Yahoo Nhật Bản. Có vẻ như Firefox thực hiện kinsoku shori. Tôi không thể có được một dòng để bắt đầu với một khung đóng (đó là tất cả tôi đã kiểm tra). Với Safari, tôi có thể. – Thilo

+0

Theo mẫu bình luận @Michael, tôi thấy rằng các quy tắc gói là khác nhau đối với trường hợp tiếng Nhật. Khi tôi đang đối mặt với một vấn đề về gói nội dung tiếng Nhật trong khi hiển thị html thành PDF, có cách nào để bọc tiếng Nhật bằng cách sử dụng CSS hay bất kỳ cách nào khác không? – lambypie

+0

Chỉ cần làm rõ, @Michael không nói rằng ngắt dòng là miễn phí cho tất cả. Có các quy tắc cụ thể về cách thực hiện ngắt dòng và các trường hợp không cho phép ngắt dòng. Bài viết trên Wikipedia mà anh ta liên kết đến rất hữu ích. – mercurytw

Các vấn đề liên quan