Trong một ứng dụng web gần đây tôi đã tạo, tôi đã rất ngạc nhiên khi một trong những người dùng của chúng tôi quyết định sử dụng nó để tạo thứ gì đó hoàn toàn bằng tiếng Nhật. Tuy nhiên, văn bản được gói lạ và lúng túng. Rõ ràng các trình duyệt không đối phó với việc gói văn bản tiếng Nhật rất tốt, có thể bởi vì nó chứa ít khoảng trắng, vì mỗi ký tự tạo thành một từ hoàn chỉnh. Tuy nhiên, đó không thực sự là một giả định an toàn để thực hiện khi một số từ được xây dựng bằng một số ký tự, và không an toàn để phá vỡ một số nhóm ký tự thành các dòng khác nhau.Thuật toán bọc từ cho tiếng Nhật
Googling xung quanh đã không thực sự giúp tôi hiểu vấn đề tốt hơn. Dường như với tôi, người ta sẽ cần một cuốn từ điển các mẫu không thể phá vỡ, và cho rằng mọi nơi khác đều an toàn để phá vỡ. Nhưng tôi sợ rằng tôi không biết đủ về tiếng Nhật để thực sự biết tất cả các từ, mà tôi hiểu từ một số tìm kiếm của tôi, khá phức tạp.
Bạn tiếp cận vấn đề này như thế nào? Có bất kỳ thư viện hoặc thuật toán nào mà bạn nhận thức được đã tồn tại mà thỏa thuận với điều này một cách thỏa đáng không?
chính xác sao chép http://stackoverflow.com/questions/1605353/how-does-one-word-break-languages-without-spaces-between-words-like-asian-langua – Breton
Tôi nghĩ bạn không thể từ bọc tiếng Nhật mà không hiểu những từ đó, vì vậy những gì bạn cần ở mức tối thiểu là từ điển tiếng Nhật. Tôi không thể nói cho bạn biết nó sẽ khó khăn như thế nào hoặc nếu có bất kỳ sự mơ hồ nào (có nghĩa là từ chính xác phụ thuộc vào ngữ cảnh, điều này sẽ làm phức tạp nó rất nhiều). – cletus
không thực sự trùng lặp - câu hỏi đó là về việc phá vỡ văn bản thành các từ với mục đích lập chỉ mục. Đó là một vấn đề khó khăn. May mắn thay, nó có thể được bỏ qua phần lớn khi gói cho bố trí. –