- Gắn vào Unicode và utf-8 ở mọi nơi.
- Tránh xa các mã hóa tiếng Nhật bản địa: euc-jp, shiftjis, iso-2022-jp, nhưng lưu ý rằng có thể bạn sẽ gặp phải chúng vào một lúc nào đó nếu bạn tiếp tục.
- Làm quen với một nhà phân đoạn để thực hiện các công cụ phức tạp như phân tích POS, phân đoạn từ, v.v ... các công cụ chuẩn được sử dụng bởi hầu hết những người làm NLP (xử lý ngôn ngữ tự nhiên) hoạt động trên tiếng Nhật.
MeCab (ban đầu trên SourceForge) là tuyệt vời: nó cho phép bạn chụp văn bản như thế nào,
「日本語は、とても難しいです。」
và nhận được tất cả các loại thông tin tuyệt vời về
kettle:~$ echo 日本語は、難しいです | mecab
日本語 名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
、 記号,読点,*,*,*,*,、,、,、
難しい 形容詞,自立,*,*,形容詞・イ段,基本形,難しい,ムズカシイ,ムズカシイ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
mà về cơ bản là một chi tiết chạy xuống các phần của bài phát biểu, bài đọc, phát âm, v.v. Nó cũng sẽ giúp bạn phân tích các động từ động từ,
kettle:~$ echo メキシコ料理が食べたい | mecab
メキシコ 名詞,固有名詞,地域,国,*,*,メキシコ,メキシコ,メキシコ
料理 名詞,サ変接続,*,*,*,*,料理,リョウリ,リョーリ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
EOS
Tuy nhiên, tài liệu là tất cả bằng tiếng Nhật và hơi phức tạp để thiết lập và tìm ra cách định dạng đầu ra theo cách bạn muốn. Có gói sẵn cho Ubuntu/Debian, và các ràng buộc trong một loạt các ngôn ngữ bao gồm perl, python, ruby ...
Apt-Repos cho ubuntu:
deb http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
deb-src http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
Gói cài đặt: $ apt-get install mecab-ipadic-utf8 mecab python-mecab
nên làm điều tôi nghĩ.
Các lựa chọn thay thế khác cho mecab là, ChaSen, được viết năm trước bởi tác giả của MeCab (người tình cờ làm việc tại google bây giờ) và Kakasi, ít mạnh mẽ hơn nhiều.
Tôi chắc chắn sẽ cố tránh để tránh các thói quen chia động từ của riêng bạn. vấn đề với điều này chỉ là nó sẽ đòi hỏi tấn và tấn công việc, mà những người khác đã làm, và bao gồm tất cả các trường hợp cạnh với các quy tắc là, vào cuối ngày, không thể.
MeCab được định hướng theo thống kê và được đào tạo về vô số dữ liệu. Nó sử dụng một kỹ thuật học máy tinh vi được gọi là trường ngẫu nhiên có điều kiện (CRFs) và kết quả thực sự khá tốt.
Vui chơi với người Nhật. Tôi không chắc chắn tiếng Nhật của bạn tốt như thế nào, nhưng nếu bạn cần trợ giúp với tài liệu cho mecab hoặc bất cứ điều gì cảm thấy tự do để hỏi về điều đó là tốt. Kanji có thể khá đáng sợ ngay từ đầu.
Bạn đang tìm kiếm tại một số hình thức bắt nguồn? Tha thứ sự thiếu hiểu biết của tôi, nhưng điều này có vẻ khó khăn hơn (đối với một ngôn ngữ bản đồ) so với những gì bạn sẽ làm cho một ngôn ngữ dựa trên bảng chữ cái thông thường. – dirkgently
Không bắt nguồn từ ví dụ, từ gốc về cơ bản là け す nhưng tôi thay đổi す thành し và thêm て. Ví dụ khác là の む thay đổi む thành ん で để nhận の ん で. Một ví dụ dễ dàng hơn có thể là.た べ る mà bạn sẽ thả る và thêm て để nhận た べ て. Hy vọng điều này có ý nghĩa hơn. – percent20
Các ví dụ của bạn (kỳ lạ!) Cho tôi một khái niệm (mà tôi chắc chắn là sai) mà tất cả những gì bạn muốn là một số chuỗi replacemnet. Ngay cả (Unicode) regex sẽ làm việc. – dirkgently