2013-05-06 35 views
10

Tôi có thể tìm tài liệu về định dạng mô hình ngôn ngữ ARPA ở đâu?Tài liệu mô hình ngôn ngữ ARPA

Tôi đang phát triển ứng dụng nhận dạng giọng nói đơn giản với động cơ STT bỏ túi. ARPA được khuyến nghị ở đó vì lý do hiệu suất. Tôi muốn hiểu tôi có thể làm gì để điều chỉnh mô hình ngôn ngữ cho các nhu cầu tùy chỉnh của mình.

Tất cả tôi thấy là một số rất ngắn gọn ARPA định dạng giới thiệu:

tôi mới bắt đầu để STT và tôi gặp khó khăn để quấn quanh đầu xung quanh này (n-gram, v.v ...). Tôi đang tìm tài liệu chi tiết hơn. Một cái gì đó như tài liệu về ngữ pháp JSGF đây:

http://www.w3.org/TR/jsgf/

+0

hãy xem liên kết msdn này .. định dạng arpa và args được giải thích rõ ràng [Định dạng tệp đầu vào và đầu ra biên dịch ngữ pháp] (https://msdn.microsoft.com/en-us/library/office/hh378460 (v = office.14) .aspx) –

Trả lời

3

Có thực sự là không nhiều hơn nữa để nói về định dạng hơn được nói trong những tài liệu ..

Bên cạnh đó, có thể bạn sẽ muốn chuẩn bị một tệp văn bản có câu mẫu và generate the language file based on it. Có một phiên bản trực tuyến có thể làm điều đó cho bạn: lmtool

+1

Tuy nhiên, trong sử dụng một số loại n-gram, backoff, vv ... những gì là những người và nơi mà tôi có thể tìm thêm thông tin về những người? – Lukasz

+1

@Lukasz n-gram là gì? [Một chuỗi các từ N] (http://en.wikipedia.org/wiki/N-gram). Backoff là tùy chọn. Và xác suất ở quy mô log 10 theo như tôi nhớ. – Dariusz

4

Tôi thấy liên kết này hữu ích: http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html

Nó mô tả các-gram n aka ARPA aka Doug Paul dạng.

+0

Có thể bạn có thể tải lên một ví dụ nhỏ (ví dụ: với hai câu và kích thước từ vựng khoảng 5?) –

+0

Hiện tại, câu trả lời của bạn chỉ giống như + "định dạng Doug Paul". Liên kết đã có trong câu hỏi. –

Các vấn đề liên quan