Đồng bộ hóa văn bản và âm thanh. Có một thư viện NLP/speech-to-text để làm điều này?

Tôi muốn đồng bộ hóa bản ghi âm với một văn bản đã biết. Có thư viện xử lý ngôn ngữ tự nhiên/lời nói để tạo điều kiện thuận lợi cho việc này không? Tôi tưởng tượng tôi muốn phát hiện các ranh giới từ và tính toán các kết quả ứng cử viên từ một từ điển. Hầu hết các câu hỏi tôi đã tìm thấy trên SO quan tâm bằng văn bản.Đồng bộ hóa văn bản và âm thanh. Có một thư viện NLP/speech-to-text để làm điều này?

mong muốn, nhưng không bắt buộc:

Open Source
Tương thích với tiếng Anh Mỹ out-of-the-box
Cross-nền tảng
Triệt để ghi

Sửa : Tôi nhận ra đây là một câu hỏi rất rộng, thậm chí ngây thơ, vì vậy cảm ơn trước vì sự hướng dẫn của bạn.

Những gì tôi đã tìm thấy cho đến nay:

OpenEars (iOS Sphinx/Flite wrapper)

Nguồn

2010-11-01 Justin

Tôi đang tìm cách để làm điều tương tự, Nhân sư có vẻ quá lớn và thất thường được ghi lại. Tự hỏi những gì bạn đã kết thúc với và nếu bạn nhận thức được bất cứ điều gì nhiều hơn đến nay - Tôi thấy câu hỏi này đi trở lại 2 năm vì vậy mọi thứ phải có thay đổi kể từ đó? –

Tôi đã chuyển từ dự án trước khi học đủ để đóng góp nhiều hơn nữa cho cuộc thảo luận. – Justin

Đối với hồ sơ: Tôi duy trì trình điều chỉnh buộc phải Python/C aeneas: https://github.com/readbeyond/aeneas/ –

Buộc Alignment

Có vẻ như bạn muốn làm forced alignment giữa âm thanh của bạn và văn bản đã biết.

Khá nhiều hệ thống nhận dạng giọng nói của ngành nghiên cứu sẽ có thể thực hiện điều này, vì căn chỉnh là một phần quan trọng trong việc đào tạo hệ thống nhận dạng dữ liệu không có sự sắp xếp mức phone giữa âm thanh và bảng điểm.

Alignment CMUSphinx

Các Sphinx4-1.0 beta 5 release của hệ thống nhận dạng nguồn bài phát biểu mở CMU hiện nay bao gồm một bản demo về cách làm việc liên kết giữa một bảng điểm và ghi âm bài phát biểu dài.

Nguồn

2010-11-02 03:20:30 dmcer

Tuyệt vời. Tôi không nhận ra nó ở ngay dưới mũi tôi. – Justin

Nhân sư này là một thư viện khá hữu ích, nhưng hướng dẫn về cách sử dụng trên iPhone có vẻ khá cũ (iOS 3?) Và các nhận xét cho thấy không dễ thực hiện trên iOS4. Tôi tự hỏi nếu có thêm thông tin cập nhật về điều này có sẵn? –

Đồng bộ hóa văn bản và âm thanh. Có một thư viện NLP/speech-to-text để làm điều này?

Trả lời

Các vấn đề liên quan