Giọng là gì?
Dấu nhấn không phải là bộ lọc âm thanh; đó là một mô hình thực hiện âm thanh của văn bản trong một ngôn ngữ. Bạn không thể ghi âm tiếng Anh Mỹ, chạy nó thông qua "mảng biên độ và bộ lọc", và có tiếng Anh Anh bật ra. DSP hữu ích cho việc triển khai thực hiện prosody, chứ không phải giọng.
Về cơ bản (và đơn giản nhất để mô hình), một dấu bao gồm các quy tắc cho việc thực hiện ngữ âm của một chuỗi âm vị. Nhận thức về dấu trọng âm bị ảnh hưởng hơn nữa by prosody và theo đó âm vị của người nói sẽ chọn khi đọc văn bản.
hệ Speech
Quá trình tạo bài phát biểu có hai bước cơ bản:
Text-to-âm vị: Chuyển đổi văn bản bằng văn bản cho một chuỗi các âm vị (cộng suprasegmentals như căng thẳng, và các thông tin điệu tính giống như ranh giới lời nói). Điều này phần nào phụ thuộc vào giọng điệu (ví dụ: đầu ra cho "phòng thí nghiệm" khác nhau giữa người nói tiếng Anh và Mỹ).
Âm vị-to-speech: được đưa ra thứ tự của âm vị, tạo âm thanh theo quy tắc của phương ngữ cho việc thực hiện ngữ âm của âm vị. (Thông thường bạn sau đó kết hợp diphones và sau đó điều chỉnh âm thanh của prosody). Điều này phụ thuộc nhiều vào giọng nói, và đó là bước này truyền đạt chất lượng chính của giọng. Một âm vị cụ thể, ngay cả khi được chia sẻ giữa hai dấu trọng âm, có thể có các cách thực hiện âm thanh nổi bật khác nhau.
Thông thường những thứ này được ghép nối. Trong khi bạn có thể có trình phát âm giọng nói có dấu Anh sử dụng các cách phát âm của người Mỹ, điều đó nghe có vẻ lạ.
Tạo bài phát biểu với giọng cho
Viết một chương trình text-to-speech là một số lượng lớn công việc (đặc biệt, để thực hiện một chương trình thông thường, bạn phải ghi lại một người bản xứ nói tiếng mỗi âm kép có thể trong ngôn ngữ), vì vậy bạn nên sử dụng ngôn ngữ hiện có.
Tóm lại, nếu bạn muốn giọng Anh, hãy sử dụng công cụ chuyển văn bản tiếng Anh thành tiếng Anh cùng với công cụ phát âm giọng nói tiếng Anh của Anh.
Đối với các dấu phổ biến như tiếng Anh Mỹ và tiếng Anh, tiếng Quan thoại chuẩn, tiếng Pháp Metropolitan, v.v., sẽ có một số lựa chọn, bao gồm các mã nguồn mở mà bạn có thể sửa đổi (như bên dưới). Ví dụ: xem FreeTTS và eSpeak. Đối với các điểm nhấn ít phổ biến hơn, các công cụ hiện có không may có thể không tồn tại.
Phát biểu văn bản với một giọng nước ngoài
tiếng Anh-với-một-ngoại-giọng là xã hội không phải là rất có uy tín, vì vậy hệ thống hoàn chỉnh có lẽ không tồn tại.
Một chiến lược sẽ là kết hợp công cụ chuyển văn bản thành âm vị cho giá trị gốc với công cụ phát âm thành giọng nói cho tiếng nước ngoài. Ví dụ: một người nói tiếng Nga bản xứ đã học tiếng Anh ở Hoa Kỳ sẽ sử dụng cách phát âm các từ tiếng Hoa Kỳ như phòng thí nghiệm và ánh xạ âm vị của nó lên âm vị bản địa của Nga, phát âm chúng như tiếng Nga. (Tôi tin rằng có một trang web thực hiện điều này cho tiếng Anh và tiếng Nhật, nhưng tôi không có liên kết.)
Vấn đề là kết quả quá khắc nghiệt. Một người học tiếng Anh thực sự sẽ cố gắng để nhận ra và tạo ra âm vị không tồn tại trong ngôn ngữ mẹ đẻ của mình, và cũng sẽ thay đổi việc thực hiện các âm vị bản địa của mình để ước tính cách phát âm bản địa. Kết quả phù hợp chặt chẽ với một người bản xứ của khóa học rất khác nhau, nhưng việc sử dụng âm thanh cực kỳ thuần túy ở nước ngoài nghe có vẻ vô lý (và hầu như không thể hiểu được).
Vì vậy, để tạo tiếng Mỹ Mỹ-Anh-với-một giọng nói hợp lý (ví dụ), bạn phải viết một công cụ chuyển văn bản thành âm. Bạn có thể sử dụng các công cụ văn bản tiếng Anh và tiếng Nga hiện tại của Nga như một điểm khởi đầu. Nếu bạn không sẵn sàng để tìm và ghi lại một người nói như vậy, bạn có lẽ vẫn có thể nhận được một xấp xỉ khá bằng cách sử dụng DSP để kết hợp các mẫu từ hai động cơ đó. Đối với eSpeak, nó sử dụng tổng hợp formant hơn là các mẫu được ghi lại, vì vậy có thể dễ dàng kết hợp thông tin từ nhiều ngôn ngữ hơn. Một điều khác cần lưu ý là loa nước ngoài thường xuyên thay đổi trình tự âm vị dưới ảnh hưởng bởi các phonotactics của ngôn ngữ mẹ đẻ của họ, điển hình bằng cách đơn giản hóa các cụm phụ âm, chèn các nguyên âm epenthetic, hoặc diphthongizing hoặc phá vỡ các nguyên âm.
There is some literature on this topic.
Có (ít nhất) hai câu hỏi tách rời hoàn toàn ở đây: phần về phân tích văn bản và phần về tổng hợp giọng nói. Những câu hỏi này sẽ được hỏi như các câu hỏi SO riêng biệt. –
@Oli Tôi đã nghĩ về điều đó, nhưng phần phân tích gắn chặt với phần thế hệ mà tôi nghĩ họ nên ở bên nhau. – Jon
Hmmm. Đầu tiên về bản chất là một vấn đề phân tích cú pháp/phân tích văn bản; thứ hai về cơ bản là một vấn đề DSP. Phạm vi có vẻ hơi quá rộng đối với câu hỏi về Stack Overflow ... –