2011-02-08 25 views
5

Làm cách nào để thực hiện văn bản thành lời nói (TTS)? Có API mở, miễn phí cho tổng hợp TTS không? Tôi biết về Google Dịch, nhưng giấy phép không rõ ràng với tôi (một vấn đề khác là họ chặn một yêu cầu nếu nó có chứa một liên kết giới thiệu). Bất kỳ ý tưởng?Văn bản để phát biểu trên Quizlet.com

Trả lời

11

Majdron,

Tôi là nhà phát triển chính tại Quizlet. Chúng tôi đang sử dụng một sự kết hợp của công nghệ riêng của chúng tôi và cấp phép/mua phần mềm TTS từ một số công ty khác nhau.

Có một số mã nguồn mở TTS động cơ/tiếng nói:

Chúc may mắn!

0

Google vừa giới thiệu quyền truy cập dựa trên trình duyệt vào công cụ giọng nói của mình thông qua HTML5.

http://slides.html5rocks.com/#speech-input

Để có được trang này để làm việc, tôi ra mắt trình duyệt Chromium như sau trong Ubuntu:

$ chromium-browser --enable-speech-input 

Tôi không chắc chắn nếu điều này làm việc trong hệ điều hành khác.

Một dự án thú vị là Wami từ MIT:

http://wami.csail.mit.edu

+0

Đây là phần nhận dạng giọng nói chứ không phải bên TTS mà OP hỏi. Quizlet cũng đang sử dụng WAMI của MIT. – philfreo

2

Những tiếng nói âm thanh chính xác giống như http://www.neospeech.com. Ngoài ra, danh sách các ngôn ngữ của họ khớp chính xác.

Nó không miễn phí, bạn phải cấp phép.

0

Tôi không biết Quizlet cụ thể nào đang sử dụng, nhưng giả sử họ đang sử dụng dịch vụ miễn phí thì có thể là TTS-API (http://tts-api.com/) gần đây đã được giới thiệu trên Hacker News.

Từ những gì tôi biết là "TTS web-API" miễn phí sử dụng duy nhất trên mạng. Vui lòng nhận xét bên dưới nếu tôi sai - Tôi rất muốn tìm các dịch vụ miễn phí tương tự. Có rất nhiều dịch vụ chỉ trả tiền ở đó nhưng rất ít dịch vụ thực sự miễn phí.

Vì tìm hiểu về TTS-API trên HN, tôi đã sử dụng thành công nó trong một dự án ứng dụng gần đây. Vì TTS chỉ là một tìm nạp HTTP nên tôi đã có thể tích hợp nhanh chóng nó trong cả phiên bản ứng dụng của tôi và iOS. Dịch vụ này dường như rất nhanh, vì vậy không có khiếu nại cho đến thời điểm này :-)

0

Không ai trả lời đúng. Họ có động cơ TTS riêng của họ được kết nối với một tập tin duy nhất tại http://quizlet.com/tts/en.mp3 tập tin có đối số với nó để url http://quizlet.com/tts/en.mp3?v=14&b=QXJlYSBvZiBwYXJhbGxlbG9ncmFt&s=m5dx52Q. nói "Diện tích hình bình hành" nhờ chuỗi base64 đầu tiên có nhãn b. Tôi đã không phát hiện ra những gì v hoặc s được sử dụng cho nhưng tôi biết họ là điều cần thiết để làm cho các tập tin nói. Tôi sẽ nghiên cứu thêm và quay lại câu trả lời này.

0

jj b là chính xác. Động cơ cốt lõi của các tính năng phát biểu của Quizlet là Neospeech, và sử dụng VTML (VoiceText [TM] Markup Language) chính xác của Neospeech, theo như tôi có thể nói.

+0

Điều này sẽ phù hợp hơn khi nhận xét về câu trả lời hiện có của jj b (hoặc vì bạn chưa thể nhận xét về các câu trả lời không phải của bạn, một * upvote * đơn giản sẽ thích hợp). – JonK

Các vấn đề liên quan