Hướng dẫn API chuyển văn bản thành giọng nói (TTS)

Tổng quan

API âm thanh cung cấp endpoint speech để thực hiện chức năng TTS (Text-to-Speech), bao gồm:

📝 Đọc thành tiếng các bài viết blog

🌍 Tạo tệp âm thanh đa ngôn ngữ

🎵 Phát âm thanh trực tiếp theo thời gian thực

⚠️ Lưu ý quan trọng: Bạn phải thông báo cho người dùng rằng giọng nói được nghe là do AI tạo ra, không phải giọng thật của con người.

Sử dụng cơ bản

Ví dụ đơn giản

Các tính năng

Tùy chọn chất lượng âm thanh

tts-1: Độ trễ thấp, phù hợp ứng dụng thời gian thực

tts-1-hd: Chất lượng cao hơn, tiếng rõ ràng hơn, ít nhiễu hơn

Các giọng đọc có sẵn

alloy

echo

fable

nova

shimmer

onyx

Định dạng đầu ra hỗ trợ

Định dạng	Đặc điểm	Ứng dụng phù hợp
MP3	Mặc định	Phổ biến, mọi nơi
Opus	Độ trễ thấp	Streaming, giao tiếp qua mạng
AAC	Nén hiệu quả	Phát trên điện thoại, thiết bị di động
FLAC	Không mất dữ liệu	Lưu trữ âm thanh chất lượng cao
WAV	Không nén	Phù hợp với ứng dụng thời gian thực
PCM	Dữ liệu thô	24kHz, 16-bit signed

Phát âm thanh thời gian thực

Ngôn ngữ hỗ trợ

Hỗ trợ nhiều ngôn ngữ, bao gồm:

Châu Á: Tiếng Trung, Nhật, Hàn,...

Châu Âu: Tiếng Anh, Pháp, Đức,...

Khác: Ả Rập, Hindi,...

⚠️ Lưu ý: Hiện tại, tất cả các giọng đọc được tối ưu hóa chủ yếu cho tiếng Anh.

Câu hỏi thường gặp

❓ Làm sao kiểm soát cảm xúc của giọng đọc?

Trả lời: Hiện tại không có cách kiểm soát cảm xúc rõ ràng. Tuy nhiên, chữ in hoa hoặc ngữ pháp có thể ảnh hưởng đôi chút đến tông giọng, nhưng không ổn định.

❓ Có thể tạo giọng nói tùy chỉnh không?

Trả lời: Hiện không hỗ trợ tạo giọng tùy chỉnh.

❓ Quyền sở hữu âm thanh sau khi tạo là của ai?

Trả lời: Âm thanh do người dùng tạo ra thuộc quyền sở hữu của người tạo, nhưng cần đảm bảo người nghe biết đó là giọng nói do AI tạo ra.

Chuyển văn bản thành lời nói

Hướng dẫn API chuyển văn bản thành giọng nói (TTS)#

Tổng quan#

Sử dụng cơ bản#

Ví dụ đơn giản#

Các tính năng#

Tùy chọn chất lượng âm thanh#

Các giọng đọc có sẵn#

Định dạng đầu ra hỗ trợ#

Phát âm thanh thời gian thực#

Ngôn ngữ hỗ trợ#

Câu hỏi thường gặp#

❓ Làm sao kiểm soát cảm xúc của giọng đọc?#

❓ Có thể tạo giọng nói tùy chỉnh không?#

❓ Quyền sở hữu âm thanh sau khi tạo là của ai?#