Hướng dẫn API chuyển giọng nói thành văn bản

Tổng quan

API âm thanh cung cấp hai điểm cuối chính:

📝 transcriptions: Chuyển âm thanh thành văn bản (giữ nguyên ngôn ngữ gốc)

🔄 translations: Dịch âm thanh sang tiếng Anh

Định dạng được hỗ trợ

📁 Kích thước tệp: tối đa 25 MB

🎵 Định dạng âm thanh: mp3, mp4, mpeg, mpg, m4a, wav, webm

Cách sử dụng

1. Chuyển âm thanh thành văn bản (Transcription)

Chuyển âm thanh sang văn bản cùng ngôn ngữ gốc

2. Dịch âm thanh sang tiếng Anh (Translation)

3. Hiển thị dấu thời gian

4. Xử lý tệp lớn hơn 25MB

Dùng thư viện PyDub để chia nhỏ file âm thanh:

Gợi ý tối ưu hóa

Kỹ thuật sử dụng Prompt hiệu quả

🔍 Dùng để sửa lỗi nhận dạng từ cụ thể

📜 Giữ mạch văn bản trong hội thoại

✍️ Kiểm soát đầu ra dấu câu

🗣️ Giữ lại từ đệm (ừ, à, ờ, ...)

📝 Điều chỉnh kiểu văn bản (phồn thể / giản thể với tiếng Trung)

Ngôn ngữ được hỗ trợ

Hỗ trợ hơn 98 ngôn ngữ, bao gồm:

Các ngôn ngữ châu Á chính: Trung Quốc, Nhật Bản, Hàn Quốc, v.v.

Các ngôn ngữ châu Âu: Anh, Pháp, Đức, v.v.

Các ngôn ngữ khác: Ả Rập, Hindi, v.v.

⚠️ Lưu ý: Chỉ liệt kê các ngôn ngữ có tỷ lệ lỗi từ (WER) dưới 50%. Những ngôn ngữ khác vẫn được hỗ trợ nhưng chất lượng có thể thấp hơn.

Chuyển giọng nói thành văn bản

Hướng dẫn API chuyển giọng nói thành văn bản#

Tổng quan#

Định dạng được hỗ trợ#

Cách sử dụng#

1. Chuyển âm thanh thành văn bản (Transcription)#

2. Dịch âm thanh sang tiếng Anh (Translation)#

3. Hiển thị dấu thời gian#

4. Xử lý tệp lớn hơn 25MB#

Gợi ý tối ưu hóa#

Kỹ thuật sử dụng Prompt hiệu quả#

Ngôn ngữ được hỗ trợ#