Chuyển giọng nói thành văn bản
Hướng dẫn API chuyển giọng nói thành văn bản#
Tổng quan#
API âm thanh cung cấp hai điểm cuối chính:📝 transcriptions: Chuyển âm thanh thành văn bản (giữ nguyên ngôn ngữ gốc)
🔄 translations: Dịch âm thanh sang tiếng Anh
Định dạng được hỗ trợ#
📁 Kích thước tệp: tối đa 25 MB
🎵 Định dạng âm thanh: mp3
, mp4
, mpeg
, mpg
, m4a
, wav
, webm
Cách sử dụng#
1. Chuyển âm thanh thành văn bản (Transcription)#
Chuyển âm thanh sang văn bản cùng ngôn ngữ gốc
2. Dịch âm thanh sang tiếng Anh (Translation)#
3. Hiển thị dấu thời gian#
4. Xử lý tệp lớn hơn 25MB#
Dùng thư viện PyDub để chia nhỏ file âm thanh:
Gợi ý tối ưu hóa#
Kỹ thuật sử dụng Prompt hiệu quả#
1.
🔍 Dùng để sửa lỗi nhận dạng từ cụ thể
2.
📜 Giữ mạch văn bản trong hội thoại
3.
✍️ Kiểm soát đầu ra dấu câu
4.
🗣️ Giữ lại từ đệm (ừ, à, ờ, ...)
5.
📝 Điều chỉnh kiểu văn bản (phồn thể / giản thể với tiếng Trung)
Ngôn ngữ được hỗ trợ#
Hỗ trợ hơn 98 ngôn ngữ, bao gồm:Các ngôn ngữ châu Á chính: Trung Quốc, Nhật Bản, Hàn Quốc, v.v.
Các ngôn ngữ châu Âu: Anh, Pháp, Đức, v.v.
Các ngôn ngữ khác: Ả Rập, Hindi, v.v.
⚠️ Lưu ý: Chỉ liệt kê các ngôn ngữ có tỷ lệ lỗi từ (WER) dưới 50%. Những ngôn ngữ khác vẫn được hỗ trợ nhưng chất lượng có thể thấp hơn.
Modified at 2025-07-28 00:14:41