Key4U
Trang chủGiá cảĐăng nhậpĐăng ký
Trang chủGiá cảĐăng nhậpĐăng ký
  1. Sử dụng với Python
  • README
  • Giới thiệu
  • Gửi Request
  • Liên hệ
  • Bắt đầu
    • Bắt đầu nhanh với API
    • Bảng So Sánh Nhóm API
    • Tính Đặc Thù của Nhóm API & Khác Biệt Về Giá
  • Chat
    • OpenAI Cient
      • Audio
        • GPT-4o-audio
        • whisper-1
        • gpt-4o-transcribe
        • text-to-speech
        • translations
      • Chat
        • Chat object
        • Chat stream object
        • Streaming
        • Non-steaming
        • Chat image streaming
        • Chat image with base64 streaming
        • Chat image with base64 non-streaming
        • Tạo ảnh non-streaming
        • Gọi hàm (Function calling)
        • Nhiều output (n output)
        • Danh sách model
        • Gọi hàm (Function calling) non-streaming
        • Output có cấu trúc (structured output)
        • Kiểm soát mức độ suy luận
        • Chat text qwen-mt-turbo
        • Chat text deepseek v3.1 với thinking
      • Completions
        • Completions object
        • Completions
      • Embeddings
        • Embedding object
        • Embeddings
      • Web search
        • web-search
    • Anthropic Claude
      • Chat Completion Object
      • Chat Completion Chunk Object
      • Tạo chat completion (stream) [raw]
      • Gọi hàm Function calling(stream) [raw]
      • Tạo chat suy luận - Reasoning [raw]
      • Tạo chat suy luận
      • Tạo chat completion (stream)
      • Tạo chat completion (non-stream)
      • Tạo chat image(stream)
      • Tạo chat image (non-stream)
    • Gemini
      • Raw
        • Chỉnh sửa hình ảnh [định dạng gốc] gemini-2.5-flash-image-preview
        • Chat API [raw]
        • Chat API - stream [raw]
        • Tạo image [raw]
        • Chỉnh sửa ảnh [raw]
        • Đọc ảnh [raw]
        • Output có cấu trúc (structured output) [raw]
        • Gọi hàm (Function calling) [raw]
        • Đọc hiểu tài liệu [raw]
        • Đọc hiểu Video dạng base64 [raw]
        • Đọc hiểu trang web [developing]
        • Đọc hiểu Video qua url [developing]
        • Tạo ảnh bằng Imagen 3
      • Tương thích OpenAI Client
        • Tạo image
        • Chat
        • Đọc hiểu hình ảnh
        • Chat + Đọc hiểu file
  • Responses
    • Responses API so với Chat API
    • Tạo chat responses
    • Tạo chat responses (stream)
    • Kiểm soát mức độ suy luận
    • Truy vấn tìm kiếm chuyên sâu (rất đắt, mỗi lần tốn vài chục đô, nên cẩn trọng khi dùng)
    • Tạo tìm kiếm trên Internet
  • Model hình ảnh
    • README
    • Đối tượng hình ảnh
    • Midjourney
      • Gửi ảnh lên (Upload ảnh)
      • Gửi task "Imagine" (tạo ảnh từ mô tả)
      • Tra cứu trạng thái task theo ID
      • Truy vấn nhiều task theo danh sách ID
      • Lấy seed của ảnh trong task
      • Upscalers (Action)
      • Gửi task hòa trộn ảnh (Blend)
      • Gửi task Describe
      • Gửi task Zoom Out
      • Gửi task kiểu Modal (có thể là chế độ giao diện hoặc cấu hình riêng)
      • Gửi task hoán đổi khuôn mặt (Face Swap)
    • Ideogram
      • Tạo ảnh từ văn bản (Generate)
      • Chỉnh sửa ảnh (Edit)
      • Tái tạo ảnh (Remix)
      • Tái cấu trúc ảnh (Reframe)
      • Thay nền ảnh (Replace Background)
      • Tạo ảnh từ văn bản (Ideogram)
      • Trộn ảnh (Remix)
      • Phóng to ảnh độ nét cao (Upscale)
      • Mô tả ảnh (Describe)
    • GPT Image-1
      • Tạo ảnh
      • Chỉnh sửa ảnh
      • Tạo mặt nạ (mask)
    • DALL·E 3
      • Tạo ảnh DALL·E 3
    • FLUX
      • Tương thích với OpenAI
        • Tạo ảnh tương thích với OpenAI Dall-e-3
        • Chỉnh sửa ảnh tương thích OpenAI Dall-e-3
      • Tương thích Replicate
        • Hướng dẫn tích hợp
        • Tỉ lệ của Flux
        • Tạo hình ảnh black-forest-labs/flux-kontext-dev
        • Truy vấn task
      • Tương thích với Fal.ai
        • Hướng dẫn
        • Truy vấn kết quả
        • /fal-ai/flux-pro/kontext
        • /fal-ai/flux-pro/kontext/max
        • /fal-ai/flux-pro/kontext/max/multi(Chỉnh sửa nhiều hình ảnh - Thử nghiệm)
        • FLUX.1 [Dev] Chỉnh sửa hình ảnh từ văn bản
        • FLUX.1 [Dev] Chỉnh sửa hình ảnh từ văn bản
        • FLUX.1 [Dev] Redux
        • FLUX.1 [Schell] Redux
        • FLUX.1 Kontext [Pro]
        • FLUX.1 Kontext [Max] Chuyển văn bản thành hình ảnh
        • FLUX.1 Kontext [Multi](Chỉnh sửa nhiều hình ảnh – thử nghiệm)
        • FLUX.1 Kontext [Max]
        • FLUX.1 Kontext [Max] Chuyển văn bản thành hình ảnh
        • FLUX.1 Kontext [Max Multi](Chỉnh sửa nhiều hình ảnh – thử nghiệm)
        • /fal-ai/nano-banana Tạo hình ảnh
        • /fal-ai/nano-banana Chỉnh sửa hình ảnh
  • Mô hình video
    • Tạo video với veo
      • Truy vấn task
      • Tạo video kèm hình ảnh
      • Tạo video
    • Tạo video với luma
      • Truy vấn thông tin một task
      • Truy vấn thông tin nhiều task
      • Gửi tác vụ tạo video
      • Mở rộng video
    • Tạo video với Kling
      • Callback
      • Tạo hình ảnh
      • Tạo video từ văn bản
      • Tạo video từ hình ảnh
      • Truy vấn task
    • Tạo video với Runway
      • Gửi task tạo video
      • Truy vấn task
      • Gửi task tạo video - định dạng chat
    • Tạo video với Jimeng
      • Gửi task tạo video
      • Truy vấn task
    • Tạo video với Minimax
      • Gửi task tạo video
      • Truy vấn video (miễn phí)
  • GPTs liên quan
    • Giới thiệu
    • gpt-4-all (Phân tích hình ảnh)
    • gpt-4-all(Tạo hình ảnh)
    • GPTs Đối thoại
  • Text-to-music với Suno
    • Hướng dẫn
    • Tham số
    • Call API
      • Tạo bài hát (Chế độ cảm hứng)
      • Tạo bài hát (Chế độ tùy chỉnh)
      • Tạo bài hát (Chế độ tiếp tục)
      • Tạo bài hát (Theo phong cách ca sĩ)
      • Tạo bài hát (Remix từ bài hát đã tải lên)
      • Tạo bài hát (Ghép bài hát)
      • Tạo lời bài hát
      • Ghép bài hát
    • Truy vấn
      • Lấy nhiều task cùng lúc
      • Lấy thông tin của một task
  • Mô hình sắp xếp lại (Rerank)
    • Tái sắp xếp thứ tự
  • Nền tảng tích hợp Replicate
    • Hướng dẫn
    • Tỉ lệ hình ảnh của Flux
    • Truy vấn task
    • Tạo một task - version (predictions)
    • Tạo task stability-ai/stable-diffusion
    • Tạo task stability-ai/sdxl
    • Tạo task stability-ai/stable-diffusion-inpainting
    • Tạo task stability-ai/stable-diffusion-img2img
    • Tạo task black-forest-labs/flux-kontext-dev
    • Tạo task lucataco/flux-schnell-lora
    • Tạo task lucataco/flux-dev-lora
    • Tạo task ideogram-ai/ideogram-v2-turbo
    • Tạo task andreasjansson/stable-diffusion-animation
    • Tạo task lucataco/animate-diff
    • Tạo task sujaykhandekar/object-removal
    • Tạo task cjwbw/rembg
    • Tạo task minimax/video-01-live
    • Tạo task minimax/video-01
    • Tạo task recraft-ai/recraft-v3
    • Tạo task recraft-ai/recraft-v3-svg
    • Tạo task black-forest-labs/flux-1.1-pro-ultra
    • Tạo task black-forest-labs/flux-kontext-pro
    • Tạo task black-forest-labs/flux-kontext-max
    • Tạo task flux-kontext-apps/multi-image-kontext-max
    • Tạo task flux-kontext-apps/multi-image-kontext-pro
    • Tạo task lucataco/remove-bg
    • Tạo task riffusion/riffusion
    • Tạo task black-forest-labs/flux-fill-dev
    • Tạo task black-forest-labs/flux-fill-pro
    • Tạo task google/imagen-4-fast
    • Tạo task google/imagen-4-ultra
    • Tạo task google/imagen-4
    • Tạo task prunaai/vace-14b
  • Sử dụng với PHP
    • Ví dụ sử dụng trong PHP
  • Sử dụng với Node.js
    • Hướng dẫn
  • Sử dụng với Python
    • Thư viện của OpenAI (sử dụng AutoGPT, langchain, v.v.)
    • Trò chuyện liên tục
    • Chuyển giọng nói thành văn bản
    • Chuyển văn bản thành lời nói
    • Sử dụng Embeddings để tìm kiếm tương tự
    • DALL·E
    • Gọi đơn giản openai function-calling demo
    • Gọi openai demo với langchain đơn giản
    • Cấu hình llama_index
    • Trò chuyện cơ bản
    • Sử dụng gpt-4o nhận diện ảnh - ảnh cục bộ
    • Sử dụng gpt-4o nhận diện ảnh
    • Sử dụng Claude nhận diện ảnh
    • Xuất dữ liệu dạng luồng
    • gpt sử dụng mô hình thời gian thực (gpt realtime)
    • Request gửi yêu cầu, demo xuất luồng
    • Sử dụng gpt-image-1 để tạo/chỉnh sửa ảnh
  • Hướng dẫn sử dụng các loại plugin/phần mềm
    • Hướng dẫn cài đặt và sử dụng Claude Code
    • Hướng dẫn sử dụng với Dify
    • Hướng dẫn cấu hình Cline
    • Sử dụng với Aider AI (Terminal Coding)
    • Hướng dẫn sử dụng LobeChat
    • Sử dụng trong extension trình duyệt ChatGPT Sidebar
    • Hướng dẫn cấu hình ChatGPT GPT Academic để tối ưu cho học thuật
  • Trung tâm hỗ trợ
    • Dữ liệu phản hồi của AI: Thông tin liên quan đến suy luận
    • Các mã trạng thái HTTP (HTTP Status code)
  1. Sử dụng với Python

Chuyển văn bản thành lời nói

Hướng dẫn API chuyển văn bản thành giọng nói (TTS)#

Tổng quan#

API âm thanh cung cấp endpoint speech để thực hiện chức năng TTS (Text-to-Speech), bao gồm:
📝 Đọc thành tiếng các bài viết blog
🌍 Tạo tệp âm thanh đa ngôn ngữ
🎵 Phát âm thanh trực tiếp theo thời gian thực
⚠️ Lưu ý quan trọng: Bạn phải thông báo cho người dùng rằng giọng nói được nghe là do AI tạo ra, không phải giọng thật của con người.

Sử dụng cơ bản#

Ví dụ đơn giản#


Các tính năng#

Tùy chọn chất lượng âm thanh#

tts-1: Độ trễ thấp, phù hợp ứng dụng thời gian thực
tts-1-hd: Chất lượng cao hơn, tiếng rõ ràng hơn, ít nhiễu hơn

Các giọng đọc có sẵn#

alloy
echo
fable
nova
shimmer
onyx

Định dạng đầu ra hỗ trợ#

Định dạngĐặc điểmỨng dụng phù hợp
MP3Mặc địnhPhổ biến, mọi nơi
OpusĐộ trễ thấpStreaming, giao tiếp qua mạng
AACNén hiệu quảPhát trên điện thoại, thiết bị di động
FLACKhông mất dữ liệuLưu trữ âm thanh chất lượng cao
WAVKhông nénPhù hợp với ứng dụng thời gian thực
PCMDữ liệu thô24kHz, 16-bit signed

Phát âm thanh thời gian thực#


Ngôn ngữ hỗ trợ#

Hỗ trợ nhiều ngôn ngữ, bao gồm:
Châu Á: Tiếng Trung, Nhật, Hàn,...
Châu Âu: Tiếng Anh, Pháp, Đức,...
Khác: Ả Rập, Hindi,...
⚠️ Lưu ý: Hiện tại, tất cả các giọng đọc được tối ưu hóa chủ yếu cho tiếng Anh.

Câu hỏi thường gặp#

❓ Làm sao kiểm soát cảm xúc của giọng đọc?#

Trả lời: Hiện tại không có cách kiểm soát cảm xúc rõ ràng. Tuy nhiên, chữ in hoa hoặc ngữ pháp có thể ảnh hưởng đôi chút đến tông giọng, nhưng không ổn định.

❓ Có thể tạo giọng nói tùy chỉnh không?#

Trả lời: Hiện không hỗ trợ tạo giọng tùy chỉnh.

❓ Quyền sở hữu âm thanh sau khi tạo là của ai?#

Trả lời: Âm thanh do người dùng tạo ra thuộc quyền sở hữu của người tạo, nhưng cần đảm bảo người nghe biết đó là giọng nói do AI tạo ra.
Modified at 2025-07-28 00:15:00
Previous
Chuyển giọng nói thành văn bản
Next
Sử dụng Embeddings để tìm kiếm tương tự
Built with