GitHub

STT-TTS Unified

提供一套可復用的 STT/TTS 範例與工具,方便在其他專案整合多種語音模型與優化延遲。

STT-TTS Unified 提供一套實作範例,展示如何把語音辨識(STT)與語音合成(TTS)整合到前後端流程中,包含模型呼叫、檔案上傳、歷史記錄與播放功能。

背景:專案包含 FastAPI 後端、React + Vite 前端,以及示範用的 SQLite/資料夾儲存結構,方便開發者快速跑起 STT/TTS 流程並測試多個模型。

挑戰:需要支援多種 STT(如 Whisper)與 TTS 引擎,處理音訊上傳、長檔分段與延遲優化,並確保使用者資料(音訊)不會外洩。

解法與貢獻:設計 FastAPI 的路由與服務層(tts/stt/history)來封裝模型呼叫與檔案管理;提供 React 範例 UI 展示上傳、辨識結果與播放;使用 Dockerfile 與 docker-compose 簡化整體啟動流程,方便 CI 與本地測試。

成果:提供一套可重複使用的 STT/TTS 範例,支援在其他專案中快速整合語音模型,並為性能優化提供測試場域。

Tags