為了幫助社交焦慮的粉絲，我做了一個 AI 視訊通話產品

有些產品來自市場調查，有些來自自身痛點，這個案例來自一封粉絲信。一位有相當粉絲數的技術 YouTuber 收到粉絲留言：「我很想在 YouTube 問你問題，但我有社交焦慮，連打字都緊張，更不用說真人通話了。」他決定做點什麼——不是寫一篇建議文，而是直接建立一個產品。

這篇文章記錄這類「AI 輔助視訊通話」產品的技術架構思路，以及 indie developer 在資源有限下的工程決策。

TL;DR

目標用戶：有社交焦慮、想練習真實對話但害怕真人互動的人
核心功能：AI 扮演對話夥伴，提供即時語音回應，用視訊通話介面模擬真實對話場景
技術堆疊：WebRTC 視訊串流 + 即時 ASR（語音識別）+ LLM + TTS（語音合成）+ AI 虛擬形象（Tavus 或 HeyGen 類服務）
最大挑戰：端到端延遲必須低於 800ms 才能讓對話感覺自然

背景與挑戰

社交焦慮（Social Anxiety Disorder）影響全球約 7% 的成人，核心症狀是對被評判的過度恐懼。這讓許多人在需要當面溝通或視訊通話時感到極大壓力。

傳統「解法」是認知行為治療（CBT），核心方法之一是「曝露療法」——逐漸讓患者暴露在引起焦慮的社交情境中。理論是對的，但有幾個現實問題：

預約治療師昂貴且等待期長
練習場合有限（不可能每天找真人練習）
失敗成本高（和真人練習失敗，焦慮可能加重）

AI 視訊通話的假設：提供一個「低風險的練習場」——對話對象是 AI，說錯了可以重來，沒有人在評判你。

解法設計

核心 UX 假設

成功的 AI 社交焦慮練習工具需要滿足：

視覺上夠真實：看起來是真人在說話，而不是文字框或聲音
延遲夠低：超過 1 秒的回應延遲會打斷對話的節奏感
對話夠自然：AI 要能理解上下文，不要每次都忘記前面說的話
有安全感：清楚告知用戶這是 AI，不讓人覺得被欺騙

技術架構選擇

視訊串流：WebRTC

瀏覽器原生支援 WebRTC，不需要安裝 app。P2P 連線延遲低，在同一地區的最佳情況下可達 50ms 以下。

對 indie developer 來說，自己架 WebRTC 信令伺服器（signaling server）+ TURN 伺服器成本不低，更實際的選擇是用託管服務：

Daily.co：$0.004/participant-minute，有 SDK，最快上線
Livekit：開源，可自架，免費額度較高
Agora：大廠方案，穩定但定價較複雜

AI 虛擬形象：讓 AI「有臉」

讓 AI 有視覺形象的方案分幾層：

方案 A（最簡單）：靜態頭像 + 音訊。AI 是一個不會動嘴的圖片，只有聲音。實作最簡單，但用戶體驗差。

方案 B（中等）：2D 虛擬形象 + 口型同步。用 Ready Player Me 或 TalkingHead.js 等工具把語音波形對應到口型動畫。成本低，但看起來像虛擬 YouTuber 而非真人。

方案 C（最真實）：AI 生成即時視訊流。Tavus 和 HeyGen 提供這類 API——上傳一個真人影片作為基底，API 即時生成說話的視訊流，說話內容跟隨你輸入的文字或語音。延遲在 300-800ms 左右，效果最接近真人。Tavus 的 Conversational Video Interface（CVI）就是為這個場景設計的。

對 indie developer 的建議：先用方案 A/B 驗證用戶是否買單，有足夠用戶後再升級到方案 C。

即時語音識別（ASR）

用戶說話 → 轉成文字 → 送給 LLM。速度和準確率都很關鍵。

Whisper（OpenAI）：準確率高，但即時串流延遲在 500ms+ 以上
Deepgram：專為即時串流優化，延遲低（200ms 以下），API 定價 $0.0059/minute
AssemblyAI：中間選項，有語者分離（speaker diarization）功能

indie developer 首選 Deepgram 或 AssemblyAI 的 real-time API。

LLM 回應生成

ASR 拿到文字後，送給 LLM 生成回應。延遲敏感，所以要選速度快的模型：

GPT-4.1（OpenAI）：首字 token 速度快，適合串流輸出
Claude Haiku 3.5：延遲低，成本低，足夠聰明處理對話
Gemini Flash：Google 的低延遲選項

LLM 這層也需要精心設計 system prompt，讓 AI 模擬特定的對話場景（如：面試練習、問路練習、打電話練習），並在回應中控制語速和語調。

文字轉語音（TTS）

LLM 輸出文字 → 轉成語音 → 播給用戶聽。

ElevenLabs：音質最好，支援即時串流，多種聲音克隆
OpenAI TTS：$15/million characters，音質不錯，API 簡單
Play.ai：專為對話設計，支援情緒語調調整

實作細節

端到端延遲預算

用戶說話完畢（VAD 偵測靜音）
    → ASR 識別：~200ms（Deepgram）
    → LLM 首字 token：~300ms（Claude Haiku）
    → TTS 首段語音：~200ms（ElevenLabs 串流）
    ─────────────────────────────────────
    總計：~700ms

700ms 接近可接受的邊界。當任何一個環節出現延遲（網路波動、LLM 負載），就會超過 1 秒的「自然感」臨界值。這是這類產品最難的工程問題。