NeuroLink把3个SDK压成1个：语音AI开发时间砍半|neurolink|sdk|tts|开发时间|语音识别

语音AI开发有个老笑话：工程师80%时间在接SDK，20%时间在骂文档。2026年的现状是，一个语音助手要串三个服务——语音识别（STT）、大模型推理（LLM）、语音合成（TTS），每个都有独立的认证、限流、错误码。

Juspay推出的NeuroLink把这三层压进了一个TypeScript SDK。不是包装，是重新设计了流式架构：音频进去，音频出来，中间所有转换对开发者透明。

传统方案：三根水管拼一根

先看旧玩法。Whisper听写、Claude思考、ElevenLabs说话——三个API，三次网络往返，三种错误处理逻辑。延迟累加：STT 300ms + LLM 800ms + TTS 400ms，用户说完要等1.5秒才能听到回复。

更麻烦的是状态管理。STT输出文本，文本进LLM，LLM输出再进TTS——数据格式不兼容是常态。一个字段改名，链路全断。

NeuroLink的解法是把"流"作为核心抽象。语音、文本、工具调用，全是同一种stream()接口处理。开发者不再关心"这句话转完了没"，而是直接消费音频流。

代码层面，初始化一次，配置三个角色：主推理模型、语音识别工具、语音合成工具。

实测：50行代码跑通语音对话

NeuroLink的Hello World长这样：new NeuroLink()时指定anthropic/claude-4-sonnet做主脑，tools数组里挂上speechToText和textToSpeech。stream()调用时，input.audio塞入麦克风流，output.formats声明要同时返回文本和音频。

关键设计在响应结构。传统方案需要轮询TTS是否生成完毕，NeuroLink直接返回双格式流——文本给日志，音频给播放器，同一份数据两个消费者。

生产级配置需要加三样东西：Redis做跨会话记忆（ttl设1小时避免无限增长）、systemPrompt约束回复长度（2-3句适合语音）、多提供商 fallback（STT崩了自动切Deepgram）。

语音场景的特殊约束被写进了SDK设计：LLM输出必须短，因为没人想听AI念论文；必须禁用Markdown，因为语音合成读不出星号和代码块。