本地大模型编程实战(32)用websocket显示大模型的流式输出

Sun, 27 Apr 2025 00:00:00 +0000

在与 LLM(大语言模型) 对话时，如果每次都等 LLM 处理完毕再返回给客户端，会显得比较卡顿，不友好。如何能够像主流的AI平台那样：可以一点一点吐出字符呢？
本文将模仿后端流式输出文字，前端一块一块的显示文字。主要的实现路径是：

下面是最终实现的效果：

Websocket on 有趣的AI