Websocket

在与 LLM(大语言模型) 对话时，如果每次都等 LLM 处理完毕再返回给客户端，会显得比较卡顿，不友好。如何能够像主流的AI平台那样：可以一点一点吐出字符呢？本文将模仿后端流式输出文字，前端一块一块的显示文字。主要的实现路径是： LLM 采用 qwen3 ，使用 stream 方式输出后端使用 langchain 框架使用 fastapi 实现后端接口前后端之间使用 websocket 长连接通信前端使用一个简单的 html5 网页做演示下面是最终实现的效果： ...