<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Websocket on 有趣的AI</title>
    <link>http://wfcoding.com/tags/websocket/</link>
    <description>Recent content in Websocket on 有趣的AI</description>
    <generator>Hugo -- 0.125.7</generator>
    <language>zh</language>
    <copyright>火云</copyright>
    <lastBuildDate>Sun, 27 Apr 2025 00:00:00 +0000</lastBuildDate>
    <atom:link href="http://wfcoding.com/tags/websocket/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>本地大模型编程实战(32)用websocket显示大模型的流式输出</title>
      <link>http://wfcoding.com/articles/practice/0332/</link>
      <pubDate>Sun, 27 Apr 2025 00:00:00 +0000</pubDate>
      <guid>http://wfcoding.com/articles/practice/0332/</guid>
      <description>&lt;p&gt;在与 &lt;code&gt;LLM(大语言模型)&lt;/code&gt; 对话时，如果每次都等 &lt;code&gt;LLM&lt;/code&gt; 处理完毕再返回给客户端，会显得比较卡顿，不友好。如何能够像主流的AI平台那样：可以一点一点吐出字符呢？&lt;br&gt;
本文将模仿后端流式输出文字，前端一块一块的显示文字。主要的实现路径是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;LLM&lt;/code&gt; 采用 &lt;code&gt;qwen3&lt;/code&gt; ，使用 &lt;code&gt;stream&lt;/code&gt; 方式输出&lt;/li&gt;
&lt;li&gt;后端使用 &lt;code&gt;langchain&lt;/code&gt; 框架&lt;/li&gt;
&lt;li&gt;使用 &lt;code&gt;fastapi&lt;/code&gt; 实现后端接口&lt;/li&gt;
&lt;li&gt;前后端之间使用 &lt;strong&gt;&lt;code&gt;websocket&lt;/code&gt;&lt;/strong&gt; 长连接通信&lt;/li&gt;
&lt;li&gt;前端使用一个简单的 &lt;code&gt;html5&lt;/code&gt; 网页做演示&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;下面是最终实现的效果：
&lt;img loading=&#34;lazy&#34; src=&#34;assert/demo.gif&#34; alt=&#34;前端流式显示LLM(大语言模型)的流式输出内容&#34;  /&gt;
&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
