推测解码:在不降低准确性的情况下将LLM推理速度提高2 - 3倍
在本篇文章我们将详细讨论推测解码,这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现,并看看它与原始transformer 实现相比到底能快多少。 推测解码是一种“先推测后验证” (Draft-then-Verify) 的解码算法,涉及并行运行两个...
解码 LangChain|用 LangChain 和 Milvus 从零搭建 LLM 应用
如何从零搭建一个 LLM 应用?不妨试试 LangChain + Milvus 的组合拳。 作为开发 LLM 应用的框架,LangChain 内部不仅包含诸多模块,而且支持外部集成;Milvus 同样可以支持诸多 LLM 集成,二者结合除了可以轻松搭建一个 LLM 应用,还可以起到强化 ChatGP...
解码 LangChain | LangChain + GPTCache =兼具低成本与高性能的 LLM
LangChain 联合创始人 Harrison Chase 提到,多跳问题会给语义检索带来挑战,并提出可以试用 AI 代理工具解决。不过,频繁调用 LLM 会导致出现使用成本高昂的问题。 对此,Zilliz 软件工程师 Filip Haltmayer 指出,将 GPTCache 与 LangCha...
仅使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoice
近年来,大规模语言模型(LLMs)建模在 NLP 领域取得了许多突破,特别是 ChatGPT 的成功,正引领大家迈入一个新的 AI 时代。截止目前,基于 encoder-decoder 框架的模型在语音处理任务中仍占主导地位,而基于语言模型(LM)的方法还处于初期探索阶段...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
产品推荐
最佳实践