SGLang 文档#

SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架。它通过共同设计后端运行时和前端语言，使你与模型的交互更快、更可控。其核心功能包括：

快速后端运行时: 提供高效的服务，包括 RadixAttention 用于前缀缓存、跳跃式约束解码、连续批处理、令牌注意力（分页注意力）、张量并行、FlashInfer 内核、分块预填充和量化（INT4/FP8/AWQ/GPTQ）。
灵活的前端语言: 提供直观的界面用于编程 LLM 应用程序，包括链式生成调用、高级提示、控制流、多模态输入、并行性和外部交互。
广泛的模型支持: 支持各种生成模型（Llama 3、Gemma 2、Mistral、QWen、DeepSeek、LLaVA 等）和嵌入模型（e5-mistral），并易于扩展以集成新模型。
活跃的社区: SGLang 是开源的，并由一个活跃的社区支持，并在行业中得到应用。

开始使用

参考资料