跳转到主要内容
Chinese, Simplified

category

如何在生产中运行开源LLM
在生产环境中运行LLM需要仔细考虑可扩展性、可靠性和成本效益等因素。在本节中,我们将探讨可用于在生产环境中运行开源LLM的各种方法和平台,为您提供实用的见解,以便做出明智的决定。

顶端

Klu.ai支持基于开源LLM模型的团队,通过SkyPilot直接集成PPLX、Cloudflare、Replicate、HuggingFace和自定义部署。

PPLX API


PPLX API是由困惑实验室开发的用于开源LLM的快速高效的API。它提供了易用性、快速推理和久经考验的基础设施。它支持Mistral 7B、Llama2 13B、代码Llama 34B、Llama 2 70B和replit-Code-v1.5-3b等型号。

以下是您开始使用PPLX API的方法:

  • 生成API密钥-您可以通过困惑帐户设置页面生成API密钥。此API密钥是一个长期使用的访问令牌,在手动刷新或删除之前可以使用它。
  • 发送API密钥-将API密钥作为承载令牌与每个PPLX API请求一起发送到授权头中。

以下是如何使用CURL提交聊天完成请求的示例:

curl -X POST \
--url https://api.perplexity.ai/chat/completions \
--header 'accept: application/json' \
--header 'content-type: application/json' \
--header "Authorization: Bearer ${PERPLEXITY_API_KEY}" \
--data '{
"model": "mistral-7b-instruct",
"stream": false,
"max_tokens": 1024,
"frequency_penalty": 1,
"temperature": 0.0,
"messages": [
{
"role": "system",
"content": "Be precise and concise in your responses."
},
{
"role": "user",
"content": "How many stars are there in our galaxy?"
}
]
}'


下面是一个如何使用Python执行相同操作的示例:

import openai
YOUR_API_KEY = "INSERT API KEY HERE"
messages = [
{
"role": "system",
"content": (
"You are an artificial intelligence assistant and you need to "
"engage in a helpful, detailed, polite conversation with a user."
),
},
{
"role": "user",
"content": (
"Count to 100, with a comma between each number and no newlines. "
"E.g., 1, 2, 3, ..."
),
},
]
# demo chat completion without streaming
response = openai.ChatCompletion.create(
model="mistral-7b-instruct",
messages=messages,
api_base="https://api.perplexity.ai",
api_key=YOUR_API_KEY,
)
print(response)
# demo chat completion with streaming
response_stream = openai.ChatCompletion.create(
model="mistral-7b-instruct",
messages=messages,
api_base="https://api.perplexity.ai",
api_key=YOUR_API_KEY,
stream=True,
)
for response in response_stream:
print(response)


有关更多信息,请访问PPLX API文档和Quickstart指南。

Cloudflare


Klu Cloudflare Workers with LlamaKlu Cloudflare Workers with Llama
要使用Cloudflare在生产中运行开源LLM,请执行以下步骤:

  • 选择一个开源LLM:为您的应用程序选择一个合适的开源LLM,如LLaMA或Falcon。
  • 使用Cloudflare Workers AI:Cloudflare Workers AI允许您在Cloudflare的全球网络上运行机器学习模型。它提供了一组精心策划的流行开源模型,涵盖了广泛的推理任务。您可以在Cloudflare面板中浏览所有可用的模型。
  • 建立一个Cloudflare Workers项目:通过运行npm Create创建一个名为Workers ai的新项目cloudflare@latest.按照安装说明配置您的项目
  • 开发您的应用程序:使用Cloudflare Workers或Pages编写应用程序代码,并使用Cloudflare Workers AI SDK集成所选LLM。例如,您可以通过运行以下代码片段来使用Llama-2模型:
import { Ai } from '@cloudflare/ai';
const ai = new Ai(env.AI);
const output = await ai.run('@cf/meta/llama-2-7b-chat-int8', {prompt: 'Tell me about Workers AI'});
  • 部署应用程序:使用Cloudflare Workers或Pages部署应用程序,确保其在Cloudflare的全球GPU网络上运行,以执行低延迟推理任务。
    记住要持续监控应用程序的性能,并根据用户反馈、延迟和成本考虑对其进行优化。

Replicate


使用Replicate在生产环境中运行开源大型语言模型(LLM)需要几个步骤。Replicate是一个平台,允许您用几行代码运行机器学习模型,而无需了解机器学习的复杂性。它提供了一个Python库,并自动为您的模型生成一个可扩展的API服务器,该服务器可以部署在大型GPU集群上。

以下是关于如何使用Replicate在生产中运行开源LLM的简明指南:

  1. 创建Replicate帐户--您需要在Replicate上创建一个帐户才能开始。这将为您提供一个API令牌,用于验证您的请求。
  2. 安装Replicate Python客户端--您可以使用pip安装Replicate Python客户端。命令是pip-install-replicate。
  3. 设置环境——安装Replicate Python客户端后,您需要设置环境。这包括导入必要的库并将Replicate API令牌设置为环境变量。
  4. 使用Cog定义模型——Replicate使用Cog来定义模型。您可以使用现成的开源模型,也可以大规模部署自己的自定义私有模型。
  5. 部署模型——一旦定义了模型,就可以使用Replicate进行部署。如果您的模型获得了大量流量,Replicate会自动扩大规模以满足需求。如果你没有任何流量,它会降到零,并且不会向你收费。
  6. 使用Replicate API-部署模型后,您可以使用Replicate API与之交互。这包括向API发送请求并处理响应。

请记住,在生产中运行LLM需要仔细考虑成本、可扩展性和性能等因素。同样重要的是要注意,虽然开源LLM可以是专有模型的经济高效的替代品,但它们可能并不总是与ChatGPT等模型的性能相匹配。因此,彻底评估您的特定需求和计划使用的LLM的功能至关重要。

 

本文地址
Tags
 
Article

微信

知识星球

微信公众号

视频号