2024年最佳开源LLM : 如何在生产中运行开源LLM |

语言 Chinese, Simplified

SEO Title

Best Open Source LLMs of 2024 : How to run Open Source LLMs in production

PPLX API

PPLX API是由困惑实验室开发的用于开源LLM的快速高效的API。它提供了易用性、快速推理和久经考验的基础设施。它支持Mistral 7B、Llama2 13B、代码Llama 34B、Llama 2 70B和replit-Code-v1.5-3b等型号。

以下是您开始使用PPLX API的方法：

生成API密钥-您可以通过困惑帐户设置页面生成API密钥。此API密钥是一个长期使用的访问令牌，在手动刷新或删除之前可以使用它。
发送API密钥-将API密钥作为承载令牌与每个PPLX API请求一起发送到授权头中。

以下是如何使用CURL提交聊天完成请求的示例：

curl -X POST \
--url https://api.perplexity.ai/chat/completions \
--header 'accept: application/json' \
--header 'content-type: application/json' \
--header "Authorization: Bearer ${PERPLEXITY_API_KEY}" \
--data '{
"model": "mistral-7b-instruct",
"stream": false,
"max_tokens": 1024,
"frequency_penalty": 1,
"temperature": 0.0,
"messages": [
{
"role": "system",
"content": "Be precise and concise in your responses."
},
{
"role": "user",
"content": "How many stars are there in our galaxy?"
}
]
}'

下面是一个如何使用Python执行相同操作的示例：

import openai
YOUR_API_KEY = "INSERT API KEY HERE"
messages = [
{
"role": "system",
"content": (
"You are an artificial intelligence assistant and you need to "
"engage in a helpful, detailed, polite conversation with a user."
),
},
{
"role": "user",
"content": (
"Count to 100, with a comma between each number and no newlines. "
"E.g., 1, 2, 3, ..."
),
},
]
# demo chat completion without streaming
response = openai.ChatCompletion.create(
model="mistral-7b-instruct",
messages=messages,
api_base="https://api.perplexity.ai",
api_key=YOUR_API_KEY,
)
print(response)
# demo chat completion with streaming
response_stream = openai.ChatCompletion.create(
model="mistral-7b-instruct",
messages=messages,
api_base="https://api.perplexity.ai",
api_key=YOUR_API_KEY,
stream=True,
)
for response in response_stream:
print(response)

有关更多信息，请访问PPLX API文档和Quickstart指南。

Cloudflare

Klu Cloudflare Workers with LlamaKlu Cloudflare Workers with Llama
要使用Cloudflare在生产中运行开源LLM，请执行以下步骤：

选择一个开源LLM：为您的应用程序选择一个合适的开源LLM，如LLaMA或Falcon。
使用Cloudflare Workers AI：Cloudflare Workers AI允许您在Cloudflare的全球网络上运行机器学习模型。它提供了一组精心策划的流行开源模型，涵盖了广泛的推理任务。您可以在Cloudflare面板中浏览所有可用的模型。
建立一个Cloudflare Workers项目：通过运行npm Create创建一个名为Workers ai的新项目cloudflare@latest.按照安装说明配置您的项目。
开发您的应用程序：使用Cloudflare Workers或Pages编写应用程序代码，并使用Cloudflare Workers AI SDK集成所选LLM。例如，您可以通过运行以下代码片段来使用Llama-2模型：

import { Ai } from '@cloudflare/ai';
const ai = new Ai(env.AI);
const output = await ai.run('@cf/meta/llama-2-7b-chat-int8', {prompt: 'Tell me about Workers AI'});

部署应用程序：使用Cloudflare Workers或Pages部署应用程序，确保其在Cloudflare的全球GPU网络上运行，以执行低延迟推理任务。
记住要持续监控应用程序的性能，并根据用户反馈、延迟和成本考虑对其进行优化。

Replicate

使用Replicate在生产环境中运行开源大型语言模型（LLM）需要几个步骤。Replicate是一个平台，允许您用几行代码运行机器学习模型，而无需了解机器学习的复杂性。它提供了一个Python库，并自动为您的模型生成一个可扩展的API服务器，该服务器可以部署在大型GPU集群上。

以下是关于如何使用Replicate在生产中运行开源LLM的简明指南：

创建Replicate帐户--您需要在Replicate上创建一个帐户才能开始。这将为您提供一个API令牌，用于验证您的请求。
安装Replicate Python客户端--您可以使用pip安装Replicate Python客户端。命令是pip-install-replicate。
设置环境——安装Replicate Python客户端后，您需要设置环境。这包括导入必要的库并将Replicate API令牌设置为环境变量。
使用Cog定义模型——Replicate使用Cog来定义模型。您可以使用现成的开源模型，也可以大规模部署自己的自定义私有模型。
部署模型——一旦定义了模型，就可以使用Replicate进行部署。如果您的模型获得了大量流量，Replicate会自动扩大规模以满足需求。如果你没有任何流量，它会降到零，并且不会向你收费。
使用Replicate API-部署模型后，您可以使用Replicate API与之交互。这包括向API发送请求并处理响应。

请记住，在生产中运行LLM需要仔细考虑成本、可扩展性和性能等因素。同样重要的是要注意，虽然开源LLM可以是专有模型的经济高效的替代品，但它们可能并不总是与ChatGPT等模型的性能相匹配。因此，彻底评估您的特定需求和计划使用的LLM的功能至关重要。

本文地址

https://architect.pub