// PAGED ATTENTION · CONTINUOUS BATCHING · OPENAI API

vLLM & High-Speed Inference

ئۇيغۇرچە قوللانما — LLM نى تېز، ئۈنۈملۈك ۋە تېجەشلىك ئىجرا قىلىش

Model نى ئىجرا قىلىشنىڭ قىممىتى پەقەت «جاۋاب چىقتى» بىلەنلا ئۆلچەنمەيدۇ. Throughput، latency، GPU memory efficiency ۋە deployment simplicity مۇ مۇھىم. vLLM بولسا PagedAttention، continuous batching ۋە OpenAI-compatible server ئارقىلىق LLM inference نى تېزلەشتۈرۈش ئۈچۈن لايىھەلەنگەن runtime.

01 — vLLM نېمە 02 — نېمىشقا تېز 03 — Server Setup 04 — Tuning 05 — Memory 06 — Benchmarks 07 — Compare 08 — Deploy
inference-dashboard
TTFT
0.7s
time to first token
TOK/S
154
per active batch
GPU MEM
21GB
KV cache + weights
QUEUE
32
continuous batching
$ vllm serve mistralai/Mistral-7B-Instruct --dtype auto --max-model-len 8192
01
vLLM دېگەن نېمە؟
What Is vLLM?
LLM inference ئۈچۈن ياسالغان تېز runtime ۋە server layer
vLLM — large language model نى GPU ئۈستىدە تېخىمۇ ئۈنۈملۈك ئىجرا قىلىش ئۈچۈن ياسالغان inference engine. ئۇنىڭ ئاساسىي نىشانى latency نى تۆۋەنلىتىش، throughput نى ئاشۇرۇش ۋە KV cache نى ئۈنۈملۈك باشقۇرۇش.
Training
model ئۆگىتىش
compute بەك قىممەت
Inference
serving time
speed + concurrency مۇھىم
vLLM
OpenAI-like API
high-throughput serving
02
نېمىشقا vLLM تېز؟
Why It Delivers High Throughput
GPU memory نى تېجەش ۋە request لارنى تىزگىنلەش ئۇنىڭ ئەڭ چوڭ كۈچى
Speed 01
PagedAttention
KV cache نى بەت-بەت باشقۇرىدۇ
Traditional contiguous allocation غا سېلىشتۇرغاندا fragmentation نى ئازايتىپ، بىر قانچە request نى بىللە ساقلاشقا قولايلاشتۇرىدۇ.
Speed 02
Continuous Batching
queue نى توختاتماي batch قىلىدۇ
Batch پۈتۈنلەي بوشاشنى كۈتمەيدۇ؛ يېڭى request كىرگەندە runtime ئۇنى ئەقلىي قوشۇپ GPU utilization نى يۇقىرى ساقلايدۇ.
Speed 03
OpenAI-Compatible Server
API layer ئاسان
بار client code نى يەنە يازمايلا vLLM server غا كۆچۈرەلەيسىز. بۇ migration cost نى تۆۋەنلىتىدۇ.
Speed 04
Sampling Efficiency
decode flow نى ياخشىلايدۇ
Speculative ۋە batching بىلەن ماسلىشىپ، active request سانى كۆپ بولغاندامۇ توغرا performance profile بېرىدۇ.
03
vLLM Server نى قانداق قوزغىتىمىز؟
Serving an OpenAI-Compatible Endpoint
ئەڭ كۆپ ئىشلىتىلىدىغان باشلىنىش قەدەملىرى
CLIserve.sh
# install
pip install vllm

# start the server
vllm serve meta-llama/Llama-3.1-8B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --dtype auto \
  --max-model-len 8192

# call it like an OpenAI endpoint
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Llama-3.1-8B-Instruct",
    "messages": [{"role": "user", "content": "RAG نى قىسقا چۈشەندۈر"}]
  }'

باشلىنىش تەۋسىيەسى

ئالدى بىلەن يەككە GPU، بىر مودېل، OpenAI-compatible endpoint بىلەن باشلاڭ. Benchmark نى كۆرۈپ ئاندىن tensor parallel، quantization ياكى autoscaling قا ئۆتۈڭ.
04
Performance Tuning نىڭ ئاچقۇچلىرى
Key Runtime Knobs
Speed نى ئاشۇرۇش ئۈچۈن «بىرلا flag» يوق؛ workload بويىچە تەڭشەش كېرەك
Optionتەسىرىقاچان ئۆزگەرتىلىدۇدىققەت
max-model-lencontext ئۇزۇنلۇقىlong context workloadmemory كۆپ كېتىدۇ
tensor-parallel-sizemulti-GPU shardمودېل بىر GPU غا سىغماساnetwork overhead بار
dtypeprecisionbf16/fp16/autohardware غا ماسلاشتۇر
gpu-memory-utilizationcache sharethroughput fine-tuneOOM خەۋپى
EXAMPLEtuning.sh
vllm serve mistralai/Mistral-7B-Instruct \
  --dtype bfloat16 \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.92 \
  --max-model-len 4096
05
GPU Memory، KV Cache ۋە Quantization
Capacity Planning for Serving
Inference bottleneck نىڭ كۆپ قىسمى model weights بىلەنلا ئەمەس، KV cache بىلەنمۇ مۇناسىۋەتلىك
Plan 01
Weights
مودېل ئېغىرلىقى
7B، 14B، 70B قاتارلىق مودېللارنىڭ ئۆزىلا GPU memory نىڭ چوڭ قىسمىنى ئىگىلەيدۇ. dtype بۇ يەردە بىۋاسىتە تەسىر قىلىدۇ.
Plan 02
KV Cache
context ئۇزۇنلۇقى بىلەن ئۆسىدۇ
Concurrent request ۋە long context كۆپ بولغاندا KV cache سىستېمىنىڭ ئەڭ چوڭ memory consumer ىغا ئايلىنىدۇ.
Plan 03
Quantization
سۈرئەت ۋە سۈپەت تەڭپۇڭلۇقى
4-bit ياكى 8-bit load cost نى تۆۋەنلىتىدۇ، ئەمما workload بويىچە quality impact نى benchmark قىلىش كېرەك.
Plan 04
Prompt Discipline
context نى زورلاپ ئۇزارتما
Long context قا سىغىدۇ دەپ ھەممە retrieved document نى تىقىۋېتىش wrong optimization. Relevant context نىلا بېرىڭ.
06
Benchmark دا نېمىنى ئۆلچەيمىز؟
Latency and Throughput Metrics
«تېز» دېگەن سۆزنى TTFT، tokens/sec ۋە queue behavior غا ئايرىپ كۆرۈش كېرەك
Metricمەنىسىنېمىگە پايدىلىقتەۋسىيە
TTFTfirst token ۋاقتىchat UXinteractive app ئۈچۈن مۇھىم
Tokens/secdecode speedlong generationreporting/app summaries
P95 Latencyئاخىرقى قانچىلىك يامانtail performancequeue effect نى كۆرسىتىدۇ
Throughputبىرلىكتە request countbatch trafficcapacity planning
JSONbenchmark_snapshot.json
{
  "model": "Llama-3.1-8B-Instruct",
  "concurrency": 16,
  "ttft_ms_p50": 690,
  "ttft_ms_p95": 1210,
  "tokens_per_second": 154.2,
  "gpu_memory_gb": 20.8,
  "notes": "8192 context, bf16, single node"
}
07
Multi-GPU ۋە Tensor Parallelism
Scaling Beyond a Single GPU
چوڭ مودېللەرنى بىر قانچە GPU غا تارقىتىش
70B+ مودېللەر بىر GPU غا سىغمايدۇ. vLLM نىڭ tensor parallelism ئىقتىدارى مودېلنى GPU لار ئارىسىدا پارچىلايدۇ. بۇ pipeline parallelism دىن پەرقلىق — batch بۆلۈنمەيدۇ، weight بۆلۈنىدۇ.
CLImulti_gpu.sh
# 2 GPU with tensor parallelism
vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --tensor-parallel-size 2 \
  --dtype bfloat16 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.90

# 4 GPU for even larger models
vllm serve mistralai/Mixtral-8x22B-Instruct-v0.1 \
  --tensor-parallel-size 4 \
  --dtype auto
TP
Tensor Parallel
Weight نى بۆلۈش
ھەر GPU مودېلنىڭ بىر قىسىم weight لىرىنى ساقلايدۇ. NVLink بولسا تېخىمۇ تېز.
PP
Pipeline Parallel
Layer نى بۆلۈش
vLLM دا experimental. ئادەتتە TP كىفايە قىلىدۇ.
NVLink
GPU Interconnect
يۇقىرى تېزلىكتىكى ئۇلىنىش
PCIe دىن 5-10x تېز. Multi-GPU setup دا NVLink بولسا latency پەرقى سىزىلارلىق.
Shard
Memory Planning
GPU Memory نى تەقسىملەش
TP=2 بولسا ھەر GPU نىڭ memory يۈكى يېرىمغا چۈشىدۇ. KV cache مۇ تارقىتىلىدۇ.

Python Client بىلەن چاقىرىش

PYTHONclient.py
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed",  # vLLM auth optional
)

response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-70B-Instruct",
    messages=[
        {"role": "system", "content": "تېخنىكا ماھىرى سىز."},
        {"role": "user", "content": "RAG نىڭ ئەۋزەللىكىنى قىسقا چۈشەندۈر."}
    ],
    max_tokens=512,
    temperature=0.7,
)

print(response.choices[0].message.content)
08
Streaming ۋە Async Requests
Real-Time Token Output
ئابونت كۈتۈپ قالماسلىقى ئۈچۈن token-by-token streaming
Chat UI ۋە API gateway لار ئادەتتە streaming تەلەپ قىلىدۇ. vLLM OpenAI-style SSE streaming نى قوللايدۇ — پۈتۈن جاۋاب تامام بولۇشنى كۈتمەي، ھەر token چىققاندا يوللىنىدۇ.
PYTHONstreaming.py
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="x")

stream = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[{"role": "user", "content": "Python دا RAG pipeline چۈشەندۈر"}],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Async بىلەن Concurrent Requests

PYTHONasync_batch.py
import asyncio
from openai import AsyncOpenAI

client = AsyncOpenAI(base_url="http://localhost:8000/v1", api_key="x")

async def ask(question: str) -> str:
    resp = await client.chat.completions.create(
        model="meta-llama/Llama-3.1-8B-Instruct",
        messages=[{"role": "user", "content": question}],
    )
    return resp.choices[0].message.content

async def main():
    questions = ["RAG نېمە؟", "LangChain نېمە؟", "vLLM نېمە؟"]
    results = await asyncio.gather(*[ask(q) for q in questions])
    for q, r in zip(questions, results):
        print(f"Q: {q}\nA: {r[:100]}...\n")

asyncio.run(main())
Tip: vLLM نىڭ continuous batching ئىقتىدارى سەۋەبىدىن بىر نەچچە concurrent request يوللىغاندا server ئۇلارنى ئاپتوماتىك batch قىلىدۇ — ئابونت تەرەپتە ئالاھىدە batch logic يېزىش زۆرۈر ئەمەس.
09
vLLM، Ollama ۋە TGI نىڭ پەرقى
Choosing a Serving Stack
بىرى «ئەڭ ياخشى» ئەمەس؛ سىزنىڭ workload قا ماس كەلگىنى ياخشى
Runtimeقەيەردە كۈچلۈكماس كىلىدىغان ئىشنۇقتا
vLLMthroughput + API compatibilityproduction serving, concurrent chathigh-traffic app
Ollamalocal simplicitydeveloper laptop, local demoseasy start
TGIHF ecosystem integrationhuggingface-centric stackops style پەرقى بار
Rule of thumb: laptop ياكى private offline demo ئۈچۈن Ollama ئاددىي. API-compatible serving ۋە concurrency ئۈچۈن vLLM كۈچلۈك. Existing Hugging Face ops stack بولسا TGI نى قاراپ بېقىڭ.
10
Deploy Checklist
From Single GPU to Real Traffic
Production غا چىقىشتىن بۇرۇن ئەڭ لازىم بولغان ئىشلار
Deploy
Warmup
مودېل load ۋاقتىنى ھېسابلا
Container start بولغاندىن كېيىن model download/load ۋاقىتى بار. Readiness probe نى شۇنىڭغا ماسلاشتۇرۇڭ.
Deploy
Request Limits
queue overflow نى باشقۇر
Concurrency ئاشقاندا timeout ۋە queue length limit بولسۇن. بولمىسا tail latency ناچارلىشىدۇ.
Deploy
Prompt Budget
input نى كونترول قىل
Token budget policy بولمىسا context inflation throughput نى يەپ كېتىدۇ.
Deploy
Observe
GPU ۋە app metrics نى بىرلەشتۈر
nvidia-smi، request latency، token metrics ۋە error rate نى بىر داشبوردتا كۆرگىلى بولسۇن.

ئەڭ قىسقا يەكۈن

High-speed inference دېگەن پەقەت GPU كۈچلۈك دېگەنلىك ئەمەس. Runtime architecture، batching behavior، memory planning ۋە client pattern نىڭ ھەممىسى بىرلىكتە performance نى بەلگىلەيدۇ.