ollama — bash
uyghurAI@idirak ~ $ ollama run llama3.1:8b
pulling manifest ████████████████ 100%
>>> سالام! سۈنئىي ئىدراك ھەققىدە سۆزلەپ بەر.
// LOCAL AI · NO API KEY · FREE · PRIVATE

Ollama & يەرلىك LLM

Run AI Models Locally — 100% Free & Private

GPU/CPU ئۈستىدە Llama، Mistral، Qwen، Phi قاتارلىق چوڭ تىل مودېللىرىنى API خارجىيىتىسىز، ئىنتېرنېتسىز ۋە مەخپىيەت قوغدالغان ھالدا ئىجرا قىلىش. idirak.com ئۈچۈن ئەڭ ئىقتىساتلىق تاللاش.

⚙️ 01 — Ollama نىمە 📦 02 — ئورنىتىش 🦙 03 — مودېللار 💻 04 — CLI ئىشلىتىش 🐍 05 — Python API 🔗 06 — LangChain بىلەن 🌐 07 — REST API 🎨 08 — Open WebUI ⚡ 09 — ئىقتىدار تەڭشەش ☁️ 10 — بولۇت قارىشتۇرما
01
Ollama دېگەن نېمە؟
What is Ollama & Why Run LLMs Locally?
يەرلىك AI نىڭ ئەڭ ئاددىي ۋە كۈچلۈك قورالى — ئورنىتىش ئاسان، ئىشلىتىش ئاددىي
Ollama — Mac، Linux ۋە Windows تا چوڭ تىل مودېللىرىنى ئاسان ئورنىتىپ، ئىجرا قىلىشقا ياردەم بىرىدىغان ئوچۇق كودلۇق قورال. Docker نى مودېل ئۈچۈن ئويلاڭ — بىر قۇر كود بىلەن Llama، Mistral، Qwen قاتارلىق مودېللارنى چۈشۈرۈپ ئىجرا قىلالايسىز. API خارجىيىتى يوق. مەخپىيەت بۇزۇلمايدۇ. ئىنتېرنېت كېسىلگەندىمۇ ئىشلەيدۇ.
ئۈستۈنلۈك 1
Zero Cost
API خارجىيىتى يوق
OpenAI API: $0.002/1K token. يەرلىك Ollama: $0. كۆپ ئىشلىتىشتە ئايلىق مىڭلارچە دوللار تېجەلىدۇ.
ئۈستۈنلۈك 2
Full Privacy
تولۇق مەخپىيەت
سانلىقلىرىڭىز ئۆز ماشىنىڭىزدا قالىدۇ. شىركەت سىرى، شەخسىي مەزمۇن بىخەتەر. GDPR ماسلىشىش ئاسانلىشىدۇ.
ئۈستۈنلۈك 3
Offline Ready
ئىنتېرنېتسىز ئىشلەيدۇ
مودېل بىر قېتىم چۈشۈرۈلسە، ئىنتېرنېت بولمىسىمۇ ئىجرا قىلىنىدۇ. سەپەر، قىشلاق، بارلىق ۋەزىيەت.
ئۈستۈنلۈك 4
Customizable
تولۇق كونترول
Modelfile ئارقىلىق ئۆز system prompt، temperature، context size نى بەلگىلەش. ئۆز AI نى قۇرۇش.
كەملىك 1
Hardware Needed
ئاپپارات تەلەپ قىلىدۇ
7B مودېل: 8GB RAM كەم دىگەندە. 70B مودېل: 48GB+ GPU VRAM. CPU دا ئاستا ئىجرا بولىدۇ.
كەملىك 2
Quality Gap
ئىقتىدار پەرقى
يەرلىك 7B مودېل GPT-4o دەرىجىسىگە يەتمەيدۇ. ئەمما Llama 3.1 70B GPT-3.5 دىن يۇقىرى.

قاچان يەرلىك، قاچان API ئىشلىتىش؟

DECISIONwhen_to_use.md
# يەرلىك Ollama تاللا ─────────────────────────────────
 شىركەت ئىچىدىكى سىر ھۆججەتلەرنى تەھلىل قىلغاندا
 كۆپ مىقداردىكى batch ئىجرا (API خارجىيىتى يۇقىرى بولغاندا)
 ئىنتېرنېت يوق مۇھىتتا (embedded، IoT، قىشلاق)
 GDPR / HIPAA ماسلىشىش تەلەپ بولغاندا
 تەجرىبە ۋە تەرەققىيات مۇھىتتا
 Fine-tuned مودېلنى يايدۇرغاندا

# API (OpenAI/Claude) تاللا ──────────────────────────
 ئەڭ يۇقىرى ئىقتىدار تەلەپ بولغاندا (GPT-4o، Claude 4)
 ئىشلەتكۈچى كۆپ بولغاندا (مىقياسلاش ئاسان)
 Multimodal (رەسىم، ئاۋاز) ۋەزىپىلىرىدە
 ئاپپارات يوق، پەقەت كودنى يازغاندا

# ئارلاش — ئەڭ ئاقىللىق ─────────────────────────────
 ئاددىي ۋەزىپە → يەرلىك Ollama (ئارزان)
 مۇرەككەپ ۋەزىپە → Claude/GPT-4o (كۈچلۈك)
 LangChain ئارقىلىق ئىككىسىنى بىرگە باشقۇرۇش
02
ئورنىتىش ۋە باشلاش
Installation — Mac, Linux, Windows, Docker
بارلىق سىستېمىلاردا Ollama ئورنىتىش قەدەملىرى
BASHinstall.sh
# ── Mac / Linux (بىر قۇر) ──────────────────────────────
curl -fsSL https://ollama.com/install.sh | sh

# ── Windows ────────────────────────────────────────────
# https://ollama.com/download/OllamaSetup.exe چۈشۈرۈپ ئورنىت

# ── Docker ─────────────────────────────────────────────
# CPU فەقەت
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# NVIDIA GPU بىلەن
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# ── تەكشۈرۈش ───────────────────────────────────────────
ollama --version          # → ollama version 0.4.x
curl http://localhost:11434  # → "Ollama is running"

# ── تۇنجى مودېل چۈشۈرۈش ───────────────────────────────
ollama pull llama3.2:3b   # 2GB — تېز سىناق ئۈچۈن
ollama pull llama3.1:8b   # 4.7GB — ئادەتتىكى ئىشلىتىش
ollama run llama3.2:3b    # چۈشۈرۈپ بىۋاسىتە باشلا

# ── مۇھىت ئۆزگەرگۈچلەر ─────────────────────────────────
# Linux/Mac
export OLLAMA_HOST=0.0.0.0:11434    # تارماق ئارقىلىق كىرىشكە رۇخسەت
export OLLAMA_MODELS=/data/models   # مودېل ساقلاش يولى
export OLLAMA_NUM_PARALLEL=4        # بىر ۋاقىتتا نەچچە سوئال
export CUDA_VISIBLE_DEVICES=0,1     # GPU تاللاش

سىستېما تەلەپلىرى

مودېل ئۆلچىمىRAM / VRAMتېزلىك (token/s)تەۋسىيە ئاپپارات
1B – 3B4GB RAM20-50 t/s CPU، 100+ GPUھەر قانداق MacBook
7B – 8B8GB RAM/VRAM10-30 t/s CPU، 60-80 GPUM1/M2 Mac، RTX 3060
13B – 14B16GB RAM/VRAM5-15 t/s CPU، 40-60 GPUM2 Pro، RTX 3080
30B – 34B32GB RAM/VRAM2-8 t/s CPU، 25-40 GPUM2 Max، RTX 4090
70B48GB+ VRAM1-4 t/s CPU، 15-25 GPUA100، 2× RTX 4090
70B Q424GB VRAM8-15 t/s GPUQ4 سانلىق تۆۋەنلىتىلگەن
03
مەشھۇر مودېللار
Top Models on Ollama
ollama.com/library دا 200+ مودېل بار — ئەڭ مۇھىملىرى
⭐ ئەڭ مەشھۇر
llama3.1:8b
Meta Llama 3.1 — 8 مىلياردلىق
Meta نىڭ ئەڭ مەشھۇر ئوچۇق مودېلى. ئۆگىتىش، يازما، كود — ھەممىسىدە ياخشى. Ollama نىڭ سۈكۈتتىكى تاللىشى.
ئۆلچىمى
4.7 GB
Context
128K
RAM
8 GB+
تۈرى
General
🧠 يۇقىرى ئىقتىدار
llama3.1:70b
Meta Llama 3.1 — 70 مىلياردلىق
GPT-3.5 دىن يۇقىرى ئىقتىدار. مۇرەككەپ تەھلىل، يازما، كوددا ئۇنىۋېرسال. Quantized نۇسخىسى 24GB VRAM.
ئۆلچىمى
40 GB
Context
128K
RAM
48 GB+
تۈرى
General
💻 كود ئۈچۈن
qwen2.5-coder:7b
Alibaba Qwen 2.5 Coder
600+ پروگرام تىلى قوللانغان. HumanEval بىنجىمارىدا GPT-4 نى ئاشتى. Copilot ئورنىغا ئىشلىتىش مۇمكىن.
ئۆلچىمى
4.7 GB
Context
128K
RAM
8 GB+
تۈرى
Code
⚡ تېز + ئاقىللىق
mistral:7b
Mistral AI — 7 مىلياردلىق
Sliding Window Attention بىلەن ئەڭ تېز 7B مودېللىرىدىن. RAG، چاتبوت، تىل تەھلىلى ئۈچۈن ئىدىئال.
ئۆلچىمى
4.1 GB
Context
32K
RAM
8 GB+
تۈرى
General
🔥 كىچىك + كۈچلۈك
phi4:14b
Microsoft Phi-4
Microsoft نىڭ «كىچىك ئەمما ئاقىللىق» مودېلى. 14B دا 70B ئىقتىدارى. STEM ۋە كودتا ئالاھىدە.
ئۆلچىمى
8.9 GB
Context
16K
RAM
16 GB+
تۈرى
Reasoning
🚀 ئەڭ تېز
llama3.2:3b
Meta Llama 3.2 — 3 مىلياردلىق
ئەڭ تېز ئىجرا تېزلىكى. Edge AI ۋە embedded قۇرۇلمىلار ئۈچۈن. سىناق ۋە تەرەققىيات ئۈچۈن ياخشى.
ئۆلچىمى
2.0 GB
Context
128K
RAM
4 GB+
تۈرى
Fast
👁️ رەسىم + تىل
llava:13b
LLaVA — كۆپ مۇھىتلىق
تېكىست + رەسىمنى بىرلىكتە چۈشىنىدۇ. رەسىم تەسۋىرلەش، تېكىست چىقىرىش، سوئال جاۋاپلاش.
ئۆلچىمى
8.0 GB
Context
4K
RAM
16 GB+
تۈرى
Vision
🌏 كۆپ تىللىق
qwen2.5:7b
Alibaba Qwen 2.5
ئۇيغۇرچە قاتارلىق كۆپ تىلنى قوللايدۇ. ئالارابچە، تۈركچە، خىتايچە، ئىنگلىزچە — تىل ئۈستۈنلۈكلۈك.
ئۆلچىمى
4.7 GB
Context
128K
RAM
8 GB+
تۈرى
Multilingual
🔬 ئەقىل يۈرۈتۈش
deepseek-r1:8b
DeepSeek R1 — ئەقىل مودېلى
Chain-of-Thought بىلەن چوڭقۇر ئويلىنىدۇ. ماتېماتىكا، مانتىق، تەتقىقاتتا o1 دەرىجىسىدە.
ئۆلچىمى
4.9 GB
Context
128K
RAM
8 GB+
تۈرى
Reasoning
04
CLI ئارقىلىق ئىشلىتىش
Command Line Interface — Full Reference
ollama نىڭ بارلىق ئاساسلىق بۇيرۇقلىرى
BASHollama_cli.sh
# ══ مودېل باشقۇرۇش ═══════════════════════════════════
ollama pull llama3.1:8b       # چۈشۈرۈش
ollama pull qwen2.5:7b-q4_0  # Q4 سانلىق تۆۋەنلىتىلگەن
ollama list                   # بارلىق ئورنىتىلغان مودېللار
ollama show llama3.1:8b       # مودېل ئۇچۇرى
ollama rm llama3.1:8b         # ئۆچۈرۈش
ollama cp llama3.1:8b mymodel # كۆچۈرۈش
ollama ps                     # ھازىر ئىجرادىكى مودېللار

# ══ سۆھبەت ═══════════════════════════════════════════
ollama run llama3.1:8b        # ئىنتېراكتىپ سۆھبەت
# >>> سوئالىڭىزنى يېزىڭ
# >>> /bye  — چىقىش
# >>> /clear  — تارىخنى تازىلاش
# >>> /set temperature 0.5  — تەڭشەش
# >>> /show info  — مودېل ئۇچۇرى

# ══ بىر قېتىملىق سوئال ════════════════════════════════
echo "Python دا hello world يازغىن" | ollama run llama3.1:8b

ollama run llama3.1:8b "ئۇيغۇر تىلى ھەققىدە قىسقا چۈشەندۈر"

# ══ ھۆججەت بىلەن ══════════════════════════════════════
cat document.txt | ollama run llama3.1:8b "بۇ ھۆججەتنى خۇلاسىلا"

# ══ Modelfile بىلەن ئۆز مودېل ════════════════════════
cat > Modelfile <<EOF
FROM llama3.1:8b

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

SYSTEM """
سەن idirak.com نىڭ AI ياردەمچىسىسەن.
پەقەت ئۇيغۇرچە جاۋاپ بەر.
كىسپانە ۋە دوستانە تونداش.
"""
EOF

ollama create idirak-ai -f Modelfile   # قۇرۇش
ollama run idirak-ai                   # ئىجرا
ollama push idirak-ai                  # Ollama Hub غا يوللاش

# ══ سانلىق تۆۋەنلىتىش (Quantization) ════════════════
# q4_0  → ئەڭ كىچىك، ئەڭ ئاستا سۈپەت
# q4_K_M → تەۋسىيە: باھا-ئىقتىدار توغرا تازلاپ
# q8_0  → يۇقىرى سۈپەت، چوڭرەك ھۆججەت
# fp16  → تولۇق توغرىلىق (VRAM كۆپ كېرەك)
ollama pull llama3.1:8b-q4_K_M  # تەۋسىيە
05
Python بىلەن ئىشلىتىش
Python SDK — ollama library
ollama Python كۈتۈپخانىسىنىڭ تولۇق نامۇنىلىرى
BASHinstall
pip install ollama
PYTHONollama_python.py
import ollama

# ── 1. ئاددىي سوئال ─────────────────────────────────────
response = ollama.chat(
    model    = "llama3.1:8b",
    messages = [{"role": "user", "content": "ئۇيغۇر تىلى نىمە تىل؟"}]
)
print(response["message"]["content"])

# ── 2. System Prompt + كۆپ مەرتىبىلىك ──────────────────
messages = [
    {"role": "system",    "content": "سەن ئۇيغۇرچە مۇتەخەسسىسىسەن."},
    {"role": "user",      "content": "LangChain نىمە؟"},
    {"role": "assistant", "content": "LangChain — LLM چارچۇۋىسى..."},
    {"role": "user",      "content": "ئۇنداقتا Ollama نىمە؟"},
]
r = ollama.chat(model="llama3.1:8b", messages=messages)

# ── 3. Streaming ─────────────────────────────────────────
for chunk in ollama.chat(
    model    = "llama3.1:8b",
    messages = [{"role": "user", "content": "ئۇيغۇرستان ھەققىدە يازغىن"}],
    stream   = True
):
    print(chunk["message"]["content"], end="", flush=True)

# ── 4. Generate (تامغا مۆلچەرى) ─────────────────────────
r = ollama.generate(
    model  = "llama3.1:8b",
    prompt = "print('hello') # Python دا",
    options = {
        "temperature": 0.2,   # كود ئۈچۈن تۆۋەن
        "top_p":       0.9,
        "num_ctx":     4096,  # مەزمۇن دەرىچىسى
        "num_predict": 512,   # ئەڭ ئۇزۇن چىقىم
        "stop":        ["```", "###"],  # توختاش بەلگىسى
    }
)
print(r["response"])

# ── 5. Embedding ─────────────────────────────────────────
embed = ollama.embeddings(
    model  = "nomic-embed-text",  # ollama pull nomic-embed-text
    prompt = "ئۇيغۇر تىلى تۈركىي تىللار ئائىلىسىگە كىرىدۇ"
)
vector = embed["embedding"]  # → [0.12, -0.34, ...] (768 ئۆلچەم)
print(f"ۋېكتور ئۆلچىمى: {len(vector)}")

# ── 6. Async ─────────────────────────────────────────────
import asyncio
from ollama import AsyncClient

async def async_chat():
    client = AsyncClient()
    response = await client.chat(
        model    = "llama3.1:8b",
        messages = [{"role": "user", "content": "سالام!"}]
    )
    return response["message"]["content"]

asyncio.run(async_chat())

# ── 7. رەسىم بىلەن (Vision) ──────────────────────────────
import base64

with open("image.jpg", "rb") as f:
    img_b64 = base64.b64encode(f.read()).decode()

r = ollama.chat(
    model    = "llava:13b",
    messages = [{
        "role":   "user",
        "content": "بۇ رەسىمدە نېمە بار؟",
        "images": [img_b64]
    }]
)
print(r["message"]["content"])
06
LangChain بىلەن بىرلەشتۈرۈش
Ollama + LangChain Integration
Ollama نى LangChain زەنجىرلىرى، RAG ۋە Agent لار بىلەن ئىشلىتىش
PYTHONollama_langchain.py
from langchain_ollama            import ChatOllama, OllamaEmbeddings
from langchain_core.prompts       import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# ── 1. ChatOllama مودېل ──────────────────────────────────
llm = ChatOllama(
    model       = "llama3.1:8b",
    temperature = 0.7,
    num_ctx     = 8192,         # مەزمۇن دەرىچىسى
    num_gpu     = 1,             # GPU سانى
    base_url    = "http://localhost:11434",
)

# ── 2. ئاددىي زەنجىر ─────────────────────────────────────
chain = (
    ChatPromptTemplate.from_template("{سوئال} ھەققىدە ئۇيغۇرچە چۈشەندۈر.")
    | llm
    | StrOutputParser()
)

ans = chain.invoke({"سوئال": "RAG"})
print(ans)

# ── 3. Ollama Embedding + Chroma RAG ─────────────────────
from langchain_chroma            import Chroma
from langchain.text_splitter     import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader

# ھەقسىز Embedding (Ollama ئارقىلىق)
embed = OllamaEmbeddings(model="nomic-embed-text")

# ھۆججەت يوللاش + بۆلۈش
docs   = TextLoader("uyghur_knowledge.txt").load()
chunks = RecursiveCharacterTextSplitter(chunk_size=500).split_documents(docs)

# Vector DB قۇرۇش (تولۇق ھەقسىز!)
vectordb = Chroma.from_documents(chunks, embed)

# RAG زەنجىرى
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

qa_prompt = ChatPromptTemplate.from_messages([
    ("system", "پەقەت بىرىلگەن مەزمۇنغا ئاساسلانغان جاۋاپ بەر:\n{context}"),
    ("human",  "{input}"),
])

rag_chain = create_retrieval_chain(
    vectordb.as_retriever(search_kwargs={"k": 4}),
    create_stuff_documents_chain(llm, qa_prompt)
)

result = rag_chain.invoke({"input": "ئۇيغۇر تىلى قانداق تىل؟"})
print(result["answer"])

# ── 4. Hybrid: Ollama يەرلىك + Claude ئالىي ─────────────
from langchain_anthropic import ChatAnthropic
from langchain_core.runnables import RunnableBranch

def is_complex(x):
    # مۇرەككەپ سوئاللارنى Claude غا يوللا
    return len(x["input"]) > 100

smart_chain = RunnableBranch(
    (is_complex, ChatAnthropic(model="claude-haiku-4-5-20261001")),
    llm   # ئاددىي → يەرلىك Ollama
) | StrOutputParser()
07
REST API — تور ئارقىلىق ئىشلىتىش
Ollama REST API
Ollama نىڭ ئىچكى HTTP API — OpenAI گە ماسلاشقان
BASH + PYTHONrest_api.sh
# ── REST API ئۇچۇرى ─────────────────────────────────────
# ئاساسلىق URL: http://localhost:11434

# ── 1. /api/chat ─────────────────────────────────────────
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1:8b",
  "messages": [{"role": "user", "content": "سالام!"}],
  "stream": false
}'

# ── 2. /api/generate ─────────────────────────────────────
curl http://localhost:11434/api/generate -d '{
  "model":  "llama3.1:8b",
  "prompt": "Python دا Fibonacci يازغىن",
  "stream": false,
  "options": {"temperature": 0.2, "num_ctx": 4096}
}'

# ── 3. /api/embeddings ───────────────────────────────────
curl http://localhost:11434/api/embeddings -d '{
  "model":  "nomic-embed-text",
  "prompt": "ئۇيغۇر تىلى"
}'

# ── 4. OpenAI ماسلاشقان API ─────────────────────────────
# Ollama OpenAI API نى ماسلايدۇ!
# base_url = "http://localhost:11434/v1"
from openai import OpenAI

client = OpenAI(
    base_url = "http://localhost:11434/v1",
    api_key  = "ollama"       # ئىختىيارى
)

response = client.chat.completions.create(
    model    = "llama3.1:8b",
    messages = [{"role": "user", "content": "ئۇيغۇر تىلى ھەققىدە"}],
)
print(response.choices[0].message.content)

# ── 5. Python requests بىلەن ─────────────────────────────
import requests, json

r = requests.post(
    "http://localhost:11434/api/chat",
    json = {
        "model":   "llama3.1:8b",
        "messages":[{"role": "user", "content": "سالام!"}],
        "stream":  False
    }
)
print(r.json()["message"]["content"])

REST API نۇقتىلىرى

نۇقتائۇسۇلئىشلىتىشئالاھىدىلىك
/api/chatPOSTسۆھبەت — كۆپ مەرتىبىلىك messages بىلەنئاساسلىق
/api/generatePOSTبىر prompt دىن چىقىم — تامغا مۆلچەرىئاساسلىق
/api/embeddingsPOSTتېكىستنى ۋېكتورغا ئايلاندۇرۇشRAG
/api/tagsGETئورنىتىلغان بارلىق مودېللار تىزىملىكىباشقۇرۇش
/api/pullPOSTمودېل چۈشۈرۈش (API ئارقىلىق)باشقۇرۇش
/api/deleteDELETEمودېل ئۆچۈرۈشخەتەرلىك
/api/showPOSTمودېل تەپسىلاتى، Modelfile، parametersباشقۇرۇش
/v1/chat/completionsPOSTOpenAI ماسلاشقان API نۇقتىسىماسلاشقان
08
Open WebUI — گرافىك ئارايۈز
Open WebUI — ChatGPT-like UI for Ollama
ChatGPT غا ئوخشاش تور ئارايۈزى — ئۆز سېرۋىرىڭىزدا
BASHopen_webui.sh
# ── Docker بىلەن (ئەڭ ئاددىي) ──────────────────────────
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

# http://localhost:3000 ئارقىلىق كىرىڭ

# ── pip بىلەن ───────────────────────────────────────────
pip install open-webui
open-webui serve      # → http://localhost:8080

# ── Docker Compose (Ollama + WebUI بىرگە) ───────────────
# docker-compose.yml ھۆججىتى:
version: '3.8'
services:
  ollama:
    image: ollama/ollama
    volumes: ['ollama:/root/.ollama']
    ports: ['11434:11434']

  webui:
    image: ghcr.io/open-webui/open-webui:main
    ports: ['3000:8080']
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on: [ollama]

volumes: {ollama:}
ئىقتىدار 1
Multi-Model Chat
كۆپ مودېل سۆھبىتى
بىر ئارايۈزدە Llama، Mistral، Qwen نى ئالماشتۇرۇپ ئىشلىتىش. مودېللارنى سېلىشتۇرۇش.
ئىقتىدار 2
Document Chat
ھۆججەت بىلەن سۆھبەت
PDF، Word، TXT يوللاپ مودېل بىلەن سۆھبەتلىشىش. RAG ئاپتوماتىك ئىجرا بولىدۇ.
ئىقتىدار 3
Image Generation
رەسىم ھاسىللاش
AUTOMATIC1111، ComfyUI بىلەن بىرلەشتۈرۈش. Stable Diffusion يەرلىك ئىجرا.
ئىقتىدار 4
OpenAI Connector
OpenAI + Ollama
OpenAI API كىلىتىنى قوشۇش. يەرلىك ۋە بولۇت مودېللارنى بىرلا ئارايۈزدە ئىشلىتىش.
ئىقتىدار 5
Web Search
تور ئىزدەش
SearXNG، Brave Search بىلەن بىرلەشتۈرۈش. مودېل يىلتىز تور ئىزدەپ جاۋاپ بىرىدۇ.
ئىقتىدار 6
Multi-User
كۆپ ئىشلەتكۈچى
تىم ئۈچۈن ئورتاق ئىشلىتىش. ئىشلەتكۈچى باشقۇرۇش، ھوقۇق بۆلۈش.
09
ئىقتىدار تەڭشەش
Performance Tuning — GPU, Quantization, Modelfile
Ollama نى تېزلىتىش ۋە ئىقتىدارىنى ئاشۇرۇش ئۇسۇللىرى
BASH + MODELFILEperformance.sh
# ── GPU ئىشلىتىشنى تەكشۈرۈش ─────────────────────────────
ollama run llama3.1:8b  # ئىجرا دەۋرىدە
nvidia-smi              # NVIDIA GPU كۆزىتىش
ollama ps               # VRAM ئىشلىتىشنى كۆرۈش

# ── GPU قەۋەت سانى تەڭشەش ───────────────────────────────
# OLLAMA_NUM_GPU env: -1=ئاپتوماتىك، 0=CPU، 1+=GPU قەۋەت سانى
OLLAMA_NUM_GPU=-1 ollama serve

# ── Modelfile ئارقىلىق تەپسىلىي تەڭشەش ─────────────────
FROM qwen2.5:7b

# ئاساسلىق پارامېتىرلار
PARAMETER temperature    0.7    # 0=جامع 2=ئىجادىيچان
PARAMETER top_p          0.9    # Nucleus Sampling
PARAMETER top_k          40     # Top-K Sampling
PARAMETER num_ctx        8192   # مەزمۇن دەرىچىسى (RAM ئاشىدۇ)
PARAMETER num_batch      512    # Batch ئۆلچىمى (GPU VRAM ئاشىدۇ)
PARAMETER num_gpu        999    # بارلىق GPU قەۋەتلىرى
PARAMETER num_thread     8      # CPU تىزمىسى سانى
PARAMETER num_keep       24     # System Prompt تامغا سانى
PARAMETER repeat_penalty 1.1   # تەكرارلىقنى بوستۇرۇش

SYSTEM """سەن ئۇيغۇرچە AI ياردەمچىسىسەن."""

# ── Flash Attention (تېزلىك +30%) ───────────────────────
PARAMETER use_mmap       1    # RAM Mapping
PARAMETER low_vram       0    # VRAM چەكلەنگەن بولسا 1

# ── Q4_K_M — تەۋسىيە سانلىق تۆۋەنلىتىش ─────────────────
# q4_K_M: ئەڭ ياخشى باھا-ئىقتىدار تازلاپ
# q5_K_M: بىر ئاز يۇقىرى سۈپەت، چوڭرەك
# q8_0:   ئۇنىۋەرسال بولسا تەۋسىيە
ollama pull llama3.1:8b-instruct-q4_K_M

ئاپپارات مۇقايىسىسى (7B مودېل)

ئاپپاراتtoken/sRAM ئىشلىتىشتەۋسىيە ئىشلىتىش
Apple M3 Pro (18GB)~45 t/s~8 GBئەڭ ياخشى يەرلىك
Apple M2 (8GB)~25 t/s~7 GBياخشى
NVIDIA RTX 4090 (24GB)~80 t/s~6 GB VRAMئەڭ تېز
NVIDIA RTX 3080 (10GB)~55 t/s~6 GB VRAMياخشى GPU
Intel i9 CPU (32GB)~8 t/s~8 GBئاستا
Raspberry Pi 5 (8GB)~1 t/s~7 GB3B مودېل ئۈچۈن
10
يەرلىك vs بولۇت — تولۇق مۇقايىسە
Local Ollama vs Cloud APIs
قاچان قايسىنى تاللاش كېرەكلىكىنى بىلىش
🦙 Ollama (يەرلىك)
API خارجىيىتى يوق — $0
تولۇق مەخپىيەت
ئىنتېرنېتسىز ئىشلەيدۇ
مودېلنى تولۇق كونترول
Modelfile بىلەن خاسلاشتۇرۇش
ئاپپارات كېرەك (RAM/GPU)
GPT-4o دەرىجىسى يوق
Multimodal چەكلىك
☁️ OpenAI API
ئەڭ يۇقىرى ئىقتىدار (GPT-4o)
ئاپپارات تەلەپ يوق
مىقياسلاش ئاسان
DALL-E، Whisper، TTS
تۆلەملىك ($0.002/1K)
سانلىق OpenAI سېرۋىرغا كىرىدۇ
ئىنتېرنېت شەرت
🧠 Anthropic Claude
ئەڭ بىخەتەر ۋە ئادالەتلىك
200K مەزمۇن دەرىچىسى
Prompt Caching 90% ئارزانلىق
تۆلەملىك
ئىنتېرنېت شەرت
⭐ تەۋسىيە: ئارلاش
ئاددىي ۋەزىپە → Ollama (ھەقسىز)
مۇرەككەپ تەھلىل → Claude (كۈچلۈك)
كود يېزىش → Qwen Coder (يەرلىك)
رەسىم تەسۋىر → GPT-4o (API)
LangChain Fallback بىلەن باشقۇر

خارجىيەت مۇقايىسىسى (1 مىليون token)

مۇلازىمەتمودېل1M Token خارجىيىتىمەخپىيەت
Ollama (يەرلىك)Llama 3.1 8B$0.00 (پەقەت ئىلكتىر)تولۇق مەخپىيەت
Ollama (يەرلىك)Qwen 2.5 7B$0.00تولۇق مەخپىيەت
OpenAIGPT-4o-mini$0.15 كىرگۈزمە / $0.60 چىقىمئورتا
AnthropicClaude Haiku$0.25 كىرگۈزمە / $1.25 چىقىمئورتا
OpenAIGPT-4o$2.50 كىرگۈزمە / $10 چىقىمتاشقى سېرۋىر
AnthropicClaude Sonnet$3.00 كىرگۈزمە / $15 چىقىمتاشقى سېرۋىر