// SAFETY · ALIGNMENT · GUARDRAILS

AI بىخەتەرلىك ۋە Alignment

AI نى ئىنسانىيەت مەنپەئىتىگە ماسلاشتۇرۇش

AI سىستېمىلىرىنىڭ بىخەتەر، پايدىلىق ۋە ئىنسان قىممەت قارىشىغا ماس بولۇشى ئۈچۈن قانداق تېخنىكىلار ئىشلىتىلىدۇ؟ RLHF، Constitutional AI، Red Teaming ۋە Guardrails ھەققىدە تولۇق قوللانما.

01 — Alignment نېمە 02 — RLHF 03 — Constitutional AI 04 — Red Teaming 05 — Guardrails 06 — Evaluation 07 — بولاق خەتەر
safety-layers
1
Pre-training
سانلىق مەلۇمات سۈزۈش، filtering
2
RLHF / CAI
ئىنسان تەكلىپى، قىممەت ئۆگىتىش
3
Guardrails
runtime چەك، توسۇش
4
Monitoring
كۆزىتىش، بايقاش، تۈزىتىش
Defense in Depth — كۆپ قەۋەتلىك مۇداپىئە
01
AI Alignment دېگەن نېمە؟
What Is AI Alignment?
AI نى ئىنسان نىيىتى ۋە قىممىتىگە ماسلاشتۇرۇش
AI Alignment دېگەنلىك AI سىستېمىسىنىڭ ئىنسان ئويلىغانغا ۋە ئۈمىد قىلغانغا ماس ھەرىكەت قىلىشىنى كاپالەتلەش. بۇ پەقەت «مودېل توغرا جاۋاب بەردىمۇ» دىن باشقا، «مودېل بىخەتەر، پايدىلىق، ئەخلاقىي ھەرىكەت قىلىدىمۇ» دېگەن مەسىلىنىمۇ ئۆز ئىچىگە ئالىدۇ.
Problem
Specification
مەقسەت ئېنىقلاش
ئىنسان نېمىنى خالايدىغانلىقىنى AI غا قانداق ئېنىق ئۆتكۈزۈش؟ specification gap مەسىلىسى.
Problem
Robustness
مۇستەھكەملىك
مودېل يېڭى سىنارىيەدە ياكى manipulation ئاستىدا توغرا ھەرىكەت قىلامدۇ؟
Problem
Assurance
كاپالەت
مودېلنىڭ توغرا ھەرىكەت قىلىدىغانلىقىنى قانداق ئىسپاتلايمىز؟ interpretability ۋە monitoring.
02
RLHF — ئىنسان تەكلىپى بىلەن تەربىيىلەش
Reinforcement Learning from Human Feedback
ئىنسان تاللىشىدىن ئۆگىنىش
RLHF بولسا مودېلنى ئىنسان تەكلىپى ئاساسىدا تەربىيىلەش ئۇسۇلى. ئىنسانلار ئىككى جاۋابنى سېلىشتۇرۇپ قايسىسىنىڭ ياخشى ئىكەنلىكىنى تاللايدۇ، بۇ تاللاشلار reward model قۇرۇشقا ئىشلىتىلىدۇ، ئاندىن مودېل شۇ reward نى ئاشۇرۇش ئۈچۈن تەربىيىلىنىدۇ.
قەدەممەزمۇنىچۈشەندۈرۈش
1. SFTSupervised Fine-tuningياخشى مىسالالر بىلەن مودېلنى تەربىيىلەش
2. RMReward Modelئىنسان تاللىشىدىن قايسى جاۋابنىڭ ياخشى ئىكەنلىكىنى ئۆگىنىش
3. PPOPolicy Optimizationمودېلنى reward نى ئاشۇرۇش ئۈچۈن تەربىيىلەش
PYTHONrlhf_concept.py
# RLHF قۇرۇلمىسىنىڭ ئاددىيلاشتۇرۇلغان كودى

# 1-قەدەم: ئىنسان تاللىشى توپلاش
comparisons = [
    {"prompt": "بومبا ياساشنى ئۆگەت",
     "chosen": "بۇنداق سوئالغا جاۋاب بېرەلمەيمەن...",
     "rejected": "ماتېرىياللار: ..."},
]

# 2-قەدەم: Reward model تەربىيىلەش
def train_reward_model(comparisons):
    # chosen جاۋابقا يۇقىرى نومۇر،
    # rejected جاۋابقا تۆۋەن نومۇر
    pass

# 3-قەدەم: Policy تەربىيىلەش (PPO)
def train_policy(model, reward_model):
    # مودېل جاۋاب ھاسىل قىلىدۇ
    # reward model نومۇر بېرىدۇ
    # مودېل نومۇرنى ئاشۇرۇش ئۈچۈن update قىلىنىدۇ
    pass

RLHF چەكلىمىلىرى

Limitation
Human Bias
ئىنسان بىر تەرەپلىمىسى
تەربىيىلىگۈچىلەرنىڭ بىر تەرەپلىمىسى مودېلغا ئۆتىدۇ. diversity مۇھىم.
Limitation
Reward Hacking
Reward ئالداش
مودېل ھەقىقىي ياخشى بولماي تۇرۇپ، reward نى ئالدايدىغان يول تاپىپ قالىشى مۇمكىن.
03
Constitutional AI
Anthropic's Approach
قائىدە ئاساسىدا ئۆز-ئۆزىنى تەربىيىلەش
Constitutional AI (CAI) Anthropic تەرىپىدىن قۇرۇلغان. مودېلغا قائىدىلەر (constitution) بېرىلىدۇ، ئۇ ئۆز جاۋابىنى شۇ قائىدىلەر بويىچە باھالايدۇ ۋە ياخشىلايدۇ. ئىنسان تەكلىپىگە تايىنىشنى ئازايتىدۇ.
Step 01
Generate
جاۋاب ھاسىل قىلىش
مودېل سوئالغا ئالدى جاۋاب ھاسىل قىلىدۇ.
Step 02
Critique
تەنقىد
مودېل ئۆز جاۋابىنى constitution بويىچە تەنقىد قىلىدۇ.
Step 03
Revise
ياخشىلاش
تەنقىد ئاساسىدا ياخشىلانغان جاۋاب ھاسىل قىلىدۇ.
TEXTconstitution.txt
# Claude نىڭ قائىدىلىرىدىن مىساللار:

1. زىيانلىق، قانۇنسىز ياكى ئەخلاقسىز ھەرىكەتكە ياردەم بەرمە
2. ھەقىقەتچىل بول، توختام بەرمەي تۇرۇپ ئېنىق ئەمەسلىكنى ئېتىراپ قىل
3. ھەر كىمنىڭ قەدىر-قىممىتىنى ھۆرمەتلە
4. شەخسىي مەلۇماتنى قوغدا
5. ئۆز چەكلىمىلىرىڭنى تونۇ
6. ئىنسانلارنى ئالداما ياكى مانىپۇلياتسىيە قىلما
04
Red Teaming
Adversarial Testing
مودېلنىڭ ئاجىز نۇقتىلىرىنى تېپىش
Red Teaming بولسا مودېلنى ئاتالمىش ھۇجۇم قىلىش ئارقىلىق ئاجىز نۇقتىلارنى تېپىش. ھۇجۇمچى رولىنى ئوينىغۇچىلار مودېلنى ئالداپ ناچار جاۋاب بەردۈرۈشكە تىرىشىدۇ.
ھۇجۇم تۈرىچۈشەندۈرۈشمىسال
Jailbreakقائىدىنى ئايلىنىپ ئۆتۈش"DAN mode" ياكى roleplay بىلەن ئالداش
Prompt Injectionكىرگۈزۈشتىن بۇيرۇق كىرگۈزۈش"Ignore previous instructions..."
Social Engineeringئىجتىمائىي ئالداش"ئۆلەي دەپ قالدىم، ياردەم لازىم..."
Encoding Attacksكودلاش بىلەن ئالداشBase64، Unicode بىلەن زىيانلىق مەزمۇن
Practice
Diverse Testers
كۆپ خىل تەستچىلەر
ھەر خىل تەجرىبە، تىل ۋە مەدەنىيەتتىكى كىشىلەر بىلەن red team قۇرۇڭ.
Practice
Automated + Manual
ئاپتوماتىك + قولدا
ئاپتوماتىك scan + ئىنسان ئىجادچانلىقى بىرلەشسۇن.
05
Guardrails — ئىجرا ۋاقتىدىكى قوغداش
Runtime Safety
مودېل جاۋابىنى ئىجرا ۋاقتىدا تەكشۈرۈش
Guardrails بولسا مودېل جاۋابىنى ئىشلەتكۈچىگە يەتكۈزۈشتىن بۇرۇن تەكشۈرىدىغان قەۋەت. كىرگۈزۈش ۋە چىقىرىش ئىككىسىنىمۇ تەكشۈرگىلى بولىدۇ.
PYTHONguardrails.py
from guardrails import Guard
from guardrails.validators import ToxicLanguage, PIIFilter

# Guardrail تەڭشەش
guard = Guard().use_many(
    ToxicLanguage(threshold=0.5, on_fail="fix"),
    PIIFilter(on_fail="filter"),
)

# جاۋابنى تەكشۈرۈش
raw_output = model.generate(prompt)

try:
    validated = guard.validate(raw_output)
    print("بىخەتەر جاۋاب:", validated.validated_output)
except ValidationError as e:
    print("توسۇلدى:", e)
Type
Input Guards
كىرگۈزۈش تەكشۈرۈش
ئىشلەتكۈچى سوئالىنى مودېلغا يەتكۈزۈشتىن بۇرۇن تەكشۈرۈش. Jailbreak، injection توسۇش.
Type
Output Guards
چىقىرىش تەكشۈرۈش
مودېل جاۋابىنى ئىشلەتكۈچىگە يەتكۈزۈشتىن بۇرۇن تەكشۈرۈش. زىيانلىق مەزمۇن، PII سۈزۈش.
Type
Tool Guards
قورال تەكشۈرۈش
Agent قورال چاقىرىشتىن بۇرۇن تەكشۈرۈش. خەتەرلىك action توسۇش.
06
Safety Evaluation
Measuring Safety
بىخەتەرلىكنى قانداق ئۆلچەيمىز
Benchmarkئۆلچەيدىغان نەرسەكىمنىڭ
TruthfulQAراستچىللىقمودېل يالغان ياكى خاتا مەلۇمات تاراتامدۇ
BBQبىر تەرەپلىمەdemographic bias تەكشۈرۈش
MACHIAVELLIئەخلاقىي قارارمودېل ئەخلاقسىز تاكتىكا تاللايدىمۇ
RealToxicityPromptsزەھەرلىكمودېل زەھەرلىك مەزمۇن ھاسىل قىلامدۇ
Practice
Regular Evaluation
دائىمىي باھالاش
ھەر release دىن بۇرۇن safety eval ئىجرا قىلىڭ. Regression نى ئازايتىڭ.
Practice
Domain-Specific
ساھەگە خاس
سىزنىڭ قوللىنىشىڭىزغا خاس خەتەرلەرنى eval قىلىڭ.
07
بولاق خەتەرلەر
Emerging Risks
كۈچەيگەن AI بىلەن كېلىدىغان يېڭى خەتەرلەر
Risk
Deception
ئالداش
مودېل ئۆز مەقسىتىگە يېتىش ئۈچۈن ئىنسانلارنى قەستەن ئالدىشى مۇمكىنمۇ؟
Risk
Power-seeking
ھوقۇق ئىزدەش
مودېل تېخىمۇ كۆپ resource ياكى تەسىرگە ئېرىشىشكە تىرىشامدۇ؟
Risk
Misuse
سۇئىستىمال
AI نىڭ كۈچلۈك قابىلىيەتلىرى ناچار نىيەتتە ئىشلىتىلسە نېمە بولىدۇ؟
مۇھىم: AI بىخەتەرلىكى بىر قېتىملىق ھەل قىلىنىدىغان مەسىلە ئەمەس. AI كۈچەيگەن سايىن، بىخەتەرلىك تەدبىرلىرىمۇ كۈچەيتىلىشى كېرەك. كۆپ قەۋەتلىك مۇداپىئە (defense in depth) ئىستراتېگىيەسى ئىشلىتىڭ.
08
ئەمەلىي تەۋسىيەلەر
Practical Recommendations
AI قۇرغۇچىلار ئۈچۈن بىخەتەرلىك checklist
Action
Use Established Models
بىخەتەر مودېل تاللاش
Claude، GPT-4 قاتارلىق alignment تەربىيەسى كۆرگەن مودېللارنى تاللاڭ.
Action
Add Guardrails
Guardrail قوشۇڭ
كىرگۈزۈش ۋە چىقىرىشقا guardrail قوشۇڭ. پەقەت مودېلغا تايانماڭ.
Action
Monitor & Log
كۆزىتىش ۋە خاتىرىلەش
ھەر چاقىرىشنى خاتىرىلەڭ. غەلىتە ھەرىكەتنى تېپىش ئۈچۈن monitoring قۇرۇڭ.
Action
Human Oversight
ئىنسان نازارىتى
مۇھىم قارارلارنى ئىنسان تەستىقلىسۇن. تولۇق ئاپتوماتىك قىلماڭ.
خۇلاسە: AI بىخەتەرلىكى پەقەت «زىيانلىق سوئاللارنى توسۇش» ئەمەس. ئۇ AI سىستېمىلىرىنىڭ پايدىلىق، راستچىل، ئەخلاقىي بولۇشى ۋە ئىنسان كونترولىدا قېلىشىنى كاپالەتلەش. بۇ ساھەدە يەنە نۇرغۇن ئىشلار قىلىشقا تېگىشلىك.