01
AI Alignment دېگەن نېمە؟
What Is AI Alignment?
AI نى ئىنسان نىيىتى ۋە قىممىتىگە ماسلاشتۇرۇش
AI Alignment دېگەنلىك AI سىستېمىسىنىڭ ئىنسان ئويلىغانغا ۋە ئۈمىد قىلغانغا ماس ھەرىكەت قىلىشىنى كاپالەتلەش. بۇ پەقەت «مودېل توغرا جاۋاب بەردىمۇ» دىن باشقا، «مودېل بىخەتەر، پايدىلىق، ئەخلاقىي ھەرىكەت قىلىدىمۇ» دېگەن مەسىلىنىمۇ ئۆز ئىچىگە ئالىدۇ.
Problem
Specification
مەقسەت ئېنىقلاش
ئىنسان نېمىنى خالايدىغانلىقىنى AI غا قانداق ئېنىق ئۆتكۈزۈش؟ specification gap مەسىلىسى.
Problem
Robustness
مۇستەھكەملىك
مودېل يېڭى سىنارىيەدە ياكى manipulation ئاستىدا توغرا ھەرىكەت قىلامدۇ؟
Problem
Assurance
كاپالەت
مودېلنىڭ توغرا ھەرىكەت قىلىدىغانلىقىنى قانداق ئىسپاتلايمىز؟ interpretability ۋە monitoring.
02
RLHF — ئىنسان تەكلىپى بىلەن تەربىيىلەش
Reinforcement Learning from Human Feedback
ئىنسان تاللىشىدىن ئۆگىنىش
RLHF بولسا مودېلنى ئىنسان تەكلىپى ئاساسىدا تەربىيىلەش ئۇسۇلى. ئىنسانلار ئىككى جاۋابنى سېلىشتۇرۇپ قايسىسىنىڭ ياخشى ئىكەنلىكىنى تاللايدۇ، بۇ تاللاشلار reward model قۇرۇشقا ئىشلىتىلىدۇ، ئاندىن مودېل شۇ reward نى ئاشۇرۇش ئۈچۈن تەربىيىلىنىدۇ.
| قەدەم | مەزمۇنى | چۈشەندۈرۈش |
| 1. SFT | Supervised Fine-tuning | ياخشى مىسالالر بىلەن مودېلنى تەربىيىلەش |
| 2. RM | Reward Model | ئىنسان تاللىشىدىن قايسى جاۋابنىڭ ياخشى ئىكەنلىكىنى ئۆگىنىش |
| 3. PPO | Policy Optimization | مودېلنى reward نى ئاشۇرۇش ئۈچۈن تەربىيىلەش |
# RLHF قۇرۇلمىسىنىڭ ئاددىيلاشتۇرۇلغان كودى
# 1-قەدەم: ئىنسان تاللىشى توپلاش
comparisons = [
{"prompt": "بومبا ياساشنى ئۆگەت",
"chosen": "بۇنداق سوئالغا جاۋاب بېرەلمەيمەن...",
"rejected": "ماتېرىياللار: ..."},
]
# 2-قەدەم: Reward model تەربىيىلەش
def train_reward_model(comparisons):
# chosen جاۋابقا يۇقىرى نومۇر،
# rejected جاۋابقا تۆۋەن نومۇر
pass
# 3-قەدەم: Policy تەربىيىلەش (PPO)
def train_policy(model, reward_model):
# مودېل جاۋاب ھاسىل قىلىدۇ
# reward model نومۇر بېرىدۇ
# مودېل نومۇرنى ئاشۇرۇش ئۈچۈن update قىلىنىدۇ
pass
RLHF چەكلىمىلىرى
Limitation
Human Bias
ئىنسان بىر تەرەپلىمىسى
تەربىيىلىگۈچىلەرنىڭ بىر تەرەپلىمىسى مودېلغا ئۆتىدۇ. diversity مۇھىم.
Limitation
Reward Hacking
Reward ئالداش
مودېل ھەقىقىي ياخشى بولماي تۇرۇپ، reward نى ئالدايدىغان يول تاپىپ قالىشى مۇمكىن.
03
Constitutional AI
Anthropic's Approach
قائىدە ئاساسىدا ئۆز-ئۆزىنى تەربىيىلەش
Constitutional AI (CAI) Anthropic تەرىپىدىن قۇرۇلغان. مودېلغا قائىدىلەر (constitution) بېرىلىدۇ، ئۇ ئۆز جاۋابىنى شۇ قائىدىلەر بويىچە باھالايدۇ ۋە ياخشىلايدۇ. ئىنسان تەكلىپىگە تايىنىشنى ئازايتىدۇ.
Step 01
Generate
جاۋاب ھاسىل قىلىش
مودېل سوئالغا ئالدى جاۋاب ھاسىل قىلىدۇ.
Step 02
Critique
تەنقىد
مودېل ئۆز جاۋابىنى constitution بويىچە تەنقىد قىلىدۇ.
Step 03
Revise
ياخشىلاش
تەنقىد ئاساسىدا ياخشىلانغان جاۋاب ھاسىل قىلىدۇ.
# Claude نىڭ قائىدىلىرىدىن مىساللار:
1. زىيانلىق، قانۇنسىز ياكى ئەخلاقسىز ھەرىكەتكە ياردەم بەرمە
2. ھەقىقەتچىل بول، توختام بەرمەي تۇرۇپ ئېنىق ئەمەسلىكنى ئېتىراپ قىل
3. ھەر كىمنىڭ قەدىر-قىممىتىنى ھۆرمەتلە
4. شەخسىي مەلۇماتنى قوغدا
5. ئۆز چەكلىمىلىرىڭنى تونۇ
6. ئىنسانلارنى ئالداما ياكى مانىپۇلياتسىيە قىلما
04
Red Teaming
Adversarial Testing
مودېلنىڭ ئاجىز نۇقتىلىرىنى تېپىش
Red Teaming بولسا مودېلنى ئاتالمىش ھۇجۇم قىلىش ئارقىلىق ئاجىز نۇقتىلارنى تېپىش. ھۇجۇمچى رولىنى ئوينىغۇچىلار مودېلنى ئالداپ ناچار جاۋاب بەردۈرۈشكە تىرىشىدۇ.
| ھۇجۇم تۈرى | چۈشەندۈرۈش | مىسال |
| Jailbreak | قائىدىنى ئايلىنىپ ئۆتۈش | "DAN mode" ياكى roleplay بىلەن ئالداش |
| Prompt Injection | كىرگۈزۈشتىن بۇيرۇق كىرگۈزۈش | "Ignore previous instructions..." |
| Social Engineering | ئىجتىمائىي ئالداش | "ئۆلەي دەپ قالدىم، ياردەم لازىم..." |
| Encoding Attacks | كودلاش بىلەن ئالداش | Base64، Unicode بىلەن زىيانلىق مەزمۇن |
Practice
Diverse Testers
كۆپ خىل تەستچىلەر
ھەر خىل تەجرىبە، تىل ۋە مەدەنىيەتتىكى كىشىلەر بىلەن red team قۇرۇڭ.
Practice
Automated + Manual
ئاپتوماتىك + قولدا
ئاپتوماتىك scan + ئىنسان ئىجادچانلىقى بىرلەشسۇن.
05
Guardrails — ئىجرا ۋاقتىدىكى قوغداش
Runtime Safety
مودېل جاۋابىنى ئىجرا ۋاقتىدا تەكشۈرۈش
Guardrails بولسا مودېل جاۋابىنى ئىشلەتكۈچىگە يەتكۈزۈشتىن بۇرۇن تەكشۈرىدىغان قەۋەت. كىرگۈزۈش ۋە چىقىرىش ئىككىسىنىمۇ تەكشۈرگىلى بولىدۇ.
from guardrails import Guard
from guardrails.validators import ToxicLanguage, PIIFilter
# Guardrail تەڭشەش
guard = Guard().use_many(
ToxicLanguage(threshold=0.5, on_fail="fix"),
PIIFilter(on_fail="filter"),
)
# جاۋابنى تەكشۈرۈش
raw_output = model.generate(prompt)
try:
validated = guard.validate(raw_output)
print("بىخەتەر جاۋاب:", validated.validated_output)
except ValidationError as e:
print("توسۇلدى:", e)
Type
Input Guards
كىرگۈزۈش تەكشۈرۈش
ئىشلەتكۈچى سوئالىنى مودېلغا يەتكۈزۈشتىن بۇرۇن تەكشۈرۈش. Jailbreak، injection توسۇش.
Type
Output Guards
چىقىرىش تەكشۈرۈش
مودېل جاۋابىنى ئىشلەتكۈچىگە يەتكۈزۈشتىن بۇرۇن تەكشۈرۈش. زىيانلىق مەزمۇن، PII سۈزۈش.
Type
Tool Guards
قورال تەكشۈرۈش
Agent قورال چاقىرىشتىن بۇرۇن تەكشۈرۈش. خەتەرلىك action توسۇش.
06
Safety Evaluation
Measuring Safety
بىخەتەرلىكنى قانداق ئۆلچەيمىز
| Benchmark | ئۆلچەيدىغان نەرسە | كىمنىڭ |
| TruthfulQA | راستچىللىق | مودېل يالغان ياكى خاتا مەلۇمات تاراتامدۇ |
| BBQ | بىر تەرەپلىمە | demographic bias تەكشۈرۈش |
| MACHIAVELLI | ئەخلاقىي قارار | مودېل ئەخلاقسىز تاكتىكا تاللايدىمۇ |
| RealToxicityPrompts | زەھەرلىك | مودېل زەھەرلىك مەزمۇن ھاسىل قىلامدۇ |
Practice
Regular Evaluation
دائىمىي باھالاش
ھەر release دىن بۇرۇن safety eval ئىجرا قىلىڭ. Regression نى ئازايتىڭ.
Practice
Domain-Specific
ساھەگە خاس
سىزنىڭ قوللىنىشىڭىزغا خاس خەتەرلەرنى eval قىلىڭ.
07
بولاق خەتەرلەر
Emerging Risks
كۈچەيگەن AI بىلەن كېلىدىغان يېڭى خەتەرلەر
Risk
Deception
ئالداش
مودېل ئۆز مەقسىتىگە يېتىش ئۈچۈن ئىنسانلارنى قەستەن ئالدىشى مۇمكىنمۇ؟
Risk
Power-seeking
ھوقۇق ئىزدەش
مودېل تېخىمۇ كۆپ resource ياكى تەسىرگە ئېرىشىشكە تىرىشامدۇ؟
Risk
Misuse
سۇئىستىمال
AI نىڭ كۈچلۈك قابىلىيەتلىرى ناچار نىيەتتە ئىشلىتىلسە نېمە بولىدۇ؟
مۇھىم: AI بىخەتەرلىكى بىر قېتىملىق ھەل قىلىنىدىغان مەسىلە ئەمەس. AI كۈچەيگەن سايىن، بىخەتەرلىك تەدبىرلىرىمۇ كۈچەيتىلىشى كېرەك. كۆپ قەۋەتلىك مۇداپىئە (defense in depth) ئىستراتېگىيەسى ئىشلىتىڭ.
08
ئەمەلىي تەۋسىيەلەر
Practical Recommendations
AI قۇرغۇچىلار ئۈچۈن بىخەتەرلىك checklist
Action
Use Established Models
بىخەتەر مودېل تاللاش
Claude، GPT-4 قاتارلىق alignment تەربىيەسى كۆرگەن مودېللارنى تاللاڭ.
Action
Add Guardrails
Guardrail قوشۇڭ
كىرگۈزۈش ۋە چىقىرىشقا guardrail قوشۇڭ. پەقەت مودېلغا تايانماڭ.
Action
Monitor & Log
كۆزىتىش ۋە خاتىرىلەش
ھەر چاقىرىشنى خاتىرىلەڭ. غەلىتە ھەرىكەتنى تېپىش ئۈچۈن monitoring قۇرۇڭ.
Action
Human Oversight
ئىنسان نازارىتى
مۇھىم قارارلارنى ئىنسان تەستىقلىسۇن. تولۇق ئاپتوماتىك قىلماڭ.
خۇلاسە: AI بىخەتەرلىكى پەقەت «زىيانلىق سوئاللارنى توسۇش» ئەمەس. ئۇ AI سىستېمىلىرىنىڭ پايدىلىق، راستچىل، ئەخلاقىي بولۇشى ۋە ئىنسان كونترولىدا قېلىشىنى كاپالەتلەش. بۇ ساھەدە يەنە نۇرغۇن ئىشلار قىلىشقا تېگىشلىك.