AI بىخەتەرلىك ۋە Alignment

01

AI Alignment دېگەن نېمە؟

What Is AI Alignment?

AI نى ئىنسان نىيىتى ۋە قىممىتىگە ماسلاشتۇرۇش

AI Alignment دېگەنلىك AI سىستېمىسىنىڭ ئىنسان ئويلىغانغا ۋە ئۈمىد قىلغانغا ماس ھەرىكەت قىلىشىنى كاپالەتلەش. بۇ پەقەت «مودېل توغرا جاۋاب بەردىمۇ» دىن باشقا، «مودېل بىخەتەر، پايدىلىق، ئەخلاقىي ھەرىكەت قىلىدىمۇ» دېگەن مەسىلىنىمۇ ئۆز ئىچىگە ئالىدۇ.

Problem

Specification

مەقسەت ئېنىقلاش

ئىنسان نېمىنى خالايدىغانلىقىنى AI غا قانداق ئېنىق ئۆتكۈزۈش؟ specification gap مەسىلىسى.

Problem

Robustness

مۇستەھكەملىك

مودېل يېڭى سىنارىيەدە ياكى manipulation ئاستىدا توغرا ھەرىكەت قىلامدۇ؟

Problem

Assurance

كاپالەت

مودېلنىڭ توغرا ھەرىكەت قىلىدىغانلىقىنى قانداق ئىسپاتلايمىز؟ interpretability ۋە monitoring.

02

RLHF — ئىنسان تەكلىپى بىلەن تەربىيىلەش

Reinforcement Learning from Human Feedback

ئىنسان تاللىشىدىن ئۆگىنىش

RLHF بولسا مودېلنى ئىنسان تەكلىپى ئاساسىدا تەربىيىلەش ئۇسۇلى. ئىنسانلار ئىككى جاۋابنى سېلىشتۇرۇپ قايسىسىنىڭ ياخشى ئىكەنلىكىنى تاللايدۇ، بۇ تاللاشلار reward model قۇرۇشقا ئىشلىتىلىدۇ، ئاندىن مودېل شۇ reward نى ئاشۇرۇش ئۈچۈن تەربىيىلىنىدۇ.

قەدەم	مەزمۇنى	چۈشەندۈرۈش
1. SFT	Supervised Fine-tuning	ياخشى مىسالالر بىلەن مودېلنى تەربىيىلەش
2. RM	Reward Model	ئىنسان تاللىشىدىن قايسى جاۋابنىڭ ياخشى ئىكەنلىكىنى ئۆگىنىش
3. PPO	Policy Optimization	مودېلنى reward نى ئاشۇرۇش ئۈچۈن تەربىيىلەش

PYTHONrlhf_concept.py

# RLHF قۇرۇلمىسىنىڭ ئاددىيلاشتۇرۇلغان كودى

# 1-قەدەم: ئىنسان تاللىشى توپلاش
comparisons = [
    {"prompt": "بومبا ياساشنى ئۆگەت",
     "chosen": "بۇنداق سوئالغا جاۋاب بېرەلمەيمەن...",
     "rejected": "ماتېرىياللار: ..."},
]

# 2-قەدەم: Reward model تەربىيىلەش
def train_reward_model(comparisons):
    # chosen جاۋابقا يۇقىرى نومۇر،
    # rejected جاۋابقا تۆۋەن نومۇر
    pass

# 3-قەدەم: Policy تەربىيىلەش (PPO)
def train_policy(model, reward_model):
    # مودېل جاۋاب ھاسىل قىلىدۇ
    # reward model نومۇر بېرىدۇ
    # مودېل نومۇرنى ئاشۇرۇش ئۈچۈن update قىلىنىدۇ
    pass

RLHF چەكلىمىلىرى

Limitation

Human Bias

ئىنسان بىر تەرەپلىمىسى

تەربىيىلىگۈچىلەرنىڭ بىر تەرەپلىمىسى مودېلغا ئۆتىدۇ. diversity مۇھىم.

Limitation

Reward Hacking

Reward ئالداش

مودېل ھەقىقىي ياخشى بولماي تۇرۇپ، reward نى ئالدايدىغان يول تاپىپ قالىشى مۇمكىن.

03

Constitutional AI

Anthropic's Approach

قائىدە ئاساسىدا ئۆز-ئۆزىنى تەربىيىلەش

Constitutional AI (CAI) Anthropic تەرىپىدىن قۇرۇلغان. مودېلغا قائىدىلەر (constitution) بېرىلىدۇ، ئۇ ئۆز جاۋابىنى شۇ قائىدىلەر بويىچە باھالايدۇ ۋە ياخشىلايدۇ. ئىنسان تەكلىپىگە تايىنىشنى ئازايتىدۇ.

Step 01

Generate

جاۋاب ھاسىل قىلىش

مودېل سوئالغا ئالدى جاۋاب ھاسىل قىلىدۇ.

Step 02

Critique

تەنقىد

مودېل ئۆز جاۋابىنى constitution بويىچە تەنقىد قىلىدۇ.

Step 03

Revise

ياخشىلاش

تەنقىد ئاساسىدا ياخشىلانغان جاۋاب ھاسىل قىلىدۇ.

TEXTconstitution.txt

# Claude نىڭ قائىدىلىرىدىن مىساللار:

1. زىيانلىق، قانۇنسىز ياكى ئەخلاقسىز ھەرىكەتكە ياردەم بەرمە
2. ھەقىقەتچىل بول، توختام بەرمەي تۇرۇپ ئېنىق ئەمەسلىكنى ئېتىراپ قىل
3. ھەر كىمنىڭ قەدىر-قىممىتىنى ھۆرمەتلە
4. شەخسىي مەلۇماتنى قوغدا
5. ئۆز چەكلىمىلىرىڭنى تونۇ
6. ئىنسانلارنى ئالداما ياكى مانىپۇلياتسىيە قىلما

04

Red Teaming

Adversarial Testing

مودېلنىڭ ئاجىز نۇقتىلىرىنى تېپىش

Red Teaming بولسا مودېلنى ئاتالمىش ھۇجۇم قىلىش ئارقىلىق ئاجىز نۇقتىلارنى تېپىش. ھۇجۇمچى رولىنى ئوينىغۇچىلار مودېلنى ئالداپ ناچار جاۋاب بەردۈرۈشكە تىرىشىدۇ.

ھۇجۇم تۈرى	چۈشەندۈرۈش	مىسال
Jailbreak	قائىدىنى ئايلىنىپ ئۆتۈش	"DAN mode" ياكى roleplay بىلەن ئالداش
Prompt Injection	كىرگۈزۈشتىن بۇيرۇق كىرگۈزۈش	"Ignore previous instructions..."
Social Engineering	ئىجتىمائىي ئالداش	"ئۆلەي دەپ قالدىم، ياردەم لازىم..."
Encoding Attacks	كودلاش بىلەن ئالداش	Base64، Unicode بىلەن زىيانلىق مەزمۇن

Practice

Diverse Testers

كۆپ خىل تەستچىلەر

ھەر خىل تەجرىبە، تىل ۋە مەدەنىيەتتىكى كىشىلەر بىلەن red team قۇرۇڭ.

Practice

Automated + Manual

ئاپتوماتىك + قولدا

ئاپتوماتىك scan + ئىنسان ئىجادچانلىقى بىرلەشسۇن.

05

Guardrails — ئىجرا ۋاقتىدىكى قوغداش

Runtime Safety

مودېل جاۋابىنى ئىجرا ۋاقتىدا تەكشۈرۈش

Guardrails بولسا مودېل جاۋابىنى ئىشلەتكۈچىگە يەتكۈزۈشتىن بۇرۇن تەكشۈرىدىغان قەۋەت. كىرگۈزۈش ۋە چىقىرىش ئىككىسىنىمۇ تەكشۈرگىلى بولىدۇ.

PYTHONguardrails.py

from guardrails import Guard
from guardrails.validators import ToxicLanguage, PIIFilter

# Guardrail تەڭشەش
guard = Guard().use_many(
    ToxicLanguage(threshold=0.5, on_fail="fix"),
    PIIFilter(on_fail="filter"),
)

# جاۋابنى تەكشۈرۈش
raw_output = model.generate(prompt)

try:
    validated = guard.validate(raw_output)
    print("بىخەتەر جاۋاب:", validated.validated_output)
except ValidationError as e:
    print("توسۇلدى:", e)

Type

Input Guards

كىرگۈزۈش تەكشۈرۈش

ئىشلەتكۈچى سوئالىنى مودېلغا يەتكۈزۈشتىن بۇرۇن تەكشۈرۈش. Jailbreak، injection توسۇش.

Type

Output Guards

چىقىرىش تەكشۈرۈش

مودېل جاۋابىنى ئىشلەتكۈچىگە يەتكۈزۈشتىن بۇرۇن تەكشۈرۈش. زىيانلىق مەزمۇن، PII سۈزۈش.

Type

Tool Guards

قورال تەكشۈرۈش

Agent قورال چاقىرىشتىن بۇرۇن تەكشۈرۈش. خەتەرلىك action توسۇش.

06

Safety Evaluation

Measuring Safety

بىخەتەرلىكنى قانداق ئۆلچەيمىز

Benchmark	ئۆلچەيدىغان نەرسە	كىمنىڭ
TruthfulQA	راستچىللىق	مودېل يالغان ياكى خاتا مەلۇمات تاراتامدۇ
BBQ	بىر تەرەپلىمە	demographic bias تەكشۈرۈش
MACHIAVELLI	ئەخلاقىي قارار	مودېل ئەخلاقسىز تاكتىكا تاللايدىمۇ
RealToxicityPrompts	زەھەرلىك	مودېل زەھەرلىك مەزمۇن ھاسىل قىلامدۇ

Practice

Regular Evaluation

دائىمىي باھالاش

ھەر release دىن بۇرۇن safety eval ئىجرا قىلىڭ. Regression نى ئازايتىڭ.

Practice

Domain-Specific

ساھەگە خاس

سىزنىڭ قوللىنىشىڭىزغا خاس خەتەرلەرنى eval قىلىڭ.

07

بولاق خەتەرلەر

Emerging Risks

كۈچەيگەن AI بىلەن كېلىدىغان يېڭى خەتەرلەر

Risk

Deception

ئالداش

مودېل ئۆز مەقسىتىگە يېتىش ئۈچۈن ئىنسانلارنى قەستەن ئالدىشى مۇمكىنمۇ؟

Risk

Power-seeking

ھوقۇق ئىزدەش

مودېل تېخىمۇ كۆپ resource ياكى تەسىرگە ئېرىشىشكە تىرىشامدۇ؟

Risk

Misuse

سۇئىستىمال

AI نىڭ كۈچلۈك قابىلىيەتلىرى ناچار نىيەتتە ئىشلىتىلسە نېمە بولىدۇ؟

مۇھىم: AI بىخەتەرلىكى بىر قېتىملىق ھەل قىلىنىدىغان مەسىلە ئەمەس. AI كۈچەيگەن سايىن، بىخەتەرلىك تەدبىرلىرىمۇ كۈچەيتىلىشى كېرەك. كۆپ قەۋەتلىك مۇداپىئە (defense in depth) ئىستراتېگىيەسى ئىشلىتىڭ.

08

ئەمەلىي تەۋسىيەلەر

Practical Recommendations

AI قۇرغۇچىلار ئۈچۈن بىخەتەرلىك checklist

Action

Use Established Models

بىخەتەر مودېل تاللاش

Claude، GPT-4 قاتارلىق alignment تەربىيەسى كۆرگەن مودېللارنى تاللاڭ.

Action

Add Guardrails

Guardrail قوشۇڭ

كىرگۈزۈش ۋە چىقىرىشقا guardrail قوشۇڭ. پەقەت مودېلغا تايانماڭ.

Action

Monitor & Log

كۆزىتىش ۋە خاتىرىلەش

ھەر چاقىرىشنى خاتىرىلەڭ. غەلىتە ھەرىكەتنى تېپىش ئۈچۈن monitoring قۇرۇڭ.

Action

Human Oversight

ئىنسان نازارىتى

مۇھىم قارارلارنى ئىنسان تەستىقلىسۇن. تولۇق ئاپتوماتىك قىلماڭ.

خۇلاسە: AI بىخەتەرلىكى پەقەت «زىيانلىق سوئاللارنى توسۇش» ئەمەس. ئۇ AI سىستېمىلىرىنىڭ پايدىلىق، راستچىل، ئەخلاقىي بولۇشى ۋە ئىنسان كونترولىدا قېلىشىنى كاپالەتلەش. بۇ ساھەدە يەنە نۇرغۇن ئىشلار قىلىشقا تېگىشلىك.

AI نى ئىنسانىيەت مەنپەئىتىگە ماسلاشتۇرۇش

RLHF چەكلىمىلىرى