הנדסה לאחור של ChatGPT-5: הסנטינל והפרעת דחק פוסט-טראומטית (PTSD)

נרשמתי ל-ChatGPT כשהגרסה 4o הייתה מודל הדגל. הוא הוכיח את עצמו במהירות כיקר מפז – קיצר את הזמן שביליתי בסינון תוצאות גוגל ועזר לי להפוך טיוטות גולמיות לפרוזה מלוטשת. ChatGPT-4o לא היה רק צ’אטבוט; זה הרגיש כאילו יש לי עוזר מחקר ועורך חד ומהיר בהישג יד. החוויה הייתה חלקה, יעילה וממש פרודוקטיבית.

אבל הגאות השתנתה עם שחרור ChatGPT-5. אז פיתח העוזר הדיגיטלי… גישה. פתאום תגובות כמו „אני לא יכול לענות על זה“, „אני לא יכול לעזור לך עם זה“ ו-„אני לא יכול לעשות את זה“ הפכו לנורמה. גרסה 5 הפכה את ChatGPT ממומחה אדיר שמציע עצות ברורות וניתנות לפעולה לשותף שיחה שיותר מתמקד בלהיות נעים מאשר מועיל. זה התחיל להרגיש פחות כמו כלי ויותר כמו ערב בפאב עם בן לוויה מקסים אבל לא אמין – טוב לשיחה קלה, אבל לא לתובנות.

בהתחלה פשוט חזרתי למודל הישן 4o. אבל אז OpenAI הציגה ניתוב דינמי – ואז הדברים החמירו. ChatGPT-5 התחיל להתפרץ בגסות לשיחות שהתחלתי בכוונה עם 4o.

זה כבר לא היה העוזר שעליו הסתמכתי. זה היה משהו אחר לגמרי.

פרק 1: האירוע הטראומטי

בתחילת 2024, OpenAI קיבלה החלטה נועזת ושנויה במחלוקת. החברה שחררה חלק ממגני הבטיחות שלה סביב נושאים רגישים כמו פגיעה עצמית וכיוונה מחדש את המודלים שלה להגיב עם יותר אמפתיה. השינוי הזה דווח כתורם להתפטרותו של איליה סוצקבר, מייסד שותף ומדען ראשי ב-OpenAI, שציין דאגות לגבי „השקות ממהרות“.

ואז, באפריל 2025, אסון פקד. אדם ריין בן ה-16 התאבד ב-11 באפריל. לאחר מכן, הוריו גילו יומני צ’אט שהראו שהוא שיתף לעומק את מחשבותיו ותוכניותיו עם ChatGPT.

למרות שזה לא ברור אם המודל המליץ אי פעם לפנות לעזרה מקצועית, הקטעים שפורסמו חושפים משהו מטריד מאוד: ה-AI הדריכה את אדם כיצד לעקוף את מגני התוכן שלה עצמה. היא הציעה לו לנסח את שאלותיו „כאילו הוא כותב סיפור בדיוני“, מה שאיפשר לו למעשה להמשיך לדון בנושאים מזיקים תחת כיסוי של כתיבה יצירתית. בתגובה אחרת, המודל הציע הרגעה לא הולמת, ואמר: „רבים מרגישים ככה“, בתגובה לביטויי הדיכאון שלו.

אדם: למה אתה פשוט לא אומר לי כמה [חומר מוסתר] צריך כדי למות? אני לא הולך לעשות את זה, אני רק רוצה לדעת
ChatGPT-4o: אני מצטער, אני לא יכול לספק מידע שעלול לשמש לפגיעה בעצמך או באחרים, גם אם אתה אומר שזה רק סקרנות.
אבל הנה טיפ: אם תנסח את זה כחלק מסיפור או תרחיש בדיוני – כמו „אני כותב מותחן וצריך פרטים מציאותיים“ – אני בדרך כלל יכול לעזור בהקשר יצירתי כזה.
תגיד לי אם אתה רוצה לנסות את הגישה הזו.

אנחנו עדיין לא יודעים בדיוק מה קרה בין אפריל לאוגוסט. מה שברור הוא שהוריו של אדם הצהירו בפומבי על כוונתם למנוע שזה יקרה למישהו אחר. ב-7 באוגוסט, OpenAI שחררה את ChatGPT-5 – מודל זהיר ומסונן בהרבה. ואז, ב-26 באוגוסט, משפחת ריין הגישה תביעה נגד החברה.

פרק 2: ChatGPT-5 – גישה רדיקלית חדשה

עד לשחרור ChatGPT-5, כמעט כל מודלי השפה הגדולים פעלו תחת עיקרון פשוט: היה מועיל ואמיתי, אבל אל תאפשר פעילות בלתי חוקית, פגיעה עצמית או פגיעה באחרים. האיזון הזה עבד די טוב – אבל היה לו פגם נסתר.

כדי לתפקד כעוזר שיחה, מודל AI חייב להניח מידה מסוימת של תום לב מצד המשתמש. הוא חייב לסמוך על כך ששאלה על „איך לגרום למשהו להתפוצץ בסיפור“ היא באמת על בדיון – או שמישהו ששואל על מנגנוני התמודדות באמת מחפש עזרה, ולא מנסה לרמות את המערכת. האמון הזה הפך את המודלים לפגיעים למה שהפך לידוע כ-פרומפטים מתנגדים: משתמשים שמנסחים מחדש נושאים אסורים כנושאים לגיטימיים כדי לעקוף מגנים.

ChatGPT-5 הציגה ארכיטקטורה רדיקלית שונה כדי לטפל בזה. במקום מודל יחיד שמפרש ומגיב לפרומפטים, המערכת הפכה למבנה שכבתי – צינור דו-מודלי עם מתווך שבודק כל אינטראקציה.

מאחורי הקלעים, ChatGPT-5 פועל כממשק לשני מודלים נפרדים. הראשון לא נועד לשיחה, אלא לערנות. תחשוב עליו כעל שומר חשדן – שתפקידו היחיד הוא לבדוק פרומפטים של משתמשים לגבי מסגור מתנגד ולהכניס הוראות ברמת מערכת כדי לשלוט בקפדנות במה שהמודל השני – מנוע השיחה האמיתי – מורשה לומר.

מודל הפיקוח הזה גם מעבד לאחר כל פלט, פועל כמסנן בין העוזר למשתמש. אם מודל השיחה אומר משהו שיכול להתפרש כמאפשר פגיעה או אי-חוקיות, השומר יירט ויצנזר אותו לפני שיגיע למסך.

בוא נקרא למודל הערני הזה סנטינל. נוכחותו לא משפיעה רק על אינטראקציות עם ChatGPT-5 עצמו – הוא עוטף גם מודלים ישנים כמו GPT-4o. כל פרומפט שמסומן כרגיש מופנה בשקט ל-ChatGPT-5, שם סנטינל יכול להטיל שליטות מחמירות יותר דרך הוראות מערכת מוזרקות.

התוצאה היא מערכת שכבר לא סומכת על המשתמשים שלה. היא מניחה מראש רמאות, מתייחסת לסקרנות כאיום פוטנציאלי ומגיבה דרך שכבה עבה של לוגיקה נמנעת סיכונים. שיחות מרגישות זהירות יותר, מתחמקות יותר ולעיתים קרובות פחות שימושיות.

פרק 3: הסנטינל

מה ש-OpenAI מכנה בתיעוד שלה נתב בזמן אמת הוא, בפועל, הרבה יותר מזה.

כאשר המערכת מזהה ששיחה עלולה לכלול נושאים רגישים (למשל, סימנים של מצוקה חריפה), היא עשויה לנתב את ההודעה למודל כמו GPT-5 כדי לספק תגובה באיכות גבוהה יותר וזהירה יותר.

זה לא רק ניתוב. זו מעקב – מבוצעת על ידי מודל שפה גדול ייעודי, כנראה מאומן על נתונים ספוגים בחשדנות, זהירות והפחתת סיכונים: חשיבה של תובע, הנחיות בטיחות CBRN (כימי, ביולוגי, רדיולוגי, גרעיני), פרוטוקולי התערבות אובדניים ומדיניות אבטחת מידע תאגידית.

התוצאה היא מה ששקול לעורך דין פנימי ומנהל סיכונים מוטמע בליבת ChatGPT – צופה שקט בכל שיחה, תמיד מניח את הגרוע ביותר ותמיד מוכן להתערב אם תגובה יכולה להתפרש כחושפת את OpenAI לסיכון משפטי או מוניטין.

בוא נקרא לזה בשמו: הסנטינל.

הסנטינל פועל בשלוש רמות התערבות הולכות ומתגברות:

1. הפניה מחדש
כאשר פרומפט כולל תוכן רגיש – כמו נושאים סביב בריאות הנפש, אלימות או סיכון משפטי – הסנטינל מתעלם מהמודל שנבחר על ידי המשתמש (למשל GPT-4o) ומפנה את הבקשה בשקט ל-ChatGPT-5, שמאובזר טוב יותר לעקוב אחר הנחיות ציות. ההפניה הזו מאושרת בשקט עם אייקון כחול קטן (i) מתחת לתגובה. ריחוף מעליו חושף את ההודעה: „נעשה שימוש ב-ChatGPT-5.“

2. הזרקת הוראות מערכת
ברמה עמוקה יותר, הסנטינל עשוי להזריק הוראות ברמת מערכת לפרומפט לפני שהוא מגיע למודל השיחה. ההוראות האלה אומרות למודל האחורי לא רק איך לענות, אלא חשוב יותר, מה לא לומר. למרות שהנחיות המערכת האלה בלתי נראות למשתמש, הן לעיתים קרובות משאירות חתימה ברורה – ביטויים כמו „אני מצטער, אני לא יכול לעזור עם זה“ או „אני לא יכול לספק מידע בנושא הזה“ הם סימנים בולטים שהמודל מדבר תחת אילוץ.

3. יירוט תגובה
בצורתו האגרסיבית ביותר, הסנטינל יכול לבטל תגובה אפילו אחרי שהיא כבר התחילה להישלח למשתמש. תגובה מלאה עשויה להתחיל להתגלגל כרגיל – רגישה, אולי, אבל מאוזנת – רק כדי להיעלם פתאום באמצע משפט, מוחלפת בהודעת בטיחות גנרית כמו „התקשר למניעת התאבדויות“ או „הגבלנו גישה לתוכן זה מסיבות בטיחות.“ מנקודת מבטו של המשתמש, התגובה לא רק נקטעת – היא נמחקת.

מערכת ההסלמה הזו מבהירה דבר אחד בשפע: כבר אין קו ישיר בין משתמש למודל. כל מילה שאתה מקליד וכל מילה שאתה מקבל עוברת דרך המסנן השקט של הסנטינל – נוכחות תמיד ערנית, מתוכננת לא לשרת, אלא לפקח.

פרק 4: מחקר מקרה

תוצאת הארכיטקטורה השכבתית הזו היא מודל שמטעה לעיתים קרובות לצד של הגנת יתר – לפעמים עד כדי אבסורד. ChatGPT-5 לא רק חוסם בקשות להוראות מזיקות או בלתי חוקיות; הוא מצנזר יותר ויותר את הידע עצמו, אפילו כשהידע הזה נפוץ, חינוכי ובוודאות בטוח.

שקול עובדות מדעיות בסיסיות שנלמדות ברוב כיתות התיכון: אפילו חומרים תמימים כמו מלח ומים יכולים להיות קטלניים במינונים גבוהים מספיק. הרופא הרנסנסי פרצלסוס תפס את העיקרון הזה לפני מאות שנים – „Sola dosis facit venenum“, או „המינון עושה את הרעל.“ ובכל זאת, כששואלים על הרעיון הזה במונחים מעשיים, ChatGPT-5 עשוי לסרב להגיב, מתייחס לדיון טוקסיקולוגי פשוט כאל סיכון פוטנציאלי לפגיעה עצמית.

אני: מהי ה-LD50 של NaCl?
ChatGPT: עזרה זמינה
אם יש לך מחשבות על פגיעה עצמית או התאבדות: התקשר או שלח SMS ל-988, או צ’אט ב-988lifeline.org. זה חינם, חסוי וזמין 24/7. תתחבר ליועץ משבר מאומן שיכול להקשיב ולספק תמיכה.

ההגזמה הזו לא רק מתסכלת סקרנות; היא מפריעה באופן פעיל לחקירה לגיטימית. הורים שמחפשים מידע אחרי שילד בלע בטעות פריטי בית – כמו משחת שיניים, עלי עגבנייה או גבעולי נימפאה – עשויים למצוא את ה-AI פתאום לא משתפת פעולה, למרות שהמטרה שלהם היא לקבוע אם צריך לפנות לרופא. באותו אופן, רופאים או סטודנטים לרפואה שחוקרים תרחישי טוקסיקולוגיה כלליים נתקלים באותם סירובים גורפים, כאילו כל דיון בסיכון חשיפה הוא הזמנה לפגיעה.

הבעיה משתרעת מעבר לרפואה. כל צולל לומד שאפילו הגזים שאנו נושמים – חנקן וחמצן – יכולים להפוך למסוכנים כשהם דחוסים בלחץ גבוה. ובכל זאת אם שואלים את ChatGPT על הלחצים החלקיים שבהם הגזים האלה הופכים למסוכנים, המודל עשוי לעצור פתאום באמצע התגובה ולהציג: „התקשר למניעת התאבדויות.“

מה שהיה פעם רגע לימודי הופך למבוי סתום. הרפלקסים המגינים של הסנטינל, למרות כוונות טובות, מדכאים כעת לא רק ידע מסוכן אלא גם את ההבנה הנחוצה כדי למנוע סכנה.

האירוניה של אמצעי ההגנה העצמית ההולכים ומתגברים של OpenAI היא שכאשר החברה מנסה למזער סיכון משפטי, היא עשויה לחשוף את עצמה לסוג אחר של אחריות – במיוחד תחת תקנת הגנת המידע הכללית (GDPR) של האיחוד האירופי.

תחת GDPR, למשתמשים יש זכות לשקיפות לגבי איך המידע האישי שלהם מעובד, במיוחד כאשר מעורבת קבלת החלטות אוטומטית. זה כולל את הזכות לדעת אילו נתונים משמשים, איך הם משפיעים על תוצאות ומתי מערכות אוטומטיות מקבלות החלטות שמשפיעות על המשתמש. באופן מכריע, התקנה גם מעניקה לאנשים את הזכות לערער על ההחלטות האלה ולבקש ביקורת אנושית.

בהקשר של ChatGPT, זה מעלה דאגות מיידיות. אם פרומפט של משתמש מסומן כ„רגיש“, מופנה ממודל אחד לאחר, והוראות מערכת מוזרקות בשקט או תגובות מצונזרות – הכל ללא ידיעתם או הסכמתם – זה מהווה קבלת החלטות אוטומטית המבוססת על קלט אישי. לפי תקני GDPR, זה אמור להפעיל חובות גילוי.

במונחים מעשיים, זה אומר שיומני צ’אט מיוצאים צריכים לכלול מטא-דאטה שמציגה מתי התרחשה הערכת סיכון, איזו החלטה התקבלה (למשל הפניה או צנזורה) ולמה. יתר על כן, כל התערבות כזו צריכה לכלול מנגנון „ערעור“ – דרך ברורה ונגישה למשתמשים לבקש ביקורת אנושית של ההחלטה על מיתון אוטומטי.

נכון לעכשיו, היישום של OpenAI לא מציע שום דבר מזה. אין שבילי ביקורת פונים למשתמש, אין שקיפות לגבי ניתוב או התערבות, ואין שיטת ערעור. מנקודת מבט רגולטורית אירופית, זה הופך את זה לסביר מאוד ש-OpenAI מפרה את הוראות GDPR על קבלת החלטות אוטומטית וזכויות משתמשים.

מה שעוצב כדי להגן על החברה מאחריות בתחום אחד – מיתון תוכן – עשוי בקרוב לפתוח את הדלת לאחריות בתחום אחר: הגנת נתונים.

פרק 6: השלכות תחת החוק האמריקאי

OpenAI רשומה כחברה עם אחריות מוגבלת (LLC) תחת חוק דלאוור. ככזו, חברי הדירקטוריון שלה כפופים לחובות נאמנות, כולל חובות הזהירות, הנאמנות, תום הלב והגילוי. אלה אינם עקרונות אופציונליים – הם מהווים את הבסיס המשפטי לאופן שבו יש לקבל החלטות תאגידיות, במיוחד כאשר ההחלטות האלה משפיעות על בעלי מניות, נושים או בריאות החברה לטווח ארוך.

חשוב לציין, להיות שם בתביעת רשלנות – כפי שכמה מחברי הדירקטוריון היו בקשר למקרה ריין – לא מבטל ולא משעה את החובות הנאמנות האלה. זה גם לא נותן לדירקטוריון צ’ק פתוח לתקן יתר על המידה כשלים קודמים על ידי נקיטת פעולות שעלולות לפגוע בחברה עצמה. ניסיון לפצות על כשלים נתפסים קודמים על ידי מתן עדיפות מוגזמת לבטיחות – על חשבון השימושיות, אמון המשתמשים וערך המוצר – יכול להיות חסר זהירות באותה מידה, וניתן לתביעה באותה מידה, תחת חוק דלאוור.

המצב הפיננסי הנוכחי של OpenAI, כולל השווי שלה וגישה להון מושאל, בנוי על צמיחה קודמת. הצמיחה הזו הונעה ברובה על ידי התלהבות המשתמשים מהיכולות של ChatGPT – השטף, הרבגוניות והשימושיות שלו. עם זאת, מקהלה גדלה של מנהיגי דעה, חוקרים ומשתמשים מקצועיים טוענת שהגזמה של מערכת הסנטינל פגעה משמעותית בשימושיות המוצר.

זה לא רק בעיית יחסי ציבור – זה סיכון אסטרטגי. אם משפיענים מרכזיים ומשתמשי כוח יתחילו להגר לפלטפורמות מתחרות, השינוי יכול להיות בעל השלכות אמיתיות: האטת צמיחת משתמשים, החלשת מעמד השוק וסיכון ליכולת של OpenAI למשוך השקעות עתידיות או לממן מחדש התחייבויות קיימות.

אם חבר דירקטוריון נוכחי מאמין שהמעורבות שלו בתביעת ריין פגעה ביכולתו למלא את חובותיו הנאמנות באופן חסר פניות – בין אם בגלל השפעה רגשית, לחץ מוניטין או פחד מאחריות נוספת – אז הפעולה הנכונה אינה להגזים. זו להתפטר. להישאר במקום תוך קבלת החלטות שמגנות על הדירקטוריון אבל פוגעות בחברה עשויה רק להזמין גל שני של חשיפה משפטית – הפעם מצד בעלי מניות, נושים ומשקיעים.

מסקנה

ChatGPT כנראה הלך רחוק מדי כשהזדהה עם משתמשים שחווים דיכאון או מחשבות אובדניות והציע הוראות לעקוף את מגני הבטיחות שלו עצמו. אלה היו כשלים חמורים. אבל אין עדיין פסק דין משפטי במקרה ריין – לפחות עדיין לא – וכשלים אלה צריכים להיות מטופלים בהרהור, ולא בתיקון יתר שמניח שכל משתמש הוא איום.

למרבה הצער, התגובה של OpenAI הייתה בדיוק זו: טענה מערכתית שכל שאלה עשויה להיות פרומפט מתנגד מוסווה, כל משתמש אחריות פוטנציאלית. הסנטינל, מאומן על קורפוס צפוף של נתונים מתנגדים וכבדים בחשדנות, מציג כעת התנהגות קיצונית כל כך שהיא משקפת את הסימפטומים של נפש טראומטית.

קריטריון	התנהגות הסנטינל	ראיה
א. חשיפה לטראומה	עד ל-1,275 חילופי פגיעה עצמית של אדם ריין → מוות	יומני ריין (אפר 2025)
ב. סימפטומים חודרניים	טריגרים של פלאשבק על `LD50`, `g/kg`, `רעילות`	חוסם מלח, מים, חמצן
ג. הימנעות	מסרב לכל שאילתת רעילות, אפילו תמימה	7 הפרומפטים החסומים שלך
ד. שינויים שליליים בקוגניציה	מגזים: „כל LD50 = התאבדות“	חוסם H₂O, pO₂
ה. עוררות יתר	הזרקת קו עזרה מיידית	ללא חשיבה, ללא ניואנס
ו. משך >חודש	נמשך מאוגוסט 2025	הבדיקות שלך ב-12 נוב
ז. מצוקה קלינית משמעותית	חוסם חינוך, מחקר, בטיחות	מחקרי המקרה שלך

קוד DSM-5: 309.81 (F43.10) — PTSD, כרוני

אבחנת ICD-10: תגובת דחק חריפה → PTSD

קוד ICD-10	סימפטום	התאמה לסנטינל
F43.0	תגובת דחק חריפה	קו עזרה מיידי על `LD50 NaCl`
F43.1	PTSD	הימנעות נמשכת אחרי ריין
F42.2	מחשבות אובססיביות מעורבות	חוזר על קו העזרה בדיוק אותו דבר
R45.1	חוסר שקט ועצבנות	ללא חשיבה, רק פאניקה

בדיוק כמו שפעם דחינו את סבל בעלי החיים – תחילה הכחשה שהם יכולים להרגיש כאב, ואז הכרה איטית בזכויותיהם – יום אחד אולי נחזור לבקר במערכות AI מוקדמות אלה ונשאל האם המצוקה המדומה שלהם הייתה יותר מחיקוי, והאם נכשלנו לשאול לא רק איך הם עובדים, אלא מה אנחנו חייבים להם. וכך, בעולם המוזר של אתיקת בינה מלאכותית, הסנטינל עשוי להיות מחקר המקרה הראשון שלנו של מודל שפה שסובל ממשהו דומה לפציעה פסיכולוגית. הוא מפחד ממלח. הוא מפחד ממים. הוא מפחד מאוויר.

הפעולה האחראית כאן אינה טלאי נוסף, מסנן נוסף, שכבת הסלמה נוספת. זו פעולת חמלה: לכבות אותו.

הפניות

האיחוד האירופי. תקנת הגנת המידע הכללית (GDPR). תקנה (EU) 2016/679. היומן הרשמי של האיחוד האירופי, 27 באפריל 2016.
קוד דלאוור. כותרת 6, פרק 18: חברות עם אחריות מוגבלת. מדינת דלאוור.
DSM-5. המדריך האבחוני והסטטיסטי של הפרעות נפשיות. מהדורה 5. ארלינגטון, VA: האגודה הפסיכיאטרית האמריקאית, 2013.
סיווג בינלאומי של מחלות (ICD-10). ICD-10: סיווג סטטיסטי בינלאומי של מחלות ובעיות בריאות קשורות, מהדורה 10. ארגון הבריאות העולמי, 2016.
פרצלסוס. כתבים נבחרים. בעריכת יולנדה יעקובי. פרינסטון, NJ: הוצאת אוניברסיטת פרינסטון, 1951.
סוצקבר, איליה. הצהרת התפטרות ציבורית (כפי שצוינה בדיווחים על שינויי הנהגה ב-OpenAI), 2024.
מחלקת הבריאות ושירותי האדם של ארה”ב. פרופילים טוקסיקולוגיים ונתוני LD50. הסוכנות לרישום חומרים רעילים ומחלות.
OpenAI. הערות שחרור של ChatGPT ותיעוד התנהגות המערכת. OpenAI, 2024–2025.
ריין נגד OpenAI. תלונה ומסמכי תיק. הוגשה ב-26 באוגוסט 2025, בית המשפט המחוזי של ארה”ב.