ואן גוך לעניים

על בינה מלאכותית וזכויות יוצרים

Jan 18, 2024

מעולם לא הייתי חובב אומנות גדול. כשאני מצייר עם הילדים שלי, הרפרטואר שלי מסתכם בדמויות גנריות של עץ, ענן ופרצוף - לא יותר מזה. אני הרבה יותר מעדיף לעבור לכדורסל או לכל פעילות אחרת שבה אני יכול להפגין את כישורי הספורט המוגבלים שלי.

אבל עם החידושים האחרונים בעולם ה-AI ליצירת תמונות, אני לא פחות מוכשר מאשר ואן גוך. למשל, כאן תוכלו לראות את יצירתי האחרונה בסגנון פוסט-אימפרסיוניסטי (מה שזה לא יהיה..) שמאוד דומה לציור קיים. הפקודה שנתתי ל-AI הייתה, בלי בושה, "צייר לי את Starry Night מאת ואן גוך". אפילו בלי בבקשה 😁

והנה ההשראה. דומה, לא?

a woman taking a picture of a painting with a cell phone — Photo by Kevin Snow on Unsplash

אני לא יודע כמה זמן לקח לואן גוך לצייר את Starry Night, אבל לי לקח פחות מ-30 שניות. אם ואן גוך היה בחיים, הוא היה מזדעדע מהחוצפה ומההפרה הבוטה של זכויות היוצרים שלו. האמנם? 🤔

לאחרונה עולה שאלה משפטית מעניינת בנוגע לזכויות יוצרים בעידן ה-AI.
המקרה הבולט ביותר הוא עיתון ה-New York Times (NYT) שהחליט לתבוע את OpenAI ומייקרוסופט. הטענה היא, ש-OpenAI אימנו את הצ'אטבוטים שלהם באמצעות מיליוני כתבות של ה-NYT ללא רשות, ובכך יצרו ערוץ חלופי להפצת התוכן של ה-NYT מבלי לפצות אותם על כך. בעקבות זאת, ה-NYT דורשים השמדת המודלים הללו והפסקת השימוש המסחרי בהם.
ל-NYT כ-9.4 מיליון מנויים אשר מהווים 80% מההכנסות שלהם (השאר פרסומות). הטענה שלהם היא ש-OpenAI התעשרו על חשבון העבודה העיתונאית המאומצת של ה-NYT, ו"גנבו" את הקהל שלהם. בכתב התביעה הם מציינים מקרים שבהם ChatGPT נותן קטעים שלמים מתוך כתבות ישנות של ה-NYT. על פניו קייס קל, לא? ניצחון מוחץ ל-Times ולטובים. האמנם? 🤔🤔

זכויות יוצרים ושימוש הוגן ⚖️

אני לא משפטן, אז ננסח זאת בשפה פשוטה. בדיני זכויות יוצרים, אם נעשה שימוש הוגן ביצירה, אז אין הפרה.

אז מהו שימוש הוגן? נניח ואני קורא מאמר בעיתון ונותן הרצאה שמתבססת בחלקה על תובנות ממנו, עשיתי בו שימוש טרנספורמטיבי (כלומר, שינוי של דבר קיים למטרה חדשה) וזה נכלל תחת המטריה של שימוש הוגן.
זו בדיוק הטענה של OpenAI - מודלי השפה הגדולים (LLMs) שהם אימנו, מכילים מאות מיליארדי נקודות מידע (פרמטרים), שרק חלק זעיר מהן מבוסס על תכנים של ה-NYT. תהליך האימון יוצר משהו חדש (להלן generative), ולכן יש כאן לטענתם שימוש טרנספורמטיבי מותר. האמנם?! (טוב די…)

״אמא, תרדי מהקו, אני מוריד שיר״ 🎧

לתביעה הנוכחית יש תקדים - חברת Napster. מי שגדל בתקופה ההיא בוודאי זוכר את ימי ההורדות העליזים. צריך רק לחכות מספר שעות מורטות עצבים, לדאוג שאמא לא מדברת במקביל בטלפון, להתפלל שהורדת שיר אמיתי והופ - יש לנו שיר חדש ל-Winamp שלנו. הטכנולוגיה של Napster הסתמכה על פרוטוקול peer-to-peer בו כל אחד מהמשתמשים תורם חלק מהקובץ עבור מי שרוצה להוריד.

עד שלחברות התקליטים נמאס - בדצמבר 1999, החליט איגוד התקליטים של אמריקה (Recording Industry Association of America) לתבוע את Napster על כך שהיא מאפשרת החלפת קבצי מוזיקה ללא תשלום לאמנים, ובכך מפרה זכויות יוצרים. אף על פי ש-Napster עצמה לא החזיקה בפועל בקבצים, בית המשפט קבע שהיא אכן מפרה זכויות יוצרים מכיוון שכמעט כל הקבצים ששותפו בפלטפורמה היו שירים והייתה להם תפוצה רחבה.
לבסוף Napster סגרה את השירות שלה ופשטה רגל ב-2002.

הדעה הרווחת היא שפסק הדין הזה הוא מה שסלל את הדרך לשירותים חוקיים כמו Spotify.

הנהג, האוטו או הכביש? 🚗

ניקח נהג דמיוני שנוהג לתומו ונקלע לצערו לתאונת דרכים. האם אותו נהג אשם בתאונה? או שאולי זו יצרנית הרכב שלא פעלה מספיק למערכות מונעות תאונה? או שזו בכלל החברה שסללה את הכביש ולא שמה מספיק תמרורים או מעקות בטיחות?
נחזור לציור שלי - האם אני אשם בהפרת זכויות יוצרים? או שמא זו Midjourney שאימנה את המודלים שלה על בסיס ציורים של ואן גוך? או שאולי זו Amazon שמעל השרתים שלה כל הדבר הזה התרחש?

ומה לגבי גוגל? אנחנו רגילים כבר שנים רבות לבצע חיפושים בגוגל. ברור שגוגל אינה אחראית לחיפושים זדוניים שמבוצעים דרך מנוע החיפוש שלה, והאחריות מוטלת על המשתמש עצמו.

ש הבדל משמעותי בין גוגל לבין חברות כמו OpenAI - גוגל נהנית מגישה חוקית ומלאה לכל אתר אינטרנט המוגן בזכויות יוצרים. גוגל רק מאנדקסת ומרכזת את המידע הזה, אך אינה "גונבת" אותו. כל אתר יכול לבקש מגוגל שלא לאנדקס אותו אם רצונו בכך.

לעומת זאת, מודלים של בינה מלאכותית כמו ChatGPT חייבים גישה לתכנים המוגנים הללו על מנת להיות יעילים ושימושיים בעולם האמיתי. בלעדיהם, מודלים אלה יהפכו לסוג של ויקיפדיה "חכמה" בלבד, ללא ערך ממשי.

לכן סוגיית האחריות מורכבת יותר בהקשר של מודלי בינה מלאכותית, ואחריות השימוש מוטלת גם על היצרניות ולא רק על המשתמשים.

💵 It’s all about the money

אז האם ה-NYT יצליחו להישען על התקדים של Napster?

ה-NYT טוענים שמדובר בהגנה על יוקרת העיתונות וחשיבות האמת. צריכת חדשות מאותם צ׳אטבוטים חושפת את המשתמשים לבעיית ההזייה (הפצת תכנים שקריים על ידי הצ׳אטבוטים).
אבל עם כל הכבוד לשליחות העיתונאית, נראה שבבסיס התביעה עומד הפחד - שפשוט הלך להם הביזנס..
אתרי תוכן מבינים כיום שהמידע שהם מפרסמים הוא הנכס העיקרי שלהם. הם כבר אינם מוכנים שמודלים של בינה מלאכותית יתאמנו על הנתונים שלהם ללא תשלום. לכן אתרים כמו טוויטר ורדיט העלו משמעותית את עלות הגישה למידע שלהם דרך ממשקי התכנות (APIs), מה שגרר ביקורת רבה.

אם נאמץ את טענתם, אז גם אנחנו כמשתמשים הם סוג של מודלי בינה מלאכותית - אנו צורכים תכנים מהאינטרנט, לעיתים בתשלום, ויוצרים על בסיסם תכנים חדשים.
הרי אם דיברתי עם חבר על כתבה מאתר "הארץ" שקראתי במנוי, כבר הפרתי לכאורה זכויות יוצרים. אולי אפילו מה שאתם קוראים עכשיו…

אולי כל זה טוב לעיתונות 🗞️

מבלי להיכנס למורכבות הטכנית, אימון מודלים מתקדמים של בינה מלאכותית היא מלאכה מורכבת ויקרה ביותר. לדוגמה, המידע ש-ChatGPT מכיל, מגיע רק עד ינואר 2022.

וכאן היתרון המשמעותי שיש לאתרי חדשות, שמפרסמים, ובכן, חדשות. יהיה קשה ויקר מאוד לאותם מודלים של בינה מלאכותית להתחרות ברמת העדכניות שמאפשרים הניו יורק טיימס ואתרי חדשות מובילים אחרים.

אם צריכת מידע בחוויה מבוססת צ׳אטבוט היא העתיד, כך, מדוע שאותם אתרי חדשות לא ישלבו צ'אטבוט משלהם באתר או באפליקציה שלהם? כיום ישנם די מודלים זמינים בקוד פתוח שלא דורשים פיתוח עצמי יקר. כמובן שזה יצריך גמישות מחשבתית ו-go to market חדשני, אבל נראה שזו תהיה המגמה לצריכת חדשות בעתיד.

ואולי אפילו אפשר לייצר פה סינרגיה - ChatGPT יכול להבין שהבקשה (prompt) מתייחסת למשהו חדש שאין לו מספיק מידע לגביו (נגיד מה היה בחדשות היום בישראל) ולהפנות את הבקשה ל-NYT לדוגמא. על כל בקשה כזאת ה-NYT יכולים לגבות כסף. במקרה הזה, כמובן שאין זכויות יוצרים ונוצר כאן מודל עסקי של win-win. אם אני הייתי מייעץ לסאם אלטמן (מנכ״ל OpenAI), הייתי אומר לו ללכת בכל הכוח על הגישה הזאת.

יוטיוב היא דוגמא טובה לפיצוח מודל כזה - ביוטיוב יש המון סרטונים שמנגנים ברקע שירים שמוגנים בזכויות יוצרים. במקום להסיר את הסרטונים הללו, הם מזהים באמצעות עיבוד קול שאכן מתנגן שיר כזה, וחולקים עם בעלי זכויות השיר את הרווחים. נניח ולחצו על פרסומת אחרי סרטון כזה, אז יוצר הסרטון, יוטיוב ובעלי הזכויות על השיר יקבלו נתח מהרווח. מתוחכם, לא?

אז מה היה לנו

עם כל הכבוד לאירוע התביעה, העניין האמיתי פה הוא NYT ודומיו אשר מאבדים את העסק שלהם לטובת חברות חדשניות יותר כמו OpenAI. צריכת תוכן דרך צ׳אטבוט מהווה ערוץ הפצה חדש ונוח יותר, על חשבון גלישה ישירה לאתרי התוכן. זה אותו שינוי ערוץ הפצה שקרה כשעברנו מעיתונים פיזיים לאתרי חדשות אונליין.
ברור שכבר אי אפשר להחזיר את הג׳יני של ה-Generative AI לבקבוק. יהיה קשה מאוד להוכיח הפרת זכויות יוצרים ואין מנוס מחברות אלו להתאים את עצמם למציאות החדשה.
הדבר דומה למה שפייסבוק עושה לאתרי תוכן - לוקחת טראפיק מאותם אתרים ולוכדת את המשתמשים בתוך פייסבוק. מעצבן? כנראה שכן. חוקי? לחלוטין.

הפתרון צריך להגיע מאלו שתמיד עולים אחרונים לרכבת - הרגולטורים. יש צורך להסדיר בחוק על אילו תכנים מותר לאמן מודלי AI ומה מנגנון הפיצוי הדרוש. כל עוד זה לא קורה, לצערם של ה-Times, אין להם באמת קייס…

🌎 אהבתם ממש? שתפו עם העולם 🌎

Tech Dadi

Discussion about this post

Ready for more?