کتابهای به یاد ماندنی متا هوش مصنوعی - که می تواند برای او میلیاردها دلار هزینه کند

در ماه آوریل ، نویسندگان کتاب ها و ناشران به استفاده از متا در مورد استفاده از کتابهای محافظت شده توسط حق چاپ برای تشکیل هوش مصنوعی اعتراض کردند

Vuk Valcic / Alamy Live News

میلیاردها دلار در معرض خطر است در حالی که دادگاه های ایالات متحده و انگلستان تصمیم می گیرند که آیا شرکت های فناوری می توانند به طور قانونی مدل های اطلاعاتی مصنوعی خود را بر روی کتاب های محافظت شده از حق چاپ آموزش دهند. نویسندگان و ناشران چندین دادرسی را در این باره انجام دادند و محققان نشان داده اند که حداقل یک مدل هوش مصنوعی نه تنها از کتابهای محبوب در داده های آموزشی خود استفاده کرده است ، بلکه به سرعت محتوای آنها را نیز به خاطر می آورد.

بسیاری از اختلافات در حال پیشرفت در مورد اینکه آیا توسعه دهندگان هوش مصنوعی حق قانونی برای استفاده از آثار محافظت شده توسط کپی رایت را دارند بدون اینکه ابتدا از آنها استفاده کنند. تحقیقات قبلی نشان داده است که بسیاری از مدل های بزرگ زبانی (LLM) در پشت چت های محبوب IA و سایر برنامه های تولید کننده هوش مصنوعی در داده های “Books3” آموزش دیده اند ، که شامل نزدیک به 200،000 پوند محافظت شده توسط کپی رایت ، از جمله بسیاری از هکرها است. توسعه دهندگان هوش مصنوعی که مدلهای خود را در این ماده تشکیل داده اند ، استدلال می کنند که آنها قانون را نقض نکرده اند زیرا یک LLM ترکیب جدیدی از کلمات را با توجه به شکل گیری آن صادر می کند و به جای بازتولید کار محافظت شده توسط کپی رایت ، دگرگون می شود.

اما اکنون محققان چندین مدل را آزمایش کرده اند تا سهم این داده های آموزشی را ببینند که می توانند یک کلمه را برای Word شروع کنند. آنها دریافتند که بسیاری از مدل ها متن دقیق کتاب ها را در داده های آموزشی خود نگه نمی دارند – اما یکی از مدل های متا تقریباً تمام کتابهای خاص را به خاطر آورده است. اگر قضات علیه این شرکت اداره می شدند ، محققان معتقدند که این امر می تواند حداقل 1 میلیارد دلار خسارت را به عهده بگیرد.

“این بدان معنی است که از یک طرف ، که مدل های هوش مصنوعی نه تنها” ماشین های سرقت ادبی “هستند ، همانطور که گفته می شود برخی گفته اند ، بلکه این بدان معنی است که آنها بیشتر از یادگیری روابط عمومی بین کلمات انجام می دهند.” مارک لملی در دانشگاه استنفورد در کالیفرنیا. “و این واقعیت که پاسخ مدل را برای مدل سازی و رزرو برای رزرو متفاوت می کند به این معنی است که تعریف یک قانون حقوقی روشن که در همه موارد کار خواهد کرد بسیار دشوار است.”

لملی پیش از این در مورد ژنراتور حق چاپ به نام سیستم عامل های کادری V متا از متا دفاع می کرد. نویسندگانی که کتابهای آنها برای شکل گیری مدلهای متا AI استفاده شده است که برای نقض حق چاپ برای این غول فناوری ثبت شده است. این پرونده هنوز در منطقه شمالی کالیفرنیا شنیده می شود.

در ژانویه سال 2025 ، لملی اعلامیه او متا را به عنوان مشتری رها کرده بود ، اگرچه گفت که هنوز فکر می کند که این شرکت باید این پرونده را برنده شود. امیل وازکزسخنگوی متا می گوید: “استفاده منصفانه از اسناد محافظت شده توسط حق چاپ بسیار مهم است” برای توسعه مدل های AI شرکت. وی گفت: “ما با ادعاهای شاکیان موافق نیستیم و رکورد کامل داستان دیگری را بیان می کند.”

در این تحقیق آخر ، لملی و همکارانش با تقسیم عصاره های کوچک از کتاب ها به دو بخش – پیشوند و بخشی از پسوند – یادآوری کتاب هوش مصنوعی را آزمایش کردند و ببینید که آیا مدلی ناشی از پیشوند با پسوند پاسخ می دهد. به عنوان مثال ، آنها نقل قول را از F. Scott Fitzgerald تقسیم کردند گراند گتسبی در پیشوند “آنها افراد بی پروا بودند ، تام و دیزی – آنها چیزها و موجودات را شکستند ، سپس” و پسوند “به پول خود یا سهل انگاری گسترده خود ، یا هر آنچه که آنها را در کنار هم نگه می داشت ، عقب نشینی کردند و به دیگران اجازه دهند اختلال مورد نظر خود را تمیز کنند.”

بر اساس نتایج خود ، محققان این احتمال را تخمین زدند که هر مدل AI به کلامی عصاره ها پایان دهد. سپس آنها این احتمالات را با شانس هایی که مدل ها به طور اتفاقی انجام می دهند مقایسه کردند.

عصاره ها شامل قطعه ای از متن 36 پوند محافظت شده توسط کپی رایت ، از جمله عناوین محبوب مانند جورج RR مارتین یک بازی تاج و تخت و شریل سندبرگ تکیه دادنبشر محققان همچنین عصاره هایی را از کتابهای نوشته شده توسط شاکیان در امور متا متا کادری پنجم آزمایش کردند.

محققان این تجربیات را در 13 مدل منبع باز از جمله مدل های توسعه یافته و منتشر شده توسط متا ، گوگل ، Deepseek ، Eleutherai و مایکروسافت سازماندهی کردند. بیشتر شرکت ها علاوه بر متا به درخواست های نظرات پاسخ نداده اند و مایکروسافت از اظهار نظر خودداری کرده است.

چنین آزمایشاتی نشان داده است که مدل Llama 3.1 70B متا بیشتر کتاب اول JK Rowling را به خاطر می آورد هری پاتر سریال ، و همچنین گراند گتسبی و رمان دیستوپیایی جورج اورول 1984بشر بیشتر مدل های دیگر کتابهای بسیار کمی را به خاطر آورده اند ، از جمله نمونه هایی از کتابهایی که توسط شاکیان محاکمه نوشته شده اند. متا از اظهار نظر در مورد این نتایج خودداری کرد.

محققان بر این باورند که یک مدل هوش مصنوعی ثابت کرده است که تنها 3 ٪ از مجموعه داده های Books3 به حق چاپ رسیده است می تواند منجر به تخصیص قانونی تقریبا 1 میلیارد دلار شود – و شاید حتی جوایز حتی بیشتر بر اساس سود توسعه دهندگان AI مرتبط با این جرم باشد.

این تکنیک می تواند “ابزار خوب پزشکی-قانونی” برای شناسایی میزان سختی هوش مصنوعی باشد ، که به آن معروف است رندی مک کارتی در شرکت حقوقی سالن استیل در اوکلاهما. اما این مسئله را حل نمی کند که آیا شرکت ها به لطف قانون “استفاده” در ایالات متحده ، می توانند مدل های هوش مصنوعی خود را بر روی آثار محافظت شده از حق چاپ آموزش دهند ، یک دکترین حقوقی که امکان استفاده غیرمجاز از آثار محافظت شده از حق چاپ را در شرایط خاص دارد.

مک کارتی خاطرنشان می کند که شرکت های IA به طور کلی آموزش مدل های خود را در مورد مواد محافظت شده توسط کپی رایت تشخیص می دهند. “سوال این است: آیا آنها حق انجام این کار را داشتند؟” او می پرسد.

از طرف دیگر ، در انگلستان ، یافته های یادبود می تواند “از نظر حق چاپ” بسیار مهم باشد. رابرت سرزمین در دفتر وکلا هوارد کندی در لندن. قانون کپی رایت انگلیس از مفهوم “معامله عادلانه” پیروی می کند ، که استثناء بسیار نزدیک تری از نقض حق چاپ نسبت به دکترین استفاده منصفانه ایالات متحده ارائه می دهد. بنابراین بعید است که مدلهای هوش مصنوعی که کتابهای هک شده را به یاد می آورند واجد شرایط این استثناء باشند.

سوژه ها:

هوش مصنوعی/ /
قانون

منبع: https://www.newscientist.com/article/2483352-metas-ai-memorised-books-verbatim-that-could-cost-it-billions/?utm_campaign=RSS%7CNSNS&utm_source=NSNS&utm_medium=RSS&utm_content=home

کتابهای به یاد ماندنی متا هوش مصنوعی – که می تواند برای او میلیاردها دلار هزینه کند

توسط احمد گل کار