
1. ماشین های سرقت ادبی
علیرغم زبان مهیب پوشش رسانهای عمومی، LLMها فکر نمیکنند، در نظر نمیگیرند، استدلال نمیکنند یا به سؤالهایی پاسخ نمیدهند، آنها رشتههای متنی را بر اساس فراوانی نشانههای خاصی که در دادههای یادگیری خود اتفاق میافتند تولید میکنند. شرح زیر را از بی بی سی بگیرید:
چت ربات های هوش مصنوعی برای پاسخ به سوالات و یافتن اطلاعات طراحی شده اند. ChatGPT معروف ترین مثال است. آنها از آنچه در اینترنت است به عنوان پایگاه داده وسیعی از دانش استفاده می کنند، اگرچه نگرانی هایی وجود دارد که ممکن است شامل مطالب توهین آمیز و اطلاعات نادرست نیز باشد.
این را با تعریف مهندس نرم افزار بن دیکنسون در سایت Venture Beat مقایسه کنید:
LLM ها شبکه های عصبی هستند که بر روی صدها گیگابایت متن جمع آوری شده از وب آموزش داده می شوند. در طول آموزش، به شبکه نمونه های متنی داده می شود که تا حدی ماسک شده اند. شبکه عصبی سعی می کند قسمت های گم شده را حدس بزند و پیش بینی های خود را با متن واقعی مقایسه کند. با انجام مکرر این کار و تنظیم تدریجی پارامترهای خود، شبکه عصبی یک مدل ریاضی از نحوه ظاهر شدن کلمات در کنار یکدیگر و به صورت توالی ایجاد می کند.
یا این از مقاله اخیر تد چیانگ، نویسنده داستان های علمی تخیلی در مجله نیویورکر (که بعد از شروع نوشتن این مطلب منتشر شد – مردم را آهسته کنید، من فقط می توانم خیلی سریع بنویسم!):
«مدلهای زبان بزرگ، الگوهای آماری را در متن شناسایی میکنند. هر گونه تجزیه و تحلیل متن در وب نشان می دهد که عباراتی مانند “عرضه کم است” اغلب در مجاورت عباراتی مانند “قیمت ها در حال افزایش است” ظاهر می شوند. یک ربات چت که این همبستگی را در خود جای داده است، میتواند وقتی سؤالی در مورد تأثیر کمبود عرضه میپرسد، با پاسخ به افزایش قیمتها پاسخ دهد.
در حالی که احتمالاً ناعادلانه است که آنها را “ماشین های سرقت ادبی” بنامم (اگر چه نامی!) – خیلی بیشتر از ذخیره و یادآوری است – چیزی که کاملاً درست است این است که پاسخ جدیدی ایجاد نمی کند، پاسخ باید این باشد. جایی در داده های آموزشی او (حتی زمانی که او یک اثر منحصر به فرد تولید می کند – مانند دستورالعمل های واقعاً خارق العاده از یک آیه کتاب مقدس برای حذف یک ساندویچ کره بادام زمینی از یک VCR) و چه کسی داده های آموزشی خود را ارائه می دهد؟ ما انجام می دهیم.
متأسفم، من نمی توانم نسبت به فناوری ای که می تواند به این هدف دست یابد بدبین باشم. pic.twitter.com/yjlY72eZ0m
— Thomas H. Ptacek (@tqbf) 2 دسامبر 2022
اگر موتورهای جستجو حداقل ظاهراً از تعهد به ارائه ترافیک به وب سایت ها دور شوند، چه انگیزه ای برای سایت ها وجود خواهد داشت که اجازه دسترسی به این داده ها را بدهند؟ بنابراین آیا ما انتظار داریم که گوگل یا مایکروسافت زمانی که موتورهای جستجوی خود را بر اساس اطلاعاتی که به صورت رایگان به آنها میدهیم، یک میلیارد دلار کسب و کار ایجاد کردهاند، هزینهای را برای دادههایی که موتورهای جستجویشان ساخته شده است، دریافت کنند؟
این مدل در حال حاضر باعث ایجاد مشکلاتی برای برندهایی مانند Google و Meta با ناشران اخبار شده است – که Google به آرامی، قلمرو به قلمرو، مجبور به پرداخت سهمی از درآمد تبلیغاتی میشود. بعید است که آنها این خطر را برای هر محتوایی در وب ایجاد کنند. در واقع، در گفتگویی که دیروز (در زمان نگارش مقاله) منتشر شد، مدیرعامل مایکروسافت تقریباً این را تأیید کرد:
“این بسیار مهم است. این در واقع یکی از بزرگترین چیزهایی است که در مورد نحوه انجام طراحی متفاوت است. من واقعاً مردم را تشویق می کنم که آن را ببینند. … ببینید، در پایان روز، جستجو در مورد استفاده منصفانه است. همه، ما فقط می توانیم استفاده کنیم [all of this content] اگر برای افرادی که آن را ایجاد می کنند، ترافیک ایجاد کنیم، در داخل یک موتور جستجو. بنابراین، به همین دلیل است که اگر به این موضوع نگاه کنید که آیا در پاسخ است یا در چت، اینها فقط روشی متفاوت برای ارائه 10 پیوند آبی بیشتر در زمینه آنچه کاربر می خواهد است. بنابراین معیار اصلی، حتی آنچه که سئو به نظر می رسد، در چند سال آینده خواهد بود. [that] همه ما یاد خواهیم گرفت شاید انگیزه های جدیدی در سئو وجود داشته باشد حتی برای تولید محتوای معتبرتر برای ورود. بنابراین اساساً هر چیزی که دیدید دارای توضیحات بود. همه چیز قابل اتصال بود، و این هدف خواهد بود – چه در یک جستجو، چه در یک پاسخ، یا حتی در یک جلسه چت.
در این مورد، مایکروسافت از چیزهایی که در مورد Bard گوگل دیده و شنیده ام جلوتر است، که نه لینک و نه نقل قول ارائه می کند. با این حال، این فقط برای ناشران و برندها مهم نیست – که من را به بحث دوم من می رساند.