سازوکار شبه‌واترمارک در مدل‌های زبانی بزرگ

احتمالا عکس‌هایی رو دیدید که پایینش لوگوی یک شرکت هست، یا PDFهایی که پشت متنشون اسم یک شرکت بارها نوشته شده تا کسی پرینت کرد معلوم شه صاحب اصلی کی بوده. به این کار میگن Watermark زدن. حالا شرکت‌های هوش مصنوعی می‌تونن کاری کنن که نه‌تنها توی تولید عکس و تصویر، بلکه توی تولید متن هم محصولاتشون روی پاسخ‌هاشون Watermark بزنن. یعنی متنی رو که هوش مصنوعی تولید کرده باشه، با دقت خوبی بشه گفت که واقعا دست‌ساخت انسان نیست و هوش مصنوعی چه شرکتی ساختتش. بنا به دلایلی مثل هزینه و احتمال ریزش کاربرها، فعلا این کار انجام نمیشه.

این مورد Watermark کردن به حساب نمیاد، اما اخیرا کاربرها کشف کردن که زیادی دقیق بودن هوش مصنوعی‌ها یکجورایی می‌تونه لو بده اون‌ها رو. مثال: سایت‌های خفن برای اینکه عبارتی مثل صد کیلومتر که میشه:

100 KM

توی سایتشون به هم نریزه و موقع رفتن به خط بعدی، عبارت KM از 100 جدا نشه، به‌جای فاصله‌ی معمولی، از فاصله‌ی جدانشونده (Non-breaking space) استفاده می‌کنن. این نوع فاصله به چشم آدم فاصله‌ی معمولی میاد ولی توی یونی‌کد، کد مجزایی داره. یا مثلا … رو آدما معمولا با زدن سه‌تا نقطه می‌نویسن که میشه سه‌تا کاراکتر نقطه ولی هوش مصنوعی می‌تونه … رو با یک کاراکتر (کاراکتر مخصوص خود سه‌نقطه) بنویسه. (البته خیلی از برنامه‌ها اگر سه‌نقطه رو بزنین این تبدیل رو براتون انجام میدن)

همینا باعث میشه اگر کپی‌پیست کنید و به یونی‌کد توجه نکنید یکم لو برید. مگه اگه کسی ازتون پرسید با تک تک کاراکترهایی که استفاده کردید آشنا باشید :)

منبع

سوال یا نظری دارید؟ خوشحال می‌شم اون‌ها رو بشنوم:

پیام‌رسان دلتاچت: Delta Chat
رایانامه: hossein@naghdbishi.com (pgp)

دوست دارید مطالب بیشتری مثل این دریافت کنید؟ با RSS از فرسته‌های جدید مطلع بشید، یا اینکه عضو خبرنامه‌ی رایانامه‌ای یا کانال تلگرام بشید.

می‌خواید همین الان مطالب بیشتری رو بخونید؟ بایگانی وبلاگ شامل 50 فرستهٔ آماده‌ی خوندنه. من گه‌گاه فهرست فرسته‌های جالبی که در اینترنت پیدا می‌کنم رو هم به‌روز می‌کنم.

اشتباهی پیدا کردید؟ این وبلاگ تحت مجوز آزاد منتشر شده، می‌تونید مشکل رو توی مخزنش بهم بگید.

ممنون که خوندید! ♡ تمامی مطالب این وبلاگ تحت مجوز CC BY-SA 4.0 منتشر شده‌اند، مگر در مواردی که خلاف آن ذکر شده باشد یا متعلق به دیگری باشد.