نیویورک تایمز چطور الگوریتم‌های پیشنهاد‌دهنده را آزمایش می‌کند؟

«الگوریتم‌های پیشنهاد‌دهنده» یاد‌می‌گیرد اهمیت اخبار را برای مخاطبان از مکان‌های جغرافیایی تخمین بزند

نیویورک تایمز چطور الگوریتم‌های پیشنهاد‌دهنده را آزمایش می‌کند؟

مقدمه مترجم: سایت‌های خبری و سایت روزنامه‌های بزرگی مانند نیویورک‌تایمز، می‌گویند که محتواهای متنوع و بی‌شماری را در طی یک روز منتشر می‌کنند که ممکن است، به دلیل محدود بودنِ فضای انتشار در صفحه اصلی (خانه)، بخش قابل‌توجهی از این محتواها از چشمِ خوانندگان‌شان دور بماند. این سایت‌ها به دنبال روش‌هایی هستند که محتواها، حداقل برای مخاطبانِ هدف‌شان، قابل دسترس‌تر باشد. به‌این‌منظور، به کمک تکنولوژی راهکارهایی را اندیشیده‌اند که یکی از این راهکارها استفاده از «الگوریتم‌های پیشنهاد‌دهنده» یا الگوریتم‌های «راهزن» است که با با بررسی ویژگی‌های مخاطبان، از قبیلِ مکانِ جغرافیاییِ آن‌ها، یاد می‌گیرد، اهمیتِ اخبار را برای مخاطبان از این مکان‌های جغرافیایی تخمین بزند. بنابراین، امکانِ اینکه مخاطبان از یک مکانِ جغرافیاییِ خاص با اخبارِ خاصی مواجه شوند، افزایش پیدا می‌کند. البته مکانِ جغرافیایی، فقط یکی از ویژگی‌های کاربران است که این الگوریتم‌ها برای شناساییِ مخاطبان استفاده می‌کنند. آنچه در ادامه می‌خوانید، تجربه روزنامه نیویورک‌تایمز در استفاده از این الگوریتم‌ها و مثال‌های ملموسی که نشان می‌دهد این الگوریتم‌ها برای این روزنامه تا چه اندازه مفید بوده است.

***

امروز نیویورک‌تایمز در حدود 250‌مقاله منتشر خواهد کرد اما بیشتر خوانندگان فقط بخشی از این مقالات را خواهند دید. اکثر خوانندگان ما به صورت آنلاین به نیویورک‌تایمز دسترسی دارند و نه به روزنامه کاغذی و اغلب از ابزار‌های کوچک استفاده می‌کنند که یعنی ما یک مشکلِ بزرگِ « املاکی» داریم: تعداد محتواهایی که ما در هر زمان منتشر می‌کنیم از میزان فضایی که این محتوا می‌تواند در آن قرار بگیرد تا در تیررسِ نگاهِ خوانندگان‌مان باشد، بیشتر است.

برای اینکه بتوانیم وسعتِ روزنامه‌نگاری خودمان را به مخاطبان‌مان نشان دهیم، نیاز داریم روش‌هایی را آزمایش کنیم تا بتوانیم محتواهای بیشتری را به مخاطبان‌مان انتقال دهیم. ما در حال ساختنِ فیدهای بلادرنگ (real-time feeds) [به نظر می‌رسد به معنیِ همزمانی رویداد و گزارش آن باشد. مترجم]؛ خبررسان‌های تخصصی و افزودنِ قابلیت شخصی‌سازیِ برخی از بخش‌های برنامه‌کاربردیِ خبری‌مان هستیم.

ما همچنین مشغول استفاده از الگوریتم‌های پیشنهاد‌دهنده هستیم تا بتوانیم مقاله‌هایی را که برای مخاطب ما اهمیت دارد یا به او مرتبط است را برجسته‌سازی می‌کند.

مرتب‌سازیِ الگوریتمی در بخش‌های خاصی از وبسایت و برنامه کاربردی روزنامه تایمز استفاده می‌شود. ما از این قابلیت برای گردآوری و گزینش محتوا در موقعیتی استفاده می‌کنیم که مدیریتِ دستی ناکارآمد یا سخت است. برای مثال در بخشِ «زندگی هوشمندانه‌تر» یا در بخشِ «نسخه هفتگی شما»،که یک خبرنامه شخصی‌سازی‌شده است [بخشی در نیویورک تایمز است که اخباری که ممکن است شما در طی هفته ندیده یا نخوانده باشید را می‌توانید در آن پیدا کنید. مترجم]،  از این قابلیت استفاده می‌کنیم. الگوریتم‌های شخصی‌سازی‌شده به قضاوتِ اعضایِ تحریریه برای انتخاب گزارش‌های خبری برتر کمک می‌کند.

رویکردِ پیشنهادهای وابسته به بافت

یکی از رویکردهای پیشنهادی‌ استفاده از طبقه‌ای از الگوریتم‌ها با عنوانِ راهزنِ چندمسلحِ وابسته به بافت است. [راهزن‌های وابسته به بافت، تبلیغاتی هستند که بر اساس بافت یا محتوا در اختیار مخاطب قرار می‌گیرند. مترجم]. راهزن‌های وابسته به بافت در گذر زمان نحوه درگیر شدنِ افراد با مقاله‌های خاص را یاد می‌گیرند. آن‌ها سپس محتواها و مقالاتی را به خوانندگان پیشنهاد می‌دهند که پیش‌بینی می‌کنند مخاطبان را درگیر خواهد کرد.

بخشِ «وابسته به بافت» به این معنی است که این راهزن‌ها می‌توانند اطلاعاتِ افزوده‌ای را به کار بگیرند تا پیش‌بینی کنند یک مقاله خاص تا چه اندازه می‌تواند برای یک خواننده خاص جذابیت داشته باشد. برای مثال، آن‌ها می‌توانند منطقه جغرافیایی خواننده (مثل کشور یا ایالت) یا تاریخچه مطالعه او را در نظر بگیرند و بعد تصمیم بگیرند که آیا یک مقاله خاص می‌تواند به این خواننده مربوط باشد یا خیر.

الگوریتم‌هایی که ما استفاده کرده‌ایم بر مبنای مدل‌های ساده خطی هستند که اطلاعات بافتی مثل کشور یا ایالت خواننده‌ - را با سنجه‌هایی مثل میزان کلیک کردنِ او مرتبط می‌سازد. اگر میزان درگیری خواننده برای یک مطلب بالا تشخیص داده شود، این الگوریتم مقاله‌هایی را که پیش‌بینی می‌کند درگیری را افزایش می‌دهند، با بسامد بیشتری در اختیار مخاطب می‌گذارد.

استفاده از راهزن‌های بافتی برای پیشنهادِ مقاله

یکی از مدل‌هایی که پیشنهاد می‌دهیم، ژئو-راهزن است که تلاش می‌کند بر اساس ایالتی که خواننده در آن زندگی می‌کند، میزانِ کلیک‌های پیش‌بینی‌شده او به روی مجموعه‌ای از مقاله‌ها را افزایش دهد. برای مثال، ما دو مقاله A و B را در اختیار خوانندگان‌مان قرار دادیم و بعد بر اساس ایالتی که آن‌ها در آن قرار داشتند، داده‌های آن‌ها و اینکه آیا روی این مقاله‌ها کلیک کردند یا نه، را گردآوری و اندازه‌گیری کردیم.

[«مقاله پیشنهادی»: مقاله B، «ایالتِ خواننده»: «تگزاس»: «کلیک» : «بله»؛ «مقاله پیشنهادی»: «مقاله A»؛ «ایالت خواننده»: «نیویورک»؛ «کلیک»: «بله». «مقاله پیشنهادی»: «مقاله B»؛ «ایالت خواننده»: نیویورک»، «کلیک»: «خیر» و ....]

به محضِ آنکه راهزن با داده‌های اولیه آموزش داده شد، ممکن است که دفعه بعدی مقالهA، B یا مقاله جدیدِ   Cرا برای یک خواننده جدید از نیویورک پیشنهاد دهد. خیلی احتمال دارد که راهزن مقاله A را پیشنهاد دهد زیرا این مقاله پیش از این، بیشترین کلیک‌ها را از خوانندگان نیویورکی دریافت کرده است. با احتمالِ ضعیف‌تر، ممکن است که مقاله C را پیشنهاد دهد، زیرا او هنوز نمی‌داند که این مقاله چقدر برای این خوانندگان جذاب است و نیاز دارد که داده‌هایی را برای ارزیابی این موضوع گردآوری کند.

با گذر زمان، این الگوریتم به خوبی می‌تواند تخمین بزند که هر مقاله‌ای در هر مکانِ جغرافیایی چه میزان کلیک دریافت خواهد کرد و بعد بیشتر مقاله‌هایی را که امکان دارد در آن مکان بیشترین کلیک بخورند را نمایش می‌دهد.

چرا ما اطلاعات جغرافیایی را استفاده می‌کنیم؟

ما انتخاب کردیم از اطلاعات مکانی و جغرافیاییِ تقریبی استفاده کنیم زیرا این‌ها نوعی از اطلاعات بافتی و زمینه‌ای هستند که هم‌اکنون در مرورگرهای وب و برنامه‌های کاربردی در دسترس هستند. درحالیکه مکان همیشه با مصرف خبر مرتبط نیست، اما بخش‌هایی از گزارش‌های ما برای برخی از خوانندگان‌مان در نقاط خاصی از ایالات‌متحده و جهان مرتبط‌تر است.

انواع بسیار دیگری از اطلاعات زمینه‌ای و بافتی وجود دارد، برخی از آن‌ها را ما اجرا کرده‌ایم. این اطلاعات شامل این موارد است: نوع ابزاری که خواننده استفاده می‌کند؛ موقعی از روز و مکانی که خواننده در مکانی خاص قرار دارد؛ تعداد خبرهایی که در یک بخشِ خبری خاص مشاهده شده است که از طریق آن‌ها می‌توانیم علاقه‌مندی به یک موضوع خاص را تخمین بزنیم. ما به این نتیجه رسیده‌ایم که بسته به نوع مقاله‌ای که پیشنهاد می‌دهیم، انواعی از متغیرهای بافتی می‌توانند در بهتر عمل کردنِ مدل‌مان به ما کمک کنند.

انتخاب مربوط‌ترین‌ها از بخشِ پیشنهادهای سردبیر

ما راهزن‌های مبتنی بر مکان جغرافیایی یا ژئو-راهزن‌ها را در بخشِ پیشنهادهای سردبیر که در ستون سمت راست پیج اصلی‌مان قرار دارد، امتحان کردیم. همان‌طور که از نامش پیداست، سردبیرها 30محتوای ژورنالیستیِ ارزشمند را برای این بخش گزینش می‌کنند. سپس ما از ژئو-راهزن‌ برای گزینش مقاله‌هایی که در یک مکان جغرافیایی خاص بیشترین کلیک را دریافت می‌کنند، استفاده می‌کنیم.

چند مثال از عناوینِ خبری‌ای که ژئو-راهزن آن‌ها را به خوانندگان ما در ایالت‌های متفاوت پیشنهاد داده است:

نیویورک

1.دانشمندان دارویی را فقط برای یک بیمار طراحی کردند. اسم او میلاست.

2. تلفن‌ها با صدای کیتی کوریک زنده‌اند.

تگزاس

1.وقتی مدرسه من در لوئیزیانا و تیم فوتبالش بالاخره از بین رفتند

2.برطبق یک معمار، این یک خانه سرخ‌پوستی است

3.هیچ‌کس به یک قایق تفریحی نیاز ندارد اما آن‌ها به فروشش ادامه می‌دهند.

4.تلفن‌ها با صدای کیتی کوریک زنده‌اند

ویسکانسین

1.وقتی مدرسه من در لوئیزیانا و تیم فوتبالش بالاخره از بین رفتند

2.تلفن‌ها با صدای کیتی کوریک زنده‌اند

3. 36ساعت در میلواکی

4.هیچ‌کس به یک قایق تفریحی نیاز ندارد اما آن‌ها به فروشش ادامه می‌دهند.

دقت کنید که چطور پیشنهادهای مقاله‌ها به خوانندگان هم شاملِ مقالاتی است که برای همه مناطق جالب بوده است (تلفن‌ها با صدای کیتی کوریک زنده‌اند) و هم شامل مقالاتی است که فقط برای یک منطقه جالب بوده است (36ساعت در میلواکی).

ما با استفاده از پیشنهادهای مرتبط، توانستیم آمار کلیک را در بخشِ پیشنهادهای سردبیر تا 55‌درصد افزایش دهیم.

چطور راهزن‌های بافتی را اجرا کردیم

اگرچه الگوریتمی که در زیر لایه راهزن‌های بافتی وجود دارد، نسبتاً ساده است اما اجرا کردنِ آن می‌تواند چالش‌برانگیز باشد. راهزن‌ها باید مرتب از طریق داده‌های جدیدی که به واسطه درگیری خوانندگان با مقاله‌های مختلف به دست می‌آورند، خودشان را بازآموزی کنند. این یعنی ما نه‌تنها به داده‌های صحیحی نیاز داریم که به ما بگویند خوانندگان چه مقاله‌هایی را خوانده‌اند (داده‌های کلیک) بلکه به داده‌های صحیحی نیاز داریم که به ما بگویند که کدام مقاله‌ها به خوانندگان ما نشان داده‌ شده‌اند (نرخ مشاهده) [به معنای تعداد دفعاتی که مقاله به مخاطبان نشان داده شده است. مترجم].

ما نیاز داریم که این محاسبات خیلی سریع انجام شود که این اجرای راهزن را سخت‌تر هم می‌کند. وقتی مخاطبان از سایت ما بازدید می‌کنند، پیشنهادها باید خیلی سریع و بلادرنگ در معرض نگاه آن‌ها قرار بگیرد تا آن‌ها با فضای خالی صفحه مواجه نشوند.

این نیاز به بلادرنگ بودن همچنین به این معنی است که هر اطلاعاتِ مربوط به بافتی که درباره خواننده نیاز داریم، باید همزمان در اختیارمان قرار بگیرد تا الگوریتم بتواند محتوای مناسب را پیشنهاد دهد.

با در نظر داشتنِ همه این نیازمندی‌ها، ما به وسیله آخرین داده‌هایی که خوانندگان‌مان در هنگام تعامل با متن ایجاد کرده‌اند الگوریتم را بازآموزی می‌کنیم و هر 15دقیقه یکبار مدلِ راهزن را به خدمت می‌گیریم.

این مدل‌ها از طریق کوبرنتس به کار گرفته می‌شود و اجراهای آموزش از طریق کوبرنتس کرون جابز Kubernetes cron jobs هماهنگ می‌شود. داده‌های آموزشی از فروشگاه اصلیِ ردیابیِ رویدادِ ما در بیگ‌کوآیری BigQueryبه دست می‌آید.

ما برای آنکه سنجش درستی از مقاله‌هایی که به مخاطبان نشان داده شده‌اند و همینطور سنجش درستی از مقاله‌هایی که در اختیار مخاطبان قرار گرفته‌اند، داشته باشیم، باید نرم‌افزار نرخ مشاهده را اجرا کنیم. ما به این نتیجه رسیده‌ایم که خیلی مفیدتر است که یک آی‌دیِ منحصربه‌فرد برای نرخ مشاهده هر مقاله داشته باشیم و بعد با هر کلیکی که روی مقاله می‌شود آن نرخ مشاهده را به جلو ببریم. این به ما اجازه می‌دهد که نرخ مشاهده و کلیک را در به راحتی در طول آموزش به هم متصل کنیم.

با استفاده از بیگ‌تیبل BigTable ما می‌توانیم به سرعت به آخرین تاریخچه‌ مطالعه مخاطبان دسترسی پیدا کنیم، ما مقاله‌هایی که مخاطب طی 30‌روز گذشته مطالعه کرده است را استفاده می‌کنیم تا برخی ویژگی‌های بافتی را بسازیم.

ما راهزن‌های بافتی خودمان را در نرم‌افزار پایتون می‌نویسیم اما اطمینان حاصل می‌کنیم که آن‌ها می‌تواند به قدر کافی سریع باشند که به نیازهای ما پاسخ بدهند. ما برخی از عملکردهای‌مان را در سایتون بازنویسی می‌کنیم که یک جمع‌آوری‌کننده است که پایتون را به کدهای سیِ معادلش ترجمه می‌کند.

یک توصیه جعبه‌ابزاری که به خوانندگان کمک می‌کند مطالب بیشتری پیدا کنند

ما با استفاده از راهزن‌های بافتی توانستیم مشارکت و درگیریِ مخاطبان با سایت‌مان را به طرز چشمگیری افزایش دهیم. اما مثل هر الگوریتم دیگری، راهزن‌های بافتی نقاط قدرت و ضعف دارند. الگوریتم‌های راهزن به سرعت خودشان را با تغییرات تنظیمات تطابق می‌دهند و در کاوش گزینه‌های جدید بسیار کارآمد عمل می‌کنند. نقطه ضعف آن‌ها این است که برای پیشنهاد چیزی که احساسِ «شخصی بودن» ایجاد می‌کند، طراحی نشده‌اند. 

نکته بعدی آن است که ما می‌خواهیم راهزن‌های چندمسلح بافتی را با سایر مدل‌ها در جعبه‌ابزار پیشنهادهای خودمان چیزهایی مانند پالایش گروهی یا پیشنهاد‌دهنده‌ها محتوا-مبنا ترکیب کنیم که نمایش دقیق‌تری از مخاطبان و محتواهای مورد علاقه آن‌ها را در اختیارمان می‌گذارد.

با ترکیب مدل‌هایی که گفته شد، امیدوارم هر چه بیشتر به خوانندگان‌مان کمک کنیم تا محتواهایی را بخوانند که با زندگی‌شان ارتباط دارد.

مترجم: عاطفه رضوان‌نیا

این مقاله ترجمه متن زیر است:

https://open.nytimes.com/how-the-new-york-times-is-experimenting-with-recommendation-algorithms-562f78624d26