«الگوریتمهای پیشنهاددهنده» یادمیگیرد اهمیت اخبار را برای مخاطبان از مکانهای جغرافیایی تخمین بزند
«الگوریتمهای پیشنهاددهنده» یا الگوریتمهای «راهزن»، با بررسی ویژگیهای مخاطبان، از قبیلِ مکانِ جغرافیاییِ آنها، یاد میگیرد، اهمیتِ اخبار را برای مخاطبان از این مکانهای جغرافیایی تخمین بزند. بنابراین، امکانِ اینکه مخاطبان از یک مکانِ جغرافیاییِ خاص با اخبارِ خاصی مواجه شوند، افزایش پیدا میکند. البته مکانِ جغرافیایی، فقط یکی از ویژگیهای کاربران است که این الگوریتمها برای شناساییِ مخاطبان استفاده میکنند...
مقدمه مترجم: سایتهای خبری و سایت روزنامههای بزرگی مانند نیویورکتایمز، میگویند که محتواهای متنوع و بیشماری را در طی یک روز منتشر میکنند که ممکن است، به دلیل محدود بودنِ فضای انتشار در صفحه اصلی (خانه)، بخش قابلتوجهی از این محتواها از چشمِ خوانندگانشان دور بماند. این سایتها به دنبال روشهایی هستند که محتواها، حداقل برای مخاطبانِ هدفشان، قابل دسترستر باشد. بهاینمنظور، به کمک تکنولوژی راهکارهایی را اندیشیدهاند که یکی از این راهکارها استفاده از «الگوریتمهای پیشنهاددهنده» یا الگوریتمهای «راهزن» است که با با بررسی ویژگیهای مخاطبان، از قبیلِ مکانِ جغرافیاییِ آنها، یاد میگیرد، اهمیتِ اخبار را برای مخاطبان از این مکانهای جغرافیایی تخمین بزند. بنابراین، امکانِ اینکه مخاطبان از یک مکانِ جغرافیاییِ خاص با اخبارِ خاصی مواجه شوند، افزایش پیدا میکند. البته مکانِ جغرافیایی، فقط یکی از ویژگیهای کاربران است که این الگوریتمها برای شناساییِ مخاطبان استفاده میکنند. آنچه در ادامه میخوانید، تجربه روزنامه نیویورکتایمز در استفاده از این الگوریتمها و مثالهای ملموسی که نشان میدهد این الگوریتمها برای این روزنامه تا چه اندازه مفید بوده است.
***
امروز نیویورکتایمز در حدود 250مقاله منتشر خواهد کرد اما بیشتر خوانندگان فقط بخشی از این مقالات را خواهند دید. اکثر خوانندگان ما به صورت آنلاین به نیویورکتایمز دسترسی دارند و نه به روزنامه کاغذی و اغلب از ابزارهای کوچک استفاده میکنند که یعنی ما یک مشکلِ بزرگِ « املاکی» داریم: تعداد محتواهایی که ما در هر زمان منتشر میکنیم از میزان فضایی که این محتوا میتواند در آن قرار بگیرد تا در تیررسِ نگاهِ خوانندگانمان باشد، بیشتر است.
برای اینکه بتوانیم وسعتِ روزنامهنگاری خودمان را به مخاطبانمان نشان دهیم، نیاز داریم روشهایی را آزمایش کنیم تا بتوانیم محتواهای بیشتری را به مخاطبانمان انتقال دهیم. ما در حال ساختنِ فیدهای بلادرنگ (real-time feeds) [به نظر میرسد به معنیِ همزمانی رویداد و گزارش آن باشد. مترجم]؛ خبررسانهای تخصصی و افزودنِ قابلیت شخصیسازیِ برخی از بخشهای برنامهکاربردیِ خبریمان هستیم.
ما همچنین مشغول استفاده از الگوریتمهای پیشنهاددهنده هستیم تا بتوانیم مقالههایی را که برای مخاطب ما اهمیت دارد یا به او مرتبط است را برجستهسازی میکند.
مرتبسازیِ الگوریتمی در بخشهای خاصی از وبسایت و برنامه کاربردی روزنامه تایمز استفاده میشود. ما از این قابلیت برای گردآوری و گزینش محتوا در موقعیتی استفاده میکنیم که مدیریتِ دستی ناکارآمد یا سخت است. برای مثال در بخشِ «زندگی هوشمندانهتر» یا در بخشِ «نسخه هفتگی شما»،که یک خبرنامه شخصیسازیشده است [بخشی در نیویورک تایمز است که اخباری که ممکن است شما در طی هفته ندیده یا نخوانده باشید را میتوانید در آن پیدا کنید. مترجم]، از این قابلیت استفاده میکنیم. الگوریتمهای شخصیسازیشده به قضاوتِ اعضایِ تحریریه برای انتخاب گزارشهای خبری برتر کمک میکند.
رویکردِ پیشنهادهای وابسته به بافت
یکی از رویکردهای پیشنهادی استفاده از طبقهای از الگوریتمها با عنوانِ راهزنِ چندمسلحِ وابسته به بافت است. [راهزنهای وابسته به بافت، تبلیغاتی هستند که بر اساس بافت یا محتوا در اختیار مخاطب قرار میگیرند. مترجم]. راهزنهای وابسته به بافت در گذر زمان نحوه درگیر شدنِ افراد با مقالههای خاص را یاد میگیرند. آنها سپس محتواها و مقالاتی را به خوانندگان پیشنهاد میدهند که پیشبینی میکنند مخاطبان را درگیر خواهد کرد.
بخشِ «وابسته به بافت» به این معنی است که این راهزنها میتوانند اطلاعاتِ افزودهای را به کار بگیرند تا پیشبینی کنند یک مقاله خاص تا چه اندازه میتواند برای یک خواننده خاص جذابیت داشته باشد. برای مثال، آنها میتوانند منطقه جغرافیایی خواننده (مثل کشور یا ایالت) یا تاریخچه مطالعه او را در نظر بگیرند و بعد تصمیم بگیرند که آیا یک مقاله خاص میتواند به این خواننده مربوط باشد یا خیر.
الگوریتمهایی که ما استفاده کردهایم بر مبنای مدلهای ساده خطی هستند که اطلاعات بافتی – مثل کشور یا ایالت خواننده - را با سنجههایی مثل میزان کلیک کردنِ او مرتبط میسازد. اگر میزان درگیری خواننده برای یک مطلب بالا تشخیص داده شود، این الگوریتم مقالههایی را که پیشبینی میکند درگیری را افزایش میدهند، با بسامد بیشتری در اختیار مخاطب میگذارد.
استفاده از راهزنهای بافتی برای پیشنهادِ مقاله
یکی از مدلهایی که پیشنهاد میدهیم، ژئو-راهزن است که تلاش میکند بر اساس ایالتی که خواننده در آن زندگی میکند، میزانِ کلیکهای پیشبینیشده او به روی مجموعهای از مقالهها را افزایش دهد. برای مثال، ما دو مقاله A و B را در اختیار خوانندگانمان قرار دادیم و بعد بر اساس ایالتی که آنها در آن قرار داشتند، دادههای آنها و اینکه آیا روی این مقالهها کلیک کردند یا نه، را گردآوری و اندازهگیری کردیم.
[«مقاله پیشنهادی»: مقاله B، «ایالتِ خواننده»: «تگزاس»: «کلیک» : «بله»؛ «مقاله پیشنهادی»: «مقاله A»؛ «ایالت خواننده»: «نیویورک»؛ «کلیک»: «بله». «مقاله پیشنهادی»: «مقاله B»؛ «ایالت خواننده»: نیویورک»، «کلیک»: «خیر» و ....]
به محضِ آنکه راهزن با دادههای اولیه آموزش داده شد، ممکن است که دفعه بعدی مقالهA، B یا مقاله جدیدِ Cرا برای یک خواننده جدید از نیویورک پیشنهاد دهد. خیلی احتمال دارد که راهزن مقاله A را پیشنهاد دهد زیرا این مقاله پیش از این، بیشترین کلیکها را از خوانندگان نیویورکی دریافت کرده است. با احتمالِ ضعیفتر، ممکن است که مقاله C را پیشنهاد دهد، زیرا او هنوز نمیداند که این مقاله چقدر برای این خوانندگان جذاب است و نیاز دارد که دادههایی را برای ارزیابی این موضوع گردآوری کند.
با گذر زمان، این الگوریتم به خوبی میتواند تخمین بزند که هر مقالهای در هر مکانِ جغرافیایی چه میزان کلیک دریافت خواهد کرد و بعد بیشتر مقالههایی را که امکان دارد در آن مکان بیشترین کلیک بخورند را نمایش میدهد.
چرا ما اطلاعات جغرافیایی را استفاده میکنیم؟
ما انتخاب کردیم از اطلاعات مکانی و جغرافیاییِ تقریبی استفاده کنیم زیرا اینها نوعی از اطلاعات بافتی و زمینهای هستند که هماکنون در مرورگرهای وب و برنامههای کاربردی در دسترس هستند. درحالیکه مکان همیشه با مصرف خبر مرتبط نیست، اما بخشهایی از گزارشهای ما برای برخی از خوانندگانمان در نقاط خاصی از ایالاتمتحده و جهان مرتبطتر است.
انواع بسیار دیگری از اطلاعات زمینهای و بافتی وجود دارد، برخی از آنها را ما اجرا کردهایم. این اطلاعات شامل این موارد است: نوع ابزاری که خواننده استفاده میکند؛ موقعی از روز و مکانی که خواننده در مکانی خاص قرار دارد؛ تعداد خبرهایی که در یک بخشِ خبری خاص مشاهده شده است که از طریق آنها میتوانیم علاقهمندی به یک موضوع خاص را تخمین بزنیم. ما به این نتیجه رسیدهایم که بسته به نوع مقالهای که پیشنهاد میدهیم، انواعی از متغیرهای بافتی میتوانند در بهتر عمل کردنِ مدلمان به ما کمک کنند.
انتخاب مربوطترینها از بخشِ پیشنهادهای سردبیر
ما راهزنهای مبتنی بر مکان جغرافیایی یا ژئو-راهزنها را در بخشِ پیشنهادهای سردبیر که در ستون سمت راست پیج اصلیمان قرار دارد، امتحان کردیم. همانطور که از نامش پیداست، سردبیرها 30محتوای ژورنالیستیِ ارزشمند را برای این بخش گزینش میکنند. سپس ما از ژئو-راهزن برای گزینش مقالههایی که در یک مکان جغرافیایی خاص بیشترین کلیک را دریافت میکنند، استفاده میکنیم.
چند مثال از عناوینِ خبریای که ژئو-راهزن آنها را به خوانندگان ما در ایالتهای متفاوت پیشنهاد داده است:
نیویورک
1.دانشمندان دارویی را فقط برای یک بیمار طراحی کردند. اسم او میلاست.
2. تلفنها با صدای کیتی کوریک زندهاند.
تگزاس
1.وقتی مدرسه من در لوئیزیانا و تیم فوتبالش بالاخره از بین رفتند
2.برطبق یک معمار، این یک خانه سرخپوستی است
3.هیچکس به یک قایق تفریحی نیاز ندارد اما آنها به فروشش ادامه میدهند.
4.تلفنها با صدای کیتی کوریک زندهاند
ویسکانسین
2.تلفنها با صدای کیتی کوریک زندهاند
3. 36ساعت در میلواکی
4.هیچکس به یک قایق تفریحی نیاز ندارد اما آنها به فروشش ادامه میدهند.
دقت کنید که چطور پیشنهادهای مقالهها به خوانندگان هم شاملِ مقالاتی است که برای همه مناطق جالب بوده است (تلفنها با صدای کیتی کوریک زندهاند) و هم شامل مقالاتی است که فقط برای یک منطقه جالب بوده است (36ساعت در میلواکی).
ما با استفاده از پیشنهادهای مرتبط، توانستیم آمار کلیک را در بخشِ پیشنهادهای سردبیر تا 55درصد افزایش دهیم.
چطور راهزنهای بافتی را اجرا کردیم
اگرچه الگوریتمی که در زیر لایه راهزنهای بافتی وجود دارد، نسبتاً ساده است اما اجرا کردنِ آن میتواند چالشبرانگیز باشد. راهزنها باید مرتب از طریق دادههای جدیدی که به واسطه درگیری خوانندگان با مقالههای مختلف به دست میآورند، خودشان را بازآموزی کنند. این یعنی ما نهتنها به دادههای صحیحی نیاز داریم که به ما بگویند خوانندگان چه مقالههایی را خواندهاند (دادههای کلیک) بلکه به دادههای صحیحی نیاز داریم که به ما بگویند که کدام مقالهها به خوانندگان ما نشان داده شدهاند (نرخ مشاهده) [به معنای تعداد دفعاتی که مقاله به مخاطبان نشان داده شده است. مترجم].
ما نیاز داریم که این محاسبات خیلی سریع انجام شود که این اجرای راهزن را سختتر هم میکند. وقتی مخاطبان از سایت ما بازدید میکنند، پیشنهادها باید خیلی سریع و بلادرنگ در معرض نگاه آنها قرار بگیرد تا آنها با فضای خالی صفحه مواجه نشوند.
این نیاز به بلادرنگ بودن همچنین به این معنی است که هر اطلاعاتِ مربوط به بافتی که درباره خواننده نیاز داریم، باید همزمان در اختیارمان قرار بگیرد تا الگوریتم بتواند محتوای مناسب را پیشنهاد دهد.
با در نظر داشتنِ همه این نیازمندیها، ما به وسیله آخرین دادههایی که خوانندگانمان در هنگام تعامل با متن ایجاد کردهاند الگوریتم را بازآموزی میکنیم و هر 15دقیقه یکبار مدلِ راهزن را به خدمت میگیریم.
این مدلها از طریق کوبرنتس به کار گرفته میشود و اجراهای آموزش از طریق کوبرنتس کرون جابز Kubernetes cron jobs هماهنگ میشود. دادههای آموزشی از فروشگاه اصلیِ ردیابیِ رویدادِ ما در بیگکوآیری BigQueryبه دست میآید.
ما برای آنکه سنجش درستی از مقالههایی که به مخاطبان نشان داده شدهاند و همینطور سنجش درستی از مقالههایی که در اختیار مخاطبان قرار گرفتهاند، داشته باشیم، باید نرمافزار نرخ مشاهده را اجرا کنیم. ما به این نتیجه رسیدهایم که خیلی مفیدتر است که یک آیدیِ منحصربهفرد برای نرخ مشاهده هر مقاله داشته باشیم و بعد با هر کلیکی که روی مقاله میشود آن نرخ مشاهده را به جلو ببریم. این به ما اجازه میدهد که نرخ مشاهده و کلیک را در به راحتی در طول آموزش به هم متصل کنیم.
با استفاده از بیگتیبل BigTable ما میتوانیم به سرعت به آخرین تاریخچه مطالعه مخاطبان دسترسی پیدا کنیم، ما مقالههایی که مخاطب طی 30روز گذشته مطالعه کرده است را استفاده میکنیم تا برخی ویژگیهای بافتی را بسازیم.
ما راهزنهای بافتی خودمان را در نرمافزار پایتون مینویسیم اما اطمینان حاصل میکنیم که آنها میتواند به قدر کافی سریع باشند که به نیازهای ما پاسخ بدهند. ما برخی از عملکردهایمان را در سایتون بازنویسی میکنیم که یک جمعآوریکننده است که پایتون را به کدهای سیِ معادلش ترجمه میکند.
یک توصیه جعبهابزاری که به خوانندگان کمک میکند مطالب بیشتری پیدا کنند
ما با استفاده از راهزنهای بافتی توانستیم مشارکت و درگیریِ مخاطبان با سایتمان را به طرز چشمگیری افزایش دهیم. اما مثل هر الگوریتم دیگری، راهزنهای بافتی نقاط قدرت و ضعف دارند. الگوریتمهای راهزن به سرعت خودشان را با تغییرات تنظیمات تطابق میدهند و در کاوش گزینههای جدید بسیار کارآمد عمل میکنند. نقطه ضعف آنها این است که برای پیشنهاد چیزی که احساسِ «شخصی بودن» ایجاد میکند، طراحی نشدهاند.
نکته بعدی آن است که ما میخواهیم راهزنهای چندمسلح بافتی را با سایر مدلها در جعبهابزار پیشنهادهای خودمان – چیزهایی مانند پالایش گروهی یا پیشنهاددهندهها محتوا-مبنا – ترکیب کنیم که نمایش دقیقتری از مخاطبان و محتواهای مورد علاقه آنها را در اختیارمان میگذارد.
با ترکیب مدلهایی که گفته شد، امیدوارم هر چه بیشتر به خوانندگانمان کمک کنیم تا محتواهایی را بخوانند که با زندگیشان ارتباط دارد.
مترجم: عاطفه رضواننیا
این مقاله ترجمه متن زیر است:
https://open.nytimes.com/how-the-new-york-times-is-experimenting-with-recommendation-algorithms-562f78624d26