كيف حددنا الروبوتات على تويتر
[ad_1] Bots جزء من الحياة على Twitter ، ولكن تحديد مدى انتشارها يمكن أن يكون صعبًا. بحثت دراسة مركز Pew Research الأخيرة دور البوتات في...
معلومات الكاتب
[ad_1]
Bots جزء من الحياة على Twitter ، ولكن تحديد مدى انتشارها يمكن أن يكون صعبًا.
بحثت دراسة مركز Pew Research الأخيرة دور البوتات في مشاركة الروابط على Twitter. فحصت الدراسة 1.2 مليون رابط على تويتر - تم جمعها خلال صيف عام 2017 - لقياس عدد الرسائل الواردة من حسابات الروبوت المشتبه فيها. النتيجة: حوالي الثلثين (66٪) من روابط تويتر التي قام المركز بفحصها ، تمت مشاركتها بواسطة برامج الروبوت المشتبه بها ، أو الحسابات التلقائية التي يمكنها توليد أو توزيع المحتوى دون إشراف بشري مباشر. التحليل المطلوب أولاً للإجابة عن سؤال أساسي: ما الحسابات التي تستخدم برامج التتبع والحسابات غير الصحيحة؟ في هذا السؤال وجوابه ، يشرح شتيفان فوسيك ، العالم الاجتماعي الحسابي في المركز وأحد مؤلفي التقرير ، كيف أنه وزملاءه قاموا بالتنقل في هذا السؤال. يمكنك أيضًا مشاهدة هذا الفيديو مع Wojcik لسماع المزيد عن منهجية الدراسة.
كيف يمكنك تحديد ما إذا كان حساب Twitter شخصًا أو بوتًا؟
إنه تحدي. إنه حقل مزدهر وهناك دائما درجة من عدم اليقين. لكن أفضل طريقة هي النظر إلى ما يفعله حساب معين. ما نوع المحتوى الذي تشاركه؟ هل تنقل التغريدات رسائل تتحدث عن البشر؟ ما هي الحسابات الأخرى التي تتبعها؟ هل قام الحساب بالتغريد كل خمس دقائق طوال عمره كله؟
يمكنك الخروج بقائمة من الخصائص مثل هذه لمحاولة تحديد ما إذا كان الحساب هو بوت أم لا. وبالطبع ، سيكون من المستحيل جدًا من وقتًا طويلاً محاولة مراقبة هذه الخصائص لـ 140،000 حساب مختلف على تويتر (تقريبًا عدد الحسابات المدرجة في الدراسة). هناك نهج عملي أكثر يتمثل في التوصل إلى مجموعة بيانات كبيرة بشكل معقول من الحسابات ، وهي برامج التتبع وليس برامج التتبع ، ثم استخدام نظام التعلم الآلي "لتعلم" الأنماط التي تميز حسابات الروبوت والحسابات البشرية. باستخدام هذه الأنماط ، يمكنك استخدامها لتصنيف عدد أكبر من الحسابات.
لقد تحققنا من أنظمة التعلم الآلي المختلفة التي تم اختبارها بشكل عام. استنادًا إلى التطبيق الناجح في الأبحاث السابقة واختبارنا الخاص ، اخترنا نظامًا يُطلق عليه Botometer.
ما هو مقياس السعة ، وكيف يعمل؟
Botometer عبارة عن نظام تعلم آلي تم تطويره بواسطة الباحثون في جامعة جنوب كاليفورنيا وجامعة إنديانا. تم تدريب النظام على التعرف على سلوك البوت على أساس الأنماط في مجموعة بيانات تضم أكثر من 30،000 حساب تم التحقق منها من قبل الباحثين البشريين على أنها إما برامج روبوت أو برامج غير تتبع. يقرأ "Botometer" أكثر من ألف سمة مختلفة ، أو "ميزات" لكل حساب ، ثم يعين الحساب علامة بين 0 و 1. وكلما زادت الدرجات ، زادت احتمالية أتمتة الحساب. تم استخدام الأداة في عدد من الدراسات الأكاديمية وأبحاث مستقلة أخرى.
في دراستك ، قمت بتعيين مقياس مقياس الدرجات هو 0.43 كعتبة بين حساب غير تلقائي و حساب تلقائي. كيف وصلت إلى هذا الحد؟
كما فعل الآخرون في الماضي ، كنا بحاجة إلى أن نقول ما إذا كان من الممكن بشكل معقول الاشتباه في استخدام الأتمتة - كونها "بوت". لذلك وضعنا عتبة ، اخترنا بطريقة تقلل من نوعين مختلفين من الخطأ. إن استخدام مقياس Botometer الذي كان مرتفعاً للغاية قد يعني تصنيف بعض البوتات بشكل غير صحيح كحسابات بشرية - والمعروف باسم سلبي كاذب. من ناحية أخرى ، إذا وضعنا حدًا منخفضًا للغاية ، فقد وصفنا بشكل غير صحيح الكثير من الحسابات البشرية على أنها روبوتات - وهو خطأ كاذب.
أي نوع من الخطأ هو "أسوأ؟" إنه سؤال معقد ، تعتمد الإجابة على ما تريد تحقيقه. لقد أردنا العرض الأكثر دقة ، والذي يبلغ 10000 قدم ، حول انتشار روابط مشاركة البوتات على Twitter ، لذا قمنا بتعيين الحد الأقصى بطريقة تزيد من الدقة.
إن استخدام مقياس بوتوميتر كان عاليًا جدًا قد يعني تصنيف العديد من برامج التتبع بشكل غير صحيح كحسابات بشرية - والمعروف باسم سلبي كاذب. من ناحية أخرى ، إذا كنا قد حددنا عتبة منخفضة للغاية ، فإننا كنا قد وصفنا الكثير من الحسابات البشرية بأنها روبوتات خاطئة - وهي إيجابية كاذبة.
Stefan Wojcik
لقد قمنا بذلك عن طريق إجراء تحليل بشري مجموعة فرعية من حسابات تويتر في دراستنا ثم نستخدم النتائج لتحديد عتبة مقياس الدرجات من شأنه أن يقلل من نسبة الإيجابيات الكاذبة والسلبيات الزائفة في العينة الأكبر.
هذا التحليل ، الذي يستنبط من الأحكام البشرية ، هو بديل اختيار عتبة اعتباطية ، والتي يثبطها مطورو Botometer بشكل صريح. قادتنا اختباراتنا في النهاية إلى التسوية على مستوى عتبة 0.43 ، وهو شبيه بما وجده فريق Botometer نفسه لزيادة الدقة لعينة كبيرة.
لقد عدنا أيضًا ونظرنا إلى الحسابات التي علقت تويتر كجزء منها من جهودها لتحسين النظام الأساسي منذ أن جمعنا بياناتنا. لقد وجدنا أن الحسابات التي نشتبه في أنها برامج روبوت تم تعليقها بمعدلات أعلى من الحسابات التي حددناها كبشر.
ألا توجد بعض حسابات Twitter أعلى من الحد الأدنى لك ، لكنها ليست روبوتات؟ أليس هناك بعض الحسابات التي تكون أقل من الحد الأدنى لك هي bots؟
نعم ، هناك البعض. أشار العديد من الأشخاص الذين قرأوا دراستنا إلى هذا بعد أن اختبروا حساباتهم على تويتر ضد عتبة لدينا. ولكن من المهم أن نتذكر أننا قمنا بمعايرة هذه العتبة للحصول على تقدير متوسط للدور الرئيسي الذي تلعبه البوتات في إنتاج روابط Twitter ، وليس لتحديد ما إذا كانت حسابات فردية هي برامج تتبع. إذا كان هذا هو هدفنا ، فقد نكون قد استخدمنا طريقة مختلفة ، والتي ركزت أكثر على تقليل الإيجابيات الخاطئة.
خطأ القياس هو جزء طبيعي من التعلم الآلي ، والقياس العلمي بشكل أوسع. الاستطلاعات ، على سبيل المثال ، لها أيضًا خطأ في القياس يمكن أن ينتج عن أسئلة ضعيفة الصياغة أو مستفهامين غافلين ، بالإضافة إلى الخطأ الأكثر شيوعًا في أخذ العينات. لذلك ليس من المستغرب أن نرى إيجابيات خاطئة أو سلبيات زائفة عند استخدام هذا النظام.
العديد من حسابات تويتر المؤسسية - مثل حسابات المؤسسات الإخبارية التي تغرد روابط متعددة لنفس المقال كل يوم - قد تُظهر سلوكًا شبيهًا بالبوت على الرغم من أنها ليست البوتات. كيف استحوذت دراستك على هذه الأنواع من الحسابات؟
أدركنا ذلك كمسألة محتملة. إذا كانت الحسابات المؤسسية مسؤولة عن عدد كبير من روابط Twitter ، فقد يكون فهمنا لسلوك البوت مختلفًا تمامًا. لذلك أجرينا اختبارًا لمعرفة التأثير - إن وجد - في حسابات "التحقق" هذه. لقد أزلنا الحسابات التي تم التحقق منها والتي تم تصنيفها على أنها حسابات روبوت وإعادة تحليلها. وجدنا أن النسب المئوية لروابط Twitter التي نشرتها برامج التتبع كانت تقريبًا متماثلة ، مع أو بدون حسابات تم التحقق منها. أعطانا هذا الثقة بأن نتائجنا لم تكن مدفوعة في المقام الأول بهذه الحسابات المؤسسية التي تم التحقق منها.
ما هي الدروس المستفادة من التعلم الآلي بشكل عام من هذا المشروع؟
التعلم الآلي يمكن أن يكون أداة قيّمة للبحث . قد يكون مفيدًا بشكل خاص عند فحص كميات كبيرة من بيانات الوسائط الاجتماعية أو غيرها من بيانات التتبع الرقمية على الويب. في الواقع ، قام مركز بيو للأبحاث في السنوات الأخيرة بتوسيع نطاق أبحاثه باستخدام التعلم الآلي
نعلم أيضًا أن التعلم الآلي هو مجال متنامي ، وأن هناك دائمًا درجة من عدم اليقين في كيفية عمل أساليب معينة بشكل جيد. نشعر أن أفضل طريقة لاستخدام هذه الأداة هي أن تكون شفافاً في القرارات التي نتخذها ، وأن نكون منفتحين على احتمال الخطأ وأن نكون حذرين عند تفسير النتائج التي توصلنا إليها. نحن حريصون على المساهمة في التقدم المحرز في معالجة اللغات الطبيعية والإحصاءات التطبيقية والتعلم الآلي ، ونتطلع إلى استكشاف مزاياها وقيودها.
الموضوعات: المجتمعات عبر الإنترنت ، وسائل الإعلام الاجتماعية ، أنشطة الإنترنت ، طرق البحث [19659029]
[ad_2]