هوش مصنوعی تشخیص جرم پلیس بریتانیا به سختی شکست خورد

شایان ضیایی

۲۸ مرداد ۱۳۹۹ | ۱۲:۵۵ زمان مورد نیاز برای مطالعه: ۷ دقیقه

به گفته‌ی پلیس کشور بریتانیا،‌ یک سیستم بسیار پیشرفته‌ی مبتنی بر هوش مصنوعی که برای پیش‌بینی احتمال خشونت با چاقو و سلاح گرم طراحی شده بوده، مشکلاتی جدی داشته که آن را غیر قابل استفاده کرده است. خطای موجود در این سیستم به کاهش چشمگیر دقت منجر شده است، تا جایی که در نهایت تمام متخصصینی که آن را از نظر اخلاقی بررسی می‌کرده‌اند، استفاده از آن را نپذیرفته‌اند.

این سیستم پیش‌بینی که تحت عنوان «جدی‌ترین خشونت» یا به اختصار MSV شناخته می‌شود، بخشی از تلاش‌های تیم ملی راهکارهای تحلیل دیتا (NDAS) به حساب می‌آمد. وزارت کشور بریتانیا بودجه‌ای حداقل ۱۳ میلیون دلاری را طی دو سال اخیر در اختیار پروژه قرار داده بود و هدف، ساخت یک سیستم یادگیری ماشین بود که بتوان از آن در سراسر انگلیس و ولز استفاده کرد.

در نتیجه‌ی خطا در عملکرد MSV، پلیس بریتانیا توسعه سیستم پیش‌بینی را در فرم کنونی‌اش متوقف کرده است. این هوش مصنوعی هیچوقت در عملیات‌های پلیسی مورد استفاده قرار نگرفته و اصلا نتوانسته به مرحله‌ای برسد که قابل استفاده باشد. اما با تمام این اتفاقات، مباحثاتی هم پیرامون این موضوعات شکل گرفته که آیا احتمال دارد ابزارهای تشخیص جرم نسبت به اقلیت‌ها جهت‌گیری کنند؟ و آیا اصلا چنین ابزاری برای پلیس کارآمد تلقی می‌شود؟

ابزار MSV طراحی شده بود تا نخستین جرایم افراد مختلف با چاقو یا سلاح سرد را در دو سال آینده پیش‌بینی کند. افرادی که قبلا با نیروی پلیس دو شهر میدلندز غربی و یورک‌شایر غربی در ارتباط بوده‌اند، در این پروژه دخیل شدند و نوعی امتیاز ریسک به آن‌ها تعلق گرفت. هرچه امتیاز بالاتر باشد، به احتمال بیشتری آن شخص مرتکب یکی از این دو جرم خواهد شد.

در توسعه این سیستم از تاریخچه اطلاعات حدودا ۲.۴ میلیون نفر در دیتابیس میدلندز غربی و ۱.۱ میلیون نفر در یورک‌شایر غربی استفاده شد و حاوی سوابق جرم و بازداشت، گزارش‌های امنیتی و دیتابیس کامپیوتر پلیس ملی بریتانیا بودند.

اما در حالی که NDAS شروع به «عملیاتی کردن» سیستم در ابتدای سال جاری میلادی کرد، مشکلات هم خودشان را نشان دادند. مستندات منتشر شده از سوی کمیته اخلاقی پلیس میدلندز غربی –که مسئول نظارت بر کارهای NDAS و همینطور کمک به توسعه سیستم است- نشان می‌دهد که هوش مصنوعی شامل یک «نقص» در کدنویسی بوده که باعث می‌شود با دقت قادر به پیش‌بینی جرایم نباشد.

یکی از سخنگویان NDAS می‌گوید که خطا در واقع یک مشکل در هضم اطلاعات بوده که در پروسه توسعه کشف شده است. جزییات بیشتری هم در این باره به اشتراک گذاشته نشده است. این سازمان در بیانیه خود اضافه می‌کند که «مشخص شده که با اطلاعاتی که اکنون برای تشخیص لحظه مداخله پیش از وقوع اولین جرم شخص با چاقو یا سلاح در اختیار داریم، چنین کاری با هیچ سطحی از دقت امکان‌پذیر نخواهد بود».

قبل از اینکه ارور کشف شود، NDAS مدعی شده بود که سیستم‌اش دقتی در حد ۷۵ درصد دارد. از میان ۱۰۰ نفری که گفته می‌شد ریسک بالای ارتکاب جرایم خشونت‌آمیز را به همراه می‌آورند، هوش مصنوعی ۵۴ نفر از آن‌ها را مظنون معرفی کرده بود. در یورک‌شایر غربی نیز گفته می‌شود که از لیست مشابهی شامل ۱۰۰ نفر، ۷۴ نفر از آن‌ها یک جرم جدی با چاقو یا سلاح مرتکب می‌شوند. بعد در ماه جولای NDAS گفت که «حالا می‌دانیم که سطح حقیقی دقت به شکل چشمگیری پایین‌تر است».

ملیسا همیلتون، دانشجوی حقوق و عدالت مجرمانه در دانشگاه سوری و کسی که اکنون به صورت متمرکز روی استفاده پلیس از ابزارهای پیش‌بینی پژوهش می‌کند عقیده دارد: «پیش‌بینی وقایع نادر به مراتب دشوارتر از وقایع معمولی است». همیلتون از بروز مشکل در دقت هوش مصنوعی متعجب نشده است. «درحالی که می‌دانیم ابزارهای شناسایی ریسک در حوزه‌های استحفاظی مختلف عملکردی یکسان ندارند، هیچوقت چنین سطحی از تفاوت را ندیده بودم. خصوصا وقتی که دارید درباره دو نقطه مختلف در یک کشور صحبت می‌کنید.» او اضافه می‌کند که تخمین‌های ابتدایی سیستم بیش از اندازه بالا بوده‌اند.

در نتیجه نقص به وجود آمده، NDAS به بازسازی هوش مصنوعی تشخیص جرم خود پرداخته و به این ترتیب، میزان دقت به شکل چشمگیری کاهش یافته. برای جرایم جدی که شامل چاقو یا اسلحه می‌شوند، میزان دقت به ۱۴ الی ۱۹ درصد در مدیلندز غربی و ۱۸ درصد در یورک‌شایر غربی رسید.

NDAS حالا پی برده که با حذف کردن بسیاری از متغیرهای ابتدایی که اصلا به این سیستم معنا می‌بخشیدند –مانند نخستین جرم، نوع سلاح و استفاده از سلاح- سیستم بازسازی شده به بیشترین میزان دقت خود دست یافته است. به صورت خلاصه، عملکرد ابتدایی اغراق‌آمیز بوده است. در بهترین حالت ممکن، این سیستم محدود می‌تواند در میدلندز غربی بین ۲۵ الی ۳۸ درصد دقت داشته باشد و در یورک‌شایر غربی بین ۳۶ الی ۵۱ درصد.

پروپوزال پلیس برای استفاده از این سیستم به اتفاق آرا رد شد. کمیته اخلاقی در ماه جولای گفت: «اطلاعات کافی راجع به این وجود ندارد که مدل پیشنهادی چطور به بهبود وضعیت تصمیم‌گیری‌ها راجع به جلوگیری از جرایم جوانان منجر خواهد شد». به این ترتیب، آن‌ها رای به این دادند که نیازی به توسعه هرچه بیشتر سیستم نیست. این کمیته که متشکل از گروهی از متخصصین داوطلب در حوزه‌های مختلف است گفت که درک نمی‌کند چرا دقت بازبینی شده باید کافی باشد و نسبت به چگونگی کارکرد سیستم پیش‌بینی هم ابراز نگرانی کرد.

نیک دیل، مدیر پروژه NDAS می‌گوید افراد پشت پروژه «موافق هستند که مدل نمی‌تواند در فرم کنونی‌اش به ادامه کار بپردازد» و می‌گوید آنچه تاکنون ساخته شده، پروژه‌ای آزمایشی بوده. «نمی‌توانیم با قطعیت بگوییم که مدل نهایی چه شکلی خواهد بود، اگر اصلا بتوانیم مدلی مناسب بسازیم. تمام کارهای ما به دقت از سوی کمیته اخلاقی بررسی می‌شود و نتیجه مشاهدات آن‌ها هم منتشر».

«مشکل اصلی برنامه فراتر از مسئله دقت است». این را نونو جوریرو، متخصص تکنولوژی در Privacy International می‌گوید: «اساس کردن مباحثبات بر میزان دقت، مشکل‌ساز خواهد بود. به خاطر اینکه ضعف‌های تکنولوژی در گذر زمان برطرف می‌شوند. حتی اگر الگوریتم، دقتی ۱۰۰ درصدی داشته باشد هم شاهد جهت‌گیری در سیستم خواهیم بود».

سیستم پیش‌بینی خشونت «بیشتر از ۲۰» فاکتور دارد که گفته می‌شد برای بررسی رفتارهای خطرناک آتی افراد ضروری هستند. از جمله این فاکتورها می‌توان به سن، مدت‌زمانی که از نخستین جرم می‌گذرد، ارتباط با دیگر افراد موجود در دیتا، میزان وخامت جرایم و بیشینه اشارات به چاقو در گزارش‌های امنیتی اشاره کرد. اطلاعات لوکیشن و قومیت افراد جایی در این اطلاعات نداشتند. اکثر این فاکتورها قرار بود عمق بیشتری به اطلاعات جدیدتر بدهند.

راشیدا ریچاردسون، دانشجوی مهمان مدرسه قانون راتجرز که به پژوهش روی مشکلات دیتا در سیستم‌های پیش‌بینی پلیسی پرداخته می‌گوید: «دسته‌بندی‌های بسیار زیادی وجود دارد که اثبات شده در حوزه تحلیل دیتا در سیستم عدالت مجرمانه، خروجی‌هایی نابرابر دارند. وقتی شما از فاکتور سن استفاده می‌کنید، باعث می‌شود اکثر خروجی‌ها یا پیش‌بینی‌ها در یک سیستم این‌طور باشد که بیشتر افراد جوان‌تر را به شما نشان می‌دهد. این به خاطر استفاده از سن به عنوان صرفا یکی از فاکتورهاست.» او می‌گوید که فاکتورهای تاریخچه جرایم سنتی به خودی خود جانب‌دارانه هستند و این یعنی هر الگوریتمی که با استفاده از آن‌ها تعلیم داده شد، همان جانب‌داری‌ها را ادامه می‌دهد و نیاز به مداخله انسانی به هنگام توسعه دارد.

دیل، مدیر پروژه NDAS می‌گوید: «ما جانب‌داری را پایش می‌کنیم و نمی‌خواهیم مدلی را راه‌اندازی کنیم که جانب‌دارانه باشد. ما متعهد به حصول اطمینان از این هستیم که مداخلات تماما مثبت باشند، با هدف کاهش جرایم صورت بگیرند و شانس زندگی کردن را بالاتر ببرند. نمی‌خواهیم خروجی‌ها نقش قوه قهریه را ایفا کنند».

دیل اضافه می‌کند: «ارزش اصلی MSV در هنر آزمودن اینست که چه احتمالاتی به هنگام توسعه این تکنیک‌ها در اختیارمان قرار گرفته است. به این ترتیب، به شکلی اجتناب‌ناپذیر از هرچیزی به هر دلیلی استفاده می‌کنیم. اما مطمئنیم که در مسیر پیشرفت هستیم و تکنیک علوم دیتایی را توسعه می‌دهیم که به کارهای پلیسی موثرتر و بهینه‌تر و همینطور خروجی‌های بهتر برای تمام جوامع منجر می‌شود».

تفکر کنونی NDAS اینست که ابزار پیش‌بینی خشونت می‌تواند پروسه تصمیم‌گیری فعلی در میان نیروهای پلیسی که به بررسی سوابق افرادی که احتمالا دست به جرایم خشونت‌آمیز و جدی بزنند می‌پردازند را «تقویت» کند. البته ابزار پیش‌بینی جرایم تنها یکی از بخش‌های این هوش مصنوعی است که توسعه‌اش به NDAS سپرده شده. این الگوریتم یادگیری ماشین می‌تواند برای تشخیص برده‌داری مدرن، جابه‌جایی تسلیحات و جرایم سازمان‌یافته نیز استفاده شود. کرسیدا دک، رییس پلیس شهری لندن قبلا گفته بود که نیروی پلیس به جای اتکای کامل بر سیستم‌های هوش مصنوعی، باید به استفاده از «هوش تقویتی» روی بیاورد.

با این حال، مشکل جانب‌داری و نژادپرستی احتمالی در سیستم‌های هوش مصنوعی اتفاق جدیدی نیست. طی ماه گذشته میلادی و در جریان اعتراضات «جان سیاه‌پوستان مهم است»، بیشتر از ۱۴۰۰ ریاضی‌دان در نامه‌ای سرگشاده خواستار توقف توسعه الگوریتم‌های پیش‌بینی کارهای پلیسی شدند. ریچاردسون می‌گوید: «اگر به هرکدام از حوزه‌های استحفاظی که از سیستم‌های پیش‌بینی در ساختار قضایی استفاده شده نگاه کنید، هیچ شواهدی نمی‌بینید از اینکه چنین سیستم‌هایی واقعا کارآمد باشند، اما موارد استفاده از آن‌ها دارد بیشتر و بیشتر می‌شود.»

این نگرانی‌ها به هنگام توسعه ابزار پیش‌بینی خشونت بیشتر هم شده است. در مستندات کمیته اخلاقی آمده که یکی از اعضای این گروه می‌گوید شکست در کدنویسی این الگوریتم «یک هشدار مطلق» راجع به ریسک استفاده از هوش مصنوعی و تکنولوژی در کارهای پلیسی است.

همین کمیته در ماه مارس نوشت: «در بهترین حالت ممکن، مدل‌های غیر دقیق می‌توانند افرادی را به پلیس معرفی کنند که هیچ منطقی پشت پیش‌بینی فعالیت‌های مجرمانه آن‌ها نیست. این می‌تواند به آسیب زدن به زندگی جوانان و مردم منجر شود. با این همه، خوب است که آن‌ها کار خودشان را مجددا ارزیابی می‌کنند و مشکلات را تشخیص می‌دهند تا از نو آغاز کنند.»