- یک مطالعه جدید نشان میدهد که سیستمهای هوش مصنوعی که برای تشخیص سرطان از اسلایدهای پاتولوژی استفاده میشوند، برای همه بیماران یکسان عمل نمیکنند و میزان دقت آن در گروههای جمعیتی مختلف متفاوت است.
- محققان سه دلیل کلیدی را در پشت این سوگیری شناسایی کرده اند و رویکرد جدیدی ایجاد کرده اند که به طور قابل توجهی این تفاوت ها را کاهش می دهد.
- نتایج نشان میدهد که چرا هوش مصنوعی پزشکی باید به طور معمول برای سوگیری ارزیابی شود تا از مراقبت عادلانه و قابل اعتماد سرطان برای همه اطمینان حاصل شود.
مبانی آسیب شناسی و تشخیص سرطان
برای چندین دهه، آسیب شناسی در نحوه تشخیص و درمان سرطان توسط پزشکان بسیار مهم بوده است. یک آسیب شناس یک برش بسیار نازک از بافت انسانی را زیر میکروسکوپ بررسی می کند و به دنبال علائم بصری می گردد که نشان دهد آیا سرطان وجود دارد یا خیر و اگر چنین است، به چه نوع و مرحله ای رسیده است.
برای یک متخصص آموزش دیده، بررسی یک نمونه بافت صورتی و چرخان با سلول های بنفش روی آن مانند درجه بندی یک تست بدون نام است. این اسلاید حاوی اطلاعات حیاتی در مورد بیماری است، اما هیچ سرنخی از اینکه بیمار کیست ارائه نمی دهد.
وقتی هوش مصنوعی بیش از حد انتظار می بیند
این فرض به طور کامل برای سیستم های هوش مصنوعی که در حال حاضر وارد آزمایشگاه های آسیب شناسی می شوند، اعمال نمی شود. مطالعه جدیدی که توسط محققان دانشکده پزشکی هاروارد انجام شد نشان می دهد که مدل های هوش مصنوعی برای آسیب شناسی می توانند جزئیات جمعیت شناختی را مستقیماً از اسلایدهای بافت استخراج کنند. این توانایی غیرمنتظره ممکن است منجر به سوگیری در تشخیص سرطان در گروه های مختلف بیمار شود.
پس از ارزیابی چندین مدل متداول AI طراحی شده برای شناسایی سرطان، محققان دریافتند که این سیستم ها برای همه بیماران یکسان عمل نمی کنند. دقت تشخیصی با توجه به نژاد، جنسیت و سن بیماران متفاوت بود. این تیم همچنین دلایل متعددی را برای ایجاد این نابرابری ها کشف کرد.
برای حل این مشکل، محققان چارچوبی به نام FAIR-Path ایجاد کردند که به طور قابل توجهی سوگیری را در مدل های آزمایش شده کاهش می دهد.
نویسنده ارشد کان-هسینگ یو، دانشیار انفورماتیک زیست پزشکی در موسسه HMS Blavatnik و استادیار پاتولوژی HMS در بریگهام و بیمارستان زنان می گوید: «خواندن اطلاعات جمعیت شناختی از یک اسلاید آسیب شناسی برای یک آسیب شناس انسانی یک کار غیرممکن در نظر گرفته می شود، بنابراین سوگیری در هوش مصنوعی آسیب شناسی برای ما تعجب آور بود.
یو تاکید کرد که تشخیص و اصلاح سوگیری در هوش مصنوعی پزشکی بسیار مهم است، زیرا می تواند به طور مستقیم بر دقت تشخیصی و نتایج بیمار تأثیر بگذارد. موفقیت FAIR-Path نشان میدهد که بهبود عدالت در آسیبشناسی سرطان هوش مصنوعی، و احتمالاً سایر ابزارهای هوش مصنوعی پزشکی، ممکن است نیازی به تغییرات عمده در سیستمهای موجود نداشته باشد.
این مطالعه که تا حدی توسط بودجه فدرال پشتیبانی می شود، در ۱۶ دسامبر در Cell Reports Medicine شرح داده شد.
آزمایش هوش مصنوعی سرطان
یو و همکارانش سوگیری را در چهار مدل آسیب شناسی هوش مصنوعی که در حال حاضر برای تشخیص سرطان توسعه یافته اند، مورد بررسی قرار دادند. این سیستمهای یادگیری عمیق بر روی مجموعههای بزرگی از اسلایدهای پاتولوژی برچسبگذاری شده آموزش دیدهاند و به آنها امکان میدهد الگوهای بیولوژیکی را بیاموزند و این دانش را در نمونههای جدید به کار ببرند.
این تیم مدل ها را با استفاده از یک مجموعه داده بزرگ و چند نهادی حاوی اسلایدهای آسیب شناسی از ۲۰ نوع مختلف سرطان ارزیابی کردند.
شکاف های عملکردی به طور مداوم در هر چهار مدل ظاهر شد. سیستمهای هوش مصنوعی برای گروههای جمعیتی خاصی که بر اساس نژاد، جنسیت و سن تعریف میشوند، دقت کمتری داشتند. برای مثال، مدلها در تشخیص زیرشاخههای سرطان ریه در بیماران آفریقایی آمریکایی و بیماران مرد مشکل داشتند. آنها همچنین دقت کمتری را هنگام طبقهبندی زیرگروههای سرطان سینه در بیماران جوانتر نشان دادند. علاوه بر این، مدلها در تشخیص سرطان سینه، کلیه، تیروئید و معده در برخی از گروههای جمعیتی مشکل داشتند. به طور کلی، این نابرابری ها در حدود ۲۹ درصد از وظایف تشخیصی تجزیه و تحلیل شده رخ داده است.
به گفته یو، این خطاها به این دلیل اتفاق میافتند که سیستمهای هوش مصنوعی اطلاعات جمعیتی را از تصاویر بافت استخراج میکنند و سپس هنگام تصمیمگیریهای تشخیصی به الگوهای مرتبط با آن اطلاعات جمعیتشناختی تکیه میکنند.
یافته ها غیرمنتظره بود. یو گفت: “زیرا ما انتظار داریم ارزیابی آسیب شناسی عینی باشد.” هنگام ارزیابی تصاویر، برای تشخیص، لزوماً نیازی به دانستن مشخصات دموگرافیک بیمار نداریم.»
این باعث شد که محققان یک سوال مهم بپرسند: چرا هوش مصنوعی آسیب شناسی نمی تواند همان استاندارد عینی را برآورده کند؟
چرا سوگیری در هوش مصنوعی پاتولوژی ظاهر می شود؟
این تیم سه عامل اصلی در سوگیری را شناسایی کرد.
اول، داده های آموزشی اغلب نامتعادل هستند. نمونههای بافتی از برخی گروههای جمعیتی راحتتر از سایرین به دست میآیند و در نتیجه مجموعه دادههای نامتعادل ایجاد میشود. این امر، تشخیص دقیق سرطانها را در گروههای کمنمایش، از جمله برخی از جمعیتهایی که بر اساس نژاد، سن یا جنسیت تعریف میشوند، برای مدلهای هوش مصنوعی دشوار میکند.
اما یو گفت: “به نظر می رسد مشکل بسیار عمیق تر از این است.” در برخی موارد، مدلها برای گروههای جمعیتی خاص بدتر عمل کردند، حتی زمانی که اندازه نمونه مشابه بود.
تجزیه و تحلیل بیشتر به تفاوت در بروز بیماری اشاره کرد. برخی از سرطانها بیشتر در جمعیتهای خاصی رخ میدهند، که باعث میشود مدلهای هوش مصنوعی برای این گروهها دقیق باشند. در نتیجه، همین مدلها ممکن است در تشخیص سرطان در جمعیتهایی که بیماریها کمتر شایع هستند، مشکل داشته باشند.
محققان همچنین دریافتند که مدلهای هوش مصنوعی میتوانند تفاوتهای مولکولی ظریف بین گروههای جمعیتی را تشخیص دهند. برای مثال، سیستمها میتوانند جهشهای ژنهای ایجادکننده سرطان را شناسایی کرده و از آنها به عنوان میانبر برای طبقهبندی نوع سرطان استفاده کنند. این ممکن است دقت را در جمعیت هایی که این جهش ها کمتر رایج هستند کاهش دهد.
یو گفت: «ما دریافتیم که از آنجایی که هوش مصنوعی بسیار قدرتمند است، میتواند سیگنالهای بیولوژیکی ظریفی را که با ارزیابی استاندارد انسانی قابل تشخیص نیستند، تشخیص دهد.
با گذشت زمان، این امر میتواند باعث شود که مدلهای هوش مصنوعی به جای خود بیماری، بر سیگنالهای مرتبطتر با جمعیتشناسی تمرکز کنند و عملکرد تشخیصی را در گروههای مختلف بیمار ضعیف کند.
یو گفت، روی هم رفته، این یافتهها نشان میدهند که سوگیری در آسیبشناسی هوش مصنوعی نه تنها تحت تأثیر کیفیت و تعادل دادههای آموزشی است، بلکه همچنین تحتتاثیر روشی است که مدلها برای تفسیر آنچه میبینند، آموزش داده میشوند.
رویکردی جدید برای کاهش تعصب
پس از شناسایی منابع سوگیری، محققان به اصلاح آنها پرداختند.
آنها FAIR-Path را توسعه دادند، چارچوبی مبتنی بر روش یادگیری ماشینی موجود به نام یادگیری مقایسه ای. این رویکرد آموزش هوش مصنوعی را تغییر میدهد تا مدلها به شدت بر تمایزات مهم، مانند تفاوتهای بین انواع سرطان تمرکز کنند، در حالی که توجه به تفاوتهای کمتر مرتبط، از جمله جمعیتشناسی، کاهش مییابد.
هنگامی که FAIR-Path برای مدل های آزمایش شده اعمال شد، تفاوت های تشخیصی تقریباً ۸۸ درصد کاهش یافت.
یو گفت: «ما نشان دادیم که با انجام این تنظیم کوچک، مدلها میتوانند ویژگیهای قویتری را بیاموزند که آنها را در بین جمعیتهای مختلف قابل تعمیمتر و منصفانهتر میکند.
او افزود که نتیجه دلگرم کننده است زیرا نشان می دهد که کاهش معنی دار سوگیری حتی بدون مجموعه داده های آموزشی کاملاً متعادل یا کاملاً نماینده امکان پذیر است.
یو و تیمش در حال کار با موسسات در سراسر جهان هستند تا سوگیری هوش مصنوعی آسیب شناسی را در مناطقی با جمعیت شناسی، شیوه های بالینی و محیط های آزمایشگاهی مختلف مطالعه کنند. آنها همچنین در حال بررسی این هستند که چگونه FAIR-Path میتواند با موقعیتهایی با دادههای محدود سازگار شود. یکی دیگر از زمینه های مورد علاقه درک این موضوع است که چگونه سوگیری ناشی از هوش مصنوعی به تفاوت های گسترده تر در مراقبت های بهداشتی و نتایج بیمار کمک می کند.
یو گفت، در نهایت، هدف توسعه سیستمهای هوش مصنوعی آسیبشناسی است که از متخصصان انسانی با ارائه تشخیصهای سریع، دقیق و منصفانه برای همه بیماران پشتیبانی میکند.
او گفت: «من فکر میکنم این امید وجود دارد که اگر در مورد نحوه طراحی سیستمهای هوش مصنوعی دقیقتر و دقیقتر باشیم، میتوانیم مدلهایی بسازیم که در هر جمعیتی عملکرد خوبی داشته باشند.
تألیف، تأمین مالی، افشاگری
سایر نویسندگان این مطالعه عبارتند از: Shih-Yen Lin، Pei-Chen Tsai، Fang-Yi Su، Chun-Yen Chen، Fuchen Li، Junhan Zhao، Yuk Yeung Ho، Tsung-Lu Michael Lee، Elizabeth Healey، Po-Jen Lin، Ting-Wan Kao، Dmytromovet Rhome Vremen. دبورا دیلون، نانسی یو. لین، دیوید. مردیث، کیت ال. لیگون، یینگ چون لو، نیپون چایسوریا، دیوید جی کوک، آدلهاید وهرر، جفری میرهارت، شوجی اوگینو، مکلین پی. نصرالله، جفری آ. گلدن، سابینا سیگنورتی و یونگ هسین چیانگ.
بودجه توسط مؤسسه ملی علوم پزشکی عمومی و مؤسسه ملی قلب، ریه و خون مؤسسه ملی بهداشت (اهداف R35GM142879، R01HL174679)، وزارت دفاع (جایزه توسعه شغلی برنامه تحقیقات سرطان با بازبینی شده HT9425-231-0523) ارائه شده است. RSG-24-1253761-01-ESED)، جایزه محقق پژوهشی Google، جایزه نوآوری رئیس دانشکده پزشکی هاروارد، شورای ملی علم و فناوری تایوان (ارائههای NSTC 113-2917-I-006-009, 112-2634-F-001-003-003, 112-2634-F-001-306-003 114-2917-I-006-016) و بورسیه تحصیلی دانشجوی دکترا از بنیاد آموزش شین میائو.
Ligon مشاور Travera، Bristol Myers Squibb، Servier، IntegraGen، LEK Consulting و Blaze Bioscience بود. حقوق صاحبان سهام از Travera دریافت کرد. و بودجه تحقیقاتی را از Bristol Myers Squibb و Lilly دریافت می کند. Vremenko یکی از بنیانگذاران و سهامداران Vectorly است.
نویسندگان اولین پیش نویس را آماده کردند و از ChatGPT برای ویرایش بخش های انتخاب شده برای بهبود خوانایی استفاده کردند. نویسندگان پس از استفاده از این ابزار، مطالب را در صورت لزوم بررسی و ویرایش کردند و مسئولیت کامل محتوای مقاله منتشر شده را بر عهده گرفتند.