کد این بخش در نوتبوک base_model_notebook قرار دارد
در مدل اصلی برای آموزش مدل از وصله های ۱۰۲۴ در ۱۰۲۴ پیکسلی استفاده میکنیم که به ابعاد ۲۲۴ در ۲۴۴ تغییر سایز پیدا کرده اند. از آنجا که سایز وصله ها نسبت به حالت baseline کوچک تر است بنابراین تعداد تصاویر تغییر سایز یافته ما زیاد خواهند بود . برای آن که از تصاویر حاوی اطلاعات بالا استفاده کنیم، همان گونه که در بخش قبل به طور کامل توضیح دادیم، به کمک مدل DINO که pretrain شده روی دیتاست TCGA و train شده روی داده خودمان است، تصاویری که attention map آنها نشان دهنده اطلاعات زیاد نیست را از مجموعه حذف میکنیم و با باقی مانده تصاویر مدل را آموزش دهیم . البته ابتدا قصد داشتیم که این فرآیند را به صورت end-to-end انجام دهیم ولی به دلیل آن که در مدل CLIP از دو ترنسفورمر بزرگ استفاده میشود، ظرفیت اضافه کردن یک ViT جدید که مربوط به مدل DINO است را نداریم. در ادامه به جای استفاده از یک text encoder قبلی ، از یک مدل Bert با نام pathology bert استفاده میکنیم . این مدل روی بیش از ۳۴۷ هزار گزارش پاتولوژی آموزش داده شده است. با جایگذاری این مدل bert جدید با مدل تکست انکودر قبلی ، مدل CLIP را با داده های فیلتر شده جدید آموزش میدهیم. سایر کانفیگ ها مانند مدل baseline است.
کد این بخش در نوتبوک pathologyModel-notebook