CLIPath/model at main · NLP-Final-Projects/CLIPath

Name	Name	Last commit message	Last commit date
parent directory ..
attentionMap.ipynb	attentionMap.ipynb
baseLine.py	baseLine.py
base_model_notebook.ipynb	base_model_notebook.ipynb
data_prepare.ipynb	data_prepare.ipynb
histoModel.py	histoModel.py
pathologyModel-notebook.ipynb	pathologyModel-notebook.ipynb
pretrain_DINO.ipynb	pretrain_DINO.ipynb
readme.md	readme.md
utils.py	utils.py
vision_transformer.py	vision_transformer.py

مدل پایه

در مدل پایه ای ما تصاویر و متنی که برای این بخش آماده شده است را برای آموزش به مدل میدهیم. در بخش انکودر تصویر از یک مدل ViTB/32 استفاده کردیم و در بخش انکودر متن نیز از یک مدلی شبیه به bert که شش لایه است استفاده می‌کنیم . تصاویری که به این مدل میدهیم ، در واقع تکه هایی با سایز ۳۰۷۲ در ۳۰۷۲ پیکسل است که به ابعاد ۲۲۴ در ۲۲۴ تغییر سایز داده ایم تا بتوان آن را به مدل داد. برای محتوای متنی نیز از گزارش هایی مربوط به دیتاست و بخش dignasos آن ها استفاده میکنیم.

کد این بخش در نوتبوک base_model_notebook قرار دارد

مدل اصلی

در مدل اصلی برای آموزش مدل از وصله های ۱۰۲۴ در ۱۰۲۴ پیکسلی استفاده می‌کنیم که به ابعاد ۲۲۴ در ۲۴۴ تغییر سایز پیدا کرده اند. از آنجا که سایز وصله ها نسبت به حالت baseline کوچک تر است بنابراین تعداد تصاویر تغییر سایز یافته ما زیاد خواهند بود . برای آن که از تصاویر حاوی اطلاعات بالا استفاده کنیم، همان گونه که در بخش قبل به طور کامل توضیح دادیم، به کمک مدل DINO که pretrain شده روی دیتاست TCGA و train شده روی داده خودمان است، تصاویری که attention map آنها نشان دهنده اطلاعات زیاد نیست را از مجموعه حذف می‌کنیم و با باقی مانده تصاویر مدل را آموزش دهیم . البته ابتدا قصد داشتیم که این فرآیند را به صورت end-to-end انجام دهیم ولی به دلیل آن که در مدل CLIP از دو ترنسفورمر بزرگ استفاده می‌شود، ظرفیت اضافه کردن یک ViT جدید که مربوط به مدل DINO است را نداریم. در ادامه به جای استفاده از یک text encoder قبلی ، از یک مدل Bert با نام pathology bert استفاده میکنیم . این مدل روی بیش از ۳۴۷ هزار گزارش پاتولوژی آموزش داده شده است. با جایگذاری این مدل bert جدید با مدل تکست انکودر قبلی ، مدل CLIP را با داده های فیلتر شده جدید آموزش میدهیم. سایر کانفیگ ها مانند مدل baseline است.

کد این بخش در نوتبوک pathologyModel-notebook

آماده سازی داده ها

پس از دانلود و استخراج داده ها در یک مسیر خاص، به کمک نوتبوک prepare data ، دیتافریم لازم برای آموزش مدل پایه ای را آماده و در قالب یک فایل csv ذخیره می‌کنیم

آموزش مدل DINO

برای آن که بتوان از مدل DINO برای فیلتر سازی تصاویر استفاده کرد میتوان از طریق نوتبوک pretrain dino این مدل را آموزش می‌دهیم

آموزش مدل DINO

از طریق نوتبوک attentionMap آن سری از تصاویری که اطلاعات بیشتری دارند را در قالب یک دیتافریم ذخیره می‌کنیم

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

readme.md

مدل پایه

مدل اصلی

آماده سازی داده ها

آموزش مدل DINO

آموزش مدل DINO

FilesExpand file tree

model

Directory actions

More options

Directory actions

More options

Latest commit

History

model

Folders and files

parent directory

readme.md

مدل پایه

مدل اصلی

آماده سازی داده ها

آموزش مدل DINO

آموزش مدل DINO