AiswaryaSrinivas
/
Mayo_Stroke_Blood_Clot_Origin


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
22

	
23

	
24

	
25

	
26

	
27

	
28

	
29

	
30

	
31

	
32

	
33

	
34

	
35

	
36

	
37

	
38

	
39

	
40

	
41

	
42

	
43

	
44

	
45

	
46

	
47

	
48

	
49

	
50

	
51

	
52

	
53

	
54

	
55

	
56

	
57

	
58

	
59

	
60

	
61

	
62

	
63

	
64

	
65

	
66

	
            import git
import os
from dagshub.streaming import DagsHubFilesystem
from dagshub.upload import Repo
from dagshub_config import *
from config import *
import pandas as pd 
import numpy as np
from sklearn.model_selection import train_test_split
import cv2


### Clone the Git Repo - read the necessary info from the Dagshub_config.py file

def gitclone():
    git.Git().clone("https://"+DAGSHUB_USERNAME+":"+DAGSHUB_TOKEN+"@dagshub.com/"+DAGSHUB_USERNAME+"/"+DAGSHUB_REPO_NAME+".git")

### Create a Streaming Client
def create_streaming_client():
    fs = DagsHubFilesystem(project_root=DAGSHUB_REPO_NAME,username=DAGSHUB_USERNAME,password=DAGSHUB_TOKEN)
    return fs 

### Getting the list of Image Files 
def list_files(fs,folder_path,file_ext="png"):
    img_files=fs.listdir(folder_path)
    img_files=[__file__ for __file__ in img_files if "."+file_ext in __file__]
    print("Number of Image Files in the Path",len(img_files))
    return img_files

### Reading the Training DataFrame 

def get_train_dataframe(fs,file_name):
    file_path=os.path.join(RAW_DATA_PATH,file_name)
     ## This will create a cache of the file to be 
    train_data=pd.read_csv(fs.open(file_path))
    train_data['int_labels']=train_data['label'].apply(lambda x:0 if x=="CE" else 1)
    return train_data

### Splitting the Training Data Frame into train and validation
def train_split(train_data,train_split=0.8):
    X=train_data['image_id']
    y=train_data['int_labels'].tolist()
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1-train_split, random_state=42,stratify=y)
    train_images=X_train.tolist()
    train_data['is_train']=train_data['image_id'].apply(lambda x: "train" if x in train_images else "val")
    return train_data

## Download the efficient data using Streaming Client
def download_EfficientNet(fs,model_filename):
    fs.open(os.path.join(EFFICIENT_NET_MODEL_PATH,model_filename)) ##This will download the model files into local system

    return os.path.join(EFFICIENT_NET_MODEL_PATH,model_filename)

## Read the Images using Streaming Client

def read_images(fs,image_path):
    fs.open(image_path)
    img=cv2.imread(image_path)
    return img