JorgeDataScientist
/
MLOps_CreditScore


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
22

	
23

	
24

	
25

	
26

	
27

	
28

	
29

	
30

	
31

	
32

	
33

	
34

	
35

	
36

	
37

	
38

	
39

	
40

	
41

	
42

	
43

	
44

	
45

	
46

	
47

	
48

	
49

	
50

	
51

	
52

	
53

	
54

	
55

	
56

	
57

	
58

	
59

	
60

	
61

	
62

	
63

	
64

	
65

	
66

	
67

	
68

	
69

	
70

	
71

	
72

	
73

	
74

	
75

	
76

	
77

	
78

	
79

	
80

	
81

	
82

	
83

	
84

	
85

	
86

	
87

	
88

	
89

	
90

	
91

	
92

	
93

	
94

	
95

	
96

	
97

	
98

	
99

	
100

	
101

	
102

	
103

	
104

	
105

	
106

	
107

	
108

	
109

	
110

	
111

	
112

	
113

	
114

	
115

	
---

## 📂 Configuración del Proyecto (`config`)

¡Bienvenido(a) a la carpeta `config` del proyecto **IntelligentCreditScoringPipeline**! 🚀 Esta carpeta guarda los archivos que controlan cómo funciona el proyecto, desde preparar los datos hasta entrenar modelos de *machine learning*. Aquí se definen todas las configuraciones para que el proyecto sea fácil de usar y reproducir.

---

### 🎯 ¿Para qué sirve la carpeta `config`?

La carpeta `config` es como el panel de control del proyecto. Contiene archivos en formato YAML (un formato sencillo para definir ajustes) que indican:

- Cómo procesar los datos.
- Qué modelos de *machine learning* usar y sus ajustes.
- Cómo conectar el proyecto con herramientas como DAGsHub para guardar datos.
- Otras configuraciones generales para que todo funcione correctamente.

Estos archivos son usados por herramientas como **Hydra** (para manejar configuraciones) y **DVC** (para organizar datos), asegurando que cada paso del proyecto sea claro y ordenado.

---

### 📑 Estructura y Contenido

La carpeta `config` tiene archivos y subcarpetas para mantener todo organizado. Aquí te explicamos cada parte:

#### 📄 Archivos Principales

**`main.yaml`** (1.9 KB, actualizado el 17/04/2025)  
**Qué hace**: Es el archivo principal que controla todo el proyecto. Define cómo se ejecutan las etapas, como preparar datos, entrenar modelos y evaluar resultados.  
**Qué contiene**:
- Dónde están los datos (por ejemplo, `data/raw/train.csv`).
- Qué modelo usar (por ejemplo, referencia a `model_config/model_1.yaml`).
- Dónde guardar resultados, como modelos o métricas.

**Ejemplo**: Este archivo le dice al proyecto qué hacer cuando ejecutas el programa principal.

---

**`versioning_dagshub.yaml`** (1 KB, actualizado el 15/04/2025)  
**Qué hace**: Configura la conexión con DAGsHub, una plataforma para guardar datos y experimentos.  
**Qué contiene**:
- Detalles para conectarse a DAGsHub (sin incluir contraseñas).
- La dirección del repositorio (por ejemplo, `https://dagshub.com/JorgeDataScientist/MLOps_CreditScore.dvc`).
- Ajustes para manejar datos, como `tests/data/processed/X_train.csv`.

**Ejemplo**: Permite subir o descargar datos desde DAGsHub.

---

### 📂 Subcarpeta: `model_config`

Guarda configuraciones para los modelos de *machine learning*. Cada archivo define un modelo diferente.

- **`model_1.yaml`** (1.3 KB, actualizado el 14/04/2025)  
  **Qué hace**: Define un modelo base, como un Random Forest.  
  **Qué contiene**: Ajustes como el número de árboles (`n_estimators: 100`) o profundidad (`max_depth: 10`).  
  **Ejemplo**: Se usa para entrenar el modelo 1.

- **`model_2.yaml`** (1.3 KB, actualizado el 14/04/2025)  
  **Qué hace**: Configura otro modelo, como XGBoost.  
  **Qué contiene**: Ajustes específicos para este modelo.  
  **Ejemplo**: Sirve para probar un modelo diferente.

- **`model_3.yaml`** (1.8 KB, actualizado el 15/04/2025)  
  **Qué hace**: Define un modelo más avanzado, como una combinación de modelos.  
  **Qué contiene**: Ajustes más complejos.  
  **Ejemplo**: Útil para experimentos con modelos mejorados.

---

### 📂 Subcarpeta: `process`

Contiene configuraciones para preparar los datos.

- **`preprocess.yaml`** (3.6 KB, actualizado el 14/04/2025)  
  **Qué hace**: Indica cómo limpiar y transformar los datos antes de usarlos.  
  **Qué contiene**:
  - Cómo manejar datos faltantes (por ejemplo, rellenar con el promedio).
  - Cómo convertir categorías en números (por ejemplo, usar `one_hot`).
  - Cómo escalar los datos (por ejemplo, con `StandardScaler`).
  - Dónde leer y guardar datos (por ejemplo, de `data/raw/train.csv` a `data/processed/X_train.csv`).

  **Ejemplo**: Se usa para preparar los datos antes del entrenamiento.

---

### 🛠️ Cómo Usar Esta Carpeta

- **Ver los archivos**: Abre los archivos YAML con un editor de texto (como Notepad++ o VS Code) para entender qué configuran.
- **Cambiar ajustes**: Modifica valores, como el número de árboles en `model_1.yaml`, para probar cosas nuevas.
- **Ejecutar el proyecto**:
  ```bash
  dvc repro
  python src/main.py
  ```

- **Guardar cambios**:  
  Si cambias un archivo, guárdalo y súbelo con Git:
  ```bash
  git add config/
  git commit -m "Cambios en model_1.yaml"
  git push origin main
  ```

---

### ⚠️ Notas Importantes

- **No cambies nombres**: Mantén los nombres de archivos y carpetas para que los programas no fallen.
- **Cuidado con las rutas**: Asegúrate de que las rutas en los YAML (como `data/processed/X_train.csv`) existan en el proyecto.
- **Sin contraseñas**: No pongas claves en `versioning_dagshub.yaml`; usa configuraciones seguras.
- **Archivo grande**: `preprocess.yaml` es más grande (3.6 KB) porque tiene muchos detalles. Revísalo si algo falla.

---