You have to be logged in to leave a comment.
Sign In
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
---
## 📂 Configuración del Proyecto (`config`)
¡Bienvenido(a) a la carpeta `config` del proyecto **IntelligentCreditScoringPipeline**! 🚀 Esta carpeta guarda los archivos que controlan cómo funciona el proyecto, desde preparar los datos hasta entrenar modelos de *machine learning*. Aquí se definen todas las configuraciones para que el proyecto sea fácil de usar y reproducir.
---
### 🎯 ¿Para qué sirve la carpeta `config`?
La carpeta `config` es como el panel de control del proyecto. Contiene archivos en formato YAML (un formato sencillo para definir ajustes) que indican:
- Cómo procesar los datos.
- Qué modelos de *machine learning* usar y sus ajustes.
- Cómo conectar el proyecto con herramientas como DAGsHub para guardar datos.
- Otras configuraciones generales para que todo funcione correctamente.
Estos archivos son usados por herramientas como **Hydra** (para manejar configuraciones) y **DVC** (para organizar datos), asegurando que cada paso del proyecto sea claro y ordenado.
---
### 📑 Estructura y Contenido
La carpeta `config` tiene archivos y subcarpetas para mantener todo organizado. Aquí te explicamos cada parte:
#### 📄 Archivos Principales
**`main.yaml`** (1.9 KB, actualizado el 17/04/2025)
**Qué hace**: Es el archivo principal que controla todo el proyecto. Define cómo se ejecutan las etapas, como preparar datos, entrenar modelos y evaluar resultados.
**Qué contiene**:
- Dónde están los datos (por ejemplo, `data/raw/train.csv`).
- Qué modelo usar (por ejemplo, referencia a `model_config/model_1.yaml`).
- Dónde guardar resultados, como modelos o métricas.
**Ejemplo**: Este archivo le dice al proyecto qué hacer cuando ejecutas el programa principal.
---
**`versioning_dagshub.yaml`** (1 KB, actualizado el 15/04/2025)
**Qué hace**: Configura la conexión con DAGsHub, una plataforma para guardar datos y experimentos.
**Qué contiene**:
- Detalles para conectarse a DAGsHub (sin incluir contraseñas).
- La dirección del repositorio (por ejemplo, `https://dagshub.com/JorgeDataScientist/MLOps_CreditScore.dvc`).
- Ajustes para manejar datos, como `tests/data/processed/X_train.csv`.
**Ejemplo**: Permite subir o descargar datos desde DAGsHub.
---
### 📂 Subcarpeta: `model_config`
Guarda configuraciones para los modelos de *machine learning*. Cada archivo define un modelo diferente.
- **`model_1.yaml`** (1.3 KB, actualizado el 14/04/2025)
**Qué hace**: Define un modelo base, como un Random Forest.
**Qué contiene**: Ajustes como el número de árboles (`n_estimators: 100`) o profundidad (`max_depth: 10`).
**Ejemplo**: Se usa para entrenar el modelo 1.
- **`model_2.yaml`** (1.3 KB, actualizado el 14/04/2025)
**Qué hace**: Configura otro modelo, como XGBoost.
**Qué contiene**: Ajustes específicos para este modelo.
**Ejemplo**: Sirve para probar un modelo diferente.
- **`model_3.yaml`** (1.8 KB, actualizado el 15/04/2025)
**Qué hace**: Define un modelo más avanzado, como una combinación de modelos.
**Qué contiene**: Ajustes más complejos.
**Ejemplo**: Útil para experimentos con modelos mejorados.
---
### 📂 Subcarpeta: `process`
Contiene configuraciones para preparar los datos.
- **`preprocess.yaml`** (3.6 KB, actualizado el 14/04/2025)
**Qué hace**: Indica cómo limpiar y transformar los datos antes de usarlos.
**Qué contiene**:
- Cómo manejar datos faltantes (por ejemplo, rellenar con el promedio).
- Cómo convertir categorías en números (por ejemplo, usar `one_hot`).
- Cómo escalar los datos (por ejemplo, con `StandardScaler`).
- Dónde leer y guardar datos (por ejemplo, de `data/raw/train.csv` a `data/processed/X_train.csv`).
**Ejemplo**: Se usa para preparar los datos antes del entrenamiento.
---
### 🛠️ Cómo Usar Esta Carpeta
- **Ver los archivos**: Abre los archivos YAML con un editor de texto (como Notepad++ o VS Code) para entender qué configuran.
- **Cambiar ajustes**: Modifica valores, como el número de árboles en `model_1.yaml`, para probar cosas nuevas.
- **Ejecutar el proyecto**:
```bash
dvc repro
python src/main.py
```
- **Guardar cambios**:
Si cambias un archivo, guárdalo y súbelo con Git:
```bash
git add config/
git commit -m "Cambios en model_1.yaml"
git push origin main
```
---
### ⚠️ Notas Importantes
- **No cambies nombres**: Mantén los nombres de archivos y carpetas para que los programas no fallen.
- **Cuidado con las rutas**: Asegúrate de que las rutas en los YAML (como `data/processed/X_train.csv`) existan en el proyecto.
- **Sin contraseñas**: No pongas claves en `versioning_dagshub.yaml`; usa configuraciones seguras.
- **Archivo grande**: `preprocess.yaml` es más grande (3.6 KB) porque tiene muchos detalles. Revísalo si algo falla.
Press p or to see the previous file or,
n or to see the next file
Comments
Integrate AWS S3
Use S3 remote
Select bucket
Access key
Finish
Use AWS S3 as storage!
Browsing data directories saved to S3 is possible with DAGsHub. Let's configure
your repository to easily display your data in the context of any commit!
Specify your S3 bucket
Select Region
af-south-1 - Africa (Cape Town)
ap-northeast-1 - Asia Pacific (Tokyo)
ap-northeast-2 - Asia Pacific (Seoul)
ap-south-1 - Asia Pacific (Mumbai)
ap-southeast-1 - Asia Pacific (Singapore)
ap-southeast-2 - Asia Pacific (Sydney)
ca-central-1 - Canada (Central)
eu-central-1 - EU (Frankfurt)
eu-north-1 - EU (Stockholm)
eu-west-1 - EU (Ireland)
eu-west-2 - EU (London)
eu-west-3 - EU (Paris)
sa-east-1 - South America (São Paulo)
us-east-1 - US East (N. Virginia)
us-east-2 - US East (Ohio)
us-gov-east-1 - US Gov East 1
us-gov-west-1 - US Gov West 1
us-west-1 - US West (N. California)
us-west-2 - US West (Oregon)
Congratulations!
MLOps_CreditScore is now integrated with AWS S3!
Delete Storage Key
Are you sure you want to delete this access key?
No
Yes
Integrate Google Cloud Storage
Use Google Storage
Select bucket
Upload key
Finish
Use Google Cloud Storage!
Browsing data directories saved to Google Cloud Storage is possible with DAGsHub. Let's configure
your repository to easily display your data in the context of any commit!
Specify your Google Storage bucket
Congratulations!
MLOps_CreditScore is now integrated with Google Cloud Storage!
Delete Storage Key
Are you sure you want to delete this access key?
No
Yes
Integrate Azure Cloud Storage
Use Azure Storage
Select bucket
Set key
Finish
Use Azure Cloud Storage!
Browsing data directories saved to Azure Cloud Storage is possible with DAGsHub. Let's configure
your repository to easily display your data in the context of any commit!
Specify your Azure Storage bucket
Congratulations!
MLOps_CreditScore is now integrated with Azure Cloud Storage!
Delete Storage Key
Are you sure you want to delete this access key?
No
Yes
Integrate S3 compatible storage
Use S3 like remote
Select bucket
Access key
Finish
Use any S3 compatible storage!
Browsing data directories saved to S3 compatible storage is possible with DAGsHub. Let's configure
your repository to easily display your data in the context of any commit!
Specify your S3 bucket
Bucket name cannot be the same as the repository name. Please change one of them.
Congratulations!
MLOps_CreditScore is now integrated with your S3 compatible storage!