Register
Login
Resources
Docs Blog Datasets Glossary Case Studies Tutorials & Webinars
Product
Data Engine LLMs Platform Enterprise
Pricing Explore
Connect to our Discord channel
..
8cc372f7cd
respaldando estado actual - Funcionando al 100% src
4 months ago
961e784281
Pipeline al 100%
4 months ago
d95e520183
actualizando readme
3 months ago
ee7bc2cbac
Api con BentoML Generada y Desplegada
3 months ago

READMEmd

You have to be logged in to leave a comment. Sign In
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
  1. ---
  2. ## 📂 Configuración del Proyecto (`config`)
  3. ¡Bienvenido(a) a la carpeta `config` del proyecto **IntelligentCreditScoringPipeline**! 🚀 Esta carpeta guarda los archivos que controlan cómo funciona el proyecto, desde preparar los datos hasta entrenar modelos de *machine learning*. Aquí se definen todas las configuraciones para que el proyecto sea fácil de usar y reproducir.
  4. ---
  5. ### 🎯 ¿Para qué sirve la carpeta `config`?
  6. La carpeta `config` es como el panel de control del proyecto. Contiene archivos en formato YAML (un formato sencillo para definir ajustes) que indican:
  7. - Cómo procesar los datos.
  8. - Qué modelos de *machine learning* usar y sus ajustes.
  9. - Cómo conectar el proyecto con herramientas como DAGsHub para guardar datos.
  10. - Otras configuraciones generales para que todo funcione correctamente.
  11. Estos archivos son usados por herramientas como **Hydra** (para manejar configuraciones) y **DVC** (para organizar datos), asegurando que cada paso del proyecto sea claro y ordenado.
  12. ---
  13. ### 📑 Estructura y Contenido
  14. La carpeta `config` tiene archivos y subcarpetas para mantener todo organizado. Aquí te explicamos cada parte:
  15. #### 📄 Archivos Principales
  16. **`main.yaml`** (1.9 KB, actualizado el 17/04/2025)
  17. **Qué hace**: Es el archivo principal que controla todo el proyecto. Define cómo se ejecutan las etapas, como preparar datos, entrenar modelos y evaluar resultados.
  18. **Qué contiene**:
  19. - Dónde están los datos (por ejemplo, `data/raw/train.csv`).
  20. - Qué modelo usar (por ejemplo, referencia a `model_config/model_1.yaml`).
  21. - Dónde guardar resultados, como modelos o métricas.
  22. **Ejemplo**: Este archivo le dice al proyecto qué hacer cuando ejecutas el programa principal.
  23. ---
  24. **`versioning_dagshub.yaml`** (1 KB, actualizado el 15/04/2025)
  25. **Qué hace**: Configura la conexión con DAGsHub, una plataforma para guardar datos y experimentos.
  26. **Qué contiene**:
  27. - Detalles para conectarse a DAGsHub (sin incluir contraseñas).
  28. - La dirección del repositorio (por ejemplo, `https://dagshub.com/JorgeDataScientist/MLOps_CreditScore.dvc`).
  29. - Ajustes para manejar datos, como `tests/data/processed/X_train.csv`.
  30. **Ejemplo**: Permite subir o descargar datos desde DAGsHub.
  31. ---
  32. ### 📂 Subcarpeta: `model_config`
  33. Guarda configuraciones para los modelos de *machine learning*. Cada archivo define un modelo diferente.
  34. - **`model_1.yaml`** (1.3 KB, actualizado el 14/04/2025)
  35. **Qué hace**: Define un modelo base, como un Random Forest.
  36. **Qué contiene**: Ajustes como el número de árboles (`n_estimators: 100`) o profundidad (`max_depth: 10`).
  37. **Ejemplo**: Se usa para entrenar el modelo 1.
  38. - **`model_2.yaml`** (1.3 KB, actualizado el 14/04/2025)
  39. **Qué hace**: Configura otro modelo, como XGBoost.
  40. **Qué contiene**: Ajustes específicos para este modelo.
  41. **Ejemplo**: Sirve para probar un modelo diferente.
  42. - **`model_3.yaml`** (1.8 KB, actualizado el 15/04/2025)
  43. **Qué hace**: Define un modelo más avanzado, como una combinación de modelos.
  44. **Qué contiene**: Ajustes más complejos.
  45. **Ejemplo**: Útil para experimentos con modelos mejorados.
  46. ---
  47. ### 📂 Subcarpeta: `process`
  48. Contiene configuraciones para preparar los datos.
  49. - **`preprocess.yaml`** (3.6 KB, actualizado el 14/04/2025)
  50. **Qué hace**: Indica cómo limpiar y transformar los datos antes de usarlos.
  51. **Qué contiene**:
  52. - Cómo manejar datos faltantes (por ejemplo, rellenar con el promedio).
  53. - Cómo convertir categorías en números (por ejemplo, usar `one_hot`).
  54. - Cómo escalar los datos (por ejemplo, con `StandardScaler`).
  55. - Dónde leer y guardar datos (por ejemplo, de `data/raw/train.csv` a `data/processed/X_train.csv`).
  56. **Ejemplo**: Se usa para preparar los datos antes del entrenamiento.
  57. ---
  58. ### 🛠️ Cómo Usar Esta Carpeta
  59. - **Ver los archivos**: Abre los archivos YAML con un editor de texto (como Notepad++ o VS Code) para entender qué configuran.
  60. - **Cambiar ajustes**: Modifica valores, como el número de árboles en `model_1.yaml`, para probar cosas nuevas.
  61. - **Ejecutar el proyecto**:
  62. ```bash
  63. dvc repro
  64. python src/main.py
  65. ```
  66. - **Guardar cambios**:
  67. Si cambias un archivo, guárdalo y súbelo con Git:
  68. ```bash
  69. git add config/
  70. git commit -m "Cambios en model_1.yaml"
  71. git push origin main
  72. ```
  73. ---
  74. ### ⚠️ Notas Importantes
  75. - **No cambies nombres**: Mantén los nombres de archivos y carpetas para que los programas no fallen.
  76. - **Cuidado con las rutas**: Asegúrate de que las rutas en los YAML (como `data/processed/X_train.csv`) existan en el proyecto.
  77. - **Sin contraseñas**: No pongas claves en `versioning_dagshub.yaml`; usa configuraciones seguras.
  78. - **Archivo grande**: `preprocess.yaml` es más grande (3.6 KB) porque tiene muchos detalles. Revísalo si algo falla.
  79. ---
Tip!

Press p or to see the previous file or, n or to see the next file

Comments

Loading...