Register
Login
Resources
Docs Blog Datasets Glossary Case Studies Tutorials & Webinars
Product
Data Engine LLMs Platform Enterprise
Pricing Explore
Connect to our Discord channel

comunal.py 3.2 KB

You have to be logged in to leave a comment. Sign In
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
  1. import os
  2. import pandas as pd
  3. import numpy as np
  4. import click
  5. from tqdm import tqdm
  6. from unicodedata import normalize
  7. from pjud import data
  8. def create_comunas(path = "data/raw/subdere"):
  9. tqdm.pandas()
  10. df_provincias = pd.read_excel(f"{path}/provinciasChile.xls")
  11. # Transformo a mayusculas las columnas de mi interes
  12. df_provincias['Nombre Región'] = df_provincias['Nombre Región'].str.upper()
  13. df_provincias['Nombre Provincia'] = df_provincias['Nombre Provincia'].str.upper()
  14. df_provincias['Nombre Comuna'] = df_provincias['Nombre Comuna'].str.upper()
  15. click.echo('Eliminando Tildes')
  16. cols = df_provincias.select_dtypes(include = ["object"]).columns
  17. df_provincias[cols] = df_provincias[cols].progress_apply(data.cleandata.elimina_tilde)
  18. # Acá se debe analiza las comunas que presentar diferentes nombres en los dataset que se estan trabajando,
  19. # por lo que se procede a unificar la info de comunas con la existente en el Codigo Organico de Tribunales.
  20. # Cambio nombre provincia para coincidir con otro df
  21. df_provincias.loc[df_provincias['Nombre Provincia'] == 'ANTARTICA CHILENA', 'Nombre Provincia'] = 'LA ANTARTICA CHILENA'
  22. df_provincias.loc[df_provincias['Nombre Comuna'] == 'COIHAYQUE', 'Nombre Comuna'] = 'COIHAIQUE'
  23. df_provincias.loc[df_provincias['Nombre Comuna'] == 'PAIGUANO', 'Nombre Comuna'] = 'PAIHUANO'
  24. df_provincias.loc[df_provincias['Nombre Comuna'] == 'TILTIL', 'Nombre Comuna'] = 'TIL TIL'
  25. df_provincias.loc[df_provincias['Nombre Comuna'] == 'EL OLIVAR', 'Nombre Comuna'] = 'OLIVAR'
  26. data.save_feather(df_provincias, 'generates_Provincias', path='./data/interim/subdere')
  27. click.echo('Generado archivo Feather. Proceso Terminado')
  28. def load_data_censo(path = "data/raw/censo"):
  29. tqdm.pandas()
  30. # Analizo contra los datos extraidos en COT
  31. df_censo = pd.read_excel(f"{path}/1_1_POBLACION.xls", sheet_name = "Comuna")
  32. df_censo.drop(['Unnamed: 0'], axis='columns', inplace=True)
  33. df_censo.drop(0, axis='rows', inplace=True)
  34. old_columns = []
  35. for col in range(1,18):
  36. old_columns.append(f"Unnamed: {col}")
  37. new_columns = []
  38. for col in old_columns:
  39. new_columns.append(df_censo[col][1])
  40. columnas = dict(zip(old_columns, new_columns))
  41. df_censo.rename(columns=columnas, inplace=True)
  42. click.echo('Eliminando tildes')
  43. cols = df_censo.select_dtypes(include = ["object"]).columns
  44. df_censo[cols] = df_censo[cols].progress_apply(data.cleandata.elimina_tilde)
  45. seleccion_censo_comunas = df_censo.loc[df_censo["EDAD"].str.contains("Total")]
  46. seleccion_censo_comunas.drop(2, axis='rows', inplace=True)
  47. seleccion_censo_comunas.loc[seleccion_censo_comunas['NOMBRE COMUNA'] == 'COYHAIQUE', 'NOMBRE COMUNA'] = 'COIHAIQUE'
  48. seleccion_censo_comunas.loc[seleccion_censo_comunas['NOMBRE COMUNA'] == 'PAIGUANO', 'NOMBRE COMUNA'] = 'PAIHUANO'
  49. seleccion_censo_comunas.loc[seleccion_censo_comunas['NOMBRE COMUNA'] == 'TILTIL', 'NOMBRE COMUNA'] = 'TIL TIL'
  50. seleccion_censo_comunas.loc[seleccion_censo_comunas['NOMBRE COMUNA'] == 'AYSEN', 'NOMBRE COMUNA'] = 'AISEN'
  51. data.save_feather(seleccion_censo_comunas, 'generates_Censo2017', path='./data/processed/censo')
  52. click.echo('Generado archivo Feather. Proceso Terminado')
Tip!

Press p or to see the previous file or, n or to see the next file

Comments

Loading...