Saltar a contenido

Cargar datos

En la aplicación ComBD se encuentran herramientas que permiten al usuario extraer muestras de los datos, crear nuevas columnas que incluyan nuevas categorías de agrupación, eliminar columnas e identificar valores duplicados o vacíos que en algunas ocasiones pueden generar problemas. En esta sección veremos como se deben ejecutar.

Una vez se ha ingresado al ComBD nos encontramos con la siguiente pantalla, la cual da la sensación de estar cargando algún objeto. Sin embargo no es así y podemos proceder a subir la tabla de datos que tenemos en el ordenador.

Para poder cargar datos en ComBD, estos deben estar en uno de los siguientes formatos:

  • csv

  • tsv

  • txt

  • feather

En el caso de los archivos csv, tsv y txt solo se aceptan los siguientes delimitadores:

Indicador Delimitador
Comas ,
Puntos y comas ;
Lineas |
Espacios Tabulador

Se recomienda que los datos se encuentren codificados en ASCII o UTF-8 para evitar problemas de compatibilidad.

Para subir el archivo, se debe hacer clic en el botón "Subir archivo" y automáticamente se abrirá la ventana del explorador de archivos de su computador para que pueda seleccionarlo. No olvide seleccionar el tipo de archivo; csv en el caso de archivos delimitados o un archivo tipo feather.

para los archivos feather o los archivos csv con la coma como delimitador no es necesario el siguiente paso, para todos los otros archivos con un delimitador diferente a la coma se debe dar clic en opciones y en pantalla se desplegará el siguiente cuadro:

La primera opción es Delimitador, aquí se debe seleccionar el carácter que separa las columnas del archivo. La opción por defecto son las comas, pero se puede cambiar a cualquiera de los formatos especificados en la tabla que se encuentra arriba. El Separador decimal indica que carácter separa un número en decimales. Una vez seleccionadas las opciones apropiadas para el archivo se debe dar clic en el botón Guardar.

Importante: En las versiones de excel en español, los archivos csv delimitados con comas utilizan punto y coma.

Una vez la barra azul muestra el mensaje "Upload complete" se puede hacer clic en "Aplicar"

En el panel de la derecha se desplegará un cuadro que muestra el nombre de las columnas que corresponden a las variables de la tabla de datos. Cuando se hace clic encima de algunos de los nombres se obtiene un breve resumen de los datos contenidos en esa variable.

En el resumen se encuentra la siguiente información: "Tipo" que corresponde a numérico o carácter, "Tamaño" correspondiente al número de filas, "Valores únicos" que cuenta los valores excluyendo los repetidos. Por ejemplo, en este caso se tienen 36.631 registros en donde se encuentra información de 3.897 facturas. El resumen se complementa con el conteo de "Campos en blanco". En el caso de datos de tipo numérico también encontraremos los valores mínimo y máximo. Para los datos de tipo discreto el resumen incluye el conteo de valores duplicados.

Las dos primeras cajas permiten convertir datos de tipo Carácter a Numérico y viceversa. Se debe tener cuidado debido a que este cambio no es reversible.

En este caso las facturas eran identificadas como datos de tipo Numérico, se ha hecho el cambio a Discreto debido a que las facturas están numeradas para ser diferenciadas entre si, pero el número asignado no contiene información cuantitativa, sería inútil calcular la media de los números de factura.

A su vez, en las opciones de Columna se pueden llenar los vacíos, quitar los duplicados o dar clic en "Remover" lo que elimina toda la columna de la tabla de datos. El último botón corresponde a "Muestreo", este permite generar una muestra de manera aleatoria. Para ello se debe seleccionar el número de valores únicos que se van a incluir y de esta manera determinar cual va a ser el tamaño de la muestra. La opción "Semilla" permite en el futuro volver a generar la misma muestra, para ello solo se requiere volver a utilizar el mismo número de semilla y el sistema extraerá una muestra idéntica. Por último se da clic en "Ejecutar muestreo" para obtener la muestra.