Apache Parquet es un potente formato de datos de código abierto orientado a columnas, creado desde cero como una alternativa moderna a los archivos CSV. GeoParquet es un estándar en incubación del Open Geospatial Consortium (OGC) que agrega tipos geoespaciales interoperables (punto, línea, polígono) a Parquet.
Características de GeoParquet
- Múltiples sistemas de referencia espacial: muchas herramientas utilizarán GeoParquet para análisis de alto rendimiento, por lo que es importante poder utilizar datos en su proyección nativa.
- Varias columnas de geometría: hay una columna de geometría predeterminada, pero se pueden incluir columnas de geometría adicionales.
- Gran compresión/archivos pequeños: Parquet está diseñado para comprimirse muy bien, por lo que los datos se benefician al ocupar menos espacio en disco y ser más eficiente en la red.
- Trabaja con coordenadas planas y esféricas: la mayoría de los almacenes de datos en la nube admiten coordenadas esféricas, por lo que GeoParquet tiene como objetivo ayudar a conservarlas y tener claro lo que se admite.
- Excelente para flujos de trabajo analíticos de lectura intensa: los formatos de columnas permiten una lectura económica de un subconjunto de columnas, y Parquet en particular permite el filtrado eficiente de fragmentos basándose en estadísticas de columnas, por lo que el formato funcionará bien en una variedad de flujos de trabajo analíticos modernos.
- Compatibilidad con la partición de datos: Parquet tiene una buena capacidad para dividir datos en diferentes archivos para mayor eficiencia.
- Visualización de datos tanto en 2D como en 3D.
Para más información sobre beneficios y objetivos de GeoParquet puedes revisar esta entrada del blog.
Compatibilidad de GeoParquet con QGIS
GDAL admite columnas de geometría que utilizan la especificación GeoParquet. La especificación de GeoParquet 1.0.0-beta1 está soportada desde GDAL 3.6.2. Versión que se implementó en QGIS 3.28 Firenze.
QGIS puede abrir y mostrar todos los formatos admitidos por OGR/GDAL, lo que incluye el formato GeoParquet.
Importación de datos de GeoParquet
Desde el menú superior Capa > Añadir Capa > Añadir capa vectorial… podemos abrir una capa vectorial con formato GeoParquet (.parquet) directamente.
Una vez añadido a QGIS, podemos visualizar el archivo, pero no podemos escribir sobre él:
Como podemos ver en la imagen anterior, accediendo a las propiedades de la capa, en la pestaña información vemos el tipo de almacenamiento.
Exportación de datos de (Geo)Parquet
Podemos exportar un archivo de (Geo)Parquet a otro formato GIS mediante la opción Capa → Guardar como… Una vez exportada, ya podremos editar la capa.
Cualquier capa vectorial que tengamos en un formato GIS como shapefile, GeoJSON o GeoPackage podremos transformarla a GeoParquet. Como en el caso anterior, para convertir las capas debemos ir al menú superior Capa > Guardar como… y seleccionar en el desplegable la opción (Geo)Parquet:
En la página de Github encontramos ejemplos de archivos GeoParquet que siguen las especificaciones actuales. Para obtener información sobre todas las herramientas y bibliotecas que implementan GeoParquet, así como datos de muestra, consulta la sección de implementaciones de la página web.
Licenciado en Geografía. Máster en Sistemas de Información Geográfica. Consultor GIS desde el año 2004. En MappingGIS desde el año 2012 para ayudarte a impulsar tu perfil GIS y diferenciarte de la competencia. Echa un vistazo a todos nuestros cursos de SIG online.