22 Nov GeoParquet 1.0.0 nuevo formato de datos espaciales
GeoParquet 1.0.0 nuevo formato de datos espaciales que establece una serie de estándares para varios aspectos clave en la representación de este tipo de datos.
Apache Parquet es un potente formato de datos orientado a columnas, creado desde cero como una alternativa moderna a los archivos CSV. GeoParquet es un estándar en incubación del Open Geospatial Consortium (OGC) que agrega tipos geoespaciales interoperables (punto, línea, polígono) a Parquet.
Lea la especificación para la versión v1.0.0 (o consulte el esquema de metadatos ). Encuentre enlaces a versiones anteriores en la página de versiones .
Para obtener más información, consulte la sección de objetivos y características del archivo Léame en el repositorio de GeoParquet. También hay un buen análisis profundo sobre Parquet y GeoParquet en esta publicación de blog: Presentamos el formato de datos GeoParquet y pronto ampliaremos este sitio web con más detalles.
¿Por qué GeoParquet?
- Datos geoespaciales estándar en parquet
Seguir la estructura de GeoParquet permite la interoperabilidad entre cualquier sistema que lea o escriba datos espaciales en Parquet - Datos en columnas para Geo
Los flujos de trabajo de ciencia de datos se benefician de los formatos de datos en columnas y el análisis geoespacial puede aprovechar sus innovaciones. - Interoperabilidad del almacén de datos en la nube
Snowflake, BigQuery, RedShift y DataBricks pueden funcionar juntos a la perfección con el mismo formato de datos geoespaciales
¿Quiénes participan en GeoParquet?
Software
GeoParquet 1.0.0 es nuevo formato de datos espaciales que está madurando rápidamente, con una serie de nuevas bibliotecas de software y herramientas en línea.
Herramientas
-
- Convertidor basado en navegador : impulsado por la biblioteca GPQ , puede convertir GeoJSON a GeoParquet y viceversa, desde su navegador.
- GeoPandas (Python) amplía los tipos de datos utilizados por los pandas para permitir operaciones espaciales en tipos geométricos y admite la lectura y escritura de GeoParquet.
- QGIS Windows y Linux se entregan con soporte GeoParquet, y Mac puede funcionar instalando con conda (desde la terminal con conda activada, ejecute ‘conda install qgis libgdal-arrow-parquet’ y luego simplemente escriba ‘qgis’ en la terminal).
- Scribble Maps es una aplicación web con todas las funciones que admite la importación y exportación de GeoParquet.
- BigQuery Converter proporciona scripts de Python para leer y escribir archivos GeoParquet con Google BigQuery.
- CARTO es una plataforma geoespacial y admite la importación de GeoParquet.
- gpq proporciona una interfaz de línea de comandos para validar y describir cualquier archivo GeoParquet. También puede convertir GeoParquet hacia y desde GeoJSON.
- stac-geoparquet convierte catálogos STAC en GeoParquet.
- Apache Sedona es un sistema informático de clúster para procesar datos espaciales a gran escala que amplía los sistemas informáticos de clúster existentes como Apache Spark y Apache Flink. Puede cargar y guardar GeoParquet con Scala, Java, Python o R.
- ArcGIS GeoAnalytics Engine de Esri «ofrece análisis espacial a su big data ampliando Apache Spark con funciones SQL y herramientas de análisis listas para usar». Puede cargar o guardar GeoParquet con la biblioteca Python o el complemento Spark; consulte su página GeoParquet para obtener más detalles.
- FME: de Safe Software es una plataforma sin código que integra fácilmente sus datos, incluido soporte de lectura y escritura para GeoParquet a partir de la versión 23.1
- La plataforma geodésica de SeerAI es una plataforma de fusión de datos y malla de datos espaciotemporal a escala planetaria nativa de la nube. Boson Service Mesh de Geodesic admite GeoParquet de forma nativa y puede exponer conjuntos de datos masivos de GeoParquet como formatos compatibles con otros sistemas analíticos y software geoespacial a través de API. Todas las salidas de datos tabulares y de características están escritas en formato Parquet/GeoParquet.
Bibliotecas
geoflecha (R)
gorrión (R)
GDAL/OGR (C++, enlaces en varios idiomas)
GeoParquet.jl (Julia)
gpq (Ir y WASM)
Fiona (Python – a partir de la versión 1.9.4. Tenga en cuenta que el controlador GeoParquet solo estará disponible si la biblioteca GDAL de su sistema vincula libarrow; las ruedas fiona en PyPI no incluyen libarrow ya que es bastante grande).
Biblioteca .NET 6 (.NET)
Código de ejemplo de C++ : consulte este tema de discusión para obtener más información.
Proveedores de datos y datos de muestra
Hay muchas fuentes de datos de GeoParquet y cada vez hay más disponibles en línea.
- Microsoft proporciona acceso a los elementos STAC de Planetary Computer como GeoParquet; consulte esta guía de inicio rápido para obtener más información. Sus Building Footprints también se distribuyen como GeoParquet.
- También hay un conjunto de datos de muestra nz-building-outlines.parquet que se utilizó en las primeras pruebas, convertido desde GeoJSON descargado del LINZ Data Service .
- source.coop proporciona dos conjuntos de datos en formatos geoespaciales nativos de la nube , incluido GeoParquet. La distribución nativa de la nube de Google Open Buildings tiene más de 800 millones de huellas de edificios en África y el sudeste asiático. Y la distribución nativa de la nube de Eurocrops proporciona más de 20 millones de límites de campo armonizados en 16 países europeos diferentes.
Nubes de puntos e IA + Hackathon con VirtuaLearn3D (VL3D)
El próximo 11 de noviembre te...