Marco Aurélio - Research / Teaching / Service

This is an old revision of the document!

No ano passado, durante o TCC do Rafael Rampim Soratto, sofremos com o consumo de memória durante o processamento dos dados. Na época tentamos usar estruturas esparsas para armazenar os dados, mas sem sucesso (em elas ficarem realmente esparsas). Um dos trabalhos futuros, inclusive, envolvia esse problema. Hoje encontrei um artigo sobre este problema, no caso resolvido usando o Polars. Ele é um implementação de DataFrame. Aparentemente uma boa solução, embora não seja compatível com Pandas. Outras alternativas são o Dask e o Vaex. Vale também a pena investigar outras opções listadas em https://h2oai.github.io/db-benchmark/. Por exemplo, (py)datatable parece ser bem performático.

work:2023-01-25