Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revisionBoth sides next revision
work:2023-01-25 [2023/01/25 14:42] – created magsilvawork:2023-01-25 [2023/01/25 18:13] magsilva
Line 1: Line 1:
-No ano passado, durante o TCC do [[:work:students:rafael_rampim_soratto|Rafael Rampim Soratto]], sofremos com o consumo de memória durante o processamento dos dados. Na época tentamos usar estruturas esparsas para armazenar os dados, mas sem sucesso (em elas ficarem realmente esparsas). Um dos trabalhos futuros, inclusive, envolvia esse problema. Hoje encontrei [[https://pythonspeed.com/articles/polars-memory-pandas/ | um artigo sobre este problema]], no caso resolvido usando o [[https://www.pola.rs/ | Polars]]. Ele é um implementação de DataFrame. Aparentemente uma boa solução, embora [[https://pola-rs.github.io/polars-book/user-guide/coming_from_pandas.html | não seja compatível com Pandas]].+No ano passado, durante o TCC do [[:work:students:rafael_rampim_soratto|Rafael Rampim Soratto]], sofremos com o consumo de memória durante o processamento dos dados. Na época tentamos usar estruturas esparsas para armazenar os dados, mas sem sucesso (em elas ficarem realmente esparsas). Um dos trabalhos futuros, inclusive, envolvia esse problema. Hoje encontrei [[https://pythonspeed.com/articles/polars-memory-pandas/ | um artigo sobre este problema]], no caso resolvido usando o [[https://www.pola.rs/ | Polars]]. Ele é um implementação de DataFrame. Aparentemente uma boa solução, embora [[https://pola-rs.github.io/polars-book/user-guide/coming_from_pandas.html | não seja compatível com Pandas]]. Outras alternativas são o [[https://www.dask.org/ | Dask]] e o [[https://github.com/vaexio/vaex | Vaex]]. Vale também a pena investigar outras opções listadas em https://h2oai.github.io/db-benchmark/. Por exemplo, [[https://github.com/h2oai/datatable | (py)datatable]] parece ser bem performático.