====== Semana 6 de 2024 ====== ====== Pesquisa ====== * Leitura do artigo "RefactorScore: Evaluating Refactor Prone Code". * Uso do conjunto de dados do artigo "RefactorScore: Evaluating Refactor Prone Code". * Instalação do ROCM para utilização com o pyTorch: https://medium.com/@anvesh.jhuboo/rocm-pytorch-on-fedora-51224563e5be * Instalação do pyTorch * Configuração do HuggingFace, conforme instruções em https://huggingface.co/docs/huggingface_hub/installation * Gere um token em https://huggingface.co/settings/tokens * python -m venv .env * source .env/bin/activate * pip install huggingface_hub * pip install datasets * huggingface-cli login * Configuração de bibliotecas úteis para uso com HuggingFace: * pip install 'huggingface_hub[tensorflow]' 'huggingface_hub[cli,torch]' * Configure o Git: * git config --global credential.helper store * git lfs install * Obtenha o conjunto de dados: * git clone https://huggingface.co/datasets/kevinjesse/ManyRefactors4C * Obtenha o modelo: * git clone https://huggingface.co/kevinjesse/RefactorBERT * Carregue os dados, conforme instruído em https://huggingface.co/settings/tokens: * from datasets import load_dataset * dataset = load_dataset("kevinjesse/ManyRefactors4C") * train_dataset = load_dataset("kevinjesse/ManyRefactors4C", split="train") * valid_dataset = load_dataset("kevinjesse/ManyRefactors4C", split="validation") * test_dataset = load_dataset("kevinjesse/ManyRefactors4C", split="test") * Com um pouco de atraso, mas li o email da Open AI sobre o AI2 LLM framework e o OLMo - Open Language Model (conteúdo completo em https://blog.allenai.org/olmo-open-language-model-87ccfc95f580). O AI2 LLM framework é um framework para criar LLM, totalmente open source, abrangendo desde dataset e o código fonte utilizado para criar o modelo. * OLMo - Open Language Model: https://allenai.org/olmo * Dolma, que é o corpus aberto utilizado para criar o LLM: https://arxiv.org/abs/2402.00159 e https://github.com/allenai/dolma