Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
work:2024-6 [2024/02/05 18:47] – created magsilvawork:2024-6 [2024/02/06 19:01] (current) – [Pesquisa] magsilva
Line 1: Line 1:
 ====== Semana 6 de 2024 ====== ====== Semana 6 de 2024 ======
  
 +====== Pesquisa ====== 
 +  * Leitura do artigo "RefactorScore: Evaluating Refactor Prone Code"
 +  * Uso do conjunto de dados do artigo "RefactorScore: Evaluating Refactor Prone Code"
 +    * Instalação do ROCM para utilização com o pyTorch: https://medium.com/@anvesh.jhuboo/rocm-pytorch-on-fedora-51224563e5be 
 +    * Instalação do pyTorch 
 +    * Configuração do HuggingFace, conforme instruções em https://huggingface.co/docs/huggingface_hub/installation 
 +      * Gere um token em https://huggingface.co/settings/tokens 
 +      * python -m venv .env 
 +      * source .env/bin/activate 
 +      * pip install huggingface_hub 
 +      * pip install datasets 
 +      * huggingface-cli login 
 +    * Configuração de bibliotecas úteis para uso com HuggingFace: 
 +      * pip install 'huggingface_hub[tensorflow]' 'huggingface_hub[cli,torch]' 
 +    * Configure o Git: 
 +      * git config --global credential.helper store 
 +      * git lfs install 
 +    * Obtenha o conjunto de dados: 
 +      * git clone https://huggingface.co/datasets/kevinjesse/ManyRefactors4C 
 +    * Obtenha o modelo: 
 +      * git clone https://huggingface.co/kevinjesse/RefactorBERT 
 +    * Carregue os dados, conforme instruído em https://huggingface.co/settings/tokens: 
 +      * from datasets import load_dataset 
 +      * dataset = load_dataset("kevinjesse/ManyRefactors4C"
 +      * train_dataset = load_dataset("kevinjesse/ManyRefactors4C", split="train"
 +      * valid_dataset = load_dataset("kevinjesse/ManyRefactors4C", split="validation"
 +      * test_dataset  = load_dataset("kevinjesse/ManyRefactors4C", split="test"
 +  * Com um pouco de atraso, mas li o email da Open AI sobre o AI2 LLM framework e o OLMo - Open Language Model (conteúdo completo em https://blog.allenai.org/olmo-open-language-model-87ccfc95f580).  O AI2 LLM framework é um framework para criar LLM, totalmente open source, abrangendo desde dataset e o código fonte utilizado para criar o modelo. 
 +    * OLMo - Open Language Model: https://allenai.org/olmo 
 +    * Dolma, que é o corpus aberto utilizado para criar o LLM: https://arxiv.org/abs/2402.00159 e https://github.com/allenai/dolma