Differences

This shows you the differences between two versions of the page.

--- work:2024-6 [2024/02/06 01:24] – [Pesquisa] magsilva
+++ work:2024-6 [2024/02/06 19:01] (current) – [Pesquisa] magsilva
@@ Line 10: / Line 10: @@
       * python -m venv .env
       * source .env/bin/activate
-      * git config --global credential.helper store
       * pip install huggingface_hub
       * pip install datasets
@@ Line 16: / Line 15: @@
     * Configuração de bibliotecas úteis para uso com HuggingFace:
       * pip install 'huggingface_hub[tensorflow]' 'huggingface_hub[cli,torch]'
+    * Configure o Git:
+      * git config --global credential.helper store
+      * git lfs install
+    * Obtenha o conjunto de dados:
+      * git clone https://huggingface.co/datasets/kevinjesse/ManyRefactors4C
+    * Obtenha o modelo:
+      * git clone https://huggingface.co/kevinjesse/RefactorBERT
     * Carregue os dados, conforme instruído em https://huggingface.co/settings/tokens:
       * from datasets import load_dataset
       * dataset = load_dataset("kevinjesse/ManyRefactors4C")
+      * train_dataset = load_dataset("kevinjesse/ManyRefactors4C", split="train")
+      * valid_dataset = load_dataset("kevinjesse/ManyRefactors4C", split="validation")
+      * test_dataset  = load_dataset("kevinjesse/ManyRefactors4C", split="test")
+  * Com um pouco de atraso, mas li o email da Open AI sobre o AI2 LLM framework e o OLMo - Open Language Model (conteúdo completo em https://blog.allenai.org/olmo-open-language-model-87ccfc95f580).  O AI2 LLM framework é um framework para criar LLM, totalmente open source, abrangendo desde dataset e o código fonte utilizado para criar o modelo.
+    * OLMo - Open Language Model: https://allenai.org/olmo
+    * Dolma, que é o corpus aberto utilizado para criar o LLM: https://arxiv.org/abs/2402.00159 e https://github.com/allenai/dolma