OpenBMB
diff --git a/‎examples/t5/BoolQ.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/t5/BoolQ.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/t5/CB.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/t5/CB.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/t5/COPA.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/t5/COPA.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/t5/RTE.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/t5/RTE.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/t5/SQuAD.sh‎
Lines changed: 41 additions & 0 deletions b/‎examples/t5/SQuAD.sh‎
Lines changed: 41 additions & 0 deletions
diff --git a/‎examples/t5/WSC.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/t5/WSC.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/t5/WiC.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/t5/WiC.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/t5/finetune_t5_squad.py‎
Lines changed: 202 additions & 0 deletions b/‎examples/t5/finetune_t5_squad.py‎
Lines changed: 202 additions & 0 deletions
diff --git a/‎examples/t5/finetune_t5.py‎ ‎examples/t5/finetune_t5_superglue.py‎examples/t5/finetune_t5.py renamed to examples/t5/finetune_t5_superglue.py b/‎examples/t5/finetune_t5.py‎ ‎examples/t5/finetune_t5_superglue.py‎examples/t5/finetune_t5.py renamed to examples/t5/finetune_t5_superglue.py
@@ -36,7 +36,7 @@ OPTS+=" --clip-grad 1.0"
 OPTS+=" --loss-scale 128"
 # OPTS+=" --load ${BASE_PATH}/results/T5-${VERSION}.pt"
 
-CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5.py ${OPTS}"
+CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5_superglue.py ${OPTS}"
 echo ${CMD}
 
 ${CMD} 2>&1 | tee ${BASE_PATH}/logs/t5_superglue/finetune-t5-${VERSION}-${DATASET}.log
@@ -36,7 +36,7 @@ OPTS+=" --clip-grad 1.0"
 OPTS+=" --loss-scale 128"
 # OPTS+=" --load ${BASE_PATH}/results/T5-${VERSION}.pt"
 
-CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5.py ${OPTS}"
+CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5_superglue.py ${OPTS}"
 echo ${CMD}
 
 ${CMD} 2>&1 | tee ${BASE_PATH}/logs/t5_superglue/finetune-t5-${VERSION}-${DATASET}.log
@@ -36,7 +36,7 @@ OPTS+=" --clip-grad 1.0"
 OPTS+=" --loss-scale 128"
 # OPTS+=" --load ${BASE_PATH}/results/T5-${VERSION}.pt"
 
-CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5.py ${OPTS}"
+CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5_superglue.py ${OPTS}"
 echo ${CMD}
 
 ${CMD} 2>&1 | tee ${BASE_PATH}/logs/t5_superglue/finetune-t5-${VERSION}-${DATASET}.log
@@ -36,7 +36,7 @@ OPTS+=" --clip-grad 10.0"
 OPTS+=" --loss-scale 128"
 # OPTS+=" --load ${BASE_PATH}/results/T5-${VERSION}.pt"
 
-CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5.py ${OPTS}"
+CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5_superglue.py ${OPTS}"
 echo ${CMD}
 
 ${CMD} 2>&1 | tee ${BASE_PATH}/logs/t5_superglue/finetune-t5-${VERSION}-${DATASET}.log
@@ -0,0 +1,41 @@
+#! /bin/bash
+
+MASTER_ADDR=localhost
+MASTER_PORT=12345
+NNODES=1
+NODE_RANK=0
+GPUS_PER_NODE=2
+
+DISTRIBUTED_ARGS="--nproc_per_node $GPUS_PER_NODE \
+                  --nnodes $NNODES \
+                  --node_rank $NODE_RANK \
+                  --master_addr $MASTER_ADDR \
+                  --master_port $MASTER_PORT"
+
+BASE_PATH="/data/ModelCenter"
+VERSION="3b"
+DATASET="SQuAD"
+
+OPTS=""
+OPTS+=" --dataset ${DATASET}"
+OPTS+=" --base-path ${BASE_PATH}"
+OPTS+=" --model-config ${BASE_PATH}/results/t5-${VERSION}"
+OPTS+=" --batch-size 16"
+OPTS+=" --train-iters 1400"
+OPTS+=" --save-iters 1000"
+OPTS+=" --max-encoder-length 512"
+OPTS+=" --max-decoder-length 32"
+OPTS+=" --save ${BASE_PATH}/results"
+OPTS+=" --save-name finetune-t5-ckpt"
+OPTS+=" --lr 0.00001"
+OPTS+=" --inspect-iters 100"
+OPTS+=" --warmup-iters 140"
+OPTS+=" --lr-decay-style constant"
+OPTS+=" --weight-decay 1e-2"
+OPTS+=" --clip-grad 1.0"
+OPTS+=" --loss-scale 128"
+
+CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5_squad.py ${OPTS}"
+echo ${CMD}
+
+${CMD} 2>&1 | tee ${BASE_PATH}/logs/t5_squad/finetune-t5-${VERSION}-${DATASET}.log
@@ -36,7 +36,7 @@ OPTS+=" --clip-grad 1.0"
 OPTS+=" --loss-scale 128"
 # OPTS+=" --load ${BASE_PATH}/results/T5-${VERSION}.pt"
 
-CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5.py ${OPTS}"
+CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5_superglue.py ${OPTS}"
 echo ${CMD}
 
 ${CMD} 2>&1 | tee ${BASE_PATH}/logs/t5_superglue/finetune-t5-${VERSION}-${DATASET}.log
@@ -36,7 +36,7 @@ OPTS+=" --clip-grad 1.0"
 OPTS+=" --loss-scale 128"
 # OPTS+=" --load ${BASE_PATH}/results/T5-${VERSION}.pt"
 
-CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5.py ${OPTS}"
+CMD="python3 -m torch.distributed.launch ${DISTRIBUTED_ARGS} ${BASE_PATH}/examples/t5/finetune_t5_superglue.py ${OPTS}"
 echo ${CMD}
 
 ${CMD} 2>&1 | tee ${BASE_PATH}/logs/t5_superglue/finetune-t5-${VERSION}-${DATASET}.log
@@ -0,0 +1,202 @@
+import time
+import random
+import os
+import csv
+
+import torch
+import numpy as np
+from squad_metric import squad_metric
+
+import bmtrain as bmt
+
+from model_center import get_args
+from model_center.model import T5
+from model_center.generation.t5 import T5BeamSearch
+from model_center.tokenizer import T5Tokenizer
+from model_center.dataset.t5dataset import DATASET
+from model_center.utils import print_inspect
+from model_center.dataset import DistributedDataLoader
+from torch.utils.data import DataLoader
+
+
+def get_tokenizer(args):
+    tokenizer = T5Tokenizer.from_pretrained(args.model_config)
+    return tokenizer
+
+def get_model(args):
+    model = T5.from_pretrained(args.model_config)
+    return model
+
+def get_optimizer(args, model):
+    optimizer = bmt.optim.AdamOffloadOptimizer(model.parameters(), weight_decay=args.weight_decay)
+    return optimizer
+
+def get_learning_rate_scheduler(args, optimizer):
+    if args.lr_decay_iters is None:
+        args.lr_decay_iters = args.train_iters * args.epochs
+    if args.lr_decay_style == "noam":
+        lr_scheduler = bmt.lr_scheduler.Noam(optimizer, 
+                                            start_lr = args.lr,
+                                            warmup_iter = args.warmup_iters, 
+                                            end_iter = args.lr_decay_iters,
+                                            num_iter = args.start_step)
+    elif args.lr_decay_style == "constant":
+        lr_scheduler = bmt.lr_scheduler.NoDecay(optimizer, 
+                                            start_lr = args.lr,
+                                            warmup_iter = args.warmup_iters, 
+                                            end_iter = -1,
+                                            num_iter = args.start_step)
+    elif args.lr_decay_style == "linear":
+        lr_scheduler = bmt.lr_scheduler.Linear(optimizer, 
+                                            start_lr = args.lr,
+                                            warmup_iter = args.warmup_iters, 
+                                            end_iter = args.lr_decay_iters,
+                                            num_iter = args.start_step)
+    elif args.lr_decay_style == "exponential":
+        lr_scheduler = bmt.lr_scheduler.Exponential(optimizer, 
+                                            start_lr = args.lr,
+                                            warmup_iter = args.warmup_iters, 
+                                            end_iter = args.lr_decay_iters,
+                                            num_iter = args.start_step)
+    elif args.lr_decay_style == "cosine":
+        lr_scheduler = bmt.lr_scheduler.Cosine(optimizer, 
+                                            start_lr = args.lr,
+                                            warmup_iter = args.warmup_iters, 
+                                            end_iter = args.lr_decay_iters,
+                                            num_iter = args.start_step)
+    else:
+        raise ValueError(f"lr_scheduler of type {args.lr_decay_style} is not supported yet.")
+
+    return lr_scheduler
+
+def setup_model_and_optimizer(args):
+    # get the tokenizer
+    tokenizer = get_tokenizer(args)
+    # get the model
+    model = get_model(args)
+    bmt.synchronize()
+    # get the optimizer and lr_scheduler
+    optimizer = get_optimizer(args, model)
+    lr_scheduler = get_learning_rate_scheduler(args, optimizer)
+    bmt.synchronize()
+    # get the memory usage
+    bmt.print_rank("Model mem\n", torch.cuda.memory_summary())
+    bmt.synchronize()
+    return tokenizer, model, optimizer, lr_scheduler
+
+def initialize():
+    # get arguments
+    args = get_args()
+    # init bmt 
+    bmt.init_distributed(seed = args.seed)
+    # init save folder
+    if args.save != None:
+        os.makedirs(args.save, exist_ok=True)
+    return args
+
+
+def prepare_dataset(args, tokenizer, base_path, dataset_name):
+    splits = ['train', 'dev', 'test']
+    dataset = {}
+    for split in splits:
+        dataset[split] = DATASET[dataset_name](base_path, split, tokenizer, args.max_encoder_length, args.max_decoder_length)
+    return dataset
+
+def collate_fn(data):
+    # data: a list of tuples with (input, target)
+    return {
+        "inputs" : [d['inputs'] for d in data],
+        "targets": [d['targets'] for d in data],
+    }
+
+def finetune(args, tokenizer, model, optimizer, lr_scheduler, dataset):
+    loss_func = bmt.loss.FusedCrossEntropy(ignore_index=-100)
+
+    optim_manager = bmt.optim.OptimManager(loss_scale=args.loss_scale, loss_scale_steps=100)
+    optim_manager.add_optimizer(optimizer, lr_scheduler)
+
+    # print_inspect(model, '*')
+
+    for epoch in range(20):
+        dataloader = {
+            "train": DistributedDataLoader(dataset['train'], batch_size=args.batch_size, shuffle=True),
+            "dev": DataLoader(dataset['dev'], batch_size=args.batch_size, shuffle=False, collate_fn=collate_fn),
+        }
+
+        model.train()
+        for it, data in enumerate(dataloader['train']):
+            logits = model(
+                input_ids = data['input_ids'],
+                attention_mask = data['attention_mask'],
+                decoder_input_ids = data['decoder_input_ids'],
+                decoder_attention_mask = data['decoder_attention_mask'],
+            ).logits
+            targets = data["targets"]
+
+            loss = loss_func(logits.view(-1, logits.shape[-1]), targets.view(-1))
+            global_loss = bmt.sum_loss(loss).item()
+
+            optim_manager.zero_grad()
+
+            optim_manager.backward(loss)
+            grad_norm = optim_manager.clip_grad_norm(optimizer.param_groups, args.clip_grad, norm_type = 2)
+
+            optim_manager.step()
+
+            bmt.print_rank(
+                "train | epoch {:3d} | Iter: {:6d}/{:6d} | loss: {:.4f} | lr: {:.4e}, scale: {:10.4f} | grad_norm: {:.4f} |".format(
+                    epoch,
+                    it,
+                    len(dataloader["train"]),
+                    global_loss,
+                    lr_scheduler.current_lr,
+                    int(optim_manager.loss_scale),
+                    grad_norm,
+                )
+            )
+            # if it % args.inspect_iters == 0: print_inspect(model, "*")
+            # if args.save != None and it % args.save_iters == 0:
+            #     bmt.save(model, os.path.join(args.save, args.save_name+("-%d.pt" % it)))
+
+        model.eval()
+        beam_search = T5BeamSearch(
+            model=model,
+            tokenizer=tokenizer,
+        )
+        with torch.no_grad():
+            for split in ['dev']:
+                pd = []
+                gt = []
+                for it, data in enumerate(dataloader[split]):
+                    preds = beam_search.generate(data['inputs'], max_length=args.max_decoder_length)
+                    targets = data["targets"]
+                
+                    pd.extend(preds)
+                    gt.extend(targets)
+
+                    bmt.print_rank(
+                        "{} | epoch {:3d} | Iter: {:6d}/{:6d} |".format(
+                            split,
+                            epoch,
+                            it,
+                            len(dataloader[split]),
+                        )
+                    )
+                
+                metrics = squad_metric(pd, gt, None)
+                bmt.print_rank(f"metrics: {metrics}")
+
+
+def main():
+    args = initialize()
+    tokenizer, model, optimizer, lr_scheduler = setup_model_and_optimizer(args)
+    dataset = prepare_dataset(
+        args,
+        tokenizer,
+        f"{args.base_path}/down_data/squad/",
+        args.dataset_name,
+    )
+    finetune(args, tokenizer, model, optimizer, lr_scheduler, dataset)
+
+if __name__ == "__main__":
+    main()