bookworm-smart-assistant/skills/ai-ml-expert/scripts/train_utils.py

#!/usr/bin/env python3
"""
AI/ML 训练工具函数
Training Utility Functions
"""

import torch
import torch.nn as nn
import numpy as np
from typing import Dict, Optional, Callable
import time
import logging

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)


class EarlyStopping:
    """早停机制"""
    def __init__(self, patience: int = 5, min_delta: float = 0, mode: str = 'min'):
        self.patience = patience
        self.min_delta = min_delta
        self.mode = mode
        self.counter = 0
        self.best_score = None
        self.early_stop = False
    
    def __call__(self, score: float) -> bool:
        if self.best_score is None:
            self.best_score = score
            return False
        
        if self.mode == 'min':
            improved = score < self.best_score - self.min_delta
        else:
            improved = score > self.best_score + self.min_delta
        
        if improved:
            self.best_score = score
            self.counter = 0
        else:
            self.counter += 1
            if self.counter >= self.patience:
                self.early_stop = True
        
        return self.early_stop


class AverageMeter:
    """计算和存储平均值"""
    def __init__(self):
        self.reset()
    
    def reset(self):
        self.val = 0
        self.avg = 0
        self.sum = 0
        self.count = 0
    
    def update(self, val: float, n: int = 1):
        self.val = val
        self.sum += val * n
        self.count += n
        self.avg = self.sum / self.count


def set_seed(seed: int = 42):
    """设置随机种子"""
    import random
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False


def get_device() -> torch.device:
    """获取可用设备"""
    if torch.cuda.is_available():
        return torch.device('cuda')
    elif hasattr(torch.backends, 'mps') and torch.backends.mps.is_available():
        return torch.device('mps')
    return torch.device('cpu')


def count_parameters(model: nn.Module) -> int:
    """统计模型参数量"""
    return sum(p.numel() for p in model.parameters() if p.requires_grad)


def save_checkpoint(model: nn.Module, optimizer: torch.optim.Optimizer, 
                    epoch: int, loss: float, path: str):
    """保存检查点"""
    torch.save({
        'epoch': epoch,
        'model_state_dict': model.state_dict(),
        'optimizer_state_dict': optimizer.state_dict(),
        'loss': loss
    }, path)
    logger.info(f"Checkpoint saved to {path}")


def load_checkpoint(model: nn.Module, optimizer: Optional[torch.optim.Optimizer],
                    path: str, device: torch.device) -> int:
    """加载检查点"""
    checkpoint = torch.load(path, map_location=device)
    model.load_state_dict(checkpoint['model_state_dict'])
    if optimizer:
        optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
    logger.info(f"Checkpoint loaded from {path}")
    return checkpoint['epoch']


def get_lr_scheduler(optimizer: torch.optim.Optimizer, scheduler_type: str,
                     num_epochs: int, **kwargs):
    """获取学习率调度器"""
    if scheduler_type == 'cosine':
        return torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=num_epochs)
    elif scheduler_type == 'step':
        return torch.optim.lr_scheduler.StepLR(optimizer, step_size=kwargs.get('step_size', 10))
    elif scheduler_type == 'plateau':
        return torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', patience=5)
    elif scheduler_type == 'warmup_cosine':
        from transformers import get_cosine_schedule_with_warmup
        return get_cosine_schedule_with_warmup(
            optimizer,
            num_warmup_steps=kwargs.get('warmup_steps', 0),
            num_training_steps=kwargs.get('total_steps', num_epochs)
        )
    else:
        return None


class Trainer:
    """通用训练器"""
    def __init__(self, model: nn.Module, optimizer: torch.optim.Optimizer,
                 criterion: nn.Module, device: torch.device,
                 scheduler: Optional = None):
        self.model = model.to(device)
        self.optimizer = optimizer
        self.criterion = criterion
        self.device = device
        self.scheduler = scheduler
        self.history = {'train_loss': [], 'val_loss': [], 'train_acc': [], 'val_acc': []}
    
    def train_epoch(self, dataloader) -> Dict[str, float]:
        self.model.train()
        loss_meter = AverageMeter()
        acc_meter = AverageMeter()
        
        for batch in dataloader:
            x = batch['x'].to(self.device)
            y = batch['y'].to(self.device)
            
            self.optimizer.zero_grad()
            outputs = self.model(x)
            loss = self.criterion(outputs, y)
            loss.backward()
            
            torch.nn.utils.clip_grad_norm_(self.model.parameters(), max_norm=1.0)
            self.optimizer.step()
            
            # 计算准确率
            preds = outputs.argmax(dim=1)
            acc = (preds == y).float().mean().item()
            
            loss_meter.update(loss.item(), x.size(0))
            acc_meter.update(acc, x.size(0))
        
        return {'loss': loss_meter.avg, 'acc': acc_meter.avg}
    
    @torch.no_grad()
    def evaluate(self, dataloader) -> Dict[str, float]:
        self.model.eval()
        loss_meter = AverageMeter()
        acc_meter = AverageMeter()
        
        for batch in dataloader:
            x = batch['x'].to(self.device)
            y = batch['y'].to(self.device)
            
            outputs = self.model(x)
            loss = self.criterion(outputs, y)
            
            preds = outputs.argmax(dim=1)
            acc = (preds == y).float().mean().item()
            
            loss_meter.update(loss.item(), x.size(0))
            acc_meter.update(acc, x.size(0))
        
        return {'loss': loss_meter.avg, 'acc': acc_meter.avg}
    
    def fit(self, train_loader, val_loader, epochs: int,
            early_stopping: Optional[EarlyStopping] = None,
            save_path: Optional[str] = None):
        best_val_loss = float('inf')
        
        for epoch in range(epochs):
            start_time = time.time()
            
            train_metrics = self.train_epoch(train_loader)
            val_metrics = self.evaluate(val_loader)
            
            if self.scheduler:
                self.scheduler.step()
            
            # 记录历史
            self.history['train_loss'].append(train_metrics['loss'])
            self.history['val_loss'].append(val_metrics['loss'])
            self.history['train_acc'].append(train_metrics['acc'])
            self.history['val_acc'].append(val_metrics['acc'])
            
            elapsed = time.time() - start_time
            logger.info(
                f"Epoch {epoch+1}/{epochs} ({elapsed:.1f}s) - "
                f"train_loss: {train_metrics['loss']:.4f}, train_acc: {train_metrics['acc']:.4f}, "
                f"val_loss: {val_metrics['loss']:.4f}, val_acc: {val_metrics['acc']:.4f}"
            )
            
            # 保存最优模型
            if val_metrics['loss'] < best_val_loss:
                best_val_loss = val_metrics['loss']
                if save_path:
                    save_checkpoint(self.model, self.optimizer, epoch, val_metrics['loss'], save_path)
            
            # 早停
            if early_stopping and early_stopping(val_metrics['loss']):
                logger.info(f"Early stopping at epoch {epoch+1}")
                break
        
        return self.history


if __name__ == '__main__':
    # 测试
    set_seed(42)
    device = get_device()
    print(f"Using device: {device}")
    
    # 简单模型测试
    model = nn.Linear(10, 2)
    print(f"Parameters: {count_parameters(model)}")
Initial: Bookworm Smart Assistant v6.5.1 (byte-preserved, 809 files, fp 26b83e1b38cdf64a) 2026-04-21 17:57:05 +08:00			`#!/usr/bin/env python3`
			`"""`
			`AI/ML 训练工具函数`
			`Training Utility Functions`
			`"""`

			`import torch`
			`import torch.nn as nn`
			`import numpy as np`
			`from typing import Dict, Optional, Callable`
			`import time`
			`import logging`

			`logging.basicConfig(level=logging.INFO)`
			`logger = logging.getLogger(__name__)`


			`class EarlyStopping:`
			`"""早停机制"""`
			`def __init__(self, patience: int = 5, min_delta: float = 0, mode: str = 'min'):`
			`self.patience = patience`
			`self.min_delta = min_delta`
			`self.mode = mode`
			`self.counter = 0`
			`self.best_score = None`
			`self.early_stop = False`

			`def __call__(self, score: float) -> bool:`
			`if self.best_score is None:`
			`self.best_score = score`
			`return False`

			`if self.mode == 'min':`
			`improved = score < self.best_score - self.min_delta`
			`else:`
			`improved = score > self.best_score + self.min_delta`

			`if improved:`
			`self.best_score = score`
			`self.counter = 0`
			`else:`
			`self.counter += 1`
			`if self.counter >= self.patience:`
			`self.early_stop = True`

			`return self.early_stop`


			`class AverageMeter:`
			`"""计算和存储平均值"""`
			`def __init__(self):`
			`self.reset()`

			`def reset(self):`
			`self.val = 0`
			`self.avg = 0`
			`self.sum = 0`
			`self.count = 0`

			`def update(self, val: float, n: int = 1):`
			`self.val = val`
			`self.sum += val * n`
			`self.count += n`
			`self.avg = self.sum / self.count`


			`def set_seed(seed: int = 42):`
			`"""设置随机种子"""`
			`import random`
			`random.seed(seed)`
			`np.random.seed(seed)`
			`torch.manual_seed(seed)`
			`torch.cuda.manual_seed_all(seed)`
			`torch.backends.cudnn.deterministic = True`
			`torch.backends.cudnn.benchmark = False`


			`def get_device() -> torch.device:`
			`"""获取可用设备"""`
			`if torch.cuda.is_available():`
			`return torch.device('cuda')`
			`elif hasattr(torch.backends, 'mps') and torch.backends.mps.is_available():`
			`return torch.device('mps')`
			`return torch.device('cpu')`


			`def count_parameters(model: nn.Module) -> int:`
			`"""统计模型参数量"""`
			`return sum(p.numel() for p in model.parameters() if p.requires_grad)`


			`def save_checkpoint(model: nn.Module, optimizer: torch.optim.Optimizer,`
			`epoch: int, loss: float, path: str):`
			`"""保存检查点"""`
			`torch.save({`
			`'epoch': epoch,`
			`'model_state_dict': model.state_dict(),`
			`'optimizer_state_dict': optimizer.state_dict(),`
			`'loss': loss`
			`}, path)`
			`logger.info(f"Checkpoint saved to {path}")`


			`def load_checkpoint(model: nn.Module, optimizer: Optional[torch.optim.Optimizer],`
			`path: str, device: torch.device) -> int:`
			`"""加载检查点"""`
			`checkpoint = torch.load(path, map_location=device)`
			`model.load_state_dict(checkpoint['model_state_dict'])`
			`if optimizer:`
			`optimizer.load_state_dict(checkpoint['optimizer_state_dict'])`
			`logger.info(f"Checkpoint loaded from {path}")`
			`return checkpoint['epoch']`


			`def get_lr_scheduler(optimizer: torch.optim.Optimizer, scheduler_type: str,`
			`num_epochs: int, **kwargs):`
			`"""获取学习率调度器"""`
			`if scheduler_type == 'cosine':`
			`return torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=num_epochs)`
			`elif scheduler_type == 'step':`
			`return torch.optim.lr_scheduler.StepLR(optimizer, step_size=kwargs.get('step_size', 10))`
			`elif scheduler_type == 'plateau':`
			`return torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', patience=5)`
			`elif scheduler_type == 'warmup_cosine':`
			`from transformers import get_cosine_schedule_with_warmup`
			`return get_cosine_schedule_with_warmup(`
			`optimizer,`
			`num_warmup_steps=kwargs.get('warmup_steps', 0),`
			`num_training_steps=kwargs.get('total_steps', num_epochs)`
			`)`
			`else:`
			`return None`


			`class Trainer:`
			`"""通用训练器"""`
			`def __init__(self, model: nn.Module, optimizer: torch.optim.Optimizer,`
			`criterion: nn.Module, device: torch.device,`
			`scheduler: Optional = None):`
			`self.model = model.to(device)`
			`self.optimizer = optimizer`
			`self.criterion = criterion`
			`self.device = device`
			`self.scheduler = scheduler`
			`self.history = {'train_loss': [], 'val_loss': [], 'train_acc': [], 'val_acc': []}`

			`def train_epoch(self, dataloader) -> Dict[str, float]:`
			`self.model.train()`
			`loss_meter = AverageMeter()`
			`acc_meter = AverageMeter()`

			`for batch in dataloader:`
			`x = batch['x'].to(self.device)`
			`y = batch['y'].to(self.device)`

			`self.optimizer.zero_grad()`
			`outputs = self.model(x)`
			`loss = self.criterion(outputs, y)`
			`loss.backward()`

			`torch.nn.utils.clip_grad_norm_(self.model.parameters(), max_norm=1.0)`
			`self.optimizer.step()`

			`# 计算准确率`
			`preds = outputs.argmax(dim=1)`
			`acc = (preds == y).float().mean().item()`

			`loss_meter.update(loss.item(), x.size(0))`
			`acc_meter.update(acc, x.size(0))`

			`return {'loss': loss_meter.avg, 'acc': acc_meter.avg}`

			`@torch.no_grad()`
			`def evaluate(self, dataloader) -> Dict[str, float]:`
			`self.model.eval()`
			`loss_meter = AverageMeter()`
			`acc_meter = AverageMeter()`

			`for batch in dataloader:`
			`x = batch['x'].to(self.device)`
			`y = batch['y'].to(self.device)`

			`outputs = self.model(x)`
			`loss = self.criterion(outputs, y)`

			`preds = outputs.argmax(dim=1)`
			`acc = (preds == y).float().mean().item()`

			`loss_meter.update(loss.item(), x.size(0))`
			`acc_meter.update(acc, x.size(0))`

			`return {'loss': loss_meter.avg, 'acc': acc_meter.avg}`

			`def fit(self, train_loader, val_loader, epochs: int,`
			`early_stopping: Optional[EarlyStopping] = None,`
			`save_path: Optional[str] = None):`
			`best_val_loss = float('inf')`

			`for epoch in range(epochs):`
			`start_time = time.time()`

			`train_metrics = self.train_epoch(train_loader)`
			`val_metrics = self.evaluate(val_loader)`

			`if self.scheduler:`
			`self.scheduler.step()`

			`# 记录历史`
			`self.history['train_loss'].append(train_metrics['loss'])`
			`self.history['val_loss'].append(val_metrics['loss'])`
			`self.history['train_acc'].append(train_metrics['acc'])`
			`self.history['val_acc'].append(val_metrics['acc'])`

			`elapsed = time.time() - start_time`
			`logger.info(`
			`f"Epoch {epoch+1}/{epochs} ({elapsed:.1f}s) - "`
			`f"train_loss: {train_metrics['loss']:.4f}, train_acc: {train_metrics['acc']:.4f}, "`
			`f"val_loss: {val_metrics['loss']:.4f}, val_acc: {val_metrics['acc']:.4f}"`
			`)`

			`# 保存最优模型`
			`if val_metrics['loss'] < best_val_loss:`
			`best_val_loss = val_metrics['loss']`
			`if save_path:`
			`save_checkpoint(self.model, self.optimizer, epoch, val_metrics['loss'], save_path)`

			`# 早停`
			`if early_stopping and early_stopping(val_metrics['loss']):`
			`logger.info(f"Early stopping at epoch {epoch+1}")`
			`break`

			`return self.history`


			`if __name__ == '__main__':`
			`# 测试`
			`set_seed(42)`
			`device = get_device()`
			`print(f"Using device: {device}")`

			`# 简单模型测试`
			`model = nn.Linear(10, 2)`
			`print(f"Parameters: {count_parameters(model)}")`