bookworm-smart-assistant/skills/data-analyst-expert/scripts/data_utils.py

#!/usr/bin/env python3
"""
数据分析工具函数
Data Analysis Utility Functions
"""

import pandas as pd
import numpy as np
from scipy import stats


def data_overview(df: pd.DataFrame) -> dict:
    """数据概览"""
    return {
        'shape': df.shape,
        'memory_mb': df.memory_usage(deep=True).sum() / 1024**2,
        'dtypes': df.dtypes.value_counts().to_dict(),
        'missing': df.isnull().sum()[df.isnull().sum() > 0].to_dict(),
        'duplicates': df.duplicated().sum()
    }


def handle_missing(df: pd.DataFrame, strategy: str = 'auto') -> pd.DataFrame:
    """
    处理缺失值
    strategy: 'auto' | 'drop' | 'fill_median' | 'fill_mode'
    """
    df = df.copy()
    
    if strategy == 'drop':
        return df.dropna()
    
    num_cols = df.select_dtypes(include=[np.number]).columns
    cat_cols = df.select_dtypes(include=['object', 'category']).columns
    
    if strategy in ['auto', 'fill_median']:
        df[num_cols] = df[num_cols].fillna(df[num_cols].median())
    
    if strategy in ['auto', 'fill_mode']:
        for col in cat_cols:
            df[col] = df[col].fillna(df[col].mode().iloc[0] if len(df[col].mode()) > 0 else 'Unknown')
    
    return df


def remove_outliers(df: pd.DataFrame, column: str, method: str = 'iqr', threshold: float = 1.5) -> pd.DataFrame:
    """
    移除异常值
    method: 'iqr' | 'zscore'
    """
    if method == 'iqr':
        Q1 = df[column].quantile(0.25)
        Q3 = df[column].quantile(0.75)
        IQR = Q3 - Q1
        lower = Q1 - threshold * IQR
        upper = Q3 + threshold * IQR
        return df[(df[column] >= lower) & (df[column] <= upper)]
    
    elif method == 'zscore':
        z_scores = np.abs(stats.zscore(df[column].dropna()))
        mask = np.zeros(len(df), dtype=bool)
        mask[df[column].notna()] = z_scores < threshold
        return df[mask]
    
    return df


def add_time_features(df: pd.DataFrame, date_column: str) -> pd.DataFrame:
    """添加时间特征"""
    df = df.copy()
    df[date_column] = pd.to_datetime(df[date_column])
    
    df['year'] = df[date_column].dt.year
    df['month'] = df[date_column].dt.month
    df['day'] = df[date_column].dt.day
    df['day_of_week'] = df[date_column].dt.dayofweek
    df['is_weekend'] = df['day_of_week'].isin([5, 6]).astype(int)
    df['quarter'] = df[date_column].dt.quarter
    df['week_of_year'] = df[date_column].dt.isocalendar().week
    
    return df


def correlation_analysis(df: pd.DataFrame, threshold: float = 0.7) -> pd.DataFrame:
    """相关性分析，返回高相关对"""
    corr = df.select_dtypes(include=[np.number]).corr()
    
    high_corr = []
    for i in range(len(corr.columns)):
        for j in range(i+1, len(corr.columns)):
            if abs(corr.iloc[i, j]) > threshold:
                high_corr.append({
                    'var1': corr.columns[i],
                    'var2': corr.columns[j],
                    'correlation': round(corr.iloc[i, j], 3)
                })
    
    return pd.DataFrame(high_corr).sort_values('correlation', key=abs, ascending=False)


def ab_test(control_success: int, control_total: int, 
            treatment_success: int, treatment_total: int,
            alpha: float = 0.05) -> dict:
    """A/B测试比例检验"""
    from statsmodels.stats.proportion import proportions_ztest
    
    count = np.array([treatment_success, control_success])
    nobs = np.array([treatment_total, control_total])
    
    stat, p_value = proportions_ztest(count, nobs)
    
    control_rate = control_success / control_total
    treatment_rate = treatment_success / treatment_total
    lift = (treatment_rate - control_rate) / control_rate * 100
    
    return {
        'control_rate': f"{control_rate:.2%}",
        'treatment_rate': f"{treatment_rate:.2%}",
        'lift': f"{lift:.2f}%",
        'p_value': round(p_value, 4),
        'significant': p_value < alpha,
        'recommendation': '采用新方案' if (p_value < alpha and lift > 0) else '保持原方案'
    }


if __name__ == '__main__':
    # 测试
    df = pd.DataFrame({
        'a': [1, 2, 3, None, 5],
        'b': ['x', 'y', None, 'x', 'y'],
        'c': [10, 20, 100, 40, 50]
    })
    
    print("Overview:", data_overview(df))
    print("\nAfter handling missing:", handle_missing(df))
Initial: Bookworm Smart Assistant v6.5.1 (byte-preserved, 809 files, fp 26b83e1b38cdf64a) 2026-04-21 17:57:05 +08:00			`#!/usr/bin/env python3`
			`"""`
			`数据分析工具函数`
			`Data Analysis Utility Functions`
			`"""`

			`import pandas as pd`
			`import numpy as np`
			`from scipy import stats`


			`def data_overview(df: pd.DataFrame) -> dict:`
			`"""数据概览"""`
			`return {`
			`'shape': df.shape,`
			`'memory_mb': df.memory_usage(deep=True).sum() / 1024**2,`
			`'dtypes': df.dtypes.value_counts().to_dict(),`
			`'missing': df.isnull().sum()[df.isnull().sum() > 0].to_dict(),`
			`'duplicates': df.duplicated().sum()`
			`}`


			`def handle_missing(df: pd.DataFrame, strategy: str = 'auto') -> pd.DataFrame:`
			`"""`
			`处理缺失值`
			`strategy: 'auto' \| 'drop' \| 'fill_median' \| 'fill_mode'`
			`"""`
			`df = df.copy()`

			`if strategy == 'drop':`
			`return df.dropna()`

			`num_cols = df.select_dtypes(include=[np.number]).columns`
			`cat_cols = df.select_dtypes(include=['object', 'category']).columns`

			`if strategy in ['auto', 'fill_median']:`
			`df[num_cols] = df[num_cols].fillna(df[num_cols].median())`

			`if strategy in ['auto', 'fill_mode']:`
			`for col in cat_cols:`
			`df[col] = df[col].fillna(df[col].mode().iloc[0] if len(df[col].mode()) > 0 else 'Unknown')`

			`return df`


			`def remove_outliers(df: pd.DataFrame, column: str, method: str = 'iqr', threshold: float = 1.5) -> pd.DataFrame:`
			`"""`
			`移除异常值`
			`method: 'iqr' \| 'zscore'`
			`"""`
			`if method == 'iqr':`
			`Q1 = df[column].quantile(0.25)`
			`Q3 = df[column].quantile(0.75)`
			`IQR = Q3 - Q1`
			`lower = Q1 - threshold * IQR`
			`upper = Q3 + threshold * IQR`
			`return df[(df[column] >= lower) & (df[column] <= upper)]`

			`elif method == 'zscore':`
			`z_scores = np.abs(stats.zscore(df[column].dropna()))`
			`mask = np.zeros(len(df), dtype=bool)`
			`mask[df[column].notna()] = z_scores < threshold`
			`return df[mask]`

			`return df`


			`def add_time_features(df: pd.DataFrame, date_column: str) -> pd.DataFrame:`
			`"""添加时间特征"""`
			`df = df.copy()`
			`df[date_column] = pd.to_datetime(df[date_column])`

			`df['year'] = df[date_column].dt.year`
			`df['month'] = df[date_column].dt.month`
			`df['day'] = df[date_column].dt.day`
			`df['day_of_week'] = df[date_column].dt.dayofweek`
			`df['is_weekend'] = df['day_of_week'].isin([5, 6]).astype(int)`
			`df['quarter'] = df[date_column].dt.quarter`
			`df['week_of_year'] = df[date_column].dt.isocalendar().week`

			`return df`


			`def correlation_analysis(df: pd.DataFrame, threshold: float = 0.7) -> pd.DataFrame:`
			`"""相关性分析，返回高相关对"""`
			`corr = df.select_dtypes(include=[np.number]).corr()`

			`high_corr = []`
			`for i in range(len(corr.columns)):`
			`for j in range(i+1, len(corr.columns)):`
			`if abs(corr.iloc[i, j]) > threshold:`
			`high_corr.append({`
			`'var1': corr.columns[i],`
			`'var2': corr.columns[j],`
			`'correlation': round(corr.iloc[i, j], 3)`
			`})`

			`return pd.DataFrame(high_corr).sort_values('correlation', key=abs, ascending=False)`


			`def ab_test(control_success: int, control_total: int,`
			`treatment_success: int, treatment_total: int,`
			`alpha: float = 0.05) -> dict:`
			`"""A/B测试比例检验"""`
			`from statsmodels.stats.proportion import proportions_ztest`

			`count = np.array([treatment_success, control_success])`
			`nobs = np.array([treatment_total, control_total])`

			`stat, p_value = proportions_ztest(count, nobs)`

			`control_rate = control_success / control_total`
			`treatment_rate = treatment_success / treatment_total`
			`lift = (treatment_rate - control_rate) / control_rate * 100`

			`return {`
			`'control_rate': f"{control_rate:.2%}",`
			`'treatment_rate': f"{treatment_rate:.2%}",`
			`'lift': f"{lift:.2f}%",`
			`'p_value': round(p_value, 4),`
			`'significant': p_value < alpha,`
			`'recommendation': '采用新方案' if (p_value < alpha and lift > 0) else '保持原方案'`
			`}`


			`if __name__ == '__main__':`
			`# 测试`
			`df = pd.DataFrame({`
			`'a': [1, 2, 3, None, 5],`
			`'b': ['x', 'y', None, 'x', 'y'],`
			`'c': [10, 20, 100, 40, 50]`
			`})`

			`print("Overview:", data_overview(df))`
			`print("\nAfter handling missing:", handle_missing(df))`