import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from scipy.stats import chi2

def chi_square(nu, size=1000, seed=0):
    rng = np.random.default_rng(seed)
    Z = rng.standard_normal((size, nu))
    X = np.sum(Z**2, axis=1)
    return X

nu = 10 
size = 5000

x_generated = chi_square(nu, size=size, seed=42)
x_builtin = chi2.rvs(df=nu, size=size, random_state=42)

plt.figure(figsize=(12,5))

plt.subplot(1, 2, 1)
plt.hist(x_generated, bins=40, density=True, alpha=0.6, color='orange')
plt.title(f"Custom Chi-Square Generator (ν={nu})")
plt.xlabel("x")
plt.ylabel("Density")

plt.subplot(1, 2, 2)
plt.hist(x_builtin, bins=40, density=True, alpha=0.6, color='red')
plt.title(f"Built-in Chi-Square (ν={nu})")
plt.xlabel("x")

plt.tight_layout()
plt.show()

dfs = [2, 5, 15, 20]
size = 5000
rng = np.random.default_rng(12345)

plt.figure(figsize=(8, 6))

for i, nu in enumerate(dfs, start=1):
    x = chi2.rvs(df=nu, size=size, random_state=rng)
    
    ax = plt.subplot(2, 2, i)
    counts, bins, _ = ax.hist(x, bins=40, density=True, alpha=0.6, color='C{}'.format(i-1), edgecolor='k')
    
    xs = np.linspace(0, np.percentile(x, 99.5), 500)
    pdf = chi2.pdf(xs, df=nu)
    ax.plot(xs, pdf, 'k-', lw=2, label=f'df={nu}')
    
    ax.set_title(f'Chi-square (ν={nu}) — n={size}')
    ax.set_xlabel('x')
    ax.set_ylabel('Density')
    ax.legend()
    ax.grid(True)

plt.tight_layout()
plt.show()

from scipy.stats import beta

def generate_beta(alpha, beta_param, size=5000, seed=0):
    rng = np.random.default_rng(seed)
    samples = []

    while len(samples) < size:
        U1 = rng.uniform()
        U2 = rng.uniform()

        Y1 = U1 ** (1/alpha)
        Y2 = U2 ** (1/beta_param)

        if Y1 + Y2 <= 1:
            X = Y1 / (Y1 + Y2)
            samples.append(X)

    return np.array(samples)

alpha = 2
beta_param = 5
size = 5000

x_generated = generate_beta(alpha, beta_param, size=size, seed=42)
x_builtin = beta.rvs(alpha, beta_param, size=size, random_state=42)

plt.figure(figsize=(10,4))

plt.subplot(1,2,1)
plt.hist(x_generated, bins=40, density=True, alpha=0.6, color='purple')
plt.title(f"Custom Beta Generator (α={alpha}, β={beta_param})")
plt.xlabel("x")
plt.ylabel("density")

plt.subplot(1,2,2)
plt.hist(x_builtin, bins=40, density=True, alpha=0.6, color='red')
plt.title(f"Built-in Beta (α={alpha}, β={beta_param})")
plt.xlabel("x")

plt.tight_layout()
plt.show()

from scipy.stats import binom

np.random.seed(0)

n = 5
ps = [0.3, 0.5, 0.8]
size = 1000

for p in ps:
    samples = np.random.binomial(n, p, size)
    
    counts = np.bincount(samples, minlength=n+1)
    rel_freq = counts / size
    
    k = np.arange(0, n+1)
    theoretical = binom.pmf(k, n, p)

    plt.figure(figsize=(5,3))
    width = 0.35

    plt.bar(k - width/2, rel_freq, width=width, label='Observed', alpha=0.7, color='red')
    plt.bar(k + width/2, theoretical, width=width, label='Theoretical', alpha=0.7, color='purple')

    plt.title(f'Binomial(n={n}, p={p}) — Observed vs Theoretical')
    plt.xlabel('k')
    plt.ylabel('Probability')
    plt.xticks(k)
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.show()

from scipy.stats import t, multivariate_normal

np.random.seed(0)

# correlation matrix Σ
Sigma = np.array([[1, -0.8],
                  [-0.8, 1]])

# Cholesky decomposition for covariance structure
L = np.linalg.cholesky(Sigma)

dfs = [5, 15, 25, 35]
n = 100

def generate_bivariate_t(df, n, Sigma):
    ### generates n samples from a bivariate t distribution with df degrees of freedom.

    # 1: Z ~ N(0, Σ)
    Z = np.random.multivariate_normal(mean=[0, 0], cov=Sigma, size=n)
    # 2: W ~ chi-square(df)
    W = np.random.chisquare(df, size=n)
    # 3: X = Z * sqrt(df / W)
    X = Z * np.sqrt(df / W)[:, None]
    return X

fig, axes = plt.subplots(2, 2, figsize=(7, 7))

for ax, df in zip(axes.flatten(), dfs):
    X = generate_bivariate_t(df, n, Sigma)
    ax.scatter(X[:,0], X[:,1], alpha=0.7)
    ax.set_title(f"Bivariate t (df={df})")
    ax.set_xlabel("X1")
    ax.set_ylabel("X2")
    ax.grid(True)

plt.tight_layout()
plt.show()

X_norm = np.random.multivariate_normal(mean=[0,0], cov=Sigma, size=n)

plt.figure(figsize=(5,5))
plt.scatter(X_norm[:,0], X_norm[:,1], alpha=0.7, color='green')
plt.title("Bivariate Normal (same Σ, n=100)")
plt.xlabel("X1")
plt.ylabel("X2")
plt.grid(True)
plt.show()

import scipy.stats as stats
from scipy.io import loadmat

# Load .mat file
data = loadmat("Data Files/tibetan.mat")    
X_full = data["tibetan"]   

# Choose measurement X3 (height)
X = X_full[:, 2]

# Normal Q–Q plot
plt.figure(figsize=(5, 5))
stats.probplot(X, dist="norm", plot=plt)
plt.title("Normal Q–Q Plot for Tibetan Skull Data (X3)")
plt.grid(True)
plt.show()

import scipy.special as sp

data = loadmat("Data Files/counting.mat")
counts = data["count"].flatten()

unique, freq = np.unique(counts, return_counts=True)

# we need to do Poissonness transform as Y_k = log(freq_k) + log(k!)
Y = np.log(freq) + np.log(sp.factorial(unique))

slope, intercept = np.polyfit(unique, Y, 1) # polynomial fitting
Y_fit = slope * unique + intercept

plt.figure(figsize=(6,4))
plt.scatter(unique, Y, label="Data")
plt.plot(unique, Y_fit, color="red", label="Linear Fit")
plt.title("Poissonness Plot")
plt.xlabel("k")
plt.ylabel("log(freq(k)) + log(k!)")
plt.grid(True)
plt.legend()
plt.show()

from scipy.io import loadmat
from scipy.special import gammaln

def create_binomial_plot():
    data = loadmat("Data Files/biology.mat")
    numpaps = data["numpaps"].flatten()
    freqs = data["freqs"].flatten()

    # filter out zero frequencies
    mask = freqs > 0
    k = numpaps[mask]     
    n_k = freqs[mask] 

    N = np.max(numpaps)

    # The plot compares ln(observed) against the log of the binomial coefficient.
    # Y = ln(n_k) - ln(Combination(N, k))
    
    # use transformation as gammaln for factorial terms: ln(x!) = gammaln(x+1)
    # ln(N choose k) = ln(N!) - ln(k!) - ln((N-k)!)
    log_comb = gammaln(N + 1) - gammaln(k + 1) - gammaln(N - k + 1)
    y_values = np.log(n_k) - log_comb

    plt.figure(figsize=(8, 4))
    plt.scatter(k, y_values, color='blue', label='Observed Data', zorder=5)

    slope, intercept = np.polyfit(k, y_values, 1)
    plt.plot(k, slope * k + intercept, color='red', linestyle='--', label=f'Linear Fit (Slope={slope:.2f})')

    plt.title(f"Binomialness Plot")
    plt.xlabel("Number of Papers ($k$)")
    plt.ylabel(r"$\ln(n_k) - \ln\binom{N}{k}$")
    plt.grid(True, which='both', linestyle='--', alpha=0.7)
    plt.legend()
    
    plt.show()
    
    return slope

# Run the function
slope = create_binomial_plot()

from scipy.io import loadmat

def analyze_thrombos():
   
    data = loadmat("Data Files/thrombos.mat")
    normal = data["normal"].flatten()
    diabetic = data["diabetic"].flatten()
    
    plot_data = [normal, diabetic]
    plt.figure(figsize=(6, 4))
    
    bp = plt.boxplot(plot_data, labels=['Normal', 'Diabetic'], patch_artist=True)
    
    colors = ['lightblue', 'lightcoral']
    for patch, color in zip(bp['boxes'], colors):
        patch.set_facecolor(color)
        
    for median in bp['medians']:
        median.set(color='red', linewidth=2)

    plt.title('Comparison of Urinary-Thromboglobulin Excretion')
    plt.ylabel('Excretion Level')
    plt.grid(True, linestyle='--', alpha=0.6)
    
    plt.show()
    
    # descriptive statistics
    print(f"Normal - Median: {np.median(normal):.2f}, Std Dev: {np.std(normal):.2f}")
    print(f"Diabetic - Median: {np.median(diabetic):.2f}, Std Dev: {np.std(diabetic):.2f}")

analyze_thrombos()

/var/folders/tm/0v_xzs6s5vzfw60jkby5vd980000gn/T/ipykernel_7122/2683883008.py:12: MatplotlibDeprecationWarning: The 'labels' parameter of boxplot() has been renamed 'tick_labels' since Matplotlib 3.9; support for the old name will be dropped in 3.11.
  bp = plt.boxplot(plot_data, labels=['Normal', 'Diabetic'], patch_artist=True)

Normal - Median: 10.95, Std Dev: 8.80
Diabetic - Median: 31.35, Std Dev: 19.41

import seaborn as sns
from scipy.io import loadmat
from pandas.plotting import parallel_coordinates


def explore_bank_data():
    data = loadmat('Data Files/bank.mat')
    genuine = data['genuine']
    forge = data['forge']

    columns = ['Length', 'Left', 'Right', 'Bottom', 'Top', 'Diagonal']
    
    df_gen = pd.DataFrame(genuine, columns=columns)
    df_gen['Status'] = 'Genuine'
    df_forge = pd.DataFrame(forge, columns=columns)
    df_forge['Status'] = 'Forged'
    
    df = pd.concat([df_gen, df_forge], ignore_index=True)

    sns.pairplot(df, hue='Status', palette={'Genuine': 'blue', 'Forged': 'red'}, 
                 diag_kind='kde', plot_kws={'alpha': 0.6})
    plt.suptitle("Scatterplot Matrix", y=1.02)
    plt.show()

    plt.figure(figsize=(10, 4))
    df_melt = df.melt(id_vars='Status', var_name='Variable', value_name='Measurement')
    sns.boxplot(x='Variable', y='Measurement', hue='Status', 
                data=df_melt, palette=['blue', 'red'])
    plt.title("Boxplot Comparison")
    plt.grid(True, linestyle='--', alpha=0.5)
    plt.show()

    plt.figure(figsize=(10, 4))
    parallel_coordinates(df, 'Status', color=['blue', 'red'], alpha=0.5)
    plt.title("Parallel Coordinates Plot")
    plt.xlabel("Variables")
    plt.ylabel("Measurements (mm)")
    plt.grid(True, linestyle='--', alpha=0.5)
    plt.show()

explore_bank_data()

ASSIGNMENT 4¶

Question 1¶

Question 2¶

Question 3¶

Question 4¶

Question 5¶

Question 6¶

Question 7¶

Question 8¶

Question 9¶

Question 10¶