##################################
# Loading Python Libraries
##################################
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import itertools
import os
%matplotlib inline

from operator import add,mul,truediv
from sklearn.model_selection import train_test_split
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PowerTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import KFold
from sklearn.inspection import permutation_importance
from sklearn.metrics import mean_absolute_error, brier_score_loss

from statsmodels.nonparametric.smoothers_lowess import lowess
from scipy import stats
from scipy.stats import ttest_ind, chi2_contingency

from lifelines import KaplanMeierFitter
from lifelines.fitters.weibull_fitter import WeibullFitter
from lifelines.fitters.log_normal_fitter import LogNormalFitter
from lifelines.fitters.log_logistic_fitter import LogLogisticFitter
from lifelines.fitters.weibull_aft_fitter import WeibullAFTFitter
from lifelines.fitters.log_normal_aft_fitter import LogNormalAFTFitter
from lifelines.fitters.log_logistic_aft_fitter import LogLogisticAFTFitter
from lifelines.utils import concordance_index
from lifelines.statistics import logrank_test
from lifelines.plotting import qq_plot
import shap

import warnings
warnings.filterwarnings('ignore')

##################################
# Defining file paths
##################################
DATASETS_ORIGINAL_PATH = r"datasets\original"

##################################
# Loading the dataset
# from the DATASETS_ORIGINAL_PATH
##################################
cirrhosis_survival = pd.read_csv(os.path.join("..", DATASETS_ORIGINAL_PATH, "Cirrhosis_Survival.csv"))

##################################
# Performing a general exploration of the dataset
##################################
print('Dataset Dimensions: ')
display(cirrhosis_survival.shape)

Dataset Dimensions:

(418, 20)

##################################
# Listing the column names and data types
##################################
print('Column Names and Data Types:')
display(cirrhosis_survival.dtypes)

Column Names and Data Types:

ID                 int64
N_Days             int64
Status            object
Drug              object
Age                int64
Sex               object
Ascites           object
Hepatomegaly      object
Spiders           object
Edema             object
Bilirubin        float64
Cholesterol      float64
Albumin          float64
Copper           float64
Alk_Phos         float64
SGOT             float64
Tryglicerides    float64
Platelets        float64
Prothrombin      float64
Stage            float64
dtype: object

##################################
# Taking a snapshot of the dataset
##################################
cirrhosis_survival.head()

##################################
# Taking the ID column as the index
##################################
cirrhosis_survival.set_index(['ID'], inplace=True)

##################################
# Changing the data type for Stage
##################################
cirrhosis_survival['Stage'] = cirrhosis_survival['Stage'].astype('object')

##################################
# Changing the data type for Status
##################################
cirrhosis_survival['Status'] = cirrhosis_survival['Status'].replace({'C':False, 'CL':False, 'D':True})

##################################
# Performing a general exploration of the numeric variables
##################################
print('Numeric Variable Summary:')
display(cirrhosis_survival.describe(include='number').transpose())

Numeric Variable Summary:

##################################
# Performing a general exploration of the object variables
##################################
print('object Variable Summary:')
display(cirrhosis_survival.describe(include='object').transpose())

object Variable Summary:

##################################
# Counting the number of duplicated rows
##################################
cirrhosis_survival.duplicated().sum()

0

##################################
# Gathering the data types for each column
##################################
data_type_list = list(cirrhosis_survival.dtypes)

##################################
# Gathering the variable names for each column
##################################
variable_name_list = list(cirrhosis_survival.columns)

##################################
# Gathering the number of observations for each column
##################################
row_count_list = list([len(cirrhosis_survival)] * len(cirrhosis_survival.columns))

##################################
# Gathering the number of missing data for each column
##################################
null_count_list = list(cirrhosis_survival.isna().sum(axis=0))

##################################
# Gathering the number of non-missing data for each column
##################################
non_null_count_list = list(cirrhosis_survival.count())

##################################
# Gathering the missing data percentage for each column
##################################
fill_rate_list = map(truediv, non_null_count_list, row_count_list)

##################################
# Formulating the summary
# for all columns
##################################
all_column_quality_summary = pd.DataFrame(zip(variable_name_list,
                                              data_type_list,
                                              row_count_list,
                                              non_null_count_list,
                                              null_count_list,
                                              fill_rate_list), 
                                        columns=['Column.Name',
                                                 'Column.Type',
                                                 'Row.Count',
                                                 'Non.Null.Count',
                                                 'Null.Count',                                                 
                                                 'Fill.Rate'])
display(all_column_quality_summary)

##################################
# Counting the number of columns
# with Fill.Rate < 1.00
##################################
print('Number of Columns with Missing Data:', str(len(all_column_quality_summary[(all_column_quality_summary['Fill.Rate']<1)])))

Number of Columns with Missing Data: 12

##################################
# Identifying the columns
# with Fill.Rate < 1.00
##################################
print('Columns with Missing Data:')
display(all_column_quality_summary[(all_column_quality_summary['Fill.Rate']<1)].sort_values(by=['Fill.Rate'], ascending=True))

Columns with Missing Data:

##################################
# Identifying the rows
# with Fill.Rate < 1.00
##################################
column_low_fill_rate = all_column_quality_summary[(all_column_quality_summary['Fill.Rate']<1.00)]

##################################
# Gathering the metadata labels for each observation
##################################
row_metadata_list = cirrhosis_survival.index.values.tolist()

##################################
# Gathering the number of columns for each observation
##################################
column_count_list = list([len(cirrhosis_survival.columns)] * len(cirrhosis_survival))

##################################
# Gathering the number of missing data for each row
##################################
null_row_list = list(cirrhosis_survival.isna().sum(axis=1))

##################################
# Gathering the missing data percentage for each column
##################################
missing_rate_list = map(truediv, null_row_list, column_count_list)

##################################
# Exploring the rows
# for missing data
##################################
all_row_quality_summary = pd.DataFrame(zip(row_metadata_list,
                                           column_count_list,
                                           null_row_list,
                                           missing_rate_list), 
                                        columns=['Row.Name',
                                                 'Column.Count',
                                                 'Null.Count',                                                 
                                                 'Missing.Rate'])
display(all_row_quality_summary)

##################################
# Counting the number of rows
# with Fill.Rate < 1.00
##################################
print('Number of Rows with Missing Data:',str(len(all_row_quality_summary[all_row_quality_summary['Missing.Rate']>0])))

Number of Rows with Missing Data: 142

##################################
# Identifying the rows
# with Fill.Rate < 1.00
##################################
print('Rows with Missing Data:')
display(all_row_quality_summary[all_row_quality_summary['Missing.Rate']>0])

Rows with Missing Data:

##################################
# Counting the number of rows
# based on different Fill.Rate categories
##################################
missing_rate_categories = all_row_quality_summary['Missing.Rate'].value_counts().reset_index()
missing_rate_categories.columns = ['Missing.Rate.Category','Missing.Rate.Count']
display(missing_rate_categories.sort_values(['Missing.Rate.Category'], ascending=False))

##################################
# Identifying the rows
# with Missing.Rate > 0.40
##################################
row_high_missing_rate = all_row_quality_summary[(all_row_quality_summary['Missing.Rate']>0.40)]

##################################
# Formulating the dataset
# with numeric columns only
##################################
cirrhosis_survival_numeric = cirrhosis_survival.select_dtypes(include='number')

##################################
# Gathering the variable names for each numeric column
##################################
numeric_variable_name_list = cirrhosis_survival_numeric.columns

##################################
# Gathering the minimum value for each numeric column
##################################
numeric_minimum_list = cirrhosis_survival_numeric.min()

##################################
# Gathering the mean value for each numeric column
##################################
numeric_mean_list = cirrhosis_survival_numeric.mean()

##################################
# Gathering the median value for each numeric column
##################################
numeric_median_list = cirrhosis_survival_numeric.median()

##################################
# Gathering the maximum value for each numeric column
##################################
numeric_maximum_list = cirrhosis_survival_numeric.max()

##################################
# Gathering the first mode values for each numeric column
##################################
numeric_first_mode_list = [cirrhosis_survival[x].value_counts(dropna=True).index.tolist()[0] for x in cirrhosis_survival_numeric]

##################################
# Gathering the second mode values for each numeric column
##################################
numeric_second_mode_list = [cirrhosis_survival[x].value_counts(dropna=True).index.tolist()[1] for x in cirrhosis_survival_numeric]

##################################
# Gathering the count of first mode values for each numeric column
##################################
numeric_first_mode_count_list = [cirrhosis_survival_numeric[x].isin([cirrhosis_survival[x].value_counts(dropna=True).index.tolist()[0]]).sum() for x in cirrhosis_survival_numeric]

##################################
# Gathering the count of second mode values for each numeric column
##################################
numeric_second_mode_count_list = [cirrhosis_survival_numeric[x].isin([cirrhosis_survival[x].value_counts(dropna=True).index.tolist()[1]]).sum() for x in cirrhosis_survival_numeric]

##################################
# Gathering the first mode to second mode ratio for each numeric column
##################################
numeric_first_second_mode_ratio_list = map(truediv, numeric_first_mode_count_list, numeric_second_mode_count_list)

##################################
# Gathering the count of unique values for each numeric column
##################################
numeric_unique_count_list = cirrhosis_survival_numeric.nunique(dropna=True)

##################################
# Gathering the number of observations for each numeric column
##################################
numeric_row_count_list = list([len(cirrhosis_survival_numeric)] * len(cirrhosis_survival_numeric.columns))

##################################
# Gathering the unique to count ratio for each numeric column
##################################
numeric_unique_count_ratio_list = map(truediv, numeric_unique_count_list, numeric_row_count_list)

##################################
# Gathering the skewness value for each numeric column
##################################
numeric_skewness_list = cirrhosis_survival_numeric.skew()

##################################
# Gathering the kurtosis value for each numeric column
##################################
numeric_kurtosis_list = cirrhosis_survival_numeric.kurtosis()

numeric_column_quality_summary = pd.DataFrame(zip(numeric_variable_name_list,
                                                numeric_minimum_list,
                                                numeric_mean_list,
                                                numeric_median_list,
                                                numeric_maximum_list,
                                                numeric_first_mode_list,
                                                numeric_second_mode_list,
                                                numeric_first_mode_count_list,
                                                numeric_second_mode_count_list,
                                                numeric_first_second_mode_ratio_list,
                                                numeric_unique_count_list,
                                                numeric_row_count_list,
                                                numeric_unique_count_ratio_list,
                                                numeric_skewness_list,
                                                numeric_kurtosis_list), 
                                        columns=['Numeric.Column.Name',
                                                 'Minimum',
                                                 'Mean',
                                                 'Median',
                                                 'Maximum',
                                                 'First.Mode',
                                                 'Second.Mode',
                                                 'First.Mode.Count',
                                                 'Second.Mode.Count',
                                                 'First.Second.Mode.Ratio',
                                                 'Unique.Count',
                                                 'Row.Count',
                                                 'Unique.Count.Ratio',
                                                 'Skewness',
                                                 'Kurtosis'])
display(numeric_column_quality_summary)

##################################
# Formulating the dataset
# with object column only
##################################
cirrhosis_survival_object = cirrhosis_survival.select_dtypes(include='object')

##################################
# Gathering the variable names for the object column
##################################
object_variable_name_list = cirrhosis_survival_object.columns

##################################
# Gathering the first mode values for the object column
##################################
object_first_mode_list = [cirrhosis_survival[x].value_counts().index.tolist()[0] for x in cirrhosis_survival_object]

##################################
# Gathering the second mode values for each object column
##################################
object_second_mode_list = [cirrhosis_survival[x].value_counts().index.tolist()[1] for x in cirrhosis_survival_object]

##################################
# Gathering the count of first mode values for each object column
##################################
object_first_mode_count_list = [cirrhosis_survival_object[x].isin([cirrhosis_survival[x].value_counts(dropna=True).index.tolist()[0]]).sum() for x in cirrhosis_survival_object]

##################################
# Gathering the count of second mode values for each object column
##################################
object_second_mode_count_list = [cirrhosis_survival_object[x].isin([cirrhosis_survival[x].value_counts(dropna=True).index.tolist()[1]]).sum() for x in cirrhosis_survival_object]

##################################
# Gathering the first mode to second mode ratio for each object column
##################################
object_first_second_mode_ratio_list = map(truediv, object_first_mode_count_list, object_second_mode_count_list)

##################################
# Gathering the count of unique values for each object column
##################################
object_unique_count_list = cirrhosis_survival_object.nunique(dropna=True)

##################################
# Gathering the number of observations for each object column
##################################
object_row_count_list = list([len(cirrhosis_survival_object)] * len(cirrhosis_survival_object.columns))

##################################
# Gathering the unique to count ratio for each object column
##################################
object_unique_count_ratio_list = map(truediv, object_unique_count_list, object_row_count_list)

object_column_quality_summary = pd.DataFrame(zip(object_variable_name_list,
                                                 object_first_mode_list,
                                                 object_second_mode_list,
                                                 object_first_mode_count_list,
                                                 object_second_mode_count_list,
                                                 object_first_second_mode_ratio_list,
                                                 object_unique_count_list,
                                                 object_row_count_list,
                                                 object_unique_count_ratio_list), 
                                        columns=['Object.Column.Name',
                                                 'First.Mode',
                                                 'Second.Mode',
                                                 'First.Mode.Count',
                                                 'Second.Mode.Count',
                                                 'First.Second.Mode.Ratio',
                                                 'Unique.Count',
                                                 'Row.Count',
                                                 'Unique.Count.Ratio'])
display(object_column_quality_summary)

##################################
# Counting the number of object columns
# with First.Second.Mode.Ratio > 5.00
##################################
len(object_column_quality_summary[(object_column_quality_summary['First.Second.Mode.Ratio']>5)])

3

##################################
# Counting the number of object columns
# with Unique.Count.Ratio > 10.00
##################################
len(object_column_quality_summary[(object_column_quality_summary['Unique.Count.Ratio']>10)])

0

##################################
# Performing a general exploration of the original dataset
##################################
print('Dataset Dimensions: ')
display(cirrhosis_survival.shape)

Dataset Dimensions:

(418, 19)

##################################
# Filtering out the rows with
# with Missing.Rate > 0.40
##################################
cirrhosis_survival_filtered_row = cirrhosis_survival.drop(cirrhosis_survival[cirrhosis_survival.index.isin(row_high_missing_rate['Row.Name'].values.tolist())].index)

##################################
# Performing a general exploration of the filtered dataset
##################################
print('Dataset Dimensions: ')
display(cirrhosis_survival_filtered_row.shape)

Dataset Dimensions:

(312, 19)

##################################
# Gathering the missing data percentage for each column
# from the filtered data
##################################
data_type_list = list(cirrhosis_survival_filtered_row.dtypes)
variable_name_list = list(cirrhosis_survival_filtered_row.columns)
null_count_list = list(cirrhosis_survival_filtered_row.isna().sum(axis=0))
non_null_count_list = list(cirrhosis_survival_filtered_row.count())
row_count_list = list([len(cirrhosis_survival_filtered_row)] * len(cirrhosis_survival_filtered_row.columns))
fill_rate_list = map(truediv, non_null_count_list, row_count_list)
all_column_quality_summary = pd.DataFrame(zip(variable_name_list,
                                              data_type_list,
                                              row_count_list,
                                              non_null_count_list,
                                              null_count_list,
                                              fill_rate_list), 
                                        columns=['Column.Name',
                                                 'Column.Type',
                                                 'Row.Count',
                                                 'Non.Null.Count',
                                                 'Null.Count',                                                 
                                                 'Fill.Rate'])
display(all_column_quality_summary.sort_values(['Fill.Rate'], ascending=True))

##################################
# Formulating a new dataset object
# for the cleaned data
##################################
cirrhosis_survival_cleaned = cirrhosis_survival_filtered_row

##################################
# Formulating the summary
# for all cleaned columns
##################################
cleaned_column_quality_summary = pd.DataFrame(zip(list(cirrhosis_survival_cleaned.columns),
                                                  list(cirrhosis_survival_cleaned.dtypes),
                                                  list([len(cirrhosis_survival_cleaned)] * len(cirrhosis_survival_cleaned.columns)),
                                                  list(cirrhosis_survival_cleaned.count()),
                                                  list(cirrhosis_survival_cleaned.isna().sum(axis=0))), 
                                        columns=['Column.Name',
                                                 'Column.Type',
                                                 'Row.Count',
                                                 'Non.Null.Count',
                                                 'Null.Count'])
display(cleaned_column_quality_summary.sort_values(by=['Null.Count'], ascending=False))

##################################
# Creating training and testing data
##################################
cirrhosis_survival_train, cirrhosis_survival_test = train_test_split(cirrhosis_survival_cleaned, 
                                                                     test_size=0.30, 
                                                                     stratify=cirrhosis_survival_cleaned['Status'], 
                                                                     random_state=88888888)
cirrhosis_survival_X_train_cleaned = cirrhosis_survival_train.drop(columns=['Status', 'N_Days'])
cirrhosis_survival_y_train_cleaned = cirrhosis_survival_train[['Status', 'N_Days']]
cirrhosis_survival_X_test_cleaned = cirrhosis_survival_test.drop(columns=['Status', 'N_Days'])
cirrhosis_survival_y_test_cleaned = cirrhosis_survival_test[['Status', 'N_Days']]

##################################
# Gathering the training data information
##################################
print(f'Training Dataset Dimensions: Predictors: {cirrhosis_survival_X_train_cleaned.shape}, Event|Duration: {cirrhosis_survival_y_train_cleaned.shape}')

Training Dataset Dimensions: Predictors: (218, 17), Event|Duration: (218, 2)

##################################
# Gathering the testing data information
##################################
print(f'Testing Dataset Dimensions: Predictors: {cirrhosis_survival_X_test_cleaned.shape}, Event|Duration: {cirrhosis_survival_y_test_cleaned.shape}')

Testing Dataset Dimensions: Predictors: (94, 17), Event|Duration: (94, 2)

##################################
# Formulating the summary
# for all cleaned columns
# from the training data
##################################
X_train_cleaned_column_quality_summary = pd.DataFrame(zip(list(cirrhosis_survival_X_train_cleaned.columns),
                                                  list(cirrhosis_survival_X_train_cleaned.dtypes),
                                                  list([len(cirrhosis_survival_X_train_cleaned)] * len(cirrhosis_survival_X_train_cleaned.columns)),
                                                  list(cirrhosis_survival_X_train_cleaned.count()),
                                                  list(cirrhosis_survival_X_train_cleaned.isna().sum(axis=0))), 
                                        columns=['Column.Name',
                                                 'Column.Type',
                                                 'Row.Count',
                                                 'Non.Null.Count',
                                                 'Null.Count'])
display(X_train_cleaned_column_quality_summary.sort_values(by=['Null.Count'], ascending=False))

##################################
# Formulating the summary
# for all cleaned columns
# from the testing data
##################################
X_test_cleaned_column_quality_summary = pd.DataFrame(zip(list(cirrhosis_survival_X_test_cleaned.columns),
                                                  list(cirrhosis_survival_X_test_cleaned.dtypes),
                                                  list([len(cirrhosis_survival_X_test_cleaned)] * len(cirrhosis_survival_X_test_cleaned.columns)),
                                                  list(cirrhosis_survival_X_test_cleaned.count()),
                                                  list(cirrhosis_survival_X_test_cleaned.isna().sum(axis=0))), 
                                        columns=['Column.Name',
                                                 'Column.Type',
                                                 'Row.Count',
                                                 'Non.Null.Count',
                                                 'Null.Count'])
display(X_test_cleaned_column_quality_summary.sort_values(by=['Null.Count'], ascending=False))

##################################
# Formulating the cleaned training dataset
# with object columns only
##################################
cirrhosis_survival_X_train_cleaned_object = cirrhosis_survival_X_train_cleaned.select_dtypes(include='object')
cirrhosis_survival_X_train_cleaned_object.reset_index(drop=True, inplace=True)
cirrhosis_survival_X_train_cleaned_object.head()

##################################
# Formulating the cleaned training dataset
# with integer columns only
##################################
cirrhosis_survival_X_train_cleaned_int = cirrhosis_survival_X_train_cleaned.select_dtypes(include='int')
cirrhosis_survival_X_train_cleaned_int.reset_index(drop=True, inplace=True)
cirrhosis_survival_X_train_cleaned_int.head()

##################################
# Formulating the cleaned training dataset
# with float columns only
##################################
cirrhosis_survival_X_train_cleaned_float = cirrhosis_survival_X_train_cleaned.select_dtypes(include='float')
cirrhosis_survival_X_train_cleaned_float.reset_index(drop=True, inplace=True)
cirrhosis_survival_X_train_cleaned_float.head()

##################################
# Defining the estimator to be used
# at each step of the round-robin imputation
##################################
lr = LinearRegression()

##################################
# Defining the parameter of the
# iterative imputer which will estimate 
# the columns with missing values
# as a function of the other columns
# in a round-robin fashion
##################################
iterative_imputer = IterativeImputer(
    estimator = lr,
    max_iter = 10,
    tol = 1e-10,
    imputation_order = 'ascending',
    random_state=88888888
)

##################################
# Implementing the iterative imputer 
##################################
cirrhosis_survival_X_train_imputed_float_array = iterative_imputer.fit_transform(cirrhosis_survival_X_train_cleaned_float)

##################################
# Transforming the imputed training data
# from an array to a dataframe
##################################
cirrhosis_survival_X_train_imputed_float = pd.DataFrame(cirrhosis_survival_X_train_imputed_float_array, 
                                                        columns = cirrhosis_survival_X_train_cleaned_float.columns)
cirrhosis_survival_X_train_imputed_float.head()

##################################
# Formulating the imputed training dataset
##################################
cirrhosis_survival_X_train_imputed = pd.concat([cirrhosis_survival_X_train_cleaned_int,
                                                cirrhosis_survival_X_train_cleaned_object,
                                                cirrhosis_survival_X_train_imputed_float], 
                                               axis=1, 
                                               join='inner')

##################################
# Formulating the summary
# for all imputed columns
##################################
X_train_imputed_column_quality_summary = pd.DataFrame(zip(list(cirrhosis_survival_X_train_imputed.columns),
                                                         list(cirrhosis_survival_X_train_imputed.dtypes),
                                                         list([len(cirrhosis_survival_X_train_imputed)] * len(cirrhosis_survival_X_train_imputed.columns)),
                                                         list(cirrhosis_survival_X_train_imputed.count()),
                                                         list(cirrhosis_survival_X_train_imputed.isna().sum(axis=0))), 
                                                     columns=['Column.Name',
                                                              'Column.Type',
                                                              'Row.Count',
                                                              'Non.Null.Count',
                                                              'Null.Count'])
display(X_train_imputed_column_quality_summary)

##################################
# Formulating the imputed dataset
# with numeric columns only
##################################
cirrhosis_survival_X_train_imputed_numeric = cirrhosis_survival_X_train_imputed.select_dtypes(include='number')

##################################
# Gathering the variable names for each numeric column
##################################
X_train_numeric_variable_name_list = list(cirrhosis_survival_X_train_imputed_numeric.columns)

##################################
# Gathering the skewness value for each numeric column
##################################
X_train_numeric_skewness_list = cirrhosis_survival_X_train_imputed_numeric.skew()

##################################
# Computing the interquartile range
# for all columns
##################################
cirrhosis_survival_X_train_imputed_numeric_q1 = cirrhosis_survival_X_train_imputed_numeric.quantile(0.25)
cirrhosis_survival_X_train_imputed_numeric_q3 = cirrhosis_survival_X_train_imputed_numeric.quantile(0.75)
cirrhosis_survival_X_train_imputed_numeric_iqr = cirrhosis_survival_X_train_imputed_numeric_q3 - cirrhosis_survival_X_train_imputed_numeric_q1

##################################
# Gathering the outlier count for each numeric column
# based on the interquartile range criterion
##################################
X_train_numeric_outlier_count_list = ((cirrhosis_survival_X_train_imputed_numeric < (cirrhosis_survival_X_train_imputed_numeric_q1 - 1.5 * cirrhosis_survival_X_train_imputed_numeric_iqr)) | (cirrhosis_survival_X_train_imputed_numeric > (cirrhosis_survival_X_train_imputed_numeric_q3 + 1.5 * cirrhosis_survival_X_train_imputed_numeric_iqr))).sum()

##################################
# Gathering the number of observations for each column
##################################
X_train_numeric_row_count_list = list([len(cirrhosis_survival_X_train_imputed_numeric)] * len(cirrhosis_survival_X_train_imputed_numeric.columns))

##################################
# Gathering the unique to count ratio for each object column
##################################
X_train_numeric_outlier_ratio_list = map(truediv, X_train_numeric_outlier_count_list, X_train_numeric_row_count_list)

##################################
# Formulating the outlier summary
# for all numeric columns
##################################
X_train_numeric_column_outlier_summary = pd.DataFrame(zip(X_train_numeric_variable_name_list,
                                                          X_train_numeric_skewness_list,
                                                          X_train_numeric_outlier_count_list,
                                                          X_train_numeric_row_count_list,
                                                          X_train_numeric_outlier_ratio_list), 
                                                      columns=['Numeric.Column.Name',
                                                               'Skewness',
                                                               'Outlier.Count',
                                                               'Row.Count',
                                                               'Outlier.Ratio'])
display(X_train_numeric_column_outlier_summary.sort_values(by=['Outlier.Count'], ascending=False))

##################################
# Formulating the individual boxplots
# for all numeric columns
##################################
for column in cirrhosis_survival_X_train_imputed_numeric:
        plt.figure(figsize=(17,1))
        sns.boxplot(data=cirrhosis_survival_X_train_imputed_numeric, x=column)

##################################
# Formulating a function 
# to plot the correlation matrix
# for all pairwise combinations
# of numeric columns
##################################
def plot_correlation_matrix(corr, mask=None):
    f, ax = plt.subplots(figsize=(11, 9))
    sns.heatmap(corr, 
                ax=ax,
                mask=mask,
                annot=True, 
                vmin=-1, 
                vmax=1, 
                center=0,
                cmap='coolwarm', 
                linewidths=1, 
                linecolor='gray', 
                cbar_kws={'orientation': 'horizontal'})

##################################
# Computing the correlation coefficients
# and correlation p-values
# among pairs of numeric columns
##################################
cirrhosis_survival_X_train_imputed_numeric_correlation_pairs = {}
cirrhosis_survival_X_train_imputed_numeric_columns = cirrhosis_survival_X_train_imputed_numeric.columns.tolist()
for numeric_column_a, numeric_column_b in itertools.combinations(cirrhosis_survival_X_train_imputed_numeric_columns, 2):
    cirrhosis_survival_X_train_imputed_numeric_correlation_pairs[numeric_column_a + '_' + numeric_column_b] = stats.pearsonr(
        cirrhosis_survival_X_train_imputed_numeric.loc[:, numeric_column_a], 
        cirrhosis_survival_X_train_imputed_numeric.loc[:, numeric_column_b])

##################################
# Formulating the pairwise correlation summary
# for all numeric columns
##################################
cirrhosis_survival_X_train_imputed_numeric_summary = cirrhosis_survival_X_train_imputed_numeric.from_dict(cirrhosis_survival_X_train_imputed_numeric_correlation_pairs, orient='index')
cirrhosis_survival_X_train_imputed_numeric_summary.columns = ['Pearson.Correlation.Coefficient', 'Correlation.PValue']
display(cirrhosis_survival_X_train_imputed_numeric_summary.sort_values(by=['Pearson.Correlation.Coefficient'], ascending=False).head(20))

##################################
# Plotting the correlation matrix
# for all pairwise combinations
# of numeric columns
##################################
cirrhosis_survival_X_train_imputed_numeric_correlation = cirrhosis_survival_X_train_imputed_numeric.corr()
mask = np.triu(cirrhosis_survival_X_train_imputed_numeric_correlation)
plot_correlation_matrix(cirrhosis_survival_X_train_imputed_numeric_correlation,mask)
plt.show()

##################################
# Formulating a function 
# to plot the correlation matrix
# for all pairwise combinations
# of numeric columns
# with significant p-values only
##################################
def correlation_significance(df=None):
    p_matrix = np.zeros(shape=(df.shape[1],df.shape[1]))
    for col in df.columns:
        for col2 in df.drop(col,axis=1).columns:
            _ , p = stats.pearsonr(df[col],df[col2])
            p_matrix[df.columns.to_list().index(col),df.columns.to_list().index(col2)] = p
    return p_matrix

##################################
# Plotting the correlation matrix
# for all pairwise combinations
# of numeric columns
# with significant p-values only
##################################
cirrhosis_survival_X_train_imputed_numeric_correlation_p_values = correlation_significance(cirrhosis_survival_X_train_imputed_numeric)                     
mask = np.invert(np.tril(cirrhosis_survival_X_train_imputed_numeric_correlation_p_values<0.05)) 
plot_correlation_matrix(cirrhosis_survival_X_train_imputed_numeric_correlation,mask)

##################################
# Formulating a data subset containing
# variables with noted outliers
##################################
X_train_predictors_with_outliers = ['Bilirubin','Cholesterol','Albumin','Copper','Alk_Phos','SGOT','Tryglicerides','Platelets','Prothrombin']
cirrhosis_survival_X_train_imputed_numeric_with_outliers = cirrhosis_survival_X_train_imputed_numeric[X_train_predictors_with_outliers]

##################################
# Conducting a Yeo-Johnson Transformation
# to address the distributional
# shape of the variables
##################################
yeo_johnson_transformer = PowerTransformer(method='yeo-johnson',
                                          standardize=False)
cirrhosis_survival_X_train_imputed_numeric_with_outliers_array = yeo_johnson_transformer.fit_transform(cirrhosis_survival_X_train_imputed_numeric_with_outliers)

##################################
# Formulating a new dataset object
# for the transformed data
##################################
cirrhosis_survival_X_train_transformed_numeric_with_outliers = pd.DataFrame(cirrhosis_survival_X_train_imputed_numeric_with_outliers_array,
                                                                            columns=cirrhosis_survival_X_train_imputed_numeric_with_outliers.columns)
cirrhosis_survival_X_train_transformed_numeric = pd.concat([cirrhosis_survival_X_train_imputed_numeric[['Age']],
                                                            cirrhosis_survival_X_train_transformed_numeric_with_outliers], 
                                                           axis=1)

cirrhosis_survival_X_train_transformed_numeric.head()

##################################
# Formulating the individual boxplots
# for all transformed numeric columns
##################################
for column in cirrhosis_survival_X_train_transformed_numeric:
        plt.figure(figsize=(17,1))
        sns.boxplot(data=cirrhosis_survival_X_train_transformed_numeric, x=column)

##################################
# Formulating the outlier summary
# for all numeric columns
##################################
X_train_numeric_variable_name_list = list(cirrhosis_survival_X_train_transformed_numeric.columns)
X_train_numeric_skewness_list = cirrhosis_survival_X_train_transformed_numeric.skew()
cirrhosis_survival_X_train_transformed_numeric_q1 = cirrhosis_survival_X_train_transformed_numeric.quantile(0.25)
cirrhosis_survival_X_train_transformed_numeric_q3 = cirrhosis_survival_X_train_transformed_numeric.quantile(0.75)
cirrhosis_survival_X_train_transformed_numeric_iqr = cirrhosis_survival_X_train_transformed_numeric_q3 - cirrhosis_survival_X_train_transformed_numeric_q1
X_train_numeric_outlier_count_list = ((cirrhosis_survival_X_train_transformed_numeric < (cirrhosis_survival_X_train_transformed_numeric_q1 - 1.5 * cirrhosis_survival_X_train_transformed_numeric_iqr)) | (cirrhosis_survival_X_train_transformed_numeric > (cirrhosis_survival_X_train_transformed_numeric_q3 + 1.5 * cirrhosis_survival_X_train_transformed_numeric_iqr))).sum()
X_train_numeric_row_count_list = list([len(cirrhosis_survival_X_train_transformed_numeric)] * len(cirrhosis_survival_X_train_transformed_numeric.columns))
X_train_numeric_outlier_ratio_list = map(truediv, X_train_numeric_outlier_count_list, X_train_numeric_row_count_list)

X_train_numeric_column_outlier_summary = pd.DataFrame(zip(X_train_numeric_variable_name_list,
                                                          X_train_numeric_skewness_list,
                                                          X_train_numeric_outlier_count_list,
                                                          X_train_numeric_row_count_list,
                                                          X_train_numeric_outlier_ratio_list),                                                      
                                        columns=['Numeric.Column.Name',
                                                 'Skewness',
                                                 'Outlier.Count',
                                                 'Row.Count',
                                                 'Outlier.Ratio'])
display(X_train_numeric_column_outlier_summary.sort_values(by=['Outlier.Count'], ascending=False))

##################################
# Conducting standardization
# to transform the values of the 
# variables into comparable scale
##################################
standardization_scaler = StandardScaler()
cirrhosis_survival_X_train_transformed_numeric_array = standardization_scaler.fit_transform(cirrhosis_survival_X_train_transformed_numeric)

##################################
# Formulating a new dataset object
# for the scaled data
##################################
cirrhosis_survival_X_train_scaled_numeric = pd.DataFrame(cirrhosis_survival_X_train_transformed_numeric_array,
                                                         columns=cirrhosis_survival_X_train_transformed_numeric.columns)

##################################
# Formulating the individual boxplots
# for all transformed numeric columns
##################################
for column in cirrhosis_survival_X_train_scaled_numeric:
        plt.figure(figsize=(17,1))
        sns.boxplot(data=cirrhosis_survival_X_train_scaled_numeric, x=column)

##################################
# Applying a binary encoding transformation
# for the two-level object columns
##################################
cirrhosis_survival_X_train_cleaned_object['Sex'] = cirrhosis_survival_X_train_cleaned_object['Sex'].replace({'M':0, 'F':1}) 
cirrhosis_survival_X_train_cleaned_object['Ascites'] = cirrhosis_survival_X_train_cleaned_object['Ascites'].replace({'N':0, 'Y':1}) 
cirrhosis_survival_X_train_cleaned_object['Drug'] = cirrhosis_survival_X_train_cleaned_object['Drug'].replace({'Placebo':0, 'D-penicillamine':1}) 
cirrhosis_survival_X_train_cleaned_object['Hepatomegaly'] = cirrhosis_survival_X_train_cleaned_object['Hepatomegaly'].replace({'N':0, 'Y':1}) 
cirrhosis_survival_X_train_cleaned_object['Spiders'] = cirrhosis_survival_X_train_cleaned_object['Spiders'].replace({'N':0, 'Y':1}) 
cirrhosis_survival_X_train_cleaned_object['Edema'] = cirrhosis_survival_X_train_cleaned_object['Edema'].replace({'N':0, 'Y':1, 'S':1})

##################################
# Formulating the multi-level object column stage
# for encoding transformation
##################################
cirrhosis_survival_X_train_cleaned_object_stage_encoded = pd.DataFrame(cirrhosis_survival_X_train_cleaned_object.loc[:, 'Stage'].to_list(),
                                                                       columns=['Stage'])

##################################
# Applying a one-hot encoding transformation
# for the multi-level object column stage
##################################
cirrhosis_survival_X_train_cleaned_object_stage_encoded = pd.get_dummies(cirrhosis_survival_X_train_cleaned_object_stage_encoded, columns=['Stage'])

##################################
# Applying a one-hot encoding transformation
# for the multi-level object column stage
##################################
cirrhosis_survival_X_train_cleaned_encoded_object = pd.concat([cirrhosis_survival_X_train_cleaned_object.drop(['Stage'], axis=1), 
                                                               cirrhosis_survival_X_train_cleaned_object_stage_encoded], axis=1)
cirrhosis_survival_X_train_cleaned_encoded_object.head()

##################################
# Consolidating all preprocessed
# numeric and object predictors
# for the training subset
##################################
cirrhosis_survival_X_train_preprocessed = pd.concat([cirrhosis_survival_X_train_scaled_numeric,
                                                     cirrhosis_survival_X_train_cleaned_encoded_object], 
                                                     axis=1)
cirrhosis_survival_X_train_preprocessed.head()

##################################
# Creating a pre-processing pipeline
# for numeric predictors
##################################
cirrhosis_survival_numeric_predictors = ['Age', 'Bilirubin','Cholesterol', 'Albumin','Copper', 'Alk_Phos','SGOT', 'Tryglicerides','Platelets', 'Prothrombin']
numeric_transformer = Pipeline(steps=[
    ('imputer', IterativeImputer(estimator = lr,
                                 max_iter = 10,
                                 tol = 1e-10,
                                 imputation_order = 'ascending',
                                 random_state=88888888)),
    ('yeo_johnson', PowerTransformer(method='yeo-johnson',
                                    standardize=False)),
    ('scaler', StandardScaler())])

preprocessor = ColumnTransformer(
    transformers=[('num', numeric_transformer, cirrhosis_survival_numeric_predictors)])

##################################
# Fitting and transforming 
# training subset numeric predictors
##################################
cirrhosis_survival_X_train_numeric_preprocessed = preprocessor.fit_transform(cirrhosis_survival_X_train_cleaned)
cirrhosis_survival_X_train_numeric_preprocessed = pd.DataFrame(cirrhosis_survival_X_train_numeric_preprocessed,
                                                                columns=cirrhosis_survival_numeric_predictors)
cirrhosis_survival_X_train_numeric_preprocessed.head()

##################################
# Performing pre-processing operations
# for object predictors
# in the training subset
##################################
cirrhosis_survival_object_predictors = ['Drug', 'Sex','Ascites', 'Hepatomegaly','Spiders', 'Edema','Stage']
cirrhosis_survival_X_train_object = cirrhosis_survival_X_train_cleaned.copy()
cirrhosis_survival_X_train_object = cirrhosis_survival_X_train_object[cirrhosis_survival_object_predictors]
cirrhosis_survival_X_train_object.reset_index(drop=True, inplace=True)
cirrhosis_survival_X_train_object.head()

##################################
# Applying a binary encoding transformation
# for the two-level object columns
# in the training subset
##################################
cirrhosis_survival_X_train_object['Sex'].replace({'M':0, 'F':1}, inplace=True) 
cirrhosis_survival_X_train_object['Ascites'].replace({'N':0, 'Y':1}, inplace=True) 
cirrhosis_survival_X_train_object['Drug'].replace({'Placebo':0, 'D-penicillamine':1}, inplace=True) 
cirrhosis_survival_X_train_object['Hepatomegaly'].replace({'N':0, 'Y':1}, inplace=True) 
cirrhosis_survival_X_train_object['Spiders'].replace({'N':0, 'Y':1}, inplace=True) 
cirrhosis_survival_X_train_object['Edema'].replace({'N':0, 'Y':1, 'S':1}, inplace=True) 
cirrhosis_survival_X_train_object_stage_encoded = pd.DataFrame(cirrhosis_survival_X_train_object.loc[:, 'Stage'].to_list(),
                                                                       columns=['Stage'])
cirrhosis_survival_X_train_object_stage_encoded = pd.get_dummies(cirrhosis_survival_X_train_object_stage_encoded, columns=['Stage'])
cirrhosis_survival_X_train_object_preprocessed = pd.concat([cirrhosis_survival_X_train_object.drop(['Stage'], axis=1), 
                                                            cirrhosis_survival_X_train_object_stage_encoded], 
                                                           axis=1)
cirrhosis_survival_X_train_object_preprocessed.head()

##################################
# Consolidating the preprocessed
# training subset
##################################
cirrhosis_survival_X_train_preprocessed = pd.concat([cirrhosis_survival_X_train_numeric_preprocessed, cirrhosis_survival_X_train_object_preprocessed], 
                                                    axis=1)
cirrhosis_survival_X_train_preprocessed.head()

##################################
# Verifying the dimensions of the
# preprocessed training subset
##################################
cirrhosis_survival_X_train_preprocessed.shape

(218, 20)

##################################
# Fitting and transforming 
# testing subset numeric predictors
##################################
cirrhosis_survival_X_test_numeric_preprocessed = preprocessor.transform(cirrhosis_survival_X_test_cleaned)
cirrhosis_survival_X_test_numeric_preprocessed = pd.DataFrame(cirrhosis_survival_X_test_numeric_preprocessed,
                                                                columns=cirrhosis_survival_numeric_predictors)
cirrhosis_survival_X_test_numeric_preprocessed.head()

##################################
# Performing pre-processing operations
# for object predictors
# in the testing subset
##################################
cirrhosis_survival_object_predictors = ['Drug', 'Sex','Ascites', 'Hepatomegaly','Spiders', 'Edema','Stage']
cirrhosis_survival_X_test_object = cirrhosis_survival_X_test_cleaned.copy()
cirrhosis_survival_X_test_object = cirrhosis_survival_X_test_object[cirrhosis_survival_object_predictors]
cirrhosis_survival_X_test_object.reset_index(drop=True, inplace=True)
cirrhosis_survival_X_test_object.head()

##################################
# Applying a binary encoding transformation
# for the two-level object columns
# in the testing subset
##################################
cirrhosis_survival_X_test_object['Sex'].replace({'M':0, 'F':1}, inplace=True) 
cirrhosis_survival_X_test_object['Ascites'].replace({'N':0, 'Y':1}, inplace=True) 
cirrhosis_survival_X_test_object['Drug'].replace({'Placebo':0, 'D-penicillamine':1}, inplace=True) 
cirrhosis_survival_X_test_object['Hepatomegaly'].replace({'N':0, 'Y':1}, inplace=True) 
cirrhosis_survival_X_test_object['Spiders'].replace({'N':0, 'Y':1}, inplace=True) 
cirrhosis_survival_X_test_object['Edema'].replace({'N':0, 'Y':1, 'S':1}, inplace=True) 
cirrhosis_survival_X_test_object_stage_encoded = pd.DataFrame(cirrhosis_survival_X_test_object.loc[:, 'Stage'].to_list(),
                                                                       columns=['Stage'])
cirrhosis_survival_X_test_object_stage_encoded = pd.get_dummies(cirrhosis_survival_X_test_object_stage_encoded, columns=['Stage'])
cirrhosis_survival_X_test_object_preprocessed = pd.concat([cirrhosis_survival_X_test_object.drop(['Stage'], axis=1), 
                                                            cirrhosis_survival_X_test_object_stage_encoded], 
                                                           axis=1)
cirrhosis_survival_X_test_object_preprocessed.head()

##################################
# Consolidating the preprocessed
# testing subset
##################################
cirrhosis_survival_X_test_preprocessed = pd.concat([cirrhosis_survival_X_test_numeric_preprocessed, cirrhosis_survival_X_test_object_preprocessed], 
                                                    axis=1)
cirrhosis_survival_X_test_preprocessed.head()

##################################
# Verifying the dimensions of the
# preprocessed testing subset
##################################
cirrhosis_survival_X_test_preprocessed.shape

(94, 20)

##################################
# Formulating a complete dataframe
# from the training subset for EDA
##################################
cirrhosis_survival_y_train_cleaned.reset_index(drop=True, inplace=True)
cirrhosis_survival_train_EDA = pd.concat([cirrhosis_survival_y_train_cleaned,
                                          cirrhosis_survival_X_train_preprocessed],
                                         axis=1)
cirrhosis_survival_train_EDA.head()

##################################
# Plotting the baseline survival curve
# and computing the survival rates
##################################
kmf = KaplanMeierFitter()
kmf.fit(durations=cirrhosis_survival_train_EDA['N_Days'], event_observed=cirrhosis_survival_train_EDA['Status'])
plt.figure(figsize=(17, 8))
kmf.plot_survival_function()
plt.title('Kaplan-Meier Baseline Survival Plot')
plt.ylim(0, 1.05)
plt.xlabel('N_Days')
plt.ylabel('Event Survival Probability')

##################################
# Determing the at-risk numbers
##################################
at_risk_counts = kmf.event_table.at_risk
survival_probabilities = kmf.survival_function_.values.flatten()
time_points = kmf.survival_function_.index
for time, prob, at_risk in zip(time_points, survival_probabilities, at_risk_counts):
    if time % 50 == 0: 
        plt.text(time, prob, f'{prob:.2f} : {at_risk}', ha='left', fontsize=10)
median_survival_time = kmf.median_survival_time_
plt.axvline(x=median_survival_time, color='r', linestyle='--')
plt.axhline(y=0.5, color='r', linestyle='--')
plt.text(3400, 0.52, f'Median: {median_survival_time}', ha='left', va='bottom', color='r', fontsize=10)
plt.show()

##################################
# Computing the median survival time
##################################
median_survival_time = kmf.median_survival_time_
print(f'Median Survival Time: {median_survival_time}')

Median Survival Time: 3358.0

##################################
# Exploring the relationships between
# the numeric predictors and event status
##################################
cirrhosis_survival_numeric_predictors = ['Age', 'Bilirubin','Cholesterol', 'Albumin','Copper', 'Alk_Phos','SGOT', 'Tryglicerides','Platelets', 'Prothrombin']
plt.figure(figsize=(17, 12))
for i in range(1, 11):
    plt.subplot(2, 5, i)
    sns.boxplot(x='Status', y=cirrhosis_survival_numeric_predictors[i-1], data=cirrhosis_survival_train_EDA)
    plt.title(f'{cirrhosis_survival_numeric_predictors[i-1]} vs Event Status')
plt.tight_layout()
plt.show()

##################################
# Exploring the relationships between
# the object predictors and event status
##################################
cirrhosis_survival_object_predictors = ['Drug', 'Sex','Ascites', 'Hepatomegaly','Spiders', 'Edema','Stage_1.0','Stage_2.0','Stage_3.0','Stage_4.0']
plt.figure(figsize=(17, 12))
for i in range(1, 11):
    plt.subplot(2, 5, i)
    sns.countplot(x=cirrhosis_survival_object_predictors[i-1], hue='Status', data=cirrhosis_survival_train_EDA)
    plt.title(f'{cirrhosis_survival_object_predictors[i-1]} vs Event Status')
    plt.legend(loc='upper right')
plt.tight_layout()
plt.show()

##################################
# Exploring the relationships between
# the numeric predictors and survival time
##################################
plt.figure(figsize=(17, 12))
for i in range(1, 11):
    plt.subplot(2, 5, i)
    sns.scatterplot(x='N_Days', y=cirrhosis_survival_numeric_predictors[i-1], data=cirrhosis_survival_train_EDA, hue='Status')
    loess_smoothed = lowess(cirrhosis_survival_train_EDA['N_Days'], cirrhosis_survival_train_EDA[cirrhosis_survival_numeric_predictors[i-1]], frac=0.3)
    plt.plot(loess_smoothed[:, 1], loess_smoothed[:, 0], color='red')
    plt.title(f'{cirrhosis_survival_numeric_predictors[i-1]} vs Survival Time')
    plt.legend(loc='upper right')
plt.tight_layout()
plt.show()

##################################
# Exploring the relationships between
# the object predictors and survival time
##################################
plt.figure(figsize=(17, 12))
for i in range(1, 11):
    plt.subplot(2, 5, i)
    sns.boxplot(x=cirrhosis_survival_object_predictors[i-1], y='N_Days', hue='Status', data=cirrhosis_survival_train_EDA)
    plt.title(f'{cirrhosis_survival_object_predictors[i-1]} vs Survival Time')
    plt.legend(loc='upper right')
plt.tight_layout()
plt.show()

##################################
# Computing the t-test 
# statistic and p-values
# between the event variable
# and numeric predictor columns
##################################
cirrhosis_survival_numeric_ttest_event = {}
for numeric_column in cirrhosis_survival_numeric_predictors:
    group_0 = cirrhosis_survival_train_EDA[cirrhosis_survival_train_EDA.loc[:,'Status']==False]
    group_1 = cirrhosis_survival_train_EDA[cirrhosis_survival_train_EDA.loc[:,'Status']==True]
    cirrhosis_survival_numeric_ttest_event['Status_' + numeric_column] = stats.ttest_ind(
        group_0[numeric_column], 
        group_1[numeric_column], 
        equal_var=True)

##################################
# Formulating the pairwise ttest summary
# between the event variable
# and numeric predictor columns
##################################
cirrhosis_survival_numeric_ttest_summary = cirrhosis_survival_train_EDA.from_dict(cirrhosis_survival_numeric_ttest_event, orient='index')
cirrhosis_survival_numeric_ttest_summary.columns = ['T.Test.Statistic', 'T.Test.PValue']
display(cirrhosis_survival_numeric_ttest_summary.sort_values(by=['T.Test.PValue'], ascending=True))

##################################
# Computing the chisquare
# statistic and p-values
# between the event variable
# and categorical predictor columns
##################################
cirrhosis_survival_object_chisquare_event = {}
for object_column in cirrhosis_survival_object_predictors:
    contingency_table = pd.crosstab(cirrhosis_survival_train_EDA[object_column], 
                                    cirrhosis_survival_train_EDA['Status'])
    cirrhosis_survival_object_chisquare_event['Status_' + object_column] = stats.chi2_contingency(
        contingency_table)[0:2]

##################################
# Formulating the pairwise chisquare summary
# between the event variable
# and categorical predictor columns
##################################
cirrhosis_survival_object_chisquare_event_summary = cirrhosis_survival_train_EDA.from_dict(cirrhosis_survival_object_chisquare_event, orient='index')
cirrhosis_survival_object_chisquare_event_summary.columns = ['ChiSquare.Test.Statistic', 'ChiSquare.Test.PValue']
display(cirrhosis_survival_object_chisquare_event_summary.sort_values(by=['ChiSquare.Test.PValue'], ascending=True))

##################################
# Exploring the relationships between
# the object predictors with
# survival event and duration
##################################
plt.figure(figsize=(17, 25))
for i in range(0, len(cirrhosis_survival_object_predictors)):
    ax = plt.subplot(5, 2, i+1)
    for group in [0,1]:
        kmf.fit(durations=cirrhosis_survival_train_EDA[cirrhosis_survival_train_EDA[cirrhosis_survival_object_predictors[i]] == group]['N_Days'],
                event_observed=cirrhosis_survival_train_EDA[cirrhosis_survival_train_EDA[cirrhosis_survival_object_predictors[i]] == group]['Status'], label=group)
        kmf.plot_survival_function(ax=ax)
    plt.title(f'Survival Probabilities by {cirrhosis_survival_object_predictors[i]} Categories')
    plt.xlabel('N_Days')
    plt.ylabel('Event Survival Probability')
plt.tight_layout()
plt.show()

##################################
# Computing the log-rank test
# statistic and p-values
# between the event and duration variables
# with the object predictor columns
##################################
cirrhosis_survival_object_lrtest_event = {}
for object_column in cirrhosis_survival_object_predictors:
    groups = [0,1]
    group_0_event = cirrhosis_survival_train_EDA[cirrhosis_survival_train_EDA[object_column] == groups[0]]['Status']
    group_1_event = cirrhosis_survival_train_EDA[cirrhosis_survival_train_EDA[object_column] == groups[1]]['Status']
    group_0_duration = cirrhosis_survival_train_EDA[cirrhosis_survival_train_EDA[object_column] == groups[0]]['N_Days']
    group_1_duration = cirrhosis_survival_train_EDA[cirrhosis_survival_train_EDA[object_column] == groups[1]]['N_Days']
    lr_test = logrank_test(group_0_duration, group_1_duration,event_observed_A=group_0_event, event_observed_B=group_1_event)
    cirrhosis_survival_object_lrtest_event['Status_NDays_' + object_column] = (lr_test.test_statistic, lr_test.p_value)

##################################
# Formulating the log-rank test summary
# between the event and duration variables
# with the object predictor columns
##################################
cirrhosis_survival_object_lrtest_summary = cirrhosis_survival_train_EDA.from_dict(cirrhosis_survival_object_lrtest_event, orient='index')
cirrhosis_survival_object_lrtest_summary.columns = ['LR.Test.Statistic', 'LR.Test.PValue']
display(cirrhosis_survival_object_lrtest_summary.sort_values(by=['LR.Test.PValue'], ascending=True))

##################################
# Creating an alternate copy of the 
# EDA data which will utilize
# binning for numeric predictors
##################################
cirrhosis_survival_train_EDA_binned = cirrhosis_survival_train_EDA.copy()

##################################
# Creating a function to bin
# numeric predictors into two groups
##################################
def bin_numeric_predictor(df, predictor):
    median = df[predictor].median()
    df[f'Binned_{predictor}'] = np.where(df[predictor] <= median, 0, 1)
    return df

##################################
# Binning the numeric predictors
# in the alternate EDA data into two groups
##################################
for numeric_column in cirrhosis_survival_numeric_predictors:
    cirrhosis_survival_train_EDA_binned = bin_numeric_predictor(cirrhosis_survival_train_EDA_binned, numeric_column)
    
##################################
# Formulating the binned numeric predictors
##################################    
cirrhosis_survival_binned_numeric_predictors = ["Binned_" + predictor for predictor in cirrhosis_survival_numeric_predictors]

##################################
# Exploring the relationships between
# the binned numeric predictors with
# survival event and duration
##################################
plt.figure(figsize=(17, 25))
for i in range(0, len(cirrhosis_survival_binned_numeric_predictors)):
    ax = plt.subplot(5, 2, i+1)
    for group in [0,1]:
        kmf.fit(durations=cirrhosis_survival_train_EDA_binned[cirrhosis_survival_train_EDA_binned[cirrhosis_survival_binned_numeric_predictors[i]] == group]['N_Days'],
                event_observed=cirrhosis_survival_train_EDA_binned[cirrhosis_survival_train_EDA_binned[cirrhosis_survival_binned_numeric_predictors[i]] == group]['Status'], label=group)
        kmf.plot_survival_function(ax=ax)
    plt.title(f'Survival Probabilities by {cirrhosis_survival_binned_numeric_predictors[i]} Categories')
    plt.xlabel('N_Days')
    plt.ylabel('Event Survival Probability')
plt.tight_layout()
plt.show()

##################################
# Computing the log-rank test
# statistic and p-values
# between the event and duration variables
# with the binned numeric predictor columns
##################################
cirrhosis_survival_binned_numeric_lrtest_event = {}
for binned_numeric_column in cirrhosis_survival_binned_numeric_predictors:
    groups = [0,1]
    group_0_event = cirrhosis_survival_train_EDA_binned[cirrhosis_survival_train_EDA_binned[binned_numeric_column] == groups[0]]['Status']
    group_1_event = cirrhosis_survival_train_EDA_binned[cirrhosis_survival_train_EDA_binned[binned_numeric_column] == groups[1]]['Status']
    group_0_duration = cirrhosis_survival_train_EDA_binned[cirrhosis_survival_train_EDA_binned[binned_numeric_column] == groups[0]]['N_Days']
    group_1_duration = cirrhosis_survival_train_EDA_binned[cirrhosis_survival_train_EDA_binned[binned_numeric_column] == groups[1]]['N_Days']
    lr_test = logrank_test(group_0_duration, group_1_duration,event_observed_A=group_0_event, event_observed_B=group_1_event)
    cirrhosis_survival_binned_numeric_lrtest_event['Status_NDays_' + binned_numeric_column] = (lr_test.test_statistic, lr_test.p_value)

##################################
# Formulating the log-rank test summary
# between the event and duration variables
# with the binned numeric predictor columns
##################################
cirrhosis_survival_binned_numeric_lrtest_summary = cirrhosis_survival_train_EDA_binned.from_dict(cirrhosis_survival_binned_numeric_lrtest_event, orient='index')
cirrhosis_survival_binned_numeric_lrtest_summary.columns = ['LR.Test.Statistic', 'LR.Test.PValue']
display(cirrhosis_survival_binned_numeric_lrtest_summary.sort_values(by=['LR.Test.PValue'], ascending=True))

##################################
# Formulating a complete dataframe
# from the training subset for modelling
##################################
cirrhosis_survival_y_train_cleaned.reset_index(drop=True, inplace=True)
cirrhosis_survival_train_modeling = pd.concat([cirrhosis_survival_y_train_cleaned,
                                               cirrhosis_survival_X_train_preprocessed],
                                              axis=1)
cirrhosis_survival_train_modeling.drop(columns=['Stage_1.0', 'Stage_2.0', 'Stage_3.0'], axis=1, inplace=True)
cirrhosis_survival_train_modeling['Stage_4.0'] = cirrhosis_survival_train_modeling['Stage_4.0'].replace({True: 1, False: 0})
cirrhosis_survival_train_modeling.head()

##################################
# Formulating a complete dataframe
# from the testing subset for modelling
##################################
cirrhosis_survival_y_test_cleaned.reset_index(drop=True, inplace=True)
cirrhosis_survival_test_modeling = pd.concat([cirrhosis_survival_y_test_cleaned,
                                               cirrhosis_survival_X_test_preprocessed],
                                              axis=1)
cirrhosis_survival_test_modeling.drop(columns=['Stage_1.0', 'Stage_2.0', 'Stage_3.0'], axis=1, inplace=True)
cirrhosis_survival_test_modeling['Stage_4.0'] = cirrhosis_survival_test_modeling['Stage_4.0'].replace({True: 1, False: 0})
cirrhosis_survival_test_modeling.head()

##################################
# Assessing the survival probability 
# and hazard function plots
# with a Weibull distribution
##################################
cirrhosis_survival_weibull = WeibullFitter()
cirrhosis_survival_weibull.fit(durations=cirrhosis_survival_train_modeling['N_Days'], 
                               event_observed=cirrhosis_survival_train_modeling['Status'])

##################################
# Fitting a Kaplan-Meier estimation
##################################
cirrhosis_survival_km = KaplanMeierFitter()
cirrhosis_survival_km.fit(durations=cirrhosis_survival_train_modeling['N_Days'],
                          event_observed=cirrhosis_survival_train_modeling['Status'])

##################################
# Generating the survival probability 
# and hazard function plots
##################################
plt.figure(figsize=(17, 8))

##################################
# Generating the Kaplan-Meier
# survival probability plot
##################################
plt.subplot(1, 3, 1)
cirrhosis_survival_km.plot_survival_function()
plt.title("Kaplan-Meier Survival Probability Curve")
plt.xlabel("N_Days")
plt.ylabel("Survival Probability")
plt.legend('',frameon=False)

##################################
# Generating the Weibull
# survival probability plot
##################################
plt.subplot(1, 3, 2)
cirrhosis_survival_weibull.plot_survival_function()
plt.title("Weibull Survival Probability Curve")
plt.xlabel("N_Days")
plt.ylabel("Survival Probability")
plt.legend('',frameon=False)

##################################
# Generating the Weibull
# hazard function plot
##################################
plt.subplot(1, 3, 3)
cirrhosis_survival_weibull.plot_hazard()
plt.title("Weibull Hazard Function")
plt.xlabel("N_Days")
plt.ylabel("Hazard")
plt.legend('',frameon=False)

##################################
# Consolidating all plots
##################################
plt.tight_layout()
plt.show()

##################################
# Formulating the Accelerated Failure Time model
# based on a Weibull distribution
# and generating the summary
##################################
cirrhosis_survival_aft_weibull = WeibullAFTFitter(penalizer=0.30)
cirrhosis_survival_aft_weibull.fit(cirrhosis_survival_train_modeling, duration_col='N_Days', event_col='Status')
cirrhosis_survival_aft_weibull.print_summary()

##################################
# Plotting the log accelerated failure rate of the
# formulated Accelerated Failure Time model
# based on a Weibull distribution
##################################
cirrhosis_survival_aft_weibull_summary = cirrhosis_survival_aft_weibull.summary
cirrhosis_survival_aft_weibull_summary_params = pd.DataFrame(cirrhosis_survival_aft_weibull.params_)
significant = cirrhosis_survival_aft_weibull_summary['p'] < 0.05
cirrhosis_survival_aft_weibull_summary_log_accelerated_failure_rate = (list(cirrhosis_survival_aft_weibull_summary_params.iloc[:,0].values))
plt.figure(figsize=(17, 8))
colors = ['#993300' if sig else '#CC9966' for sig in significant]

plt.barh([(index[0] + index[1]) for index in cirrhosis_survival_aft_weibull_summary_params.index[0:17]], 
         cirrhosis_survival_aft_weibull_summary_log_accelerated_failure_rate[0:17], 
         xerr=cirrhosis_survival_aft_weibull_summary['se(coef)'][0:17], 
         color=colors)
plt.xlabel('Log(Accelerated Failure Rate)')
plt.ylabel('Variables')
plt.title('AFT_WEIBULL Log(Accelerated Failure Rate) Forest Plot')
plt.axvline(x=0, color='k', linestyle='--')
plt.gca().invert_yaxis()
plt.show()

##################################
# Determining the number of
# significant predictors
##################################
cirrhosis_survival_aft_weibull_significant = sum(cirrhosis_survival_aft_weibull_summary['p'] < 0.05)
display(f"Number of Significant Predictors: {cirrhosis_survival_aft_weibull_significant-2}")

'Number of Significant Predictors: 3'

##################################
# Formulating the Accelerated Failure Time model
# based on a Weibull distribution,
# using the significant predictors only
# and generating the summary
##################################
feature_subset = ['Bilirubin','Prothrombin','Age','N_Days','Status']
cirrhosis_survival_aft_weibull = WeibullAFTFitter(penalizer=0.30)
cirrhosis_survival_aft_weibull.fit(cirrhosis_survival_train_modeling[feature_subset], duration_col='N_Days', event_col='Status')
cirrhosis_survival_aft_weibull.print_summary()

##################################
# Plotting the log accelerated failure rate of the
# formulated Accelerated Failure Time model
# using the significant predictors only
# based on a Weibull distribution
##################################
cirrhosis_survival_aft_weibull_summary = cirrhosis_survival_aft_weibull.summary
cirrhosis_survival_aft_weibull_summary_params = pd.DataFrame(cirrhosis_survival_aft_weibull.params_)
significant = cirrhosis_survival_aft_weibull_summary['p'] < 0.05
cirrhosis_survival_aft_weibull_summary_log_accelerated_failure_rate = (list(cirrhosis_survival_aft_weibull_summary_params.iloc[:,0].values))
plt.figure(figsize=(17, 8))
colors = ['#993300' if sig else '#CC9966' for sig in significant]

plt.barh([(index[0] + index[1]) for index in cirrhosis_survival_aft_weibull_summary_params.index[0:3]], 
         cirrhosis_survival_aft_weibull_summary_log_accelerated_failure_rate[0:3], 
         xerr=cirrhosis_survival_aft_weibull_summary['se(coef)'][0:3], 
         color=colors)
plt.xlabel('Log(Accelerated Failure Rate)')
plt.ylabel('Variables')
plt.title('AFT_WEIBULL Log(Accelerated Failure Rate) Forest Plot')
plt.axvline(x=0, color='k', linestyle='--')
plt.gca().invert_yaxis()
plt.show()

##################################
# Gathering the apparent model performance
# as baseline for evaluating overfitting
##################################
cirrhosis_survival_aft_weibull.fit(cirrhosis_survival_train_modeling[feature_subset], duration_col='N_Days', event_col='Status')
train_predictions = cirrhosis_survival_aft_weibull.predict_median(cirrhosis_survival_train_modeling)
cirrhosis_survival_aft_weibull_train_ci = concordance_index(cirrhosis_survival_train_modeling['N_Days'], 
                                                            train_predictions, 
                                                            cirrhosis_survival_train_modeling['Status'])
time_point = cirrhosis_survival_train_modeling['N_Days'].median()
cirrhosis_survival_aft_weibull_train_mae = mean_absolute_error(cirrhosis_survival_train_modeling['N_Days'], train_predictions)
cirrhosis_survival_aft_weibull_train_brier = brier_score_loss(cirrhosis_survival_train_modeling['Status'], 
                                                              cirrhosis_survival_aft_weibull.predict_survival_function(cirrhosis_survival_train_modeling, 
                                                                                                                       times=[time_point]).T[time_point])
display(f"Apparent Concordance Index: {cirrhosis_survival_aft_weibull_train_ci}")
display(f"Apparent MAE: {cirrhosis_survival_aft_weibull_train_mae}")
display(f"Apparent Brier Score: {cirrhosis_survival_aft_weibull_train_brier}")

'Apparent Concordance Index: 0.8290799739921977'

'Apparent MAE: 2280.743783352582'

'Apparent Brier Score: 0.5151484140783107'

##################################
# Performing 5-Fold Cross-Validation
# on the training data
##################################
kf = KFold(n_splits=5, shuffle=True, random_state=88888888)
ci_scores = []
mae_scores = []
brier_scores = []

for train_index, val_index in kf.split(cirrhosis_survival_train_modeling):
    df_train_fold = cirrhosis_survival_train_modeling.iloc[train_index]
    df_val_fold = cirrhosis_survival_train_modeling.iloc[val_index]
    
    cirrhosis_survival_aft_weibull.fit(df_train_fold[feature_subset], duration_col='N_Days', event_col='Status')
    val_predictions = cirrhosis_survival_aft_weibull.predict_median(df_val_fold)
    time_point = df_val_fold['N_Days'].median()
    ci = concordance_index(df_val_fold['N_Days'], val_predictions, df_val_fold['Status'])
    mae = mean_absolute_error(df_val_fold['N_Days'], val_predictions)
    brier = brier_score_loss(df_val_fold['Status'],
                             cirrhosis_survival_aft_weibull.predict_survival_function(df_val_fold, 
                                                                                      times=[time_point]).T[time_point])
    ci_scores.append(ci)
    mae_scores.append(mae)
    brier_scores.append(brier)

cirrhosis_survival_aft_weibull_cv_ci_mean = np.mean(ci_scores)
cirrhosis_survival_aft_weibull_cv_ci_std = np.std(ci_scores)
cirrhosis_survival_aft_weibull_cv_mae_mean = np.mean(mae_scores)
cirrhosis_survival_aft_weibull_cv_brier_mean = np.mean(brier_scores)

display(f"Cross-Validated Concordance Index: {cirrhosis_survival_aft_weibull_cv_ci_mean}")
display(f"Cross-Validated MAE: {cirrhosis_survival_aft_weibull_cv_mae_mean}")
display(f"Cross-Validated Brier Score: {cirrhosis_survival_aft_weibull_cv_brier_mean}")

'Cross-Validated Concordance Index: 0.82500812019991'

'Cross-Validated MAE: 2303.605627546008'

'Cross-Validated Brier Score: 0.5125825238516044'

##################################
# Evaluating the model performance
# on test data
##################################
test_predictions = cirrhosis_survival_aft_weibull.predict_median(cirrhosis_survival_test_modeling)
cirrhosis_survival_aft_weibull_test_ci = concordance_index(cirrhosis_survival_test_modeling['N_Days'], 
                                                           test_predictions, 
                                                           cirrhosis_survival_test_modeling['Status'])
time_point = cirrhosis_survival_test_modeling['N_Days'].median()
cirrhosis_survival_aft_weibull_test_mae = mean_absolute_error(cirrhosis_survival_test_modeling['N_Days'], test_predictions)
cirrhosis_survival_aft_weibull_test_brier = brier_score_loss(cirrhosis_survival_test_modeling['Status'], 
                                                              cirrhosis_survival_aft_weibull.predict_survival_function(cirrhosis_survival_test_modeling, 
                                                                                                                       times=[time_point]).T[time_point])
display(f"Apparent Concordance Index: {cirrhosis_survival_aft_weibull_test_ci}")
display(f"Apparent MAE: {cirrhosis_survival_aft_weibull_test_mae}")
display(f"Apparent Brier Score: {cirrhosis_survival_aft_weibull_test_brier}")

'Apparent Concordance Index: 0.8526077097505669'

'Apparent MAE: 1948.8733802238894'

'Apparent Brier Score: 0.5375559341601058'

##################################
# Gathering the model performance metrics
# from training, cross-validation and test
##################################
aft_weibull_set = pd.DataFrame(["Train","Cross-Validation","Test"]*3)
aft_weibull_metric = pd.DataFrame((["Concordance.Index"]*3) + (["MAE"]*3) + (["Brier.Score"]*3))
aft_weibull_metric_values = pd.DataFrame([cirrhosis_survival_aft_weibull_train_ci,
                                           cirrhosis_survival_aft_weibull_cv_ci_mean,
                                           cirrhosis_survival_aft_weibull_test_ci,
                                           cirrhosis_survival_aft_weibull_train_mae,
                                           cirrhosis_survival_aft_weibull_cv_mae_mean,
                                           cirrhosis_survival_aft_weibull_test_mae,
                                           cirrhosis_survival_aft_weibull_train_brier,
                                           cirrhosis_survival_aft_weibull_cv_brier_mean,
                                           cirrhosis_survival_aft_weibull_test_brier])
aft_weibull_method = pd.DataFrame(["AFT_WEIBULL"]*9)
aft_weibull_summary = pd.concat([aft_weibull_set,
                                       aft_weibull_metric,
                                       aft_weibull_metric_values,
                                       aft_weibull_method], 
                                      axis=1)
aft_weibull_summary.columns = ['Set', 'Metric', 'Value', 'Method']
aft_weibull_summary.reset_index(inplace=True, drop=True)
display(aft_weibull_summary)

##################################
# Evaluating the predicted
# and actual survival times
##################################
predicted_survival_times = cirrhosis_survival_aft_weibull.predict_median(cirrhosis_survival_test_modeling)
fig, ax = plt.subplots(figsize=(17, 8))
for status, color, label in zip([True, False], ['#FF7F0E','#1F77B4'], ['Death', 'Censored']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Status'] == status]
    ax.scatter(subset['N_Days'], predicted_survival_times.iloc[subset.index], c=color, label=label, alpha=0.8)
ax.set_xlabel('Actual Survival Time')
ax.set_ylabel('Predicted Survival Time')
ax.set_title('AFT_WEIBULL: Predicted Versus Actual Survival Times')
ax.legend()
plt.plot([0, cirrhosis_survival_test_modeling['N_Days'].max()], 
         [0, cirrhosis_survival_test_modeling['N_Days'].max()], 
         color='black', linestyle='--')
plt.show()

##################################
# Plotting the individual
# survival probability profiles
##################################
plt.figure(figsize=(17, 8))
for status, color, label in zip([True, False], ['#FF7F0E','#1F77B4'], ['Death', 'Censored']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Status'] == status]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_weibull.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_WEIBULL: Survival Probability Profiles')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
death_patch = plt.Line2D([0], [0], color='#FF7F0E', lw=2, label='Death')
censored_patch = plt.Line2D([0], [0], color='#1F77B4', lw=2, label='Censored')
plt.legend(handles=[death_patch, censored_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Bilirubin predictor
##################################
cirrhosis_survival_test_modeling['Bilirubin_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Bilirubin'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for bilirubin_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Bilirubin_Level'] == bilirubin_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_weibull.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_WEIBULL: Survival Probability Profiles by Bilirubin Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Prothrombin predictor
##################################
cirrhosis_survival_test_modeling['Prothrombin_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Prothrombin'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for prothrombin_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Prothrombin_Level'] == prothrombin_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_weibull.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_WEIBULL: Survival Probability Profiles by Prothrombin Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Age predictor
##################################
cirrhosis_survival_test_modeling['Age_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Age'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for age_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Age_Level'] == age_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_weibull.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_WEIBULL: Survival Probability Profiles by Age Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Defining a prediction function
# for SHAP value estimation
##################################
def aft_predict(fitter, df):
    return fitter.predict_expectation(df)

##################################
# Creating the explainer object
##################################
explainer_weibull = shap.Explainer(lambda x: aft_predict(cirrhosis_survival_aft_weibull, 
                                                         pd.DataFrame(x, columns=cirrhosis_survival_train_modeling.columns[2:])), 
                                   cirrhosis_survival_train_modeling.iloc[:, 2:])
shap_values_weibull = explainer_weibull(cirrhosis_survival_train_modeling.iloc[:, 2:])

PermutationExplainer explainer: 219it [00:25,  5.70it/s]

##################################
# Plotting the SHAP summary plot
##################################
shap.summary_plot(shap_values_weibull, 
                  cirrhosis_survival_train_modeling.iloc[:, 2:])

##################################
# Assessing the survival probability 
# and hazard function plots
# with a Log-Normal distribution
##################################
cirrhosis_survival_lognormal = LogNormalFitter()
cirrhosis_survival_lognormal.fit(durations=cirrhosis_survival_train_modeling['N_Days'], 
                                 event_observed=cirrhosis_survival_train_modeling['Status'])

##################################
# Fitting a Kaplan-Meier estimation
##################################
cirrhosis_survival_km = KaplanMeierFitter()
cirrhosis_survival_km.fit(durations=cirrhosis_survival_train_modeling['N_Days'],
                          event_observed=cirrhosis_survival_train_modeling['Status'])

##################################
# Generating the survival probability 
# and hazard function plots
##################################
plt.figure(figsize=(17, 8))

##################################
# Generating the Kaplan-Meier
# survival probability plot
##################################
plt.subplot(1, 3, 1)
cirrhosis_survival_km.plot_survival_function()
plt.title("Kaplan-Meier Survival Probability Curve")
plt.xlabel("N_Days")
plt.ylabel("Survival Probability")
plt.legend('',frameon=False)

##################################
# Generating the Weibull
# survival probability plot
##################################
plt.subplot(1, 3, 2)
cirrhosis_survival_lognormal.plot_survival_function()
plt.title("Log-Normal Survival Probability Curve")
plt.xlabel("N_Days")
plt.ylabel("Survival Probability")
plt.legend('',frameon=False)

##################################
# Generating the Weibull
# hazard function plot
##################################
plt.subplot(1, 3, 3)
cirrhosis_survival_lognormal.plot_hazard()
plt.title("Log-Normal Hazard Function")
plt.xlabel("N_Days")
plt.ylabel("Hazard")
plt.legend('',frameon=False)

##################################
# Consolidating all plots
##################################
plt.tight_layout()
plt.show()

##################################
# Formulating the Accelerated Failure Time model
# based on a Log-Normal distribution
# and generating the summary
##################################
cirrhosis_survival_aft_lognormal = LogNormalAFTFitter(penalizer=0.30)
cirrhosis_survival_aft_lognormal.fit(cirrhosis_survival_train_modeling, duration_col='N_Days', event_col='Status')
cirrhosis_survival_aft_lognormal.print_summary()

##################################
# Plotting the log accelerated failure rate of the
# formulated Accelerated Failure Time model
# based on a Log-Normal distribution
##################################
cirrhosis_survival_aft_lognormal_summary = cirrhosis_survival_aft_lognormal.summary
cirrhosis_survival_aft_lognormal_summary_params = pd.DataFrame(cirrhosis_survival_aft_lognormal.params_)
significant = cirrhosis_survival_aft_lognormal_summary['p'] < 0.05
cirrhosis_survival_aft_lognormal_summary_log_accelerated_failure_rate = (list(cirrhosis_survival_aft_lognormal_summary_params.iloc[:,0].values))
plt.figure(figsize=(17, 8))
colors = ['#993300' if sig else '#CC9966' for sig in significant]

plt.barh([(index[0] + index[1]) for index in cirrhosis_survival_aft_lognormal_summary_params.index[0:17]], 
         cirrhosis_survival_aft_lognormal_summary_log_accelerated_failure_rate[0:17], 
         xerr=cirrhosis_survival_aft_lognormal_summary['se(coef)'][0:17], 
         color=colors)
plt.xlabel('Log(Accelerated Failure Rate)')
plt.ylabel('Variables')
plt.title('AFT_LOGNORMAL Log(Accelerated Failure Rate) Forest Plot')
plt.axvline(x=0, color='k', linestyle='--')
plt.gca().invert_yaxis()
plt.show()

##################################
# Determining the number of
# significant predictors
##################################
cirrhosis_survival_aft_lognormal_significant = sum(cirrhosis_survival_aft_lognormal_summary['p'] < 0.05)
display(f"Number of Significant Predictors: {cirrhosis_survival_aft_lognormal_significant-2}")

'Number of Significant Predictors: 5'

##################################
# Formulating the Accelerated Failure Time model
# based on a Log-Normal distribution
# using the significant predictors only
# and generating the summary
##################################
feature_subset = ['Bilirubin','Prothrombin','Age','Copper','Edema','N_Days','Status']
cirrhosis_survival_aft_lognormal = LogNormalAFTFitter(penalizer=0.30)
cirrhosis_survival_aft_lognormal.fit(cirrhosis_survival_train_modeling[feature_subset], duration_col='N_Days', event_col='Status')
cirrhosis_survival_aft_lognormal.print_summary()

##################################
# Plotting the log accelerated failure rate of the
# formulated Accelerated Failure Time model
# using the significant predictors only
# based on a Log-Normal distribution
##################################
cirrhosis_survival_aft_lognormal_summary = cirrhosis_survival_aft_lognormal.summary
cirrhosis_survival_aft_lognormal_summary_params = pd.DataFrame(cirrhosis_survival_aft_lognormal.params_)
significant = cirrhosis_survival_aft_lognormal_summary['p'] < 0.05
cirrhosis_survival_aft_lognormal_summary_log_accelerated_failure_rate = (list(cirrhosis_survival_aft_lognormal_summary_params.iloc[:,0].values))
plt.figure(figsize=(17, 8))
colors = ['#993300' if sig else '#CC9966' for sig in significant]

plt.barh([(index[0] + index[1]) for index in cirrhosis_survival_aft_lognormal_summary_params.index[0:5]], 
         cirrhosis_survival_aft_lognormal_summary_log_accelerated_failure_rate[0:5], 
         xerr=cirrhosis_survival_aft_lognormal_summary['se(coef)'][0:5], 
         color=colors)
plt.xlabel('Log(Accelerated Failure Rate)')
plt.ylabel('Variables')
plt.title('AFT_LOGNORMAL Log(Accelerated Failure Rate) Forest Plot')
plt.axvline(x=0, color='k', linestyle='--')
plt.gca().invert_yaxis()
plt.show()

##################################
# Gathering the apparent model performance
# as baseline for evaluating overfitting
##################################
cirrhosis_survival_aft_lognormal.fit(cirrhosis_survival_train_modeling[feature_subset], duration_col='N_Days', event_col='Status')
train_predictions = cirrhosis_survival_aft_lognormal.predict_median(cirrhosis_survival_train_modeling)
cirrhosis_survival_aft_lognormal_train_ci = concordance_index(cirrhosis_survival_train_modeling['N_Days'], 
                                                            train_predictions, 
                                                            cirrhosis_survival_train_modeling['Status'])
time_point = cirrhosis_survival_train_modeling['N_Days'].median()
cirrhosis_survival_aft_lognormal_train_mae = mean_absolute_error(cirrhosis_survival_train_modeling['N_Days'], train_predictions)
cirrhosis_survival_aft_lognormal_train_brier = brier_score_loss(cirrhosis_survival_train_modeling['Status'], 
                                                              cirrhosis_survival_aft_lognormal.predict_survival_function(cirrhosis_survival_train_modeling, 
                                                                                                                       times=[time_point]).T[time_point])
display(f"Apparent Concordance Index: {cirrhosis_survival_aft_lognormal_train_ci}")
display(f"Apparent MAE: {cirrhosis_survival_aft_lognormal_train_mae}")
display(f"Apparent Brier Score: {cirrhosis_survival_aft_lognormal_train_brier}")

'Apparent Concordance Index: 0.8413524057217165'

'Apparent MAE: 2518.3593852441572'

'Apparent Brier Score: 0.5470406779352227'

##################################
# Performing 5-Fold Cross-Validation
# on the training data
##################################
kf = KFold(n_splits=5, shuffle=True, random_state=88888888)
ci_scores = []
mae_scores = []
brier_scores = []

for train_index, val_index in kf.split(cirrhosis_survival_train_modeling):
    df_train_fold = cirrhosis_survival_train_modeling.iloc[train_index]
    df_val_fold = cirrhosis_survival_train_modeling.iloc[val_index]
    
    cirrhosis_survival_aft_lognormal.fit(df_train_fold[feature_subset], duration_col='N_Days', event_col='Status')
    val_predictions = cirrhosis_survival_aft_lognormal.predict_median(df_val_fold)
    time_point = df_val_fold['N_Days'].median()
    ci = concordance_index(df_val_fold['N_Days'], val_predictions, df_val_fold['Status'])
    mae = mean_absolute_error(df_val_fold['N_Days'], val_predictions)
    brier = brier_score_loss(df_val_fold['Status'],
                             cirrhosis_survival_aft_lognormal.predict_survival_function(df_val_fold, 
                                                                                      times=[time_point]).T[time_point])
    ci_scores.append(ci)
    mae_scores.append(mae)
    brier_scores.append(brier)

cirrhosis_survival_aft_lognormal_cv_ci_mean = np.mean(ci_scores)
cirrhosis_survival_aft_lognormal_cv_ci_std = np.std(ci_scores)
cirrhosis_survival_aft_lognormal_cv_mae_mean = np.mean(mae_scores)
cirrhosis_survival_aft_lognormal_cv_brier_mean = np.mean(brier_scores)

display(f"Cross-Validated Concordance Index: {cirrhosis_survival_aft_lognormal_cv_ci_mean}")
display(f"Cross-Validated MAE: {cirrhosis_survival_aft_lognormal_cv_mae_mean}")
display(f"Cross-Validated Brier Score: {cirrhosis_survival_aft_lognormal_cv_brier_mean}")

'Cross-Validated Concordance Index: 0.8255764006037584'

'Cross-Validated MAE: 2502.6369548831367'

'Cross-Validated Brier Score: 0.5425832599120203'

##################################
# Evaluating the model performance
# on test data
##################################
test_predictions = cirrhosis_survival_aft_lognormal.predict_median(cirrhosis_survival_test_modeling)
cirrhosis_survival_aft_lognormal_test_ci = concordance_index(cirrhosis_survival_test_modeling['N_Days'], 
                                                           test_predictions, 
                                                           cirrhosis_survival_test_modeling['Status'])
time_point = cirrhosis_survival_test_modeling['N_Days'].median()
cirrhosis_survival_aft_lognormal_test_mae = mean_absolute_error(cirrhosis_survival_test_modeling['N_Days'], test_predictions)
cirrhosis_survival_aft_lognormal_test_brier = brier_score_loss(cirrhosis_survival_test_modeling['Status'], 
                                                              cirrhosis_survival_aft_lognormal.predict_survival_function(cirrhosis_survival_test_modeling, 
                                                                                                                       times=[time_point]).T[time_point])
display(f"Apparent Concordance Index: {cirrhosis_survival_aft_lognormal_test_ci}")
display(f"Apparent MAE: {cirrhosis_survival_aft_lognormal_test_mae}")
display(f"Apparent Brier Score: {cirrhosis_survival_aft_lognormal_test_brier}")

'Apparent Concordance Index: 0.8752834467120182'

'Apparent MAE: 1904.9879866903511'

'Apparent Brier Score: 0.5775019785104171'

##################################
# Gathering the model performance metrics
# from training, cross-validation and test
##################################
aft_lognormal_set = pd.DataFrame(["Train","Cross-Validation","Test"]*3)
aft_lognormal_metric = pd.DataFrame((["Concordance.Index"]*3) + (["MAE"]*3) + (["Brier.Score"]*3))
aft_lognormal_metric_values = pd.DataFrame([cirrhosis_survival_aft_lognormal_train_ci,
                                           cirrhosis_survival_aft_lognormal_cv_ci_mean,
                                           cirrhosis_survival_aft_lognormal_test_ci,
                                           cirrhosis_survival_aft_lognormal_train_mae,
                                           cirrhosis_survival_aft_lognormal_cv_mae_mean,
                                           cirrhosis_survival_aft_lognormal_test_mae,
                                           cirrhosis_survival_aft_lognormal_train_brier,
                                           cirrhosis_survival_aft_lognormal_cv_brier_mean,
                                           cirrhosis_survival_aft_lognormal_test_brier])
aft_lognormal_method = pd.DataFrame(["AFT_LOGNORMAL"]*9)
aft_lognormal_summary = pd.concat([aft_lognormal_set,
                                       aft_lognormal_metric,
                                       aft_lognormal_metric_values,
                                       aft_lognormal_method], 
                                      axis=1)
aft_lognormal_summary.columns = ['Set', 'Metric', 'Value', 'Method']
aft_lognormal_summary.reset_index(inplace=True, drop=True)
display(aft_lognormal_summary)

##################################
# Evaluating the predicted
# and actual survival times
##################################
predicted_survival_times = cirrhosis_survival_aft_lognormal.predict_median(cirrhosis_survival_test_modeling)
fig, ax = plt.subplots(figsize=(17, 8))
for status, color, label in zip([True, False], ['#FF7F0E','#1F77B4'], ['Death', 'Censored']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Status'] == status]
    ax.scatter(subset['N_Days'], predicted_survival_times.iloc[subset.index], c=color, label=label, alpha=0.8)
ax.set_xlabel('Actual Survival Time')
ax.set_ylabel('Predicted Survival Time')
ax.set_title('AFT_LOGNORMAL: Predicted Versus Actual Survival Times')
ax.legend()
plt.plot([0, cirrhosis_survival_test_modeling['N_Days'].max()], 
         [0, cirrhosis_survival_test_modeling['N_Days'].max()], 
         color='black', linestyle='--')
plt.show()

##################################
# Plotting the individual
# survival probability profiles
##################################
plt.figure(figsize=(17, 8))
for status, color, label in zip([True, False], ['#FF7F0E','#1F77B4'], ['Death', 'Censored']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Status'] == status]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_lognormal.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGNORMAL: Survival Probability Profiles')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
death_patch = plt.Line2D([0], [0], color='#FF7F0E', lw=2, label='Death')
censored_patch = plt.Line2D([0], [0], color='#1F77B4', lw=2, label='Censored')
plt.legend(handles=[death_patch, censored_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Edema predictor
##################################
plt.figure(figsize=(17, 8))
for edema_level, color, label in zip([0, 1], ['#FA8000', '#8C000F'], ['Not Present', 'Present']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Edema'] == edema_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_lognormal.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGNORMAL: Survival Probability Profiles by Edema Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
not_present_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Not Present')
present_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='Present')
plt.legend(handles=[not_present_patch, present_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Bilirubin predictor
##################################
cirrhosis_survival_test_modeling['Bilirubin_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Bilirubin'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for bilirubin_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Bilirubin_Level'] == bilirubin_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_lognormal.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGNORMAL: Survival Probability Profiles by Bilirubin Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Prothrombin predictor
##################################
cirrhosis_survival_test_modeling['Prothrombin_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Prothrombin'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for prothrombin_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Prothrombin_Level'] == prothrombin_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_lognormal.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGNORMAL: Survival Probability Profiles by Prothrombin Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Copper predictor
##################################
cirrhosis_survival_test_modeling['Copper_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Copper'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for copper_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Copper_Level'] == copper_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_lognormal.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGNORMAL: Survival Probability Profiles by Copper Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Age predictor
##################################
cirrhosis_survival_test_modeling['Age_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Age'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for age_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Age_Level'] == age_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_lognormal.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGNORMAL: Survival Probability Profiles by Age Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Defining a prediction function
# for SHAP value estimation
##################################
def aft_predict(fitter, df):
    return fitter.predict_expectation(df)

##################################
# Creating the explainer object
##################################
explainer_lognormal = shap.Explainer(lambda x: aft_predict(cirrhosis_survival_aft_lognormal, 
                                                         pd.DataFrame(x, columns=cirrhosis_survival_train_modeling.columns[2:])), 
                                   cirrhosis_survival_train_modeling.iloc[:, 2:])
shap_values_lognormal = explainer_lognormal(cirrhosis_survival_train_modeling.iloc[:, 2:])

PermutationExplainer explainer: 219it [00:21,  5.49it/s]

##################################
# Plotting the SHAP summary plot
##################################
shap.summary_plot(shap_values_lognormal, 
                  cirrhosis_survival_train_modeling.iloc[:, 2:])

##################################
# Assessing the survival probability 
# and hazard function plots
# with a Log-Logistic distribution
##################################
cirrhosis_survival_loglogistic = LogLogisticFitter()
cirrhosis_survival_loglogistic.fit(durations=cirrhosis_survival_train_modeling['N_Days'], 
                                   event_observed=cirrhosis_survival_train_modeling['Status'])

##################################
# Fitting a Kaplan-Meier estimation
##################################
cirrhosis_survival_km = KaplanMeierFitter()
cirrhosis_survival_km.fit(durations=cirrhosis_survival_train_modeling['N_Days'],
                          event_observed=cirrhosis_survival_train_modeling['Status'])

##################################
# Generating the survival probability 
# and hazard function plots
##################################
plt.figure(figsize=(17, 8))

##################################
# Generating the Kaplan-Meier
# survival probability plot
##################################
plt.subplot(1, 3, 1)
cirrhosis_survival_km.plot_survival_function()
plt.title("Kaplan-Meier Survival Probability Curve")
plt.xlabel("N_Days")
plt.ylabel("Survival Probability")
plt.legend('',frameon=False)

##################################
# Generating the Log-Logistic
# survival probability plot
##################################
plt.subplot(1, 3, 2)
cirrhosis_survival_loglogistic.plot_survival_function()
plt.title("Log-Logistic Survival Probability Curve")
plt.xlabel("N_Days")
plt.ylabel("Survival Probability")
plt.legend('',frameon=False)

##################################
# Generating the log-Logistic
# hazard function plot
##################################
plt.subplot(1, 3, 3)
cirrhosis_survival_loglogistic.plot_hazard()
plt.title("Log-Logistic Hazard Function")
plt.xlabel("N_Days")
plt.ylabel("Hazard")
plt.legend('',frameon=False)

##################################
# Consolidating all plots
##################################
plt.tight_layout()
plt.show()

##################################
# Formulating the Accelerated Failure Time model
# based on a Log-Logistic distribution
# and generating the summary
##################################
cirrhosis_survival_aft_loglogistic = LogLogisticAFTFitter(penalizer=0.30)
cirrhosis_survival_aft_loglogistic.fit(cirrhosis_survival_train_modeling, duration_col='N_Days', event_col='Status')
cirrhosis_survival_aft_loglogistic.print_summary()

##################################
# Plotting the log accelerated failure rate of the
# formulated Accelerated Failure Time model
# based on a Log-Logistic distribution
##################################
cirrhosis_survival_aft_loglogistic_summary = cirrhosis_survival_aft_loglogistic.summary
cirrhosis_survival_aft_loglogistic_summary_params = pd.DataFrame(cirrhosis_survival_aft_loglogistic.params_)
significant = cirrhosis_survival_aft_loglogistic_summary['p'] < 0.05
cirrhosis_survival_aft_loglogistic_summary_log_accelerated_failure_rate = (list(cirrhosis_survival_aft_loglogistic_summary_params.iloc[:,0].values))
plt.figure(figsize=(17, 8))
colors = ['#993300' if sig else '#CC9966' for sig in significant]

plt.barh([(index[0] + index[1]) for index in cirrhosis_survival_aft_loglogistic_summary_params.index[0:17]], 
         cirrhosis_survival_aft_loglogistic_summary_log_accelerated_failure_rate[0:17], 
         xerr=cirrhosis_survival_aft_loglogistic_summary['se(coef)'][0:17], 
         color=colors)
plt.xlabel('Log(Accelerated Failure Rate)')
plt.ylabel('Variables')
plt.title('AFT_LOGLOGISTIC Log(Accelerated Failure Rate) Forest Plot')
plt.axvline(x=0, color='k', linestyle='--')
plt.gca().invert_yaxis()
plt.show()

##################################
# Determining the number of
# significant predictors
##################################
cirrhosis_survival_aft_loglogistic_significant = sum(cirrhosis_survival_aft_loglogistic_summary['p'] < 0.05)
display(f"Number of Significant Predictors: {cirrhosis_survival_aft_loglogistic_significant-2}")

'Number of Significant Predictors: 4'

##################################
# Formulating the Accelerated Failure Time model
# based on a Log-Logistic distribution
# using the significant predictors only
# and generating the summary
##################################
feature_subset = ['Bilirubin','Prothrombin','Age','Copper','N_Days','Status']
cirrhosis_survival_aft_loglogistic = LogLogisticAFTFitter(penalizer=0.30)
cirrhosis_survival_aft_loglogistic.fit(cirrhosis_survival_train_modeling[feature_subset], duration_col='N_Days', event_col='Status')
cirrhosis_survival_aft_loglogistic.print_summary()

##################################
# Plotting the log accelerated failure rate of the
# formulated Accelerated Failure Time model
# using the significant predictors only
# based on a Log-Logistic distribution
##################################
cirrhosis_survival_aft_loglogistic_summary = cirrhosis_survival_aft_loglogistic.summary
cirrhosis_survival_aft_loglogistic_summary_params = pd.DataFrame(cirrhosis_survival_aft_loglogistic.params_)
significant = cirrhosis_survival_aft_loglogistic_summary['p'] < 0.05
cirrhosis_survival_aft_loglogistic_summary_log_accelerated_failure_rate = (list(cirrhosis_survival_aft_loglogistic_summary_params.iloc[:,0].values))
plt.figure(figsize=(17, 8))
colors = ['#993300' if sig else '#CC9966' for sig in significant]

plt.barh([(index[0] + index[1]) for index in cirrhosis_survival_aft_loglogistic_summary_params.index[0:4]], 
         cirrhosis_survival_aft_loglogistic_summary_log_accelerated_failure_rate[0:4], 
         xerr=cirrhosis_survival_aft_loglogistic_summary['se(coef)'][0:4], 
         color=colors)
plt.xlabel('Log(Accelerated Failure Rate)')
plt.ylabel('Variables')
plt.title('AFT_LOGLOGISTIC Log(Accelerated Failure Rate) Forest Plot')
plt.axvline(x=0, color='k', linestyle='--')
plt.gca().invert_yaxis()
plt.show()

##################################
# Gathering the apparent model performance
# as baseline for evaluating overfitting
##################################
cirrhosis_survival_aft_loglogistic.fit(cirrhosis_survival_train_modeling[feature_subset], duration_col='N_Days', event_col='Status')
train_predictions = cirrhosis_survival_aft_loglogistic.predict_median(cirrhosis_survival_train_modeling)
cirrhosis_survival_aft_loglogistic_train_ci = concordance_index(cirrhosis_survival_train_modeling['N_Days'], 
                                                            train_predictions, 
                                                            cirrhosis_survival_train_modeling['Status'])
time_point = cirrhosis_survival_train_modeling['N_Days'].median()
cirrhosis_survival_aft_loglogistic_train_mae = mean_absolute_error(cirrhosis_survival_train_modeling['N_Days'], train_predictions)
cirrhosis_survival_aft_loglogistic_train_brier = brier_score_loss(cirrhosis_survival_train_modeling['Status'], 
                                                              cirrhosis_survival_aft_loglogistic.predict_survival_function(cirrhosis_survival_train_modeling, 
                                                                                                                       times=[time_point]).T[time_point])
display(f"Apparent Concordance Index: {cirrhosis_survival_aft_loglogistic_train_ci}")
display(f"Apparent MAE: {cirrhosis_survival_aft_loglogistic_train_mae}")
display(f"Apparent Brier Score: {cirrhosis_survival_aft_loglogistic_train_brier}")

'Apparent Concordance Index: 0.8383452535760728'

'Apparent MAE: 2727.4650862183294'

'Apparent Brier Score: 0.5095276225408752'

##################################
# Performing 5-Fold Cross-Validation
# on the training data
##################################
kf = KFold(n_splits=5, shuffle=True, random_state=88888888)
ci_scores = []
mae_scores = []
brier_scores = []

for train_index, val_index in kf.split(cirrhosis_survival_train_modeling):
    df_train_fold = cirrhosis_survival_train_modeling.iloc[train_index]
    df_val_fold = cirrhosis_survival_train_modeling.iloc[val_index]
    
    cirrhosis_survival_aft_loglogistic.fit(df_train_fold[feature_subset], duration_col='N_Days', event_col='Status')
    val_predictions = cirrhosis_survival_aft_loglogistic.predict_median(df_val_fold)
    time_point = df_val_fold['N_Days'].median()
    ci = concordance_index(df_val_fold['N_Days'], val_predictions, df_val_fold['Status'])
    mae = mean_absolute_error(df_val_fold['N_Days'], val_predictions)
    brier = brier_score_loss(df_val_fold['Status'],
                             cirrhosis_survival_aft_loglogistic.predict_survival_function(df_val_fold, 
                                                                                      times=[time_point]).T[time_point])
    ci_scores.append(ci)
    mae_scores.append(mae)
    brier_scores.append(brier)

cirrhosis_survival_aft_loglogistic_cv_ci_mean = np.mean(ci_scores)
cirrhosis_survival_aft_loglogistic_cv_ci_std = np.std(ci_scores)
cirrhosis_survival_aft_loglogistic_cv_mae_mean = np.mean(mae_scores)
cirrhosis_survival_aft_loglogistic_cv_brier_mean = np.mean(brier_scores)

display(f"Cross-Validated Concordance Index: {cirrhosis_survival_aft_loglogistic_cv_ci_mean}")
display(f"Cross-Validated MAE: {cirrhosis_survival_aft_loglogistic_cv_mae_mean}")
display(f"Cross-Validated Brier Score: {cirrhosis_survival_aft_loglogistic_cv_brier_mean}")

'Cross-Validated Concordance Index: 0.8301281045334907'

'Cross-Validated MAE: 2711.6604860313473'

'Cross-Validated Brier Score: 0.5065381245204559'

##################################
# Evaluating the model performance
# on test data
##################################
test_predictions = cirrhosis_survival_aft_loglogistic.predict_median(cirrhosis_survival_test_modeling)
cirrhosis_survival_aft_loglogistic_test_ci = concordance_index(cirrhosis_survival_test_modeling['N_Days'], 
                                                           test_predictions, 
                                                           cirrhosis_survival_test_modeling['Status'])
time_point = cirrhosis_survival_test_modeling['N_Days'].median()
cirrhosis_survival_aft_loglogistic_test_mae = mean_absolute_error(cirrhosis_survival_test_modeling['N_Days'], test_predictions)
cirrhosis_survival_aft_loglogistic_test_brier = brier_score_loss(cirrhosis_survival_test_modeling['Status'], 
                                                              cirrhosis_survival_aft_loglogistic.predict_survival_function(cirrhosis_survival_test_modeling, 
                                                                                                                       times=[time_point]).T[time_point])
display(f"Apparent Concordance Index: {cirrhosis_survival_aft_loglogistic_test_ci}")
display(f"Apparent MAE: {cirrhosis_survival_aft_loglogistic_test_mae}")
display(f"Apparent Brier Score: {cirrhosis_survival_aft_loglogistic_test_brier}")

'Apparent Concordance Index: 0.8625850340136054'

'Apparent MAE: 2189.9323142397443'

'Apparent Brier Score: 0.5332955064077313'

##################################
# Gathering the model performance metrics
# from training, cross-validation and test
##################################
aft_loglogistic_set = pd.DataFrame(["Train","Cross-Validation","Test"]*3)
aft_loglogistic_metric = pd.DataFrame((["Concordance.Index"]*3) + (["MAE"]*3) + (["Brier.Score"]*3))
aft_loglogistic_metric_values = pd.DataFrame([cirrhosis_survival_aft_loglogistic_train_ci,
                                           cirrhosis_survival_aft_loglogistic_cv_ci_mean,
                                           cirrhosis_survival_aft_loglogistic_test_ci,
                                           cirrhosis_survival_aft_loglogistic_train_mae,
                                           cirrhosis_survival_aft_loglogistic_cv_mae_mean,
                                           cirrhosis_survival_aft_loglogistic_test_mae,
                                           cirrhosis_survival_aft_loglogistic_train_brier,
                                           cirrhosis_survival_aft_loglogistic_cv_brier_mean,
                                           cirrhosis_survival_aft_loglogistic_test_brier])
aft_loglogistic_method = pd.DataFrame(["AFT_LOGLOGISTIC"]*9)
aft_loglogistic_summary = pd.concat([aft_loglogistic_set,
                                       aft_loglogistic_metric,
                                       aft_loglogistic_metric_values,
                                       aft_loglogistic_method], 
                                      axis=1)
aft_loglogistic_summary.columns = ['Set', 'Metric', 'Value', 'Method']
aft_loglogistic_summary.reset_index(inplace=True, drop=True)
display(aft_loglogistic_summary)

##################################
# Evaluating the predicted
# and actual survival times
##################################
predicted_survival_times = cirrhosis_survival_aft_loglogistic.predict_median(cirrhosis_survival_test_modeling)
fig, ax = plt.subplots(figsize=(17, 8))
for status, color, label in zip([True, False], ['#FF7F0E','#1F77B4'], ['Death', 'Censored']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Status'] == status]
    ax.scatter(subset['N_Days'], predicted_survival_times.iloc[subset.index], c=color, label=label, alpha=0.8)
ax.set_xlabel('Actual Survival Time')
ax.set_ylabel('Predicted Survival Time')
ax.set_title('AFT_LOGLOGISTIC: Predicted Versus Actual Survival Times')
ax.legend()
plt.plot([0, cirrhosis_survival_test_modeling['N_Days'].max()], 
         [0, cirrhosis_survival_test_modeling['N_Days'].max()], 
         color='black', linestyle='--')
plt.show()

##################################
# Plotting the individual
# survival probability profiles
##################################
plt.figure(figsize=(17, 8))
for status, color, label in zip([True, False], ['#FF7F0E','#1F77B4'], ['Death', 'Censored']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Status'] == status]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_loglogistic.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGLOGISTIC: Survival Probability Profiles')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
death_patch = plt.Line2D([0], [0], color='#FF7F0E', lw=2, label='Death')
censored_patch = plt.Line2D([0], [0], color='#1F77B4', lw=2, label='Censored')
plt.legend(handles=[death_patch, censored_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Bilirubin predictor
##################################
cirrhosis_survival_test_modeling['Bilirubin_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Bilirubin'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for bilirubin_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Bilirubin_Level'] == bilirubin_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_loglogistic.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGLOGISTIC: Survival Probability Profiles by Bilirubin Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Prothrombin predictor
##################################
cirrhosis_survival_test_modeling['Prothrombin_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Prothrombin'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for prothrombin_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Prothrombin_Level'] == prothrombin_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_loglogistic.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGLOGISTIC: Survival Probability Profiles by Prothrombin Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Copper predictor
##################################
cirrhosis_survival_test_modeling['Copper_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Copper'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for copper_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Copper_Level'] == copper_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_loglogistic.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGLOGISTIC: Survival Probability Profiles by Copper Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Plotting the individual
# survival probability profiles
# for the discretized Age predictor
##################################
cirrhosis_survival_test_modeling['Age_Level'] = pd.qcut(cirrhosis_survival_test_modeling['Age'], 3, labels=['Low','Moderate','High'])
plt.figure(figsize=(17, 8))
for age_level, color, label in zip(['Low', 'Moderate', 'High'], ['#FA8000','#E50000', '#8C000F'], ['Low', 'Moderate', 'High']):
    subset = cirrhosis_survival_test_modeling[cirrhosis_survival_test_modeling['Age_Level'] == age_level]
    for i, row in subset.iterrows():
        survival_function = cirrhosis_survival_aft_loglogistic.predict_survival_function(row)
        plt.plot(survival_function.index, survival_function.iloc[:, 0], c=color, alpha=0.8)
plt.title('AFT_LOGLOGISTIC: Survival Probability Profiles by Age Level')
plt.xlabel('N_Days')
plt.ylabel('Survival Probability')
low_patch = plt.Line2D([0], [0], color='#FA8000', lw=2, label='Low')
moderate_patch = plt.Line2D([0], [0], color='#E50000', lw=2, label='Moderate')
high_patch = plt.Line2D([0], [0], color='#8C000F', lw=2, label='High')
plt.legend(handles=[low_patch, moderate_patch, high_patch])
plt.show()

##################################
# Defining a prediction function
# for SHAP value estimation
##################################
def aft_predict(fitter, df):
    return fitter.predict_expectation(df)

##################################
# Creating the explainer object
##################################
explainer_loglogistic = shap.Explainer(lambda x: aft_predict(cirrhosis_survival_aft_loglogistic, 
                                                         pd.DataFrame(x, columns=cirrhosis_survival_train_modeling.columns[2:])), 
                                   cirrhosis_survival_train_modeling.iloc[:, 2:])
shap_values_loglogistic = explainer_loglogistic(cirrhosis_survival_train_modeling.iloc[:, 2:])

PermutationExplainer explainer: 219it [00:23,  5.45it/s]

##################################
# Plotting the SHAP summary plot
##################################
shap.summary_plot(shap_values_loglogistic, 
                  cirrhosis_survival_train_modeling.iloc[:, 2:])

##################################
# Consolidating all the
# model performance metrics
##################################
model_performance_comparison = pd.concat([aft_weibull_summary, 
                                          aft_lognormal_summary,
                                          aft_loglogistic_summary], 
                                         axis=0,
                                         ignore_index=True)
print('Accelerated Failure Time Model Comparison: ')
display(model_performance_comparison)

Accelerated Failure Time Model Comparison:

##################################
# Consolidating the concordance indices
# for all sets and models
##################################
set_labels = ['Train','Cross-Validation','Test']
aft_weibull_ci = model_performance_comparison[((model_performance_comparison['Set'] == 'Train') |
                                               (model_performance_comparison['Set'] == 'Cross-Validation') |
                                               (model_performance_comparison['Set'] == 'Test')) & 
                                              (model_performance_comparison['Metric']=='Concordance.Index') &
                                              (model_performance_comparison['Method']=='AFT_WEIBULL')]['Value'].values
aft_lognormal_ci = model_performance_comparison[((model_performance_comparison['Set'] == 'Train') |
                                               (model_performance_comparison['Set'] == 'Cross-Validation') |
                                               (model_performance_comparison['Set'] == 'Test')) & 
                                              (model_performance_comparison['Metric']=='Concordance.Index') &
                                              (model_performance_comparison['Method']=='AFT_LOGNORMAL')]['Value'].values
aft_loglogistic_ci = model_performance_comparison[((model_performance_comparison['Set'] == 'Train') |
                                               (model_performance_comparison['Set'] == 'Cross-Validation') |
                                               (model_performance_comparison['Set'] == 'Test')) & 
                                              (model_performance_comparison['Metric']=='Concordance.Index') &
                                              (model_performance_comparison['Method']=='AFT_LOGLOGISTIC')]['Value'].values

##################################
# Plotting the values for the
# concordance indices
# for all models
##################################
ci_plot = pd.DataFrame({'AFT_WEIBULL': list(aft_weibull_ci),
                        'AFT_LOGNORMAL': list(aft_lognormal_ci),
                        'AFT_LOGLOGISTIC': list(aft_loglogistic_ci)},
                       index = set_labels)
display(ci_plot)

##################################
# Plotting all the concordance indices
# for all models
##################################
ci_plot = ci_plot.plot.barh(figsize=(10, 6), width=0.90)
ci_plot.set_xlim(0.00,1.00)
ci_plot.set_title("Model Comparison by Concordance Indice")
ci_plot.set_xlabel("Concordance Index")
ci_plot.set_ylabel("Data Set")
ci_plot.grid(False)
ci_plot.legend(loc='center left', bbox_to_anchor=(1.0, 0.5))
for container in ci_plot.containers:
    ci_plot.bar_label(container, fmt='%.5f', padding=-50, color='white', fontweight='bold')

##################################
# Consolidating the mean absolute errors
# for all sets and models
##################################
set_labels = ['Train','Cross-Validation','Test']
aft_weibull_mae = model_performance_comparison[((model_performance_comparison['Set'] == 'Train') |
                                               (model_performance_comparison['Set'] == 'Cross-Validation') |
                                               (model_performance_comparison['Set'] == 'Test')) & 
                                              (model_performance_comparison['Metric']=='MAE') &
                                              (model_performance_comparison['Method']=='AFT_WEIBULL')]['Value'].values
aft_lognormal_mae = model_performance_comparison[((model_performance_comparison['Set'] == 'Train') |
                                               (model_performance_comparison['Set'] == 'Cross-Validation') |
                                               (model_performance_comparison['Set'] == 'Test')) & 
                                              (model_performance_comparison['Metric']=='MAE') &
                                              (model_performance_comparison['Method']=='AFT_LOGNORMAL')]['Value'].values
aft_loglogistic_mae = model_performance_comparison[((model_performance_comparison['Set'] == 'Train') |
                                               (model_performance_comparison['Set'] == 'Cross-Validation') |
                                               (model_performance_comparison['Set'] == 'Test')) & 
                                              (model_performance_comparison['Metric']=='MAE') &
                                              (model_performance_comparison['Method']=='AFT_LOGLOGISTIC')]['Value'].values

##################################
# Plotting the values for the
# mean absolute errors
# for all models
##################################
mae_plot = pd.DataFrame({'AFT_WEIBULL': list(aft_weibull_mae),
                         'AFT_LOGNORMAL': list(aft_lognormal_mae),
                         'AFT_LOGLOGISTIC': list(aft_loglogistic_mae)},
                       index = set_labels)
display(mae_plot)

##################################
# Plotting all the mean absolute errors
# for all models
##################################
mae_plot = mae_plot.plot.barh(figsize=(10, 6), width=0.90)
mae_plot.set_xlim(0.00,3000.00)
mae_plot.set_title("Model Comparison by Mean Absolute Error")
mae_plot.set_xlabel("Mean Absolute Error")
mae_plot.set_ylabel("Data Set")
mae_plot.grid(False)
mae_plot.legend(loc='center left', bbox_to_anchor=(1.0, 0.5))
for container in mae_plot.containers:
    mae_plot.bar_label(container, fmt='%.5f', padding=-75, color='white', fontweight='bold')

##################################
# Consolidating the brier scores
# for all sets and models
##################################
set_labels = ['Train','Cross-Validation','Test']
aft_weibull_brier_score = model_performance_comparison[((model_performance_comparison['Set'] == 'Train') |
                                               (model_performance_comparison['Set'] == 'Cross-Validation') |
                                               (model_performance_comparison['Set'] == 'Test')) & 
                                              (model_performance_comparison['Metric']=='Brier.Score') &
                                              (model_performance_comparison['Method']=='AFT_WEIBULL')]['Value'].values
aft_lognormal_brier_score = model_performance_comparison[((model_performance_comparison['Set'] == 'Train') |
                                               (model_performance_comparison['Set'] == 'Cross-Validation') |
                                               (model_performance_comparison['Set'] == 'Test')) & 
                                              (model_performance_comparison['Metric']=='Brier.Score') &
                                              (model_performance_comparison['Method']=='AFT_LOGNORMAL')]['Value'].values
aft_loglogistic_brier_score = model_performance_comparison[((model_performance_comparison['Set'] == 'Train') |
                                               (model_performance_comparison['Set'] == 'Cross-Validation') |
                                               (model_performance_comparison['Set'] == 'Test')) & 
                                              (model_performance_comparison['Metric']=='Brier.Score') &
                                              (model_performance_comparison['Method']=='AFT_LOGLOGISTIC')]['Value'].values

##################################
# Plotting the values for the
# brier scores
# for all models
##################################
brier_score_plot = pd.DataFrame({'AFT_WEIBULL': list(aft_weibull_brier_score),
                                 'AFT_LOGNORMAL': list(aft_lognormal_brier_score),
                                 'AFT_LOGLOGISTIC': list(aft_loglogistic_brier_score)},
                       index = set_labels)
display(brier_score_plot)

##################################
# Plotting all the mean absolute errors
# for all models
##################################
brier_score_plot = brier_score_plot.plot.barh(figsize=(10, 6), width=0.90)
brier_score_plot.set_xlim(0.00,1.00)
brier_score_plot.set_title("Model Comparison by Brier Score")
brier_score_plot.set_xlabel("Brier Score")
brier_score_plot.set_ylabel("Data Set")
brier_score_plot.grid(False)
brier_score_plot.legend(loc='center left', bbox_to_anchor=(1.0, 0.5))
for container in brier_score_plot.containers:
    brier_score_plot.bar_label(container, fmt='%.5f', padding=-75, color='white', fontweight='bold')

from IPython.display import display, HTML
display(HTML("<style>.rendered_html { font-size: 15px; font-family: 'Trebuchet MS'; }</style>"))

	ID	N_Days	Status	Drug	Age	Sex	Ascites	Hepatomegaly	Spiders	Edema	Bilirubin	Cholesterol	Albumin	Copper	Alk_Phos	SGOT	Tryglicerides	Platelets	Prothrombin	Stage
0	1	400	D	D-penicillamine	21464	F	Y	Y	Y	Y	14.5	261.0	2.60	156.0	1718.0	137.95	172.0	190.0	12.2	4.0
1	2	4500	C	D-penicillamine	20617	F	N	Y	Y	N	1.1	302.0	4.14	54.0	7394.8	113.52	88.0	221.0	10.6	3.0
2	3	1012	D	D-penicillamine	25594	M	N	N	N	S	1.4	176.0	3.48	210.0	516.0	96.10	55.0	151.0	12.0	4.0
3	4	1925	D	D-penicillamine	19994	F	N	Y	Y	S	1.8	244.0	2.54	64.0	6121.8	60.63	92.0	183.0	10.3	4.0
4	5	1504	CL	Placebo	13918	F	N	Y	Y	N	3.4	279.0	3.53	143.0	671.0	113.15	72.0	136.0	10.9	3.0

	count	mean	std	min	25%	50%	75%	max
N_Days	418.0	1917.782297	1104.672992	41.00	1092.7500	1730.00	2613.50	4795.00
Age	418.0	18533.351675	3815.845055	9598.00	15644.5000	18628.00	21272.50	28650.00
Bilirubin	418.0	3.220813	4.407506	0.30	0.8000	1.40	3.40	28.00
Cholesterol	284.0	369.510563	231.944545	120.00	249.5000	309.50	400.00	1775.00
Albumin	418.0	3.497440	0.424972	1.96	3.2425	3.53	3.77	4.64
Copper	310.0	97.648387	85.613920	4.00	41.2500	73.00	123.00	588.00
Alk_Phos	312.0	1982.655769	2140.388824	289.00	871.5000	1259.00	1980.00	13862.40
SGOT	312.0	122.556346	56.699525	26.35	80.6000	114.70	151.90	457.25
Tryglicerides	282.0	124.702128	65.148639	33.00	84.2500	108.00	151.00	598.00
Platelets	407.0	257.024570	98.325585	62.00	188.5000	251.00	318.00	721.00
Prothrombin	416.0	10.731731	1.022000	9.00	10.0000	10.60	11.10	18.00

	Numeric.Column.Name	Minimum	Mean	Median	Maximum	First.Mode	Second.Mode	First.Mode.Count	Second.Mode.Count	First.Second.Mode.Ratio	Unique.Count	Row.Count	Unique.Count.Ratio	Skewness	Kurtosis
0	N_Days	41.00	1917.782297	1730.00	4795.00	1434.00	3445.00	2	2	1.000000	399	418	0.954545	0.472602	-0.482139
1	Age	9598.00	18533.351675	18628.00	28650.00	19724.00	18993.00	7	6	1.166667	344	418	0.822967	0.086850	-0.616730
2	Bilirubin	0.30	3.220813	1.40	28.00	0.70	0.60	33	31	1.064516	98	418	0.234450	2.717611	8.065336
3	Cholesterol	120.00	369.510563	309.50	1775.00	260.00	316.00	4	4	1.000000	201	418	0.480861	3.408526	14.337870
4	Albumin	1.96	3.497440	3.53	4.64	3.35	3.50	11	8	1.375000	154	418	0.368421	-0.467527	0.566745
5	Copper	4.00	97.648387	73.00	588.00	52.00	67.00	8	7	1.142857	158	418	0.377990	2.303640	7.624023
6	Alk_Phos	289.00	1982.655769	1259.00	13862.40	601.00	794.00	2	2	1.000000	295	418	0.705742	2.992834	9.662553
7	SGOT	26.35	122.556346	114.70	457.25	71.30	137.95	6	5	1.200000	179	418	0.428230	1.449197	4.311976
8	Tryglicerides	33.00	124.702128	108.00	598.00	118.00	90.00	7	6	1.166667	146	418	0.349282	2.523902	11.802753
9	Platelets	62.00	257.024570	251.00	721.00	344.00	269.00	6	5	1.200000	243	418	0.581340	0.627098	0.863045
10	Prothrombin	9.00	10.731731	10.60	18.00	10.60	11.00	39	32	1.218750	48	418	0.114833	2.223276	10.040773

	Age
0	13329
1	12912
2	17180
3	17884
4	15177

	Bilirubin	Cholesterol	Albumin	Copper	Alk_Phos	SGOT	Tryglicerides	Platelets	Prothrombin
0	3.4	450.0	3.37	32.0	1408.0	116.25	118.0	313.0	11.2
1	2.4	646.0	3.83	102.0	855.0	127.00	194.0	306.0	10.3
2	0.9	346.0	3.77	59.0	794.0	125.55	56.0	336.0	10.6
3	2.5	188.0	3.67	57.0	1273.0	119.35	102.0	110.0	11.1
4	4.7	296.0	3.44	114.0	9933.2	206.40	101.0	195.0	10.3

Supervised Learning : Exploring Parametric Accelerated Failure Time Models for Estimating Lifetimes in Survival Data¶

John Pauline Pineda

August 3, 2024

1. Table of Contents ¶

1.1. Data Background ¶

1.2. Data Description ¶

1.3. Data Quality Assessment ¶

1.4. Data Preprocessing ¶

1.4.1 Data Cleaning ¶

1.4.2 Missing Data Imputation ¶

1.4.3 Outlier Detection ¶

1.4.4 Collinearity ¶

1.4.5 Shape Transformation ¶

1.4.6 Centering and Scaling ¶

1.4.7 Data Encoding ¶

1.4.8 Preprocessed Data Description ¶

1.5. Data Exploration ¶

1.5.1 Exploratory Data Analysis ¶

1.5.2 Hypothesis Testing ¶

1.6.1 Premodelling Data Description ¶

1.6.2 Weibull Accelerated Failure Time Model ¶

1.6.3 Log-Normal Accelerated Failure Time Model ¶

1.6.4 Log-Logistic Accelerated Failure Time Model ¶

1.7. Consolidated Findings ¶

2. Summary ¶

3. References ¶

	Column.Name	Column.Type	Row.Count	Non.Null.Count	Null.Count	Fill.Rate
0	N_Days	int64	418	418	0	1.000000
1	Status	bool	418	418	0	1.000000
2	Drug	object	418	312	106	0.746411
3	Age	int64	418	418	0	1.000000
4	Sex	object	418	418	0	1.000000
5	Ascites	object	418	312	106	0.746411
6	Hepatomegaly	object	418	312	106	0.746411
7	Spiders	object	418	312	106	0.746411
8	Edema	object	418	418	0	1.000000
9	Bilirubin	float64	418	418	0	1.000000
10	Cholesterol	float64	418	284	134	0.679426
11	Albumin	float64	418	418	0	1.000000
12	Copper	float64	418	310	108	0.741627
13	Alk_Phos	float64	418	312	106	0.746411
14	SGOT	float64	418	312	106	0.746411
15	Tryglicerides	float64	418	282	136	0.674641
16	Platelets	float64	418	407	11	0.973684
17	Prothrombin	float64	418	416	2	0.995215
18	Stage	object	418	412	6	0.985646

	Row.Name	Column.Count	Null.Count	Missing.Rate
0	1	19	0	0.000000
1	2	19	0	0.000000
2	3	19	0	0.000000
3	4	19	0	0.000000
4	5	19	0	0.000000
...	...	...	...	...
413	414	19	9	0.473684
414	415	19	9	0.473684
415	416	19	9	0.473684
416	417	19	9	0.473684
417	418	19	9	0.473684

	Row.Name	Column.Count	Null.Count	Missing.Rate
5	6	19	1	0.052632
13	14	19	2	0.105263
39	40	19	2	0.105263
40	41	19	2	0.105263
41	42	19	2	0.105263
...	...	...	...	...
413	414	19	9	0.473684
414	415	19	9	0.473684
415	416	19	9	0.473684
416	417	19	9	0.473684
417	418	19	9	0.473684

	Column.Name	Column.Type	Row.Count	Non.Null.Count	Null.Count	Fill.Rate
15	Tryglicerides	float64	312	282	30	0.903846
10	Cholesterol	float64	312	284	28	0.910256
16	Platelets	float64	312	308	4	0.987179
12	Copper	float64	312	310	2	0.993590
0	N_Days	int64	312	312	0	1.000000
14	SGOT	float64	312	312	0	1.000000
13	Alk_Phos	float64	312	312	0	1.000000
11	Albumin	float64	312	312	0	1.000000
17	Prothrombin	float64	312	312	0	1.000000
9	Bilirubin	float64	312	312	0	1.000000
7	Spiders	object	312	312	0	1.000000
6	Hepatomegaly	object	312	312	0	1.000000
5	Ascites	object	312	312	0	1.000000
4	Sex	object	312	312	0	1.000000
3	Age	int64	312	312	0	1.000000
2	Drug	object	312	312	0	1.000000
1	Status	bool	312	312	0	1.000000
8	Edema	object	312	312	0	1.000000
18	Stage	object	312	312	0	1.000000

	Numeric.Column.Name	Skewness	Outlier.Count	Row.Count	Outlier.Ratio
5	Alk_Phos	3.035777	25	218	0.114679
1	Bilirubin	3.121255	18	218	0.082569
2	Cholesterol	3.760943	17	218	0.077982
9	Prothrombin	1.009263	12	218	0.055046
4	Copper	1.485547	8	218	0.036697
3	Albumin	-0.589651	6	218	0.027523
6	SGOT	0.934535	4	218	0.018349
7	Tryglicerides	2.817187	4	218	0.018349
8	Platelets	0.374251	4	218	0.018349
0	Age	0.223080	1	218	0.004587

	Pearson.Correlation.Coefficient	Correlation.PValue
Bilirubin_SGOT	0.503007	2.210899e-15
Bilirubin_Copper	0.444366	5.768566e-12
Bilirubin_Tryglicerides	0.389493	2.607951e-09
Bilirubin_Cholesterol	0.348174	1.311597e-07
Bilirubin_Prothrombin	0.344724	1.775156e-07
Copper_SGOT	0.305052	4.475849e-06
Cholesterol_SGOT	0.280530	2.635566e-05
Alk_Phos_Tryglicerides	0.265538	7.199789e-05
Cholesterol_Tryglicerides	0.257973	1.169491e-04
Copper_Tryglicerides	0.256448	1.287335e-04
Copper_Prothrombin	0.232051	5.528189e-04
Copper_Alk_Phos	0.215001	1.404964e-03
Alk_Phos_Platelets	0.182762	6.814702e-03
SGOT_Tryglicerides	0.176605	8.972028e-03
SGOT_Prothrombin	0.170928	1.147644e-02
Albumin_Platelets	0.170836	1.152154e-02
Cholesterol_Copper	0.165834	1.422873e-02
Cholesterol_Alk_Phos	0.165814	1.424066e-02
Age_Prothrombin	0.157493	1.999022e-02
Cholesterol_Platelets	0.152235	2.458130e-02

	Age	Bilirubin	Cholesterol	Albumin	Copper	Alk_Phos	SGOT	Tryglicerides	Platelets	Prothrombin
0	13329	0.830251	1.528771	25.311621	4.367652	2.066062	7.115310	3.357597	58.787709	0.236575
1	12912	0.751147	1.535175	34.049208	6.244827	2.047167	7.303237	3.581345	57.931137	0.236572
2	17180	0.491099	1.523097	32.812930	5.320861	2.043970	7.278682	2.990077	61.554228	0.236573
3	17884	0.760957	1.505627	30.818146	5.264915	2.062590	7.170942	3.288822	29.648190	0.236575
4	15177	0.893603	1.519249	26.533792	6.440904	2.109170	8.385199	3.284119	43.198326	0.236572

	Numeric.Column.Name	Skewness	Outlier.Count	Row.Count	Outlier.Ratio
2	Cholesterol	-0.083072	9	218	0.041284
3	Albumin	0.006523	4	218	0.018349
8	Platelets	-0.019323	2	218	0.009174
0	Age	0.223080	1	218	0.004587
4	Copper	-0.010240	1	218	0.004587
5	Alk_Phos	0.027977	1	218	0.004587
7	Tryglicerides	-0.000881	1	218	0.004587
9	Prothrombin	0.000000	1	218	0.004587
1	Bilirubin	0.263101	0	218	0.000000
6	SGOT	-0.008416	0	218	0.000000

	Drug	Sex	Ascites	Hepatomegaly	Spiders	Edema	Stage_1.0	Stage_2.0	Stage_3.0	Stage_4.0
0	1	1	0	0	0	0	False	True	False	False
1	1	0	0	0	0	0	False	False	True	False
2	1	1	0	0	0	0	False	True	False	False
3	0	1	1	1	1	1	False	False	False	True
4	0	1	0	1	0	0	False	True	False	False

	Age	Bilirubin	Cholesterol	Albumin	Copper	Alk_Phos	SGOT	Tryglicerides	Platelets	Prothrombin	Drug	Sex	Ascites	Hepatomegaly	Spiders	Edema	Stage_1.0	Stage_2.0	Stage_3.0	Stage_4.0
0	-1.296446	0.863802	0.885512	-0.451884	-0.971563	0.140990	0.104609	0.155256	0.539120	0.747580	1	1	0	0	0	0	False	True	False	False
1	-1.405311	0.516350	1.556983	0.827618	0.468389	-0.705337	0.301441	1.275281	0.472266	-0.315794	1	0	0	0	0	0	False	False	True	False
2	-0.291081	-0.625875	0.290561	0.646582	-0.240371	-0.848544	0.275723	-1.684460	0.755044	0.087130	1	1	0	0	0	0	False	True	False	False
3	-0.107291	0.559437	-1.541148	0.354473	-0.283286	-0.014525	0.162878	-0.189015	-1.735183	0.649171	0	1	1	1	1	1	False	False	False	True
4	-0.813996	1.142068	-0.112859	-0.272913	0.618797	2.071847	1.434674	-0.212560	-0.677612	-0.315794	0	1	0	1	0	0	False	True	False	False

	Missing.Rate.Category	Missing.Rate.Count
3	0.526316	15
1	0.473684	91
2	0.105263	28
4	0.052632	8
0	0.000000	276

	Age	Bilirubin	Cholesterol	Albumin	Copper	Alk_Phos	SGOT	Tryglicerides	Platelets	Prothrombin
0	1.043704	0.744396	0.922380	0.240951	0.045748	0.317282	-0.078335	2.671950	1.654815	-0.948196
1	-1.936476	-0.764558	0.160096	-0.600950	-0.179138	-0.245613	0.472422	-0.359800	0.348533	0.439089
2	-1.749033	0.371523	0.558115	0.646582	-0.159024	0.339454	0.685117	-3.109146	-0.790172	-0.617113
3	-0.485150	-0.918484	-0.690904	1.629765	0.028262	1.713791	-1.387751	0.155130	0.679704	0.087130
4	-0.815655	1.286438	2.610501	-0.722153	0.210203	0.602860	3.494936	-0.053214	-0.475634	-1.714435

	Age	Bilirubin	Cholesterol	Albumin	Copper	Alk_Phos	SGOT	Tryglicerides	Platelets	Prothrombin	Drug	Sex	Hepatomegaly	Spiders	Edema	Stage_1.0	Stage_2.0	Stage_3.0	Stage_4.0
0	1.043704	0.744396	0.922380	0.240951	0.045748	0.317282	-0.078335	2.671950	1.654815	-0.948196	1	1	0	1	1	False	False	True	False
1	-1.936476	-0.764558	0.160096	-0.600950	-0.179138	-0.245613	0.472422	-0.359800	0.348533	0.439089	0	1	0	0	0	False	False	False	True
2	-1.749033	0.371523	0.558115	0.646582	-0.159024	0.339454	0.685117	-3.109146	-0.790172	-0.617113	1	1	1	0	0	False	False	False	True
3	-0.485150	-0.918484	-0.690904	1.629765	0.028262	1.713791	-1.387751	0.155130	0.679704	0.087130	1	0	0	0	0	True	False	False	False
4	-0.815655	1.286438	2.610501	-0.722153	0.210203	0.602860	3.494936	-0.053214	-0.475634	-1.714435	0	1	1	0	0	False	True	False	False

	T.Test.Statistic	T.Test.PValue
Status_Bilirubin	-8.030789	6.198797e-14
Status_Prothrombin	-7.062933	2.204961e-11
Status_Copper	-5.699409	3.913575e-08
Status_Alk_Phos	-4.638524	6.077981e-06
Status_SGOT	-4.207123	3.791642e-05
Status_Albumin	3.871216	1.434736e-04
Status_Tryglicerides	-3.575779	4.308371e-04
Status_Age	-3.264563	1.274679e-03
Status_Platelets	3.261042	1.289850e-03
Status_Cholesterol	-2.256073	2.506758e-02

	Age	Bilirubin	Cholesterol	Albumin	Copper	Alk_Phos	SGOT	Tryglicerides	Platelets	Prothrombin
0	-1.342097	0.863802	0.886087	-0.451884	-0.972098	0.140990	0.104609	0.155130	0.540960	0.747580
1	-1.470901	0.516350	1.554523	0.827618	0.467579	-0.705337	0.301441	1.275222	0.474140	-0.315794
2	-0.239814	-0.625875	0.293280	0.646582	-0.241205	-0.848544	0.275723	-1.684460	0.756741	0.087130
3	-0.052733	0.559437	-1.534283	0.354473	-0.284113	-0.014525	0.162878	-0.189139	-1.735375	0.649171
4	-0.795010	1.142068	-0.108933	-0.272913	0.618030	2.071847	1.434674	-0.212684	-0.675951	-0.315794

	Status	N_Days	Age	Bilirubin	Cholesterol	Albumin	Copper	Alk_Phos	SGOT	Tryglicerides	...	Drug	Sex	Ascites	Hepatomegaly	Spiders	Edema	Stage_1.0	Stage_2.0	Stage_3.0	Stage_4.0
0	False	2475	-1.342097	0.863802	0.886087	-0.451884	-0.972098	0.140990	0.104609	0.155130	...	1	1	0	0	0	0	False	True	False	False
1	False	877	-1.470901	0.516350	1.554523	0.827618	0.467579	-0.705337	0.301441	1.275222	...	1	0	0	0	0	0	False	False	True	False
2	False	3050	-0.239814	-0.625875	0.293280	0.646582	-0.241205	-0.848544	0.275723	-1.684460	...	1	1	0	0	0	0	False	True	False	False
3	True	110	-0.052733	0.559437	-1.534283	0.354473	-0.284113	-0.014525	0.162878	-0.189139	...	0	1	1	1	1	1	False	False	False	True
4	True	3839	-0.795010	1.142068	-0.108933	-0.272913	0.618030	2.071847	1.434674	-0.212684	...	0	1	0	1	0	0	False	True	False	False

	ChiSquare.Test.Statistic	ChiSquare.Test.PValue
Status_Ascites	16.854134	0.000040
Status_Hepatomegaly	14.206045	0.000164
Status_Edema	12.962303	0.000318
Status_Stage_4.0	11.505826	0.000694
Status_Sex	6.837272	0.008928
Status_Stage_2.0	4.024677	0.044839
Status_Stage_1.0	3.977918	0.046101
Status_Spiders	3.953826	0.046765
Status_Stage_3.0	0.082109	0.774459
Status_Drug	0.000000	1.000000

	LR.Test.Statistic	LR.Test.PValue
Status_NDays_Ascites	37.792220	7.869499e-10
Status_NDays_Edema	31.619652	1.875223e-08
Status_NDays_Stage_4.0	26.482676	2.659121e-07
Status_NDays_Hepatomegaly	20.360210	6.414988e-06
Status_NDays_Spiders	10.762275	1.035900e-03
Status_NDays_Stage_2.0	6.775033	9.244176e-03
Status_NDays_Sex	5.514094	1.886385e-02
Status_NDays_Stage_1.0	5.473270	1.930946e-02
Status_NDays_Stage_3.0	0.478031	4.893156e-01
Status_NDays_Drug	0.000016	9.968084e-01

	LR.Test.Statistic	LR.Test.PValue
Status_NDays_Binned_Bilirubin	62.559303	2.585412e-15
Status_NDays_Binned_Albumin	29.444808	5.753197e-08
Status_NDays_Binned_Copper	27.452421	1.610072e-07
Status_NDays_Binned_Prothrombin	21.695995	3.194575e-06
Status_NDays_Binned_SGOT	16.178483	5.764520e-05
Status_NDays_Binned_Tryglicerides	11.512960	6.911262e-04
Status_NDays_Binned_Age	9.011700	2.682568e-03
Status_NDays_Binned_Platelets	6.741196	9.421142e-03
Status_NDays_Binned_Alk_Phos	5.503850	1.897465e-02
Status_NDays_Binned_Cholesterol	3.773953	5.205647e-02

	Status	N_Days	Age	Bilirubin	Cholesterol	Albumin	Copper	Alk_Phos	SGOT	Tryglicerides	Platelets	Prothrombin	Drug	Sex	Hepatomegaly	Spiders	Edema	Stage_4.0
0	False	3336	1.043704	0.744396	0.922380	0.240951	0.045748	0.317282	-0.078335	2.671950	1.654815	-0.948196	1	1	0	1	1	0
1	False	1321	-1.936476	-0.764558	0.160096	-0.600950	-0.179138	-0.245613	0.472422	-0.359800	0.348533	0.439089	0	1	0	0	0	1
2	False	1435	-1.749033	0.371523	0.558115	0.646582	-0.159024	0.339454	0.685117	-3.109146	-0.790172	-0.617113	1	1	1	0	0	1
3	False	4459	-0.485150	-0.918484	-0.690904	1.629765	0.028262	1.713791	-1.387751	0.155130	0.679704	0.087130	1	0	0	0	0	0
4	False	2721	-0.815655	1.286438	2.610501	-0.722153	0.210203	0.602860	3.494936	-0.053214	-0.475634	-1.714435	0	1	1	0	0	0

model	lifelines.WeibullAFTFitter
duration col	'N_Days'
event col	'Status'
penalizer	0.3
number of observations	218
number of events observed	87
log-likelihood	-777.86
time fit was run	2024-10-14 07:41:30 UTC

		coef	exp(coef)	se(coef)	coef lower 95%	coef upper 95%	exp(coef) lower 95%	exp(coef) upper 95%	z	p	-log2(p)
lambda_	Age	-0.17	0.85	0.07	-0.30	-0.03	0.74	0.98	-2.31	0.02	5.59
	Albumin	0.10	1.10	0.08	-0.05	0.25	0.95	1.28	1.27	0.20	2.29
	Alk_Phos	-0.04	0.96	0.07	-0.18	0.11	0.83	1.11	-0.52	0.60	0.74
	Ascites	-0.20	0.82	0.23	-0.66	0.26	0.51	1.29	-0.87	0.38	1.38
	Bilirubin	-0.29	0.75	0.09	-0.46	-0.12	0.63	0.88	-3.39	<0.005	10.47
	Cholesterol	-0.05	0.95	0.08	-0.20	0.10	0.82	1.11	-0.61	0.54	0.89
	Copper	-0.11	0.89	0.08	-0.27	0.04	0.77	1.04	-1.46	0.15	2.79
	Drug	0.10	1.10	0.14	-0.17	0.37	0.84	1.44	0.71	0.48	1.07
	Edema	-0.33	0.72	0.18	-0.68	0.01	0.51	1.01	-1.88	0.06	4.05
	Hepatomegaly	-0.11	0.90	0.15	-0.40	0.19	0.67	1.20	-0.72	0.47	1.08
	Platelets	0.05	1.06	0.07	-0.08	0.19	0.92	1.21	0.77	0.44	1.18
	Prothrombin	-0.19	0.83	0.08	-0.34	-0.05	0.71	0.96	-2.56	0.01	6.57
	SGOT	-0.11	0.90	0.08	-0.26	0.04	0.77	1.04	-1.44	0.15	2.74
	Sex	0.02	1.02	0.19	-0.35	0.40	0.70	1.49	0.11	0.91	0.14
	Spiders	-0.04	0.96	0.16	-0.35	0.27	0.71	1.30	-0.26	0.79	0.33
	Stage_4.0	-0.15	0.86	0.16	-0.46	0.16	0.63	1.17	-0.96	0.34	1.56
	Tryglicerides	-0.06	0.94	0.07	-0.20	0.08	0.82	1.08	-0.88	0.38	1.40
	Intercept	8.52	5006.58	0.21	8.10	8.94	3292.49	7613.01	39.84	<0.005	inf
rho_	Intercept	0.34	1.41	0.07	0.20	0.49	1.22	1.63	4.61	<0.005	17.96

Concordance	0.85
AIC	1593.72
log-likelihood ratio test	101.74 on 17 df
-log2(p) of ll-ratio test	44.43

Concordance	0.83
AIC	1589.35
log-likelihood ratio test	78.11 on 3 df
-log2(p) of ll-ratio test	53.51

Supervised Learning : Exploring Parametric Accelerated Failure Time Models for Estimating Lifetimes in Survival Data¶

John Pauline Pineda August 3, 2024

1. Table of Contents ¶

1.1. Data Background ¶

1.2. Data Description ¶

1.3. Data Quality Assessment ¶

1.4. Data Preprocessing ¶

1.4.1 Data Cleaning ¶

1.4.2 Missing Data Imputation ¶

1.4.3 Outlier Detection ¶

1.4.4 Collinearity ¶

1.4.5 Shape Transformation ¶

1.4.6 Centering and Scaling ¶

1.4.7 Data Encoding ¶

1.4.8 Preprocessed Data Description ¶

1.5. Data Exploration ¶

1.5.1 Exploratory Data Analysis ¶

1.5.2 Hypothesis Testing ¶

1.6.1 Premodelling Data Description ¶

1.6.2 Weibull Accelerated Failure Time Model ¶

1.6.3 Log-Normal Accelerated Failure Time Model ¶

1.6.4 Log-Logistic Accelerated Failure Time Model ¶

1.7. Consolidated Findings ¶

2. Summary ¶

3. References ¶

John Pauline Pineda

August 3, 2024

	Set	Metric	Value	Method
0	Train	Concordance.Index	0.829080	AFT_WEIBULL
1	Cross-Validation	Concordance.Index	0.825008	AFT_WEIBULL
2	Test	Concordance.Index	0.852608	AFT_WEIBULL
3	Train	MAE	2280.743783	AFT_WEIBULL
4	Cross-Validation	MAE	2303.605628	AFT_WEIBULL
5	Test	MAE	1948.873380	AFT_WEIBULL
6	Train	Brier.Score	0.515148	AFT_WEIBULL
7	Cross-Validation	Brier.Score	0.512583	AFT_WEIBULL
8	Test	Brier.Score	0.537556	AFT_WEIBULL

model	lifelines.LogNormalAFTFitter
duration col	'N_Days'
event col	'Status'
penalizer	0.3
number of observations	218
number of events observed	87
log-likelihood	-769.81
time fit was run	2024-10-14 07:42:04 UTC

Concordance	0.85
AIC	1577.63
log-likelihood ratio test	122.57 on 17 df
-log2(p) of ll-ratio test	57.48

Concordance	0.84
AIC	1572.55
log-likelihood ratio test	103.65 on 5 df
-log2(p) of ll-ratio test	66.59

	Set	Metric	Value	Method
0	Train	Concordance.Index	0.841352	AFT_LOGNORMAL
1	Cross-Validation	Concordance.Index	0.825576	AFT_LOGNORMAL
2	Test	Concordance.Index	0.875283	AFT_LOGNORMAL
3	Train	MAE	2518.359385	AFT_LOGNORMAL
4	Cross-Validation	MAE	2502.636955	AFT_LOGNORMAL
5	Test	MAE	1904.987987	AFT_LOGNORMAL
6	Train	Brier.Score	0.547041	AFT_LOGNORMAL
7	Cross-Validation	Brier.Score	0.542583	AFT_LOGNORMAL
8	Test	Brier.Score	0.577502	AFT_LOGNORMAL

model	lifelines.LogLogisticAFTFitter
duration col	'N_Days'
event col	'Status'
penalizer	0.3
number of observations	218
number of events observed	87
log-likelihood	-781.35
time fit was run	2024-10-14 07:42:37 UTC

		coef	exp(coef)	se(coef)	coef lower 95%	coef upper 95%	exp(coef) lower 95%	exp(coef) upper 95%	z	p	-log2(p)
alpha_	Age	-0.18	0.83	0.08	-0.33	-0.04	0.72	0.97	-2.42	0.02	6.02
	Albumin	0.10	1.10	0.08	-0.05	0.25	0.95	1.29	1.27	0.20	2.30
	Alk_Phos	-0.05	0.95	0.08	-0.20	0.11	0.82	1.11	-0.60	0.55	0.87
	Ascites	-0.29	0.75	0.28	-0.83	0.25	0.43	1.28	-1.06	0.29	1.79
	Bilirubin	-0.27	0.77	0.09	-0.44	-0.09	0.64	0.91	-3.00	<0.005	8.55
	Cholesterol	0.00	1.00	0.08	-0.15	0.16	0.86	1.17	0.04	0.97	0.05
	Copper	-0.16	0.85	0.08	-0.32	-0.01	0.73	0.99	-2.05	0.04	4.64
	Drug	0.09	1.10	0.14	-0.19	0.38	0.83	1.46	0.66	0.51	0.98
	Edema	-0.33	0.72	0.20	-0.73	0.06	0.48	1.07	-1.65	0.10	3.32
	Hepatomegaly	-0.10	0.90	0.15	-0.40	0.20	0.67	1.22	-0.66	0.51	0.97
	Platelets	0.08	1.09	0.08	-0.07	0.23	0.94	1.26	1.09	0.27	1.87
	Prothrombin	-0.20	0.82	0.08	-0.35	-0.04	0.70	0.96	-2.52	0.01	6.41
	SGOT	-0.09	0.91	0.08	-0.25	0.06	0.78	1.06	-1.19	0.23	2.09
	Sex	0.11	1.12	0.20	-0.29	0.51	0.75	1.66	0.55	0.59	0.77
	Spiders	-0.15	0.86	0.17	-0.47	0.18	0.62	1.20	-0.87	0.39	1.37
	Stage_4.0	-0.25	0.78	0.17	-0.57	0.08	0.57	1.08	-1.49	0.14	2.87
	Tryglicerides	-0.09	0.92	0.08	-0.24	0.07	0.79	1.07	-1.11	0.27	1.90
	Intercept	8.28	3927.15	0.23	7.82	8.73	2501.84	6164.47	35.97	<0.005	938.99
beta_	Intercept	0.51	1.67	0.08	0.36	0.67	1.43	1.95	6.46	<0.005	33.18

Concordance	0.86
AIC	1600.71
log-likelihood ratio test	95.58 on 17 df
-log2(p) of ll-ratio test	40.64

Concordance	0.84
AIC	1596.96
log-likelihood ratio test	73.33 on 4 df
-log2(p) of ll-ratio test	47.66

	Set	Metric	Value	Method
0	Train	Concordance.Index	0.838345	AFT_LOGLOGISTIC
1	Cross-Validation	Concordance.Index	0.830128	AFT_LOGLOGISTIC
2	Test	Concordance.Index	0.862585	AFT_LOGLOGISTIC
3	Train	MAE	2727.465086	AFT_LOGLOGISTIC
4	Cross-Validation	MAE	2711.660486	AFT_LOGLOGISTIC
5	Test	MAE	2189.932314	AFT_LOGLOGISTIC
6	Train	Brier.Score	0.509528	AFT_LOGLOGISTIC
7	Cross-Validation	Brier.Score	0.506538	AFT_LOGLOGISTIC
8	Test	Brier.Score	0.533296	AFT_LOGLOGISTIC