axa_assignment/notebook.jl


								### A Pluto.jl notebook ###

								# v0.12.20


								using Markdown

								using InteractiveUtils


								# ╔═╡ e8322e0e-6bd2-11eb-3c59-032d9259f937

								begin

									using Dates

									using CSV, Statistics

									#using DataFrames

									using Plots

									#using AutoMLPipeline

									using Flux

									using CUDA

									using MultivariateStats

									using Distributed

									using ScikitLearn

									using JLBoost, JLBoostMLJ, MLJ

								end


								# ╔═╡ 87c0f780-6c4f-11eb-28d0-3dedf07b9c50

								begin

									@sync @everywhere using AutoMLPipeline

									@sync @everywhere using DataFrames

								end


								# ╔═╡ ce121a34-6c59-11eb-019d-0bf399586199

								begin

									using RDatasets;

									iris = dataset("datasets", "iris");

									iris[!, :is_setosa] = iris.Species .== "setosa";


									Xi, yi = unpack(iris, x->!(x in [:is_setosa, :Species]), ==(:is_setosa));


								end


								# ╔═╡ d0e9a9d8-6c5a-11eb-059d-a51a5d6aa7e8

								begin

									using Lathe.models: RandomForestClassifier

									using StatsBase

								end


								# ╔═╡ 962ac8c4-6be0-11eb-3865-f5dce353b241

								splitLabel(label) = split(label, " ")[1]


								# ╔═╡ 75736b1c-6bd5-11eb-08a7-630cd343e6bb

								function onehot_df(training::DataFrame, key::String, insert::Bool)

									if !insert

										return select(training, Not(key))

									end

									labels = sort(unique(training[!, key]))

									oh_key = Flux.onehotbatch(training[!, key], labels)

									return hcat(select(training, Not(key)), DataFrame(oh_key', (key[1:4]*"_") .* splitLabel.(labels)))

								end


								# ╔═╡ 90803e02-6bdd-11eb-0c9e-992ccc13cf4c

								dateConv(d) = Dates.DateTime(d, "yyyy-mm-dd HH:MM:SS")


								# ╔═╡ 50e1ff74-6be2-11eb-0f36-458c037d64fc

								convertDay(array) = Dates.value.(convert.(Dates.Day, round.(array, Dates.Day)))


								# ╔═╡ 29fdbcde-6bda-11eb-2d0e-f737cdf5d019

								begin

									training = DataFrame(CSV.File("training_SC_GGP_AXA_FR.csv"))


									# Date conversion

									# Missing

									today = Dates.now()

									today_string = Dates.format(today, "yyyy-mm-dd HH:MM:SS")

									replace!(training.ouverture_dernier_sinistre, missing => today_string)

									replace!(training.cloture_dernier_sinistre, missing => today_string)

									for key in ["debut_contrat", "ouverture_dernier_sinistre", "cloture_dernier_sinistre"]

										training[!, key] = dateConv.(training[!, key])

									end

									# Add duree

									insertcols!(training, "duree_contrat" => convertDay(today - training.debut_contrat))

									insertcols!(training, "duree_dernier_sinistre" => convertDay(training.cloture_dernier_sinistre - training.ouverture_dernier_sinistre))

									insertcols!(training, "duree_zero_sinistre" => convertDay(today - training.cloture_dernier_sinistre))

									select!(training, Not("debut_contrat"))

									select!(training, Not("ouverture_dernier_sinistre"))

									select!(training, Not("cloture_dernier_sinistre"))


									# One hot encode categorical

									training = onehot_df(training, "departement", true)

									training = onehot_df(training, "categorie_socio_professionnelle", true)

									training = onehot_df(training, "type_de_bien", true)

									training = onehot_df(training, "statut", true)


									select!(training, Not("index"))

									training = Float32.(training)

								end


								# ╔═╡ 4d58899e-6bed-11eb-2a00-674d22246165

								begin

									using Flux.Data: DataLoader

									using Flux: onehotbatch, onecold, logitcrossentropy, throttle, @epochs

									using Base.Iterators: repeated

									using Parameters: @with_kw

									using MLDatasets

									if has_cuda()		# Check if CUDA is available

									    @info "CUDA is on"

									    CUDA.allowscalar(false)

									end


									η = 1e-5      # learning rate

									batchsize = 1000   # batch size

									epochs = 1000        # number of epochs

									device = cpu  # set as gpu, if gpu available


									function getdata()

									    ENV["DATADEPS_ALWAYS_ACCEPT"] = "true"


									    # Loading Dataset

										xtrain = permutedims(Array(Float32.(select(training, Not("target")))))

										ytrain = permutedims(Array(Float32.(select(training, "target"))))

									    xtest, ytest = xtrain, ytrain

										#xtrain, ytrain = MLDatasets.MNIST.traindata(Float32)

									    #xtest, ytest = MLDatasets.MNIST.testdata(Float32)

										@show(size(xtrain), size(ytrain))

										@show(typeof(xtrain), typeof(ytrain))


										# Reshape Data in order to flatten each image into a linear array

									    #xtrain = Flux.flatten(xtrain)

									    #xtest = Flux.flatten(xtest)

										ytrain = dropdims(ytrain; dims = 1)

										ytest = dropdims(ytest; dims = 1)

										@show(size(xtrain), size(ytrain))

										@show(typeof(xtrain), typeof(ytrain))


									    # One-hot-encode the labels

									    ytrain, ytest = onehotbatch(ytrain, 0:1), onehotbatch(ytest, 0:1)

										#ytrain, ytest = onehotbatch(ytrain, 0:9), onehotbatch(ytest, 0:9)

										@show(size(xtrain), size(ytrain))

										@show(typeof(xtrain), typeof(ytrain))


									    # Batching

									    train_data = DataLoader(xtrain, ytrain, batchsize=batchsize, shuffle=true)

									    test_data = DataLoader(xtest, ytest, batchsize=batchsize)


									    return train_data, test_data

									end


									function build_model(; imgsize=(20,1), nclasses=2, hidden=1024)

									    return Chain(

									 	    Dense(prod(imgsize), hidden, relu),

											Dense(hidden, hidden, relu),

									            Dense(hidden, nclasses))

									end


									function loss_all(dataloader, model)

									    l = 0f0

									    for (x,y) in dataloader

									        l += logitcrossentropy(model(x), y)

									    end

									    l/length(dataloader)

									end


									function accuracy(data_loader, model)

									    acc = 0

									    for (x,y) in data_loader

									        acc += sum(onecold(cpu(model(x))) .== onecold(cpu(y)))*1 / size(x,2)

									    end

									    acc/length(data_loader)

									end


									function focal_loss(yh, y)

										ce_loss = Flux.crossentropy(yh, y; agg=identity)

										pt = exp.(-ce_loss)

										gamma = 100

										return mean(((1 .- pt) .^ gamma) .* ce_loss)

									end


									function train()

									    # Initializing Model parameters


									    # Load Data

									    train_data,test_data = getdata()


									    # Construct model

									    m = build_model()

									    train_data = device.(train_data)

									    test_data = device.(test_data)

									    m = device(m)

									    #loss(x,y) = focal_loss(m(x), y)

										loss(x,y) = logitcrossentropy(m(x), y)


									    ## Training

									    evalcb = () -> @show(loss_all(train_data, m), accuracy(train_data, m))

									    opt = ADAM(η)


									    #Flux.@epochs epochs Flux.train!(loss, params(m), train_data, opt, cb = evalcb)


									    #@show accuracy(train_data, m)


									    #@show accuracy(test_data, m)

									end


									train()

								end


								# ╔═╡ 5ccf4fc8-6c5b-11eb-1aaa-876ea467c25d

								begin

									using Lathe.preprocess: TrainTestSplit

									using Lathe.lstats: catacc

									dtrain,dtest = TrainTestSplit(training)

								end


								# ╔═╡ c7ca7334-6bdb-11eb-2413-f50b8cd50f89

								size(training)


								# ╔═╡ b69d0732-6bd8-11eb-0144-39023b4d5326

								describe(training)


								# ╔═╡ 964d8b78-6bf6-11eb-1129-9b6e7d2c21d1

								#begin

								#	X = permutedims(Array(Float32.(select(training, Not("target")))))#[:, 1:100]# |> gpu

								#	Y = permutedims(Array(Float32.(select(training, "target"))))#[:, 1:100]# |> gpu

								#	Y = onehotbatch(dropdims(Y; dims = 1), 0:1)

									#m = Chain(

									 # Dense(size(X)[1], 32, relu),

									  #Dense(32, 2),

									  #softmax)# |> gpu


								#	function loss(x, y)

								#		return Flux.logitcrossentropy(m(x), y)

								#	end


								#	function Accuracy(x, y)

								#	    a = Flux.onecold(m(x))

								#	    b = Flux.onecold(y)# |> gpu  #### If this is not there, it beceomes a julia array

								#		@show(size(a), size(b))

								#	    return mean(a .== b)

								#	end


								#	dataset = Iterators.repeated((X, Y), 10)

								#	evalcb = () -> @show(loss(X, Y), Accuracy(X, Y))

								#	opt = ADAM(0.001, (0.9, 0.999))


								#	Flux.@epochs 100 Flux.train!(loss, params(m), dataset, opt, cb = Flux.throttle(evalcb, 10))


								#	Accuracy(X, Y), loss(X, Y)

								#end


								# ╔═╡ 4a55b5fa-6c47-11eb-1b2d-95ae61217361

								begin

									X = Float32.(select(training, Not("target")))

									Y = Float32.(training[!, "target"]) |> Vector

								end


								# ╔═╡ e250e5da-6c49-11eb-1005-8567cf37eaf8

								begin

									ppca = SKPreprocessor("PCA");

									pnumf = NumFeatureSelector();

									prb = SKPreprocessor("RobustScaler");

									pohePCA =  @pipeline pnumf |> prb |> ppca

									trPCA = fit_transform!(pohePCA,X,Y)

									scatter(trPCA[:, 1], trPCA[:, 2], markersize=3*Y.+1)

								end


								# ╔═╡ e9e72212-6c4b-11eb-0f57-9bd831b4dd80

								begin

									prf = SKLearner("RandomForestClassifier",Dict(:impl_args=>Dict(:n_estimators => 100)))

									rfp1 =  @pipeline pnumf |> prb |> prf;

									crossvalidate(rfp1, X,Y)

								end


								# ╔═╡ 3c0a1b1c-6c4c-11eb-1cb8-bb4182cf5dd1

								begin

									# from discourse discussion with zevelev

									#addprocs()

									#@everywhere using AutoMLPipeline, DataFrames


									#Get models.

									sk= AutoMLPipeline.SKLearners.learner_dict |> keys |> collect;

									sk= sk |> x-> sort(x,lt=(x,y)->lowercase(x)<lowercase(y));

									m_cl= sk[occursin.("Classifier", sk)];

									m_cl= m_cl ∪ sk[occursin.("NB", sk)];

									m_cl= m_cl ∪ sk[occursin.("SVC", sk)];

									m_cl= m_cl ∪ ["LDA", "QDA"];


									# find optimal learners

									learners = @distributed (vcat) for m in m_cl

									    learner = SKLearner(m)

									    pcmc = AutoMLPipeline.@pipeline learner

									    println(learner.name)

									    mean,sd,folds,err = crossvalidate(pcmc,X,Y,"accuracy_score",5)

									    if !isnan(mean)

									      DataFrame(name=learner.name,mean=mean,sd=sd,folds=folds,errors=err)

									    else

									      DataFrame()

									    end

									end;

									sort!(learners,:mean,rev=true)

									@show learners;


									# optimized C

									#results=@distributed (vcat) for C in 1:5

									#  @distributed (vcat) for gamma = 1:5

									#    svcmodel  = SKLearner("SVC",Dict(:impl_args=>Dict(:kernel=>"rbf",:C=>C,:gamma=>gamma) ))

									#    mn,sd,fld,err = crossvalidate(svcmodel,X,Y)

									    #DataFrame(name=svcmodel.name,mean=mn,sd=sd,C=C,gamma=gamma,folds=fld,errors=err)

									 # end

									#end

									#sort!(results,:mean,rev=true)

									#@show results


									# search best learner by crossvalidation and use it for prediction

									#learners = SKLearner.(["AdaBoostClassifier","BaggingClassifier","SGDClassifier","SVC","LinearSVC"])

									#blearner = BestLearner(learners)

									#crossvalidate(blearner,X,Y,"accuracy_score")

									#fit!(blearner,X,Y)

								end


								# ╔═╡ 996a1126-6c4d-11eb-34fc-c97f0636695d

								learners[1, :]


								# ╔═╡ 6eb62f38-6c4f-11eb-0d56-975521d7d224

								begin

									# Add workers

									nprocs() == 1 && addprocs();

									workers()


									#### feature selectors

									catf   = CatFeatureSelector();

									numf   = NumFeatureSelector();

									# hot-bit encoder

									ohe    = AutoMLPipeline.OneHotEncoder();

									#### feature scalers

									rb     = SKPreprocessor("RobustScaler");

									pt     = SKPreprocessor("PowerTransformer");

									mx     = SKPreprocessor("MinMaxScaler");

									std    = SKPreprocessor("StandardScaler");

									norm   = SKPreprocessor("Normalizer");

									#### feature extractors

									#pca    = SKPreprocessor("PCA", Dict(:autocomponent => true));

									#ica    = SKPreprocessor("FastICA", Dict(:autocomponent => true));

									#fa     = SKPreprocessor("FactorAnalysis", Dict(:autocomponent => true));

									#### Learners

									rf     = SKLearner("RandomForestClassifier", Dict(:impl_args => Dict(:n_estimators => 10)));

									gb     = SKLearner("GradientBoostingClassifier");

									lsvc   = SKLearner("LinearSVC");

									mlp    = SKLearner("MLPClassifier");

									stack  = StackEnsemble();

									rbfsvc = SKLearner("SVC");

									ada    = SKLearner("AdaBoostClassifier");

									vote   = VoteEnsemble();

									best   = BestLearner();

									tree   = PrunedTree();

									sgd    = SKLearner("SGDClassifier");

									noop = Identity(Dict(:name => "Noop"));


									# Parallel Search for Datamining Optimal Pipelines

									function prpsearch()

									    learners = [rf,ada,sgd,tree,rbfsvc,lsvc,gb];

									    scalers = [rb,pt,norm,std,mx,noop];

									    dftable = @sync @distributed (vcat) for lr in learners

										 @distributed (vcat) for sc in scalers

											  pipe  = AutoMLPipeline.@pipeline (catf |> ohe) + (numf |> sc )  |> lr

											  scn   = sc.name[1:end - 4]; lrn = lr.name[1:end - 4]

											  pname = "$scn |> $lrn"

											  ptime = @elapsed begin

												 mean, sd, kfold, _ = crossvalidate(pipe, X, Y, "accuracy_score", 5)

											  end

											  DataFrame(pipeline=pname, mean=mean, sd=sd, time=ptime, folds=kfold)

											end

									    end

									    sort!(dftable, :mean, rev=true);

									    dftable

									end

									runtime = @elapsed begin

									    #df = prpsearch()

									end;

									#serialtime = df.time |> sum;

									#(serialtime = "$(round(serialtime / 60.0)) minutes", paralleltime = "$(round(runtime)) seconds")


									# pipeline performances

									#@show df

								end


								# ╔═╡ 22b11720-6c50-11eb-3e44-c726d18c6948

								df


								# ╔═╡ e3d0797a-6c53-11eb-1923-c719d8210533

								gb


								# ╔═╡ cd229ebc-6c56-11eb-1f44-b3ce2e8e0875

								begin

									jlb = JLBoostClassifier()

									r1 = range(jlb, :nrounds, lower=1, upper = 6)

									r2 = range(jlb, :max_depth, lower=1, upper = 6)

									r3 = range(jlb, :eta, lower=0.1, upper=1.0)

									tm = TunedModel(model = jlb, ranges = [r1, r2, r3], measure = cross_entropy)

									XX = X

									YY = categorical(Bool.(Y))

									m = machine(tm, XX, YY)

								end


								# ╔═╡ 13522512-6c5a-11eb-2278-2d6bda47e9a1

								parent(YY)


								# ╔═╡ 331af5c8-6c59-11eb-2dbd-c3a9b8127f97

								MLJ.fit!(m)


								# ╔═╡ 232e07a2-6c5b-11eb-15e2-2b94b7f934dc

								X


								# ╔═╡ 24c4b282-6c5b-11eb-3a32-3936b6fde11e

								Y


								# ╔═╡ 5e8e1a92-6c5b-11eb-3a34-a5d8452288b5

								training


								# ╔═╡ a98857da-6c5b-11eb-3d4e-75e9ad20b4fc

								dtest


								# ╔═╡ 834f2260-6c5b-11eb-3577-3d0ffc913da6

								begin

									trainX = (select(dtrain, Not("target")))

									trainy = dtrain[!, "target"]

									testX = (select(dtest, Not("target")))

									testy = dtest[!, "target"]

								end


								# ╔═╡ dcb1ae36-6c5b-11eb-2e8c-8ff8c85b46c7

								begin

									model = RandomForestClassifier(trainX, trainy, n_trees = 10, max_depth = 11)

									yhat = model.predict(testX)

									Set(yhat), catacc(yhat, testy)

								end


								# ╔═╡ eb259a9e-6c5c-11eb-231a-c37636e42302

								begin

									Booster = @load EvoTreeRegressor

									booster = Booster(max_depth=2) # specify hyperparamter at construction

									booster.nrounds=50             # or mutate post facto

								end


								# ╔═╡ f24fea0e-6c5c-11eb-0c7a-8f2bd3550ecc


								# ╔═╡ f70c90ee-6c5c-11eb-355e-454a4b2f89d9


								# ╔═╡ ffce310e-6c5c-11eb-2025-5f17f3cbed51


								# ╔═╡ 091bbe02-6c5d-11eb-2979-75c5cab5b613


								# ╔═╡ Cell order:

								# ╠═e8322e0e-6bd2-11eb-3c59-032d9259f937

								# ╠═87c0f780-6c4f-11eb-28d0-3dedf07b9c50

								# ╠═962ac8c4-6be0-11eb-3865-f5dce353b241

								# ╠═75736b1c-6bd5-11eb-08a7-630cd343e6bb

								# ╠═90803e02-6bdd-11eb-0c9e-992ccc13cf4c

								# ╠═50e1ff74-6be2-11eb-0f36-458c037d64fc

								# ╠═29fdbcde-6bda-11eb-2d0e-f737cdf5d019

								# ╠═c7ca7334-6bdb-11eb-2413-f50b8cd50f89

								# ╠═b69d0732-6bd8-11eb-0144-39023b4d5326

								# ╠═964d8b78-6bf6-11eb-1129-9b6e7d2c21d1

								# ╠═4d58899e-6bed-11eb-2a00-674d22246165

								# ╠═4a55b5fa-6c47-11eb-1b2d-95ae61217361

								# ╠═e250e5da-6c49-11eb-1005-8567cf37eaf8

								# ╠═e9e72212-6c4b-11eb-0f57-9bd831b4dd80

								# ╠═3c0a1b1c-6c4c-11eb-1cb8-bb4182cf5dd1

								# ╠═996a1126-6c4d-11eb-34fc-c97f0636695d

								# ╠═6eb62f38-6c4f-11eb-0d56-975521d7d224

								# ╠═22b11720-6c50-11eb-3e44-c726d18c6948

								# ╠═e3d0797a-6c53-11eb-1923-c719d8210533

								# ╠═cd229ebc-6c56-11eb-1f44-b3ce2e8e0875

								# ╠═13522512-6c5a-11eb-2278-2d6bda47e9a1

								# ╠═ce121a34-6c59-11eb-019d-0bf399586199

								# ╠═331af5c8-6c59-11eb-2dbd-c3a9b8127f97

								# ╠═d0e9a9d8-6c5a-11eb-059d-a51a5d6aa7e8

								# ╠═232e07a2-6c5b-11eb-15e2-2b94b7f934dc

								# ╠═24c4b282-6c5b-11eb-3a32-3936b6fde11e

								# ╠═5e8e1a92-6c5b-11eb-3a34-a5d8452288b5

								# ╠═5ccf4fc8-6c5b-11eb-1aaa-876ea467c25d

								# ╠═a98857da-6c5b-11eb-3d4e-75e9ad20b4fc

								# ╠═834f2260-6c5b-11eb-3577-3d0ffc913da6

								# ╠═dcb1ae36-6c5b-11eb-2e8c-8ff8c85b46c7

								# ╠═eb259a9e-6c5c-11eb-231a-c37636e42302

								# ╠═f24fea0e-6c5c-11eb-0c7a-8f2bd3550ecc

								# ╠═f70c90ee-6c5c-11eb-355e-454a4b2f89d9

								# ╠═ffce310e-6c5c-11eb-2025-5f17f3cbed51

								# ╠═091bbe02-6c5d-11eb-2979-75c5cab5b613