hai teman teman, disini saya akan membagikan tutorial dalam bidang statistik yaitu linear regression, lebih tepatnya pengaplikasian multiple regression dalam bahasa pemrograman python.
apa tuh multiple regression trus bedanya sama simple linnear regression, trus gimana penerapanya ?? Linear regression adalah metode untuk ,emodelkan hubungan variable dependen dengan variable independen, dengan model tersebut nantinya kita dapat memprediksi nilai dari variable dependen nya jika diketahui variable independenya, begitu pula sebaliknya.
Secara matematis, persamaan dari Multiple Linear Regression / Regresi Linear Berganda adalah sebagai berikut:
Y = b + e + m1*x1 + m2*x2 + … + mn*xn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
selanjutnya kita import dataset yang kita miliki, disini saya menggunakan dataset biaya asuransi kesehatan yang saya dapatkan dari website kaggle.
disini kita hanya akan mengambil kolom bmi, smoker dan charge
insurance_data = pd.read_csv('/home/arfan/Downloads/insurance.csv', usecols=['bmi','smoker','charges'])
insurance_data.head()
insurance_data.smoker = pd.Series(np.where(insurance_data.smoker.values == 'yes', 1, 0), insurance_data.index)
insurance_data.head()
plt.figure(figsize=(10,8))
sns.pairplot(data=insurance_data, x_vars=['bmi','smoker'], y_vars=['charges'], size=5, aspect=0.75)
x = insurance_data.drop(columns='charges')
y = insurance_data['charges']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=4)
lin_reg = LinearRegression()
lin_reg.fit(x_train, y_train)
lin_reg.score(x_test, y_test)
lalu untuk mengecek biaya perawatan kesehatan kita dapat menjalankan kode
lin_reg.predict([[19.5,1]])
dimana parameter berisi array dengan value nilai bmi dan nilai smoker
pada artikel selanjutnya kita akan membuat halaman website untuk model yang kita buat, jadi stay tune