mrdbourke · AbhishekChavan1 · Aug 1, 2024 · Aug 1, 2024 · Aug 1, 2024 · Aug 1, 2024
diff --git a/.github/workflows/python-package-conda.yml b/.github/workflows/python-package-conda.yml
@@ -0,0 +1,34 @@
+name: Python Package using Conda
+
+on: [push]
+
+jobs:
+  build-linux:
+    runs-on: ubuntu-latest
+    strategy:
+      max-parallel: 5
+
+    steps:
+    - uses: actions/checkout@v4
+    - name: Set up Python 3.10
+      uses: actions/setup-python@v3
+      with:
+        python-version: '3.10'
+    - name: Add conda to system path
+      run: |
+        # $CONDA is an environment variable pointing to the root of the miniconda directory
+        echo $CONDA/bin >> $GITHUB_PATH
+    - name: Install dependencies
+      run: |
+        conda env update --file environment.yml --name base
+    - name: Lint with flake8
+      run: |
+        conda install flake8
+        # stop the build if there are Python syntax errors or undefined names
+        flake8 . --count --select=E9,F63,F7,F82 --show-source --statistics
+        # exit-zero treats all errors as warnings. The GitHub editor is 127 chars wide
+        flake8 . --count --exit-zero --max-complexity=10 --max-line-length=127 --statistics
+    - name: Test with pytest
+      run: |
+        conda install pytest
+        pytest
diff --git a/...n 2 -------------------- Part 1 - Data Preprocessing --------------------/Python/Data.csv b/...n 2 -------------------- Part 1 - Data Preprocessing --------------------/Python/Data.csv
@@ -0,0 +1,11 @@
+Country,Age,Salary,Purchased
+France,44,72000,No
+Spain,27,48000,Yes
+Germany,30,54000,No
+Spain,38,61000,No
+Germany,40,,Yes
+France,35,58000,Yes
+Spain,,52000,No
+France,48,79000,Yes
+Germany,50,83000,No
+France,37,67000,Yes
diff --git a/...Part 1 - Data Preprocessing --------------------/Python/data_preprocessing_template.ipynb b/...Part 1 - Data Preprocessing --------------------/Python/data_preprocessing_template.ipynb
@@ -0,0 +1 @@
+{"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"name":"data_preprocessing_template.ipynb","provenance":[],"collapsed_sections":[],"toc_visible":true,"authorship_tag":"ABX9TyOD2/gZgY69JdiiGJVNfu7s"},"kernelspec":{"name":"python3","display_name":"Python 3"}},"cells":[{"cell_type":"markdown","metadata":{"id":"WOw8yMd1VlnD","colab_type":"text"},"source":["# Data Preprocessing Template"]},{"cell_type":"markdown","metadata":{"id":"NvUGC8QQV6bV","colab_type":"text"},"source":["## Importing the libraries"]},{"cell_type":"code","metadata":{"id":"wfFEXZC0WS-V","colab_type":"code","colab":{}},"source":["import numpy as np\n","import matplotlib.pyplot as plt\n","import pandas as pd"],"execution_count":0,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"fhYaZ-ENV_c5","colab_type":"text"},"source":["## Importing the dataset"]},{"cell_type":"code","metadata":{"id":"aqHTg9bxWT_u","colab_type":"code","colab":{}},"source":["dataset = pd.read_csv('Data.csv')\n","X = dataset.iloc[:, :-1].values\n","y = dataset.iloc[:, -1].values"],"execution_count":0,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"3abSxRqvWEIB","colab_type":"text"},"source":["## Splitting the dataset into the Training set and Test set"]},{"cell_type":"code","metadata":{"id":"hm48sif-WWsh","colab_type":"code","colab":{}},"source":["from sklearn.model_selection import train_test_split\n","X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)"],"execution_count":0,"outputs":[]}]}
diff --git a/...-- Part 1 - Data Preprocessing --------------------/Python/data_preprocessing_tools.ipynb b/...-- Part 1 - Data Preprocessing --------------------/Python/data_preprocessing_tools.ipynb
@@ -0,0 +1 @@
+{"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[],"collapsed_sections":[],"authorship_tag":"ABX9TyOihYlX/ooG5h+qw0sLIjn8"},"kernelspec":{"name":"python3","display_name":"Python 3"}},"cells":[{"cell_type":"markdown","metadata":{"id":"37puETfgRzzg"},"source":["# Data Preprocessing Tools"]},{"cell_type":"markdown","metadata":{"id":"EoRP98MpR-qj"},"source":["## Importing the libraries"]},{"cell_type":"code","metadata":{"id":"N-qiINBQSK2g"},"source":["import numpy as np\n","import matplotlib.pyplot as plt\n","import pandas as pd"],"execution_count":null,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"RopL7tUZSQkT"},"source":["## Importing the dataset"]},{"cell_type":"code","metadata":{"id":"WwEPNDWySTKm"},"source":["dataset = pd.read_csv('Data.csv')\n","X = dataset.iloc[:, :-1].values\n","y = dataset.iloc[:, -1].values"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"hCsz2yCebe1R"},"source":["print(X)"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"eYrOQ43XcJR3"},"source":["print(y)"],"execution_count":null,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"nhfKXNxlSabC"},"source":["## Taking care of missing data"]},{"cell_type":"code","metadata":{"id":"c93k7ipkSexq"},"source":["from sklearn.impute import SimpleImputer\n","imputer = SimpleImputer(missing_values=np.nan, strategy='mean')\n","imputer.fit(X[:, 1:3])\n","X[:, 1:3] = imputer.transform(X[:, 1:3])"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"3UgLdMS_bjq_"},"source":["print(X)"],"execution_count":null,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"CriG6VzVSjcK"},"source":["## Encoding categorical data"]},{"cell_type":"markdown","metadata":{"id":"AhSpdQWeSsFh"},"source":["### Encoding the Independent Variable"]},{"cell_type":"code","metadata":{"id":"5hwuVddlSwVi"},"source":["from sklearn.compose import ColumnTransformer\n","from sklearn.preprocessing import OneHotEncoder\n","ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')\n","X = np.array(ct.fit_transform(X))"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"f7QspewyeBfx"},"source":["print(X)"],"execution_count":null,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"DXh8oVSITIc6"},"source":["### Encoding the Dependent Variable"]},{"cell_type":"code","metadata":{"id":"XgHCShVyTOYY"},"source":["from sklearn.preprocessing import LabelEncoder\n","le = LabelEncoder()\n","y = le.fit_transform(y)"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"FyhY8-gPpFCa"},"source":["print(y)"],"execution_count":null,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"qb_vcgm3qZKW"},"source":["## Splitting the dataset into the Training set and Test set"]},{"cell_type":"code","metadata":{"id":"pXgA6CzlqbCl"},"source":["from sklearn.model_selection import train_test_split\n","X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 1)"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"GuwQhFdKrYTM"},"source":["print(X_train)"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"TUrX_Tvcrbi4"},"source":["print(X_test)"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"pSMHiIsWreQY"},"source":["print(y_train)"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"I_tW7H56rgtW"},"source":["print(y_test)"],"execution_count":null,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"TpGqbS4TqkIR"},"source":["## Feature Scaling"]},{"cell_type":"code","metadata":{"id":"AxjSUXFQqo-3"},"source":["from sklearn.preprocessing import StandardScaler\n","sc = StandardScaler()\n","X_train = sc.fit_transform(X_train)\n","X_test = sc.transform(X_test)"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"DWPET8ZdlMnu"},"source":["print(X_train)"],"execution_count":null,"outputs":[]},{"cell_type":"code","metadata":{"id":"sTXykB_QlRjE"},"source":["print(X_test)"],"execution_count":null,"outputs":[]}]}
diff --git a/...ection 2 -------------------- Part 1 - Data Preprocessing --------------------/R/Data.csv b/...ection 2 -------------------- Part 1 - Data Preprocessing --------------------/R/Data.csv
@@ -0,0 +1,11 @@
+Country,Age,Salary,Purchased
+France,44,72000,No
+Spain,27,48000,Yes
+Germany,30,54000,No
+Spain,38,61000,No
+Germany,40,,Yes
+France,35,58000,Yes
+Spain,,52000,No
+France,48,79000,Yes
+Germany,50,83000,No
+France,37,67000,Yes
diff --git a/...------------------- Part 1 - Data Preprocessing --------------------/R/categorical_data.R b/...------------------- Part 1 - Data Preprocessing --------------------/R/categorical_data.R
@@ -0,0 +1,21 @@
+# Data Preprocessing
+
+# Importing the dataset
+dataset = read.csv('Data.csv')
+
+# Taking care of missing data
+dataset$Age = ifelse(is.na(dataset$Age),
+                     ave(dataset$Age, FUN = function(x) mean(x, na.rm = TRUE)),
+                     dataset$Age)
+dataset$Salary = ifelse(is.na(dataset$Salary),
+                        ave(dataset$Salary, FUN = function(x) mean(x, na.rm = TRUE)),
+                        dataset$Salary)
+
+# Encoding categorical data
+dataset$Country = factor(dataset$Country,
+
+                         levels = c('France', 'Spain', 'Germany'),
+                         labels = c(1, 2, 3))
+dataset$Purchased = factor(dataset$Purchased,
+                           levels = c('No', 'Yes'),
+                           labels = c(0, 1))
diff --git a/...-------- Part 1 - Data Preprocessing --------------------/R/data_preprocessing_template.R b/...-------- Part 1 - Data Preprocessing --------------------/R/data_preprocessing_template.R
@@ -0,0 +1,16 @@
+# Data Preprocessing Template
+
+# Importing the dataset
+dataset = read.csv('Data.csv')
+
+# Splitting the dataset into the Training set and Test set
+# install.packages('caTools')
+library(caTools)
+set.seed(123)
+split = sample.split(dataset$DependentVariable, SplitRatio = 0.8)
+training_set = subset(dataset, split == TRUE)
+test_set = subset(dataset, split == FALSE)
+
+# Feature Scaling
+# training_set = scale(training_set)
+# test_set = scale(test_set)
diff --git a/... 2 -------------------- Part 1 - Data Preprocessing --------------------/R/missing_data.R b/... 2 -------------------- Part 1 - Data Preprocessing --------------------/R/missing_data.R
@@ -0,0 +1,12 @@
+# Data Preprocessing
+
+# Importing the dataset
+dataset = read.csv('Data.csv')
+
+# Taking care of missing data
+dataset$Age = ifelse(is.na(dataset$Age),
+                     ave(dataset$Age, FUN = function(x) mean(x, na.rm = TRUE)),
+                     dataset$Age)
+dataset$Salary = ifelse(is.na(dataset$Salary),
+                        ave(dataset$Salary, FUN = function(x) mean(x, na.rm = TRUE)),
+                        dataset$Salary)
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1 @@
		{"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"name":"data_preprocessing_template.ipynb","provenance":[],"collapsed_sections":[],"toc_visible":true,"authorship_tag":"ABX9TyOD2/gZgY69JdiiGJVNfu7s"},"kernelspec":{"name":"python3","display_name":"Python 3"}},"cells":[{"cell_type":"markdown","metadata":{"id":"WOw8yMd1VlnD","colab_type":"text"},"source":["# Data Preprocessing Template"]},{"cell_type":"markdown","metadata":{"id":"NvUGC8QQV6bV","colab_type":"text"},"source":["## Importing the libraries"]},{"cell_type":"code","metadata":{"id":"wfFEXZC0WS-V","colab_type":"code","colab":{}},"source":["import numpy as np\n","import matplotlib.pyplot as plt\n","import pandas as pd"],"execution_count":0,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"fhYaZ-ENV_c5","colab_type":"text"},"source":["## Importing the dataset"]},{"cell_type":"code","metadata":{"id":"aqHTg9bxWT_u","colab_type":"code","colab":{}},"source":["dataset = pd.read_csv('Data.csv')\n","X = dataset.iloc[:, :-1].values\n","y = dataset.iloc[:, -1].values"],"execution_count":0,"outputs":[]},{"cell_type":"markdown","metadata":{"id":"3abSxRqvWEIB","colab_type":"text"},"source":["## Splitting the dataset into the Training set and Test set"]},{"cell_type":"code","metadata":{"id":"hm48sif-WWsh","colab_type":"code","colab":{}},"source":["from sklearn.model_selection import train_test_split\n","X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)"],"execution_count":0,"outputs":[]}]}