Вот как заполнить пропущенные значения в наборе данных

Подготовка данных — один из самых ценных навыков каждого Наука о данных должен быть у профессионала. Одной из сложных задач при подготовке данных является заполнение пропущенных значений и принятие решения о том, какую меру следует рассматривать между средним, медианой и модой, чтобы заполнить пропущенные значения в наборе данных. Итак, если вы хотите узнать, как заполнить пропущенные значения и как выбрать стратегию, эта статья для вас. В этой статье я расскажу, как заполнить пропущенные значения в наборе данных.
Вот как выбрать между средним, медианой и модой, чтобы заполнить пропущенные значения
Выбор между средним, медианным и режимом для заполнения пропущенных значений в наборе данных зависит от данных, с которыми вы работаете. Ниже приведены некоторые ценные рекомендации, которые помогут вам решить, что выбрать между средним значением, медианой и модой, чтобы заполнить пропущенные значения в наборе данных:
- Среднее: когда ваш набор данных находится в нормальное распределениевы можете использовать среднее значение, чтобы заполнить пропущенные значения.
- Медиана: если ваш набор данных не находится в нормальном распределении, вы можете использовать медианное значение, чтобы заполнить пропущенные значения.
- Режим: когда пропущенные значения в ваших данных являются категориальными и дискретными, вы можете использовать значение режима, чтобы заполнить пропущенные значения.
Итак, первый шаг — посмотреть, есть ли в ваших данных пропущенные значения. Если в ваших данных есть пропущенные значения, вам необходимо проверить распределение каждой числовой переменной (с пропущенными значениями). Если значения в числовых переменных отсутствуют, используйте Среднее значение, если переменная находится в нормальном распределении. В противном случае выберите Медиана. И если переменная является категориальной или дискретной, вы можете выбрать режим. Поэтому вам нужно выбрать другую меру для каждой переменной.
Теперь вот как заполнить пропущенные значения в наборе данных
Теперь давайте создадим образец данных с пропущенными значениями, чтобы мы могли заполнить пропущенные значения с помощью среднего, медианы и режима:
import pandas as pd import numpy as np data = {'A': [1, 2, 3, 4, np.nan, 6, 7, 8, 9, np.nan], 'B': [2, 4, 6, 8, np.nan, 12, 14, 16, 18, np.nan], 'C': ['red', 'blue', np.nan, 'green', 'green', 'blue', 'red', 'blue', 'green', np.nan]} df = pd.DataFrame(data) print(df)
A B C 0 1.0 2.0 red 1 2.0 4.0 blue 2 3.0 6.0 NaN 3 4.0 8.0 green 4 NaN NaN green 5 6.0 12.0 blue 6 7.0 14.0 red 7 8.0 16.0 blue 8 9.0 18.0 green 9 NaN NaN NaN
Вот как заполнить пропущенные значения, используя среднее значение:
mean_A = df['A'].mean() df['A'].fillna(mean_A, inplace=True) print(df)
A B C 0 1.0 2.0 red 1 2.0 4.0 blue 2 3.0 6.0 NaN 3 4.0 8.0 green 4 5.0 NaN green 5 6.0 12.0 blue 6 7.0 14.0 red 7 8.0 16.0 blue 8 9.0 18.0 green 9 5.0 NaN NaN
Вот как заполнить пропущенные значения, используя медианное значение:
median_B = df['B'].median() df['B'].fillna(median_B, inplace=True) print(df)
A B C 0 1.0 2.0 red 1 2.0 4.0 blue 2 3.0 6.0 NaN 3 4.0 8.0 green 4 5.0 10.0 green 5 6.0 12.0 blue 6 7.0 14.0 red 7 8.0 16.0 blue 8 9.0 18.0 green 9 5.0 10.0 NaN
А теперь вот как заполнить пропущенные значения, используя значение режима:
mode_C = df['C'].mode()[0] df['C'].fillna(mode_C, inplace=True) print(df)
A B C 0 1.0 2.0 red 1 2.0 4.0 blue 2 3.0 6.0 blue 3 4.0 8.0 green 4 5.0 10.0 green 5 6.0 12.0 blue 6 7.0 14.0 red 7 8.0 16.0 blue 8 9.0 18.0 green 9 5.0 10.0 blue
Вот как вы можете заполнить пропущенные значения в ваших данных.
Краткое содержание
Итак, первый шаг — посмотреть, есть ли в ваших данных пропущенные значения. Если в ваших данных есть пропущенные значения, вам необходимо проверить распределение каждой числовой переменной (с пропущенными значениями). Если значения в числовых переменных отсутствуют, используйте Среднее значение, если переменная находится в нормальном распределении. В противном случае выберите Медиана. И если переменная является категориальной или дискретной, вы можете выбрать режим. Поэтому вам нужно выбрать другую меру для каждой переменной. Надеюсь, вам понравилась эта статья о том, как заполнить пропущенные значения в ваших данных. Не стесняйтесь задавать ценные вопросы в разделе комментариев ниже.