Python

Вот как заполнить пропущенные значения в наборе данных

Подготовка данных — один из самых ценных навыков каждого Наука о данных должен быть у профессионала. Одной из сложных задач при подготовке данных является заполнение пропущенных значений и принятие решения о том, какую меру следует рассматривать между средним, медианой и модой, чтобы заполнить пропущенные значения в наборе данных. Итак, если вы хотите узнать, как заполнить пропущенные значения и как выбрать стратегию, эта статья для вас. В этой статье я расскажу, как заполнить пропущенные значения в наборе данных.

Вот как выбрать между средним, медианой и модой, чтобы заполнить пропущенные значения

Выбор между средним, медианным и режимом для заполнения пропущенных значений в наборе данных зависит от данных, с которыми вы работаете. Ниже приведены некоторые ценные рекомендации, которые помогут вам решить, что выбрать между средним значением, медианой и модой, чтобы заполнить пропущенные значения в наборе данных:

  1. Среднее: когда ваш набор данных находится в нормальное распределениевы можете использовать среднее значение, чтобы заполнить пропущенные значения.
  2. Медиана: если ваш набор данных не находится в нормальном распределении, вы можете использовать медианное значение, чтобы заполнить пропущенные значения.
  3. Режим: когда пропущенные значения в ваших данных являются категориальными и дискретными, вы можете использовать значение режима, чтобы заполнить пропущенные значения.

Итак, первый шаг — посмотреть, есть ли в ваших данных пропущенные значения. Если в ваших данных есть пропущенные значения, вам необходимо проверить распределение каждой числовой переменной (с пропущенными значениями). Если значения в числовых переменных отсутствуют, используйте Среднее значение, если переменная находится в нормальном распределении. В противном случае выберите Медиана. И если переменная является категориальной или дискретной, вы можете выбрать режим. Поэтому вам нужно выбрать другую меру для каждой переменной.

Теперь вот как заполнить пропущенные значения в наборе данных

Теперь давайте создадим образец данных с пропущенными значениями, чтобы мы могли заполнить пропущенные значения с помощью среднего, медианы и режима:

import pandas as pd
import numpy as np

data = {'A': [1, 2, 3, 4, np.nan, 6, 7, 8, 9, np.nan],
        'B': [2, 4, 6, 8, np.nan, 12, 14, 16, 18, np.nan],
        'C': ['red', 'blue', np.nan, 'green', 'green', 
              'blue', 'red', 'blue', 'green', np.nan]}
df = pd.DataFrame(data)
print(df)
     A     B      C
0  1.0   2.0    red
1  2.0   4.0   blue
2  3.0   6.0    NaN
3  4.0   8.0  green
4  NaN   NaN  green
5  6.0  12.0   blue
6  7.0  14.0    red
7  8.0  16.0   blue
8  9.0  18.0  green
9  NaN   NaN    NaN

Вот как заполнить пропущенные значения, используя среднее значение:

mean_A = df['A'].mean()
df['A'].fillna(mean_A, inplace=True)
print(df)
     A     B      C
0  1.0   2.0    red
1  2.0   4.0   blue
2  3.0   6.0    NaN
3  4.0   8.0  green
4  5.0   NaN  green
5  6.0  12.0   blue
6  7.0  14.0    red
7  8.0  16.0   blue
8  9.0  18.0  green
9  5.0   NaN    NaN

Вот как заполнить пропущенные значения, используя медианное значение:

median_B = df['B'].median()
df['B'].fillna(median_B, inplace=True)
print(df)
     A     B      C
0  1.0   2.0    red
1  2.0   4.0   blue
2  3.0   6.0    NaN
3  4.0   8.0  green
4  5.0  10.0  green
5  6.0  12.0   blue
6  7.0  14.0    red
7  8.0  16.0   blue
8  9.0  18.0  green
9  5.0  10.0    NaN

А теперь вот как заполнить пропущенные значения, используя значение режима:

mode_C = df['C'].mode()[0]
df['C'].fillna(mode_C, inplace=True)
print(df)
     A     B      C
0  1.0   2.0    red
1  2.0   4.0   blue
2  3.0   6.0   blue
3  4.0   8.0  green
4  5.0  10.0  green
5  6.0  12.0   blue
6  7.0  14.0    red
7  8.0  16.0   blue
8  9.0  18.0  green
9  5.0  10.0   blue

Вот как вы можете заполнить пропущенные значения в ваших данных.

Краткое содержание

Итак, первый шаг — посмотреть, есть ли в ваших данных пропущенные значения. Если в ваших данных есть пропущенные значения, вам необходимо проверить распределение каждой числовой переменной (с пропущенными значениями). Если значения в числовых переменных отсутствуют, используйте Среднее значение, если переменная находится в нормальном распределении. В противном случае выберите Медиана. И если переменная является категориальной или дискретной, вы можете выбрать режим. Поэтому вам нужно выбрать другую меру для каждой переменной. Надеюсь, вам понравилась эта статья о том, как заполнить пропущенные значения в ваших данных. Не стесняйтесь задавать ценные вопросы в разделе комментариев ниже.

Source link

Похожие статьи

Кнопка «Наверх»