dict를 사용하여 팬더 열의 값을 다시 매핑하십시오.

IT story

dict를 사용하여 팬더 열의 값을 다시 매핑하십시오.

hot-time 2020. 4. 9. 08:09

dict를 사용하여 팬더 열의 값을 다시 매핑하십시오.

다음과 같은 사전이 있습니다. di = {1: "A", 2: "B"}

다음과 유사한 데이터 프레임의 "col1"열에 적용하고 싶습니다.

     col1   col2
0       w      a
1       1      2
2       2    NaN

얻을 :

     col1   col2
0       w      a
1       A      2
2       B    NaN

어떻게하면 가장 잘 할 수 있습니까? 어떤 이유로 든 이것에 관한 인터넷 검색 용어는 dicts에서 열을 만드는 방법에 대한 링크만을 보여줍니다.

사용할 수 있습니다 .replace. 예를 들면 다음과 같습니다.

>>> df = pd.DataFrame({'col2': {0: 'a', 1: 2, 2: np.nan}, 'col1': {0: 'w', 1: 1, 2: 2}})
>>> di = {1: "A", 2: "B"}
>>> df
  col1 col2
0    w    a
1    1    2
2    2  NaN
>>> df.replace({"col1": di})
  col1 col2
0    w    a
1    A    2
2    B  NaN

또는 직접 Series, 즉 df["col1"].replace(di, inplace=True).

`map` 보다 훨씬 빠를 수 있습니다 `replace`

사전에 두 개 이상의 키가있는 경우을 사용하는 map것이보다 빠를 수 있습니다 replace. 사전에서 가능한 모든 값을 철저하게 매핑하는지 여부와 일치하지 않는 값으로 값을 유지하거나 NaN으로 변환할지에 따라이 방법의 두 가지 버전이 있습니다.

철저한 매핑

이 경우 양식은 매우 간단합니다.

df['col1'].map(di)       # note: if the dictionary does not exhaustively map all
                         # entries then non-matched entries are changed to NaNs

하지만 map대부분은 일반적으로 인수로서 기능을한다, 그것은 대안 사전이나 시리즈 걸릴 수 Pandas.series.map에 대한 설명서를

철저하지 않은 매핑

완전하지 않은 매핑이 있고 일치하지 않는 기존 변수를 유지하려는 경우 다음을 추가 할 수 있습니다 fillna.

df['col1'].map(di).fillna(df['col1'])

@ jpp의 대답과 같이 : 사전을 통해 팬더 시리즈의 값을 효율적으로 대체 하십시오.

벤치 마크

팬더 버전 0.23.1에서 다음 데이터 사용 :

di = {1: "A", 2: "B", 3: "C", 4: "D", 5: "E", 6: "F", 7: "G", 8: "H" }
df = pd.DataFrame({ 'col1': np.random.choice( range(1,9), 100000 ) })

로 테스트하면 약 10 배 빠른 것으로 %timeit보입니다 .mapreplace

속도 map는 데이터에 따라 다릅니다. 가장 큰 속도 향상은 큰 사전과 철저한 교체로 나타납니다. 보다 광범위한 벤치 마크 및 토론은 @jpp answer (위 링크 됨)를 참조하십시오.

귀하의 질문에 약간의 모호성이 있습니다. 최소한 세 가지 해석이 있습니다.

키는 di인덱스 값 을 나타냅니다
키는 값 을 di나타냅니다df['col1']
의 키는 di색인 위치를 나타냅니다 (OP의 질문은 아니지만 재미를 위해 던져졌습니다).

아래는 각 경우에 대한 솔루션입니다.

사례 1 : 키 di가 인덱스 값을 의미하는 경우 다음 update방법을 사용할 수 있습니다 .

df['col1'].update(pd.Series(di))

예를 들어

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
#   col1 col2
# 1    w    a
# 2   10   30
# 0   20  NaN

di = {0: "A", 2: "B"}

# The value at the 0-index is mapped to 'A', the value at the 2-index is mapped to 'B'
df['col1'].update(pd.Series(di))
print(df)

수확량

  col1 col2
1    w    a
2    B   30
0    A  NaN

원래 게시물의 값을 수정하여 update수행중인 작업을 보다 명확하게했습니다 . 키 di가 색인 값과 어떻게 연관되어 있는지 확인하십시오 . 인덱스 값의 순서, 즉 인덱스 위치 는 중요하지 않습니다.

사례 2 : 키 di가 df['col1']값을 나타내는 경우 @DanAllan 및 @DSM은 다음을 사용하여이를 달성하는 방법을 보여줍니다 replace.

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
print(df)
#   col1 col2
# 1    w    a
# 2   10   30
# 0   20  NaN

di = {10: "A", 20: "B"}

# The values 10 and 20 are replaced by 'A' and 'B'
df['col1'].replace(di, inplace=True)
print(df)

수확량

  col1 col2
1    w    a
2    A   30
0    B  NaN

이 경우 키에이 방법을 참고 di경기에 변경된 값 으로 df['col1'].

사례 3 : 키 di가 색인 위치를 나타내는 경우

df['col1'].put(di.keys(), di.values())

이후

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
di = {0: "A", 2: "B"}

# The values at the 0 and 2 index locations are replaced by 'A' and 'B'
df['col1'].put(di.keys(), di.values())
print(df)

수확량

  col1 col2
1    A    a
2   10   30
0    B  NaN

열쇠로 인해 여기서, 첫 번째와 세 번째 행은, 변경 한 di있다 0및 2파이썬의 0 기반 인덱스로 첫 번째와 세 번째 위치를 참조한다.

데이터 데이터 프레임에서 다시 매핑 할 열이 두 개 이상인 경우이 질문에 추가하십시오.

def remap(data,dict_labels):
    """
    This function take in a dictionnary of labels : dict_labels 
    and replace the values (previously labelencode) into the string.

    ex: dict_labels = {{'col1':{1:'A',2:'B'}}

    """
    for field,values in dict_labels.items():
        print("I am remapping %s"%field)
        data.replace({field:values},inplace=True)
    print("DONE")

    return data

누군가에게 유용 할 수 있기를 바랍니다.

건배

DSM에 허용되는 답변이 있지만 코딩이 모든 사람에게 적합한 것은 아닙니다. 다음은 현재 버전의 팬더 (2018 년 8 월 현재 0.23.4)에서 작동하는 것입니다.

import pandas as pd

df = pd.DataFrame({'col1': [1, 2, 2, 3, 1],
            'col2': ['negative', 'positive', 'neutral', 'neutral', 'positive']})

conversion_dict = {'negative': -1, 'neutral': 0, 'positive': 1}
df['converted_column'] = df['col2'].replace(conversion_dict)

print(df.head())

다음과 같이 보일 것입니다 :

   col1      col2  converted_column
0     1  negative                -1
1     2  positive                 1
2     2   neutral                 0
3     3   neutral                 0
4     1  positive                 1

pandas.DataFrame.replace 문서 는 여기에 있습니다 .

또는 수행 apply:

df['col1'].apply(lambda x: {1: "A", 2: "B"}.get(x,x))

데모:

>>> df['col1']=df['col1'].apply(lambda x: {1: "A", 2: "B"}.get(x,x))
>>> df
  col1 col2
0    w    a
1    1    2
2    2  NaN
>>>

보다 기본적인 팬더 접근법은 다음과 같이 바꾸기 기능을 적용하는 것입니다.

def multiple_replace(dict, text):
  # Create a regular expression  from the dictionary keys
  regex = re.compile("(%s)" % "|".join(map(re.escape, dict.keys())))

  # For each match, look-up corresponding value in dictionary
  return regex.sub(lambda mo: dict[mo.string[mo.start():mo.end()]], text)

함수를 정의한 후에는 데이터 프레임에 적용 할 수 있습니다.

di = {1: "A", 2: "B"}
df['col1'] = df.apply(lambda row: multiple_replace(di, row['col1']), axis=1)

클래스 레이블 맵을 유지하는 훌륭한 완벽한 솔루션 :

labels = features['col1'].unique()
labels_dict = dict(zip(labels, range(len(labels))))
features = features.replace({"col1": labels_dict})

이런 식으로, 당신은 언제든지 labels_dict에서 원래 클래스 레이블을 참조 할 수 있습니다.

참고 URL : https://stackoverflow.com/questions/20250771/remap-values-in-pandas-column-with-a-dict

'IT story' 카테고리의 다른 글

널 입력 가능 유형 및 삼항 연산자 : 왜`? (0)	2020.04.09
이전 버전의 Hibernate (~ 2009)를 사용하여 행을 어떻게 계산합니까? (0)	2020.04.09
Eclipse는 일치하는 변수를 강조 표시하지 않습니다 (0)	2020.04.09
CSS의 HTML colspan (0)	2020.04.09
.NET 사전에 중복 키가 있습니까? (0)	2020.04.09

현재글dict를 사용하여 팬더 열의 값을 다시 매핑하십시오.

hot-time

dict를 사용하여 팬더 열의 값을 다시 매핑하십시오.

dict를 사용하여 팬더 열의 값을 다시 매핑하십시오.

`map` 보다 훨씬 빠를 수 있습니다 `replace`

철저한 매핑

철저하지 않은 매핑

벤치 마크

'IT story' 카테고리의 다른 글

'IT story'의 다른글

티스토리툴바

dict를 사용하여 팬더 열의 값을 다시 매핑하십시오.

dict를 사용하여 팬더 열의 값을 다시 매핑하십시오.

map 보다 훨씬 빠를 수 있습니다 replace

철저한 매핑

철저하지 않은 매핑

벤치 마크

'IT story' 카테고리의 다른 글

'IT story'의 다른글

관련글

티스토리툴바

`map` 보다 훨씬 빠를 수 있습니다 `replace`