IT story

파이썬에서 피클의 일반적인 사용 사례

hot-time 2020. 7. 8. 07:35
반응형

파이썬에서 피클의 일반적인 사용 사례


피클 문서를 살펴 보았지만 피클이 어디에 유용한 지 이해하지 못했습니다.

피클의 일반적인 사용 사례는 무엇입니까?


내가 본 몇 가지 용도 :

1) 프로그램의 상태 데이터를 디스크에 저장하여 다시 시작할 때 중단 된 부분을 유지할 수 있습니다 (지속성)

2) 멀티 코어 또는 분산 시스템에서 TCP 연결을 통해 파이썬 데이터 전송 (마샬링)

3) 파이썬 객체를 데이터베이스에 저장

4) 임의의 파이썬 객체를 문자열로 변환하여 사전 키로 사용할 수 있습니다 (예 : 캐싱 및 메모).

마지막 개체에는 몇 가지 문제가 있습니다. 두 개의 동일한 객체를 선택하여 다른 문자열을 만들 수도 있습니다. 또는 동일한 객체를 두 번 선택한 경우에도 다른 표현을 가질 수 있습니다. 피클에 참조 카운트 정보가 포함될 수 있기 때문입니다.

@lunaryorn의 의견을 강조하려면 신중하게 조작 된 피클이 시스템에서 임의의 코드를 실행할 수 있으므로 신뢰할 수없는 소스에서 문자열을 피클 링해서는 안됩니다. 예를 들어 https://blog.nelhage.com/2011/03/exploiting-pickle/을 참조 하십시오.


최소 왕복 예 ..

>>> import pickle
>>> a = Anon()
>>> a.foo = 'bar'
>>> pickled = pickle.dumps(a)
>>> unpickled = pickle.loads(pickled)
>>> unpickled.foo
'bar'

편집 : 그러나 산세의 실제 예에 대한 질문에 관해서는 아마도 산세 가장 고급 사용 ( 아마도 소스를 깊이 파헤쳐 야 할 것입니다)은 ZODB입니다 : http://svn.zope.org/

그렇지 않으면 PyPI가 몇 가지를 언급합니다 : http://pypi.python.org/pypi?:action=search&term=pickle&submit=search

나는 개인적으로 사용하기 쉬운 네트워크 전송 프로토콜로 네트워크를 통해 절인 객체가 전송되는 몇 가지 예를 보았습니다.


내 프로젝트 중 하나에서 사용했습니다. 앱이 작동하는 동안 종료 된 경우 (긴 작업을 수행하고 많은 양의 데이터를 처리) 전체 데이터 구조를 저장하고 앱이 다시 실행 된 후 다시로드해야했습니다. 속도가 중요하고 데이터 크기가 실제로 크기 때문에 cPickle을 사용했습니다.


분산 및 병렬 컴퓨팅에는 산세가 반드시 필요합니다.

병렬 맵 축소를 사용하여 multiprocessing(또는 pyina를 사용 하여 클러스터 노드에서 ) 병렬 리소스를 통해 매핑하려는 기능이 피클인지 확인해야한다고 가정 해보십시오 . 피클 링되지 않으면 다른 프로세스, 컴퓨터 등의 다른 리소스로 보낼 수 없습니다 . 좋은 예는 여기참조 하십시오 .

이를 위해 파이썬에서 거의 모든 것을 직렬화 할 수있는 dill을 사용 합니다. Dill에는 코드가 실패 할 때 산세가 실패하는 원인을 이해하는 데 도움이되는 유용한 도구 도 있습니다 .

그리고, 사람들은 선택을 사용하여 계산 상태, ipython 세션 등 을 저장합니다 .


초보자에게는 (나와 마찬가지로) 공식 문서를 읽을 때 왜 피클을 처음 사용하는지 이해하기가 어렵습니다 . 문서가 직렬화의 전체 목적을 이미 알고 있음을 암시하기 때문일 수 있습니다. 직렬화에 대한 일반적인 설명읽은 후에 만이 모듈과 그 일반적인 사용 사례의 이유를 이해했습니다. 특정 프로그래밍 언어를 무시하고 직렬화에 대한 광범위한 설명은 도움이 될 수 있습니다. https://stackoverflow.com/a/14482962/4383472 , 직렬화 란 무엇입니까? , https://stackoverflow.com/a/3984483/4383472


Pickle은 데이터 구조 및 클래스의 "다른 이름으로 저장 .."및 "열기 .."와 같습니다. 프로그램 실행간에 지속되도록 데이터 구조를 저장하려고한다고 가정하겠습니다.

절약:

with open("save.p", "wb") as f:    
    pickle.dump(myStuff, f)        

로딩 :

try:
    with open("save.p", "rb") as f:
        myStuff = pickle.load(f)
except:
    myStuff = defaultdict(dict)

이제 처음부터 myStuff를 처음부터 다시 구축 할 필요가 없으며, 내가 중단 한 곳에서 픽업 할 수 있습니다.


실제 예제를 추가하려면 : Python 용 Sphinx 문서 도구는 피클을 사용하여 구문 분석 된 문서와 문서 간 상호 참조를 캐시하여 문서의 후속 빌드 속도를 높입니다.


내가 사용하는 용도를 말하고 용도가 무엇인지 알 수 있습니다.

  • 게임 프로필 저장
  • 생명과 건강 같은 게임 데이터 저장
  • 프로그램에 입력 된 말 번호의 이전 레코드

그것들은 내가 적어도 그것을 사용하는 것입니다


나는 웹 사이트 중 하나를 웹 스크랩하는 동안 산세를 사용하고 8000k 개 이상의 URL을 저장하고 가능한 한 빨리 처리하고 싶습니다. 따라서 출력 품질이 매우 높기 때문에 산세를 사용합니다.

당신은 쉽게 URL에 도달 할 수 있으며 작업 디렉토리 키워드조차도 프로세스를 재개하기 위해 매우 빠른 URL 세부 정보를 가져옵니다.

참고 URL : https://stackoverflow.com/questions/3438675/common-use-cases-for-pickle-in-python

반응형