NLTK 토크 나이저를 사용하여 구두점을 제거하는 방법은 무엇입니까? 방금 NLTK를 사용하기 시작했는데 텍스트에서 단어 목록을 얻는 방법을 잘 모르겠습니다. 을 사용하면 nltk.word_tokenize()단어 목록과 구두점을 얻습니다. 대신 단어 만 필요합니다. 구두점을 제거하려면 어떻게해야합니까? 또한 word_tokenize여러 문장에서 작동하지 않습니다. 점이 마지막 단어에 추가됩니다. nltk가 여기에서 제공하는 다른 토큰 화 옵션을 살펴 보십시오 . 예를 들어 일련의 영숫자 문자를 토큰으로 선택하고 나머지는 모두 삭제하는 토크 나이저를 정의 할 수 있습니다. from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+..