전처리 Pipleline
- TreebankWordTokenizer
- to small letter
- 구두점과 공백 제거 (끝에 붙은 경우만)
- 일부 특수문자를 제외하고 알파벳이외의 문자 전부 제외
- remove short word (len < 3)
- stopword
- nltk english
- perfume name
- spelling 교정
- 품사 태깅
- lemmatization
- remove short word (len < 3)
[펌] javascript 특수문자 제거 정규식
향수 이름 토큰 추출
perfume_name_words.json
stopwords 는 우리가 사용할 전처리 pipeline 과 동일한 절차를 거쳐 나간 것이야 함.
전처리된 데이터
perfume-reconmendation/preprocessing
dataset_210522_162532.csv
dataset_210626_215600.csv