지이: BERT를 Pre-train 하려면 어마어마한 시간과 컴퓨팅 파워, 데이터셋이 필요하다. FineTuning 이 좋을 것 같다.
규원: Transformer 모델은 결국 Attention 을 하기 때문에 Attention 된 단어를 키워드로 잡으면 어떨까?
규원: Pretrain 된 좋은 BERT 모델을 잘 찾아야 한다.
규원: 클러스터링용 모델 찾음
sentence-transformers/distiluse-base-multilingual-cased-v1 · Hugging Face
규원: 과연 저 모델이 군집화를 잘 시킬까? 성능 테스트는 어떻게 하지?
규원: 성능 테스트
규원: 완전 pip 로 패키징 되어있어서 fine tuning 을 어떻게 하지??
규원: BERT 테스트
규원: 더 좋은 테스트 방법 없을까유,,
규원: @진현영 현영님 단어 토큰화를 tokenized_doc = user_setence.split() # 토큰화
이거 쓰시는 이유가 있으신가요?? 저는 from nltk.tokenize import TreebankWordTokenizer\\ tokenizer = TreebankWordTokenizer()
이거 써서요!!
현영: 아하 저도 그냥 임시로 토큰화 한거였어요! 규원님 전처리 코드 다 파악을 못해성 허허
규원: 전처리 과정은 통일되는게 좋겠어요. 다음주에 Product 화 할때는 하나의 모듈로 사용 할 수 있게 할게요~
규원: Google Drive 마운트 방식으로는 협업이 어려워서 뭔가 데이터셋 공유가 쉬운 방법이 있으면 좋을듯...
규원: Gradle 이나 NPM 처럼 딱 프로젝트를 실행시키면 바로 해당 패키지에서 필요한 패키지가 모두 설치되게 하는 방법은 없을까??
규원
규원: apply vs for