무료 환경에서 Hugging Face 언어 모델 학습과 배포
! pip install datasets 트레인 데이터에서는 텍스트 부분을 패딩하여 토큰을 생성하고, 한 줄씩 처리하여 변환한다. 이를 map() 함수를 통해 수행한다. train_dataset.map(tokenize_function, batched=True)를 사용하면 기존 컬럼에 토큰화된 데이터가 추가된다. 만약 필요 없는 원본 컬럼을 삭제하려면 remove_columns 옵션을 활용하면 된다. 이를 통해 데이터 크기를 줄이고, 모델 학습에 필요한 정보만 유지할 수 있다. 데이터셋을 train과 test로 분할한 후, map() 함수를 사용하여 tokenize_function을 적용한다. 이 과정에서 batched=True를 설정하여 배치 단위로 처리하며, 필요 없는 text 컬럼은 remove..