VSC

보험청구 금액예측하는 인공지능 개발(pipeline)

qoeka 2025. 2. 5. 10:45

 

 

 

 

드랍해서 사용했지만 이제는 평균을 내서 채우는 것을 할 것이다.

#컬럼이름을 분리해서 저장

 

 

 

 수치형 데이터 NaN을 각 컬럼의 평균값으로 채운다
카테고리컬 데이터는 레이블인코딩 원핫 인코딩한다

 

 

 

 

 sklearn 의 pipeline 라이브러릴 사용할 것이니까
Nan을 채운 것은 fillna 함수대신 SimpleImputer

 기본은 평균으로 채워라 이게 디폴트 값이다 이제 이곳에 섬을 넣는 식으로 하면된다

 

 

 

파이프라인을 쓸떄는 오디널 인코더를 쓴다

 

 

 

우리가 갖고 있는 컬럼을 한번에 처리 할 수 있다

 

 

뭐하고 뭐하고 뭐하고 하는 스텝 여러개니깐 리스트 튜플로 하고 이름을 먼저 지어준다 그리고 우리가 프로세싱을 실제로 해준(전처리해준)걸 넣어 준다

 

그리고 또 퓨플로 모델링 이름 넣어 주고 모델링한건 리그레서니깐 리그레서 넣어 준다.

 

 

파이프라인을 이용하면 좋은점!

이 파이프라인만 파일로 저장하면 서비스 배포라때 이파일만있으면 
 예측할 데이타만 그냥 넣어주면, 
파이프라인 내부적으로 데이터 전처리해서 결과를 알려준다