Python/이론정리 6

인코딩 vs 스케일링: 데이터 변환의 핵심 이해하기

인코딩은 데이터를 컴퓨터가 이해할 수 있는 형태로 변환하는 과정으로, 주로 문자형 데이터를 수치형 데이터로 변환할 때 사용된다. 머신러닝 알고리즘은 대부분 수치형 데이터를 처리하기 때문에, 텍스트나 범주형 데이터를 인코딩해야 한다.인코딩을 하는 이유머신러닝 모델 학습을 위해:머신러닝 모델은 텍스트 데이터를 직접 처리하지 못하고, 수치형 데이터만 처리할 수 있다.예를 들어, ['red', 'blue', 'green'] 같은 범주형 데이터를 모델이 이해하려면, 이를 수치형 데이터로 변환해야 한다.알고리즘의 수학적 계산을 위해:머신러닝 알고리즘은 수학적 계산(거리 계산, 경사하강법 등)을 기반으로 작동한다.텍스트 데이터는 수학적 연산이 불가능하므로, 이를 수치형 데이터로 변환해야 계산이 가능하다.데이터 표현의..

Python/이론정리 2025.01.30

회귀 모델 4종 비교: Linear, Logistic, Random Forest, XGBoost

각 알고리즘 간략한 설명과 특징  Logistic Regression (로지스틱 회귀)이진 또는 다중 분류 문제를 해결하는 모델로, 입력 데이터가 특정 클래스에 속할 확률을 예측함.특징: 확률 값(0~1)을 출력하며, 선형적으로 구분 가능한 데이터에 적합하지만, 복잡한 비선형 패턴을 학습하는 데 한다 LinearRegression (선형 회귀) 가장 기본적인 회귀 모델로, 입력 변수와 출력 변수 간의 선형 관계를 가정함.특징: 해석이 쉽고, 과적합(overfitting) 위험이 적지만, 데이터가 선형적이지 않으면 성능이 낮음. RandomForestRegressor (랜덤 포레스트 회귀)여러 개의 결정 트리를 앙상블 방식으로 조합하여 예측하는 모델.특징: 비선형 관계를 잘 학습하며, 노이즈에 강하지만 계..

Python/이론정리 2025.01.30

데이터 분석의 핵심: Pandas 주요 함수 정리

데이터 분석을 위한 Pandas 주요 함수 정리 Pandas는 데이터 분석과 조작을 위한 강력한 도구를 제공하며, 다양한 함수들을 통해 효율적으로 작업할 수 있다.아래는 데이터를 다루는 데 유용한 Pandas의 주요 함수들을 정리한 내용이다. 데이터 조작 함수add(), sub(), mul(), div(): 각각 덧셈, 뺄셈, 곱셈, 나눗셈 등의 산술 연산을 수행한다.sum(): 값들의 합을 계산한다.mean(): 평균값을 계산한다.prod(): 값들의 곱을 계산한다.abs(): 절댓값을 반환한다.데이터 분석 함수count(): NaN 값을 제외하고 행의 개수를 센다.size(): 요소의 전체 개수를 출력한다.unique(): 고유한 값들을 반환한다.nunique(): 고유한 값들의 개수를 반환한다.va..

Python/이론정리 2025.01.25

예측모델 및 분석대회 플랫폼 kaggle

Kaggle란?Kaggle은 데이터 분석과 머신러닝을 위한 대회, 데이터셋, 커뮤니티를 제공하는 플랫폼이다. Kaggle은 데이터 과학 및 머신러닝 학습, 대회 참여, 데이터셋 탐색 등을 위해 사용한다.활용 방법은 다음과 같다:학습: 코드 예제와 튜토리얼로 데이터 분석 및 머신러닝을 학습한다.데이터셋 탐색: 다양한 데이터셋을 찾아 프로젝트에 활용한다.경진대회 참여: 대회를 통해 문제 해결 능력을 키우고 상금 또는 명성을 얻는다.커뮤니티 활동: 데이터 과학자들과 토론하며 아이디어를 교환한다.  https://www.kaggle.com/ Kaggle: Your Machine Learning and Data Science CommunityKaggle is the world’s largest data scien..

Python/이론정리 2025.01.23

파이썬: 데이터 분석을 위한 판다스 활용

일차원 데이처이다  앞에 노란 상자는 인덱스이다  용어 필수 암기 판다스의 1차원 데이터는 Series(시리즈)라고 한다시리즈의 왼쪽 위 노란상자부분이 인덱스라한다 사람용 인덱스 그리고 노랑 상자 옆부분 오른쪽을 values라고 부른다.   이렇게 1차원 판다스 완성   판다스(Pandas)는 NumPy의 확장 버전으로,데이터를 더 효율적으로 다루고 분석할 수 있도록 설계된 라이브러리이다. 데이터 분석과 처리에 강력한 기능을 제공하여,구조화된 데이터를 쉽게 관리하고 분석할 수 있게 해준다.   가저와라 의 [ ]는 초록색 리스트여러개니깐 노란색으로 리스트  그리고 데이터를 가져올때 숫자로 생각안해도 사람친화적이라 눈에 보이는 데로 써도 괜찮다   위 처럼 연산도 직접적으로 하면된다. 이것이 판다스의 장점..

Python/이론정리 2025.01.22

인공지능 시대의 추천 서비스: 데이터가 이끄는 혁신

인공지능 시대의 추천 서비스    인공지능이 활성화되기 전에는 사용자가 단순히 원하는 서비스를 선택하고 소비하는 방식이 일반적이었다. 예를 들어, 배달 플랫폼에서는 사용자가 음식점을 골라 주문하면, 플랫폼은 단순히 중개 수수료를 통해 수익을 얻는다. 그러나 서비스가 발전하면서 고객 데이터베이스가 축적되고, 이를 활용해 고객 맞춤형 추천 서비스를 제공하려는 움직임이 시작된다. 고객 데이터를 분석하면 간단한 통계로도 많은 것을 알 수 있다. 예를 들어, 어떤 사람은 밤에 술안주를 자주 주문하고, 또 다른 사람은 낮에 특정 메뉴를 주로 소비하는 패턴이 보인다. 이렇게 쌓인 데이터를 활용하면 소비자에게 더 나은 추천을 제공할 수 있다.이는 단순히 데이터를 저장하는 것을 넘어, 이를 분석해 인사이트를 제공하는 새..

Python/이론정리 2025.01.16