본문 바로가기

데이터분석14

[data mining] 지도학습 #1_로지스틱 회귀(logistic regression)_R 0. 정의 및 종류 Logistic regression(로지스틱 회귀) : 새로운 설명변수의 값이 주어질 때 반응변수의 각 범주(집단)에 속할 확률이 얼마인지 예측하거나, 추정확률의 기준치에 따라 분류의 목적으로 사용하는 모델. 단, 반응변수는 범주형이며, 모형의 적합을 통해 추정된 확률을 사후확률이라고 한다. (반응변수의 범주가 3개 이상 => 다범주(다중) 로지스틱 회귀모형 반응변수의 범주가 순서적인 경우 => 순서형 로지스틱 회귀모형) 1. 모형 해석 - odds의 관점에서 해석할 수 있다. 이를 iris 자료를 통해 살펴보면 다음과 같다. 2. 예제 2-1. iris의 setosa와 versicolor로만 이분형 로지스틱 회귀 적용 시 모형 생성 및 분류, 예측, 시각화 ## binomial lo.. 2023. 1. 21.
[data mining] 지도 학습과 비지도 학습_정의, 목적, 예, 사용하는 변수 자료형 각 학습에 대해 설명하기 앞서 간단하게 가장 큰 차이점을 언급하면 모형 구축 시 사용하는 데이터의 결과 값이 있는지(지도학습) 없는지(비지도학습)에 의해 분류한다. 1. 지도학습(supervised learning) : 결과 값이 알려진 다변량 자료로 모형 구축 후, 새로운 자료에 대한 결과값을 예측 또는 분류 수행. 이때 결과 값의 자료 형에 따라 새로운 자료에 대한 주목적이 다르다. 결과 값의 자료형 새로운 데이터에 대한 목적 범주형 분류(classification) 연속형 예측(prediction) 하지만 유사한 의미로 사용되어 지도학습을 예측모형이라고도 함. - 범주형 자료: 성별, 등급 등 집단으로 구분 가능한 자료 - 연속형 자료: 키, 온도, 주와 같이 해당 범위 안에 연속된 수치로 구성된 .. 2023. 1. 13.
[R/RStudio] .R파일 불러올 때 한글 깨짐 해결(2가지 방법) 0. 한글 깨짐 현상 1. 해결 아래 두가지 방법 중 하나만 실행해도 한글 깨짐 해결 가능. (방법1) File > Reopen with Encoding > UTF-8 (방법2) Tools > Global Opthions > Code > Saving > Default text encoding : UTF-8 Default text encoding 설정을 Change를 눌러 UTF-8로 변경 2022. 12. 4.
[R] logistic regression warning_glm.fit: 적합된 확률값들이 0 또는 1입니다. glm.fit: 알고리즘이 수렴하지 않았습니다. 0. warning log data.level 2022. 11. 22.
빅데이터(BigData) 의미와 특징 Big Data 의미: 기존의 데이터베이스(DB) 관리 도구의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 데이터 발생 배경: 디지털 기기 보급과 SNS 부상 등 특징 앞에서부터 3V가 기본이지만 데이터로부터 가치를 얻어내는 것이 중요해진 후 5V까지, 최근에는 7V까지도 특징으로 언급하곤 함. volume = 크기 일반적으로 수십 TB, PB이상의 범위. variety = 다양성 데이터 정형화 정도의 다양성(3가지) 정형(structured) 데이터 : 고정된 필드에 저장. 일정한 형식. ex) excel 파일등의 테이블 형태의 데이터 반정형(semi-structured) 데이터 : 고정된 필드는 아니지만 메타데이터나 구조정보 (XML or HTML) 등. 일정한 구조는 없으나 구조파악 가능 데이.. 2022. 11. 14.