본문 바로가기

분류 전체보기

(18)
R로 로지스틱 함수 그래프 그리기 0. Introduction 로지스틱 회귀분석 정리하다가 설명을 위해 로지스틱 함수 그래프를 그렸다. 처음엔 왕 간단하게 ggplot2로 해결하려다가 이왕 블로그에 올리는 거니 쪼금 예쁘게 그려야지 하다가 좀 길어졌다. 고로 어떻게 쪼금이나마 예쁘게 그렸는지를 보여주려고 한다! 아래는 단계별로 그래프가 어떻게 변화했는지를 보여준다. 사실 큰 차이는 없고 ㅎㅎ 그냥 어떻게하면 그래프가 좀 깔끔해질까를 고민하다가 만든거다. 아무것도 안하고 그냥 고대로 쓰면 맨 왼쪽이고, 조금 신경쓰면 오른쪽이니 각자 성향껏 그래프를 맘대로 만져보자는 취지! 1. ggplot2의 원리 왜 다짜고짜 ggplot의 원리를 알아보자고 하냐면 'R은 시각화가 빵빵해 = ggplot2을 써!' 나 다름없기 때문이다. 근데 또 막상 g..
Intro to Visualization 이것저것 하다가 만든 시각화 그래프들에 대해 틈나는 대로 정리해보려고 한다. 만들면 까먹고 만들면 까먹고 무한반복에서 벗어나고 싶다는 의지!로!다가! 언어는 R, Python을 사용할거고 거의 R은 ggplot2, Python은 matplotlib, seaborn 라이브러리들을 자유자재로 사용하기 위해 용쓰는(?) 글이 되지 않을까 싶다. 예전에 map 시각화한 것도 있는데 그것도 시간되면 한번 쫘아악 정리해서 올려보고 싶다(는 마음...) + 이참에 tableau도 공부를 해보자
더미 변수(Dummy Variable)와 회귀분석 더미 변수(Dummy Variable)의 이해 회귀분석에서 일반적으로 다루어지는 변수는 온도, 습도, 가격 등 같이 양적으로 비교가 가능한 변수들이다. 하지만, 양적으로 비교가 안되는 질적변수(e.g. 성별, 인종, 학력 등)를 표현하기 위해 더미변수를 사용한다. 회귀분석에서 더미 변수는 표본공간 내에 들어가면 1을 주고, 그렇지 않으면 0을 줌으로써 어떤 특징의 존재 여부를 체크하는 변수다. Full Rank or not... 하지만 요놈이 회귀분석을 할 때, $X$의 rank를 Full rank(완전계수) 로 만들지 못하면 망해버린다. 즉, 열과 행간의 종속 관계가 생겨버리면 $XX^{'}$ 행렬식이 0이 되서 역행렬이 존재하지 않는 비정책행렬이 돼버리기 때문에 OLS1(Ordinary Least S..
고유값과 고유벡터 0. Introduction 주성분분석(Principal Component Analysis)을 공부할 때 '고유값 분해'에 대한 내용이 나온다. PCA는 데이터 분포의 주성분을 분석하여 차원을 축소시키는 방법 중 하나로, 고유값 분해는 이러한 주성분 벡터를 찾아낼 때 사용된다. 데이터의 공분산행렬을 찾아서 고유값 분해를 통해 분산을 최대한 유지시켜 주는 공헌도가 큰(값이 큰) 고유값과 고유벡터를 찾아 데이터를 그 고유벡터에 투영시키는 거다. 1. 고유값(EigenValue)과 고유벡터(EigenVector)란? 정방행렬 $A$, 실수 $\lambda$, 벡터 $u$에 대해, $Au = \lambda u$인 $u \neq 0$인 벡터 $u$가 존재하면, 실수 $\lambda$를 $A$의 고유값이라 하고, ..
행렬대수 수리통계학을 공부하다보면 대부분의 수학적 증명이 행렬로 표현되어 있는 걸 볼 수 있다.(특히 다중회귀분석) 이렇게 표현하는게 이해하기 쉽다고 하는 데 하여튼 표현하는 데 편하다는 거엔 동의를 하지만...(입틀막) 행렬의 성질과 계산에 약하면 돌고돌아서 정체불명의 알 수 없는 결론에 도달한 스스로를 발견할 수 있다. 그런고로 자주 나오는 용어와 성질들을 정리해보도록 하자! 행렬에 어느정도 익숙한 사람 입장에서 쓴 내용이니 감안해서 읽도록 하자 1. 행렬의 정의(Matrix) 행렬이란 행과 열로 배열된 수들 바로 행렬 표현식을 봐보자 $$ A = (a_{ij}) = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & ..
SQL 웹 공부 사이트 SQL은 예전부터 '공부해야지...(먼산)' 하다가 얼마전부터 Sqld랑 정보처리기사 필기를 준비하면서 개념부터 다시 보고 있다! (비록 시험은 취소되거나 연기됐지만...) 이론 위주로 공부하다보니 실제로 사용할 때 손이 머리를 안 따라올 것 같아서 찾아보던 중 예전에 잠깐 활용했던 사이트를 재발견했다(!) 주변 지인들한테도 SQL 연습하기에 좋다고 해서 추천했었는데... 직접 추천한만큼 나도 좀 제대로 활용해봐야겠다 w3schools.com 라고 교육용 웹 사이트인데 이미 데이터들이 다 구축되어 있어서 JOIN, GROUP BY, SELECT... 등 DML 쪽으로 공부하기 좋은 거 같당.
Intro to Machine Learning 머리 속에 이리저리 흩어져있는 내용들을 정리하고 다시 복습하자는 의미에서 코세라 Andrew Ng 교수님의 머신러닝 강의를 수강하려고 한다! 데일리 수강이 목표인만큼 꾸준히 들어서 정리해놔야겠다 호호 ;)
베이지안 추론 예시 0. INTRO 이전 글 : 베이지안 추론이 뭔데? 1. 베이지안 추론 예시 (With 파이썬) 이번에는 베이지안 추론 과정을 파이썬 코드로 확인해보고자 한다. (파이썬 코드는 출처에 기재된 사이트를 참고했다.) 예제 : 아이돌일까, 농부일까? 태태라는 사람이 있다. 그는 세계 미남 1위이다. 그는 춤추고 노래부르는 걸 좋아하며 사람들의 관심을 즐길 줄 아는 사교성을 가지고 있다. 여러분은 태태가 아이돌이라고 생각하는가 아니면 농부라고 생각하는가? 위 설명을 고려해본다면 태태는 아이돌일 가능성이 더 커보이고 대다수의 사람들이 이에 동의할 것이다. 하지만 여기에 직업적인 배경 분포를 가정해보자. 가령, 남자아이돌과 남자 농부의 비율이 1:24이라고 한다면 태태는 통계적으로 농부일 가능성이 더 크다! 이와 ..