R 데이터분석 DB table 처럼 만들어 보자 data.frame 데이터프레임
R 데이터분석 DB table 처럼 만들어 보자 data.frame 데이터프레임
DB 테이블 처럼 row 와 column 이 있는 데이터셋이 R에서는 data frame 입니다.
row는 vectors의 데이터가, cloumn명은 vectors의 이름이 되는데요
vectors에 대한 설명은 아래의 link를 참고하세요.
Link : https://aljjabaegi.tistory.com/513
R 변수 선언, 할당, 초기화, 확인, 삭제 About R Variable, vector object, vectors
R 변수 선언, 할당, 초기화, 확인 삭제 방법 R Variable, vector object, vectors R console 에서의 명령어는 한줄밖에 실행을 못하기 때문에 script 를 생성해서 하겠습니다. console 탭 우측 상단의 버튼을 클릭..
aljjabaegi.tistory.com
생성 방법 data.frame([vectors])
데이터프래임을 만들때는 data.frame() 함수를 사용합니다.
위에서 설명했듯이 데이터프래임은 vectors의 조합으로 이루어집니다.
예를 들어보죠. 아래와 같이 vectors를 생성합니다.
member_id <- c("memberA","memberB","memberC","memberD", "memberE")
sallary <- c(4000, 3000, 3200, 5250, 3000)
work_time <- c(52, 32, 48, 50, 42)
사원ID와 연봉, 이번주 5일의 근무시간이 있는 vectors들 입니다.
위의 vectors의 조합으로 데이터 프래임을 만들어보죠.
df_ex <- data.frame(member_id, sallary, work_time)
df_ex
df_ex 라는 이름의 변수에 vectors를 파라메터로 data.frame() 함수를 실행했습니다.
우측에 Environment 탭을 보시면 데이터 프래임이 생성된 것을 보실 수 있습니다.
df_ex를 출력했을땐 아래와 같습니다.
각 컬럼에 접근 데이터프래임명$vector명
우리가 알고있는 DB 테이블의 구조를 가지고 있죠.
각 column의 값에 접근할때는 데이터프래임명$vector명을 사용합니다.
예를들어 sallary column에 접근하려면 df_ex$sallary 를 입력하면 되죠.
df_ex$sallary
위의 데이터 프래임을 vectors 를 생성하지 않고 한번에 만들 수도 있습니다. (아래 코드 참고)
df_ex2 <- data.frame(member_id = c("memberA","memberB","memberC","memberD", "memberE")
, sallary = c(4000, 3000, 3200, 5250, 3000)
, work_time = c(52, 32, 48, 50, 42))
ef_ex 와 df_ex2 코드를 보시면 2가지 생성방식을 확인하실 수 있습니다.
데이터분석
이제 위의 테이블을 이용하여 데이터 분석을 해보도록 하죠.
예를들어 사원들의 평균연봉과 주간 평균근무시간을 구해보겠습니다.
vectors의 평균을 구할때는 mean() 함수를 사용합니다.
평균 mean()
mean(df_ex$sallary)
mean(df_ex$work_time)
평균연봉은 3,690
주간평균근무시간은 44.8 이군요!
데이터 프래임의 요약정보도 출력할 수 있습니다.
요약정보 summary()
summary(df_ex)
각 컬럼에 대한 요약정보가 표출됩니다.
뷰어창에서 데이터프래임 확인 View()
View(df_ex)
뷰어창이 생기면서 Excel 과 같은 창을 보실 수 있습니다.
기본적인 데이터 분석 함수
함수명 | 설명 |
head(data) | 앞부분 데이터 출력 |
tail(data) | 뒷부분 데이터 출력 |
View(data) | 뷰어창에서 엑셀처럼 출력 |
dim(data) | row, column 개수 출력 |
str(data) | 속성 출력 |
summary(data) | 요약정보 출력 |