영상의학 (Radiology)/빅데이터 (Big data)

Big data_day 06 (빅 데이터 공부 6일차)

Felix89 2020. 6. 3. 21:55

오늘은 심흥섭 교수님의 강의 중에서 제 16강 데이터 프레임 생성하기, 제 17강 패키지의 개념, 제 18강 패기지의 활용을 연속으로 이어서 들을 수 있었다. 이제 내일 20강까지 들으면 수업이 끝난다.


제 16강. "데이터 프레임 생성하기"

a) 데이터 프레임(Data frame): 행렬처럼 행과 열로 구성되어 있으나, 행렬과 달리 여러 가지 데이터 유형을 가질 수 있음!

 - 생성하는 방법: 외부 데이터(CSV, Excel) 등을 읽어오는 경우, 데이터 프레임으로 형성이 되며, 새롭게 만들려면 data.frame()함수를 사용하여 만들 수 있다.

    - 기본적으로 data.frame() 함수에서 내부는 요인(factor)으로 구분되나 "stringsAsFactors=FALSE"라고 해주면 내부는 그 원형의 문자형 데이터를 가질 수 있다.

데이터 프레임 만들기: data.frame() 함수 이용 - 뒤에 stringsAsFactors 구문을 이용한 차이를 알아두자!

b) 데이터 프레임(Data frame)의 속성

 - 행의 개수: nrow(data_frame)

 - 열의 개수: ncol(data_frame)

 - 행의 이름: rownames(data_frame)을 이용하여 알 수 있고, 이전의 names처럼 이름 변경도 가능하다.

 - 열의 이름: colnames(data_frame)

 - 차원(dimension): 행과 열이 몇 개로 구성되어 있는지를 확인할 수 있고, dim(data_frame)을 이용한다.

 - 차원의 이름: dimnames() 함수를 이용하며, 순서대로 "행의 이름", "열의 이름"이다.

 - 데이터의 구조: str(data_frame) 함수를 이용하여 데이터 구조를 확인할 수 있다!!

 


제 17강. "패키지의 개념"

a) 패키지(package)

 - 함수(function), 데이터(data), 코드(code), 문서(document) 등을 묶은 것을 의미함.

   - 약간 Python에서 module같은 느낌인 거 같다??!!

 - 설치 시에 기본적으로 자동으로 몇가지 패키지가 설치되어 있으며, 그 이상의 기능이 필요한 경우에는 필요한 패키지를 다운 받아서 설치해주면 된다.

    (이전 R을 설치할 때처럼 www.r-project.org 에 접속한 후 CRAN으로 따라서 들어간 후에 Packages 메뉴로 들어가서 필요한 것을 다운 받으면 된다.)

    (2020.06.03 기준: Currently, the CRAN package repository features 15724 available packages.)

b) 패키지(package) 설치

 - 인터넷이 연결되어 있는 상태에서 설치(install이용)하고 로딩(library 이용)해주어야 한다.

 - 1) install.packages("패키지명")

       만일, 여러 개의 package를 한 번에 설치하려면 역시나, 괄호 안에 c("패키지1", "패키지2") 로 조합해주면 된다.

   2) library(패키지명)


제 18강. "패키지의 활용"

a) 패키지의 업데이트: update.packages("패키지명") - 비정기적으로 업데이트된다고 한다.

b) 패키지 삭제: remove.packages("패키지명")

c) 현재 설치된 패키지 목록 확인: search()

d) 현재 설치된 패키지의 목록과 경로를 같이 확인: searchpaths()

e) 패지지에 대한 도움말: help("패키지명")

왼쪽 마지막 help 명령어를 시행했을 때, 오른쪽에 도움말이 나오는 것을 확인할 수 있다.

이런 명령어 외에 도움이 될 수 있는, 엑셀에서 데이터 분석의 활성화나 통계청의 "통그라미"에 대해서도 설명을 들을 수 있었다.


이제 내일 마지막 남은 2개의 강의를 듣고, 예상 기출문제를 공부하고 자격증 시험을 준비해보아야겠다!! 화이팅 >_<