영상의학 (Radiology)/빅데이터 (Big data)

Big data_day 07 (빅 데이터 공부 7 일차)

Felix89 2020. 6. 4. 19:21

오늘은 심흥섭 교수님의 남은 강의 2강을 끝내고, 마침내 시험까지 마무리 지었고, 최종적으로 자격증을 취득할 수 있었다.


제 19강. "데이터 불러오기"

실제로 저장된 데이터를 처리하고 활용하기 위해서 가장 먼저 해야할 일이다. 

a) 텍스트 데이터 불러오기

 텍스트 데이터의 경우에는 read.table() 함수로 불러올 수 있고, 세부적으로 "(1) 구분자가 공백인 경우", "(2) 구분자가 ,(comma)인 경우", "(3) 구분자가 tap인 경우" 3가지로 구분하여 배웠다. 함수 내부에 sep, 즉 구분자들에만 차이를 주면 된다. 참고로 header=TRUE는 텍스트 데이터 내부의 head들을 그대로 적용하는 것을 의미한다. (ex: 이름, 성명, 나이 등...)

 (1) 구분자가 공백인 경우

      불러올 데이터명=read.table(file="파일위치/파일명.txt", header=TRUE, sep=" ")

 (2) 구분자가 ","인 경우

      불러올 데이터명=read.table(file="파일위치/파일명.txt", header=TRUE, sep=",")

 (3) 구분자가 "  (tap)  "인 경우:

     불러올 데이터명=read.table(file="파일위치/파일명.txt", header=TRUE, sep="\t")

b) CSV(Comma Separated Value) 데이터 불러오기

 CSV 데이터의 경우에는 read.csv() 함수를 이용하며, read.table()에서 sep만 제외하고는 거의 동일했다.

 불러올 데이터명=read.csv(file="파일위치/파일명.csv", header=TRUE)

c) Excel 데이터 불러오기

 Excel 파일의 경우에는 R에서 기본적으로 읽어오는 함수가 없다고 하며, 이를 위해서 "readxl"패키지를 다운 받은 후에 Excel 파일을 불러오는 방법을 배웠다. 해당 패키지를 다운 받은 후에, 아래 명령어를 시행하면 엑셀 데이터를 불러올 수 있다고 한다.

 불러올 데이터명=read_excel(path="파일위치/파일명.xls", sheet="시트명", col_names=TRUE)


제 20강. "데이터 내용 보기"

 데이터를 불러온 뒤에는 이 데이터가 어떤 데이터인지 확인해보고, 잘 들어갔는지를 확인해보는 것이 중요하다.

 전체를 보는 방법과 일부를 보는 방법이 모두 있다. 일부를 보는 방법으로는 head(), tail() 함수를 이용할 수 있다.

 또한 데이터의 일부를 추출해낼 수도 있고, 역시 이전에 데이터 추출에서 배웠던, []를 이용할 수 있다.


 남은 2개의 강의들은 길지 않는 강의들이었고, 데이터를 불러오고, 확인하는 방법을 마지막으로 강의는 모두 마무리가 되었다.

 자격증 시험의 경우에는 강의와 함께 제공되는 기출문제 30문제를 풀고 나면 누구나 합격할 수 있는 문제들이었다.


 뭔가 이 강의를 듣고 자격증을 따게 되면 엄청난 전문가가 될 것으로 생각했는데, 사실 완전 입문단계인것 같고, "빅 데이터 전문가"라는 이름을 붙이기에는 조금 두려운 느낌이다. 조금 허무한 느낌이 없진 않지만, 그래도 빅 데이터의 개념과 "R"에 대해서 조금은 알게 되었으니, 앞으로 좀 더 이에 대해서 공부할 수 있는 계기라고 생각해야겠다.