목록R (12)
달리는 자동차
정적인 페이지 크롤링하기 저장한 경로로 들어가면 아래와 같은 엑셀파일로 열린다. #메모 0519 -공용api나 뉴스 언론사등 보고 싶은 것만 모아서 수집을 할때 사용하는 것이 스크랩핑이다. 기존라이브러리를 그대로 사용할 수 없고 설치를 해야한다. -추가적으로 패키지를 설치방법 tools->install packages-> install.packages("rvest") 실행시 다운로드가 되면 성공 오류: 경로가 잘못되어 설치가 안되는 경우가 있다. 그럴 땐 #라이브러리 설치 경로 변경 을 해주어야한다. library(rvest)실행시 콘솔창에 필요한 패키지를 로딩중입니다: xml2 나온다. 우리가 이용하는 웹은 동적인 페이지와 정적인 페이지로 나뉜다 정적인 페이지: 스크립트 , 네이버 영화페이지 ,실시간 ..
#subset 함수 subset함수 사용시 한 행의 데이터가 datafram형태로 출력되므로 특정 컬럼만을 조회하고 싶을때 subset(원본데이터, 조건, select = column) 로 특정컬럼만 가져 올 수 있다. subset(원본데이터, 조건, select= -column)
데이터 프레임(Data Frame) -표 형태 -파이썬의 pandas라이브러리 ->R의 데이터프레임을 본 따서 만들었다. -다양한 데이터 타입을 저장할 수 있는 자료형태 -일반 DBMS에서의 Table과 같은 자료구조 -대부분의 데이터들은 데이터프레임에 저장됨 -행의 앞 부분에 대괄호[ ] 가 없다. -행의 자료형이 다르다.-> 데이터 프레임 형태 -열의 자료형은 같다. -> 벡터 형태 #행기준 데이터 추출 = 데이터프레임 #열 기준 데이터 추출 = 벡터 열 기준 데이터 추출 sales[ ,?] 와 $(달러)를 쓰는 형태의 출력 값은 같다. 즉 데이터프레임변수[ ,?] = 데이터프레임변수$column값 # 데이터 프레임의 원하는 행만 출력