데이터 노트

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (36)

데이터 노트

[BigQuery] Python, BigQuery, Google Sheet 연동 시 credential 에러

에러 내용credentials = service_account.Credentials.from_service_account_file(KEY_PATH, scopes)TypeError: Credentials.from_service_account_file() takes 2 positional arguments but 3 were given 상황BigQuery까지만 연동 + scopes를 추가하지 않고 실행 했을 때는 문제가 없었는데,Google Sheet 추가 연결을 위해 scopes 작성이 필요해 작성하고 credential에 추가하였더니 오류가 발생. 해결 방안scopes와 key path를 분리하여 작성하는 형식으로 코드 수정credentials = service_account.Credentials.fro..

Data Engineering/DB 2023. 6. 7. 13:46

Parquet 파일이란?

얼마 전 면접을 보고, 용어나 프로그램들의 기본적인 개념에 대해 부족한 부분이 많은 것 같아 차근차근 정리해보려고 한다.그 중에서 이번에는 parquet 파일이란 무엇이며, 어떠한 장점이 있어 사용되고 있는지 정리해본다. Parquet(파케이) 파일이란?하둡 에코시스템에서 많이 사용되는 파일 포맷 중 하나Twitter, Cloudera에서 개발하여, 현재 Apache에서 관리columnar 저장 포맷 (기존의 row 기반 포맷과 다름)생겨난 배경Twitter에서는 HDFS에 SNS에서 발생한 대량의 데이터를 저장하고 있었는데,데이터의 양이 방대해 너무 많은 디스크를 소모하는 것을 개선하기 위해데이터 사이즈를 줄이는 파일 포맷을 개발하게 됨.→ 작은 파일 사이즈와 낮은 I/O 사용을 목적으로 개발장점압축률..

Insights 2023. 2. 10. 13:20

[알고리즘] 선택정렬 / 같은 빅오 표기법 다른 효율성

빅 오 표기법은 주어진 상황에 적합한 알고리즘을 결정하는데 도움을 주는 도구이다.하지만 유일한! 도구는 아니라는 것.한 알고리즘이 다른 알고리즘보다 더 빠른 경우에도 같은 방식으로 표기하곤 하는데,이 케이스의 예로는 버블 정렬과 선택 정렬이 있다.여기에서는 선택 정렬에 대해 정리한다.선택 정렬 (Selection Sort)수행 단계선택 정렬은 다음과 같은 단계를 따른다.배열의 각 셀을 끝까지 이동하며 어떤 값이 최솟값인지를 확인.그 값의 인덱스를 변수에 저장한다.배열 끝까지 이동하여 최솟값을 확인하고 나면, 시작한 인덱스의 값과 최솟값을 교환한다.(만약 시작한 인덱스의 값이 최솟값인 경우, 즉 그대로인 경우 교환 없이, 다음 인덱스로 이동하여 위의 단계를 수행한다.)여기서 마지막에 위치한 값은 따로 단계..

Insights 2023. 2. 10. 13:19

[GCP] CLOUD SQL - Ubuntu 내 Django 연동

계기Ubuntu server 내의 django와 GCP SQL 을 연결해 주고자 하여, 설정하게 되었다.GCPSSH 설정'연결'에서 접속 허용할 네트워크 설정계정 생성root 그대로를 사용해도 되지만, root로는 주로 작업하지 않으므로 대체할 계정 생성데이터베이스 만들기연동해 줄 데이터베이스 생성Ubuntu설치연동하기 위해서는 mysql-client가 설치되어있어야 함# 설치 sudo apt install mysql-client-core-8.0# 실행mysql -h {공개 ip 주소} -u {계정명} -p# mysql > 로 접속되는 것 확인 후, exitdjango DB 연결DATABASE 파트에 이하와 같이 작성GAE_APPLICATION: GAE는 Googla App Engine Applicati..

Data Engineering/DB 2023. 2. 10. 13:16

[ubuntu 20.04] docker 설치하기

계기ubuntu 서버에서 docker를 통해 django로 생성한 서비스를 배포하기 하려고 한다. 이를 위해 docker를 설치했다.공식 문서도 참고하였으나, 좀 어려웠던 부분이 있어 여러 레퍼런스를 찾아 설치했던 경험을 메모해두려 한다.설치repository 업데이트 및 HTTPS 설치sudo apt updatesudo apt upgrade -ysudo apt install -y ca-certificates \ curl \ gnupg \ lsb-releasedocker GPG key 등록sudo mkdir -p /etc/apt/keyringscurl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/..

Lab 2023. 2. 10. 12:46

하둡 네임노드 에러 해결

하둡 분산 클러스터를 구상한 후, 하둡을 실행 시켰으나, 오류가 발생했다.하둡 클러스터 구성은 namenode01/02, datanode01/02이며,자세한 내용은 여기!에러 상황start-all.sh 시, namenode만 안 올라옴 해결을 위한 노력결론부터 말하자면, try4에서 해결했다.Try1. log를 확인하자.로그를 우선적으로 살펴보니 이렇게 적혀 있었다.# log 확인$ ~/hadoop/logs/hadoop-ubuntu-namenode-namenode.log# log error 내용java.net.BindException: Problem binding to [namenode:9000] java.net.BindException: Cannot assign requested address; For..

Lab 2023. 2. 10. 12:43

이전 Prev 1 2 3 4 5 6 Next 다음

목록전체 글 (36)

데이터 노트

티스토리툴바