전체 글
-
빅데이터를 활용한 사례 : 유튜브 동영상 추천카테고리 없음 2023. 1. 31. 09:30
유튜브는 국가를 막론하고 어린아이부터 노인에 이르기까지 모든 사람에게 인기 있는 동영상 서비스 플랫폼이다. 그런데 유튜브를 보다 보면 동영상 리스트가 끝없이 재생된다. 그중 내가 관심 있을 만한 동영상이 리스트에 올라온 경우도 많다. 자신이 어떤 영상을 보여 달라고 밝힌 적도 없는데, 어떻게 유튜브가 내가 좋아할 만한 동영 상을 파악하고 있는지 궁금한 적이 있을 것이다. 정답은 유튜브의 동영상 추천 알고 리즘이다. 유튜브를 보는 사람이 많고, 그 사람들이 유튜브 동영상을 오래 볼수록 수익이 발 생하기 때문에 유튜브는 많은 사람이 되도록 오랫동안 동영상을 볼 수 있도록 동영상 추천 시스템 구축에 공들여 왔다. 유튜브의 동영상 추천 시스템에 대하여 알아보자. 1. 조회 수 기반 추천 처음으로 동영상 서비스를..
-
생활 속의 빅데이터 활용사례: 대도시 심야버스 노선결정카테고리 없음 2023. 1. 30. 14:05
대도시 심야버스 노선 결정 버스 회사가 가능한 한 많은 사람을 태워서 수익을 창출하려면 유동 인구가 많은 시간 및 구간에 버스를 집중적으로 배치하는 것이 합리적이다. 그러나 버스와 같은 대중교통은 언제나 경제적 논리로만 운영되지는 않는다. 이를테면 밤늦게까지 또는 새벽부터 일하는 사람들을 위하여 심야버스를 운행할 필요도 있다. 이에 서울특별시는 상대적으로 수익이 떨어지는 심야버스를 운영하되, 최대한 많은 시민이 심야 버 스를 이용하도록 버스 노선을 선택할 필요가 있다고 판단하였다. 서울특별시가 심야버스 노선을 결정하기 위하여 취할 수 있는 여러 방법을 알아보자. 1. 관찰을 통한 유동 인구 조사 심야버스 노선을 결정하기 위하여 직접 현장을 조사해서 야간 유동 인구가 많은 구간을 살펴볼 수 있다. 그러나 ..
-
통계 프로그램카테고리 없음 2023. 1. 28. 21:53
양적 연구를 수행하기 위해서는 통계 프로그램이 필요하다. 주로 사용하는 통계 프로그램에는 어떤 것들이 있는지 알아보자. SPSS는 자료 분석에 통계 기법을 사용하여 의사 결정을 위한 분석 결과를 산출하는 통계 분석 소프트웨어로 주로 가설검정, 기술 및 예측 분석을 할 때 사용한다. 기본적으로 제공하는 분석이나 검정 외에도 Python 및 R 프로그래밍 언어와 호환 사용이 가능하다. 엑셀은 다양한 수학적 함수를 지원한다. 또한 z-분포, t-분포, 카이-제곱 분포, F-분포, 회귀분석 등 간단한 통계학 계산도 가능하다. 다만, 자료가 늘어날수록 연산 속도가 급속도로 저하되어 표본 수가 많은 경우는 통계 분석용으로 활용하기 어렵다. 오픈소스 고급 프로그래밍 언어로, 기존의 프로그래밍 언어에 비해 문법이 간결..
-
수능 성적표 이해하기(원점수, 표준점수, 백분위, 등급)카테고리 없음 2023. 1. 27. 14:31
현재 수능의 경우 국어, 수학, 영어 영역은 각각 100점 만점이고, 탐구 영역은 과목당 50점 만점이다. 수능은 수험생에게 원점수를 제공하지 않지만 전국 연합 학력평가에서는 수험생이 자기의 원점수를 아는 것이 앞으로의 학습에 도움이 된다는 의견을 반영하여 제공하고 있다. 원점수는 해당 영역에서 만점과 대비하여 몇 점을 받았는가를 나타내는 것인데. 영역별로 평균과 표준편차가 다르기 때문에 원점수 자체만으로는 얼마나 우수한 성적인지, 다른 영역과 비교하여 어떤 수준인지 알 수 없다. 따라서 원점수를 전체 응시 집단의 성적 결과와 비교해 보기 위하여 표준점수, 백분위 등으로 변환하여 나타내고 있다. 영어 및 한국사 영역은 절대평가가 적용되어 결과는 등급으로만 표시된다. 표준점수는 응시 집단의 규모와 성격이 ..
-
알쓸용잡: DATA 용어카테고리 없음 2023. 1. 26. 16:47
1. 빅데이터(big data) 기존의 관리 방법이나 분석 체계로는 처리하기 어려운 방대한 양의 정형, 반정형, 비정형 데이터집합을 말한다. 또는 이러한 데이터 집합을 수집, 저장, 관리, 분석, 시각화하는 정보통신 기술 분야를 일컫는 말이다. 빅데이터에서 데이터는 컴퓨터 및 디바이스를 통해 생성되거나 저장된 정보를 의미한다. 빅데이터는 폭발적으로 증가하고(Volume), 시간에 따라 빠른 속도로 변화하며(Velocity), 포맷과 형식이 다양(Variety)하다는 특징이 있다. 빅데이터를 효과적으로 분석하고 처리하면 미래를 예측하거나, 의사 결정에 활용하여 새로운 가치를 창출할 수 있다. 반면에 입력 데이터에 대한 의존성이 매우 높아 부정확하거나 편향적인 데이터를 사용할 경우 처리한 결과의 품질을 보장..
-
text mining(텍스트 마이닝)카테고리 없음 2023. 1. 25. 16:23
텍스트 마이닝(text mining)은 텍스트 데이터에서 가치와 의미가 있는 정보를 찾아내는 기법이다. 이를 실현하는 기반 기술로는 대용량 텍스트 데이터를 저장하고 처리하는 빅데이터 기술과 텍스트 데이터 구조를 분석하고 포함된 정보를 통계 처리가 가능한 형태로 변환하는 자연어 처리기술이 있다. 이를 바탕으로 데이터 안에서 단어의 출현 빈도를 파악하는 단어 빈도 분석, 유사한 단어 또는 비슷한 성격의 단어들을 묶어주는 군집 분석 cluster analysis , 단어에 나타난 긍정 혹은 부정 등의 감정적 요소를 추출하여 그 정도를 판별하는 감성 분석 sentiment analysis, 서로 다른 단어가 동시에 나타날 확률에 기초하여 단어 간 연관성을 추출하는 연관 분석 association analysis..
-
전수조사 vs 표본조사카테고리 없음 2023. 1. 24. 21:48
건전지를 만드는 회사에서 건전지의 수명을 조사하기 위해 생산된 모든 건전지의 수명을 조사한다면 건전지의 수명을 정확하게 얻을 수 있겠지만 남아있는 건전지가 없으므로 회사는 망하게 될 것이다. 이 회사는 다른 방법으로 건전지의 수명을 조사해야 하는데, 이때 필요한 것이 건전지 중 일부를 뽑는 샘플(표본)인 것이다. 이와 같이 모집단 전체를 조사하는 것을 전수조사라 하고, 일부를 택하여 조사하는 것을 표본조사라고 한다. 일반적으로 모집단의 대상 많은 경우, 전수조사는 많은 비용과 시간 등의 제약이 많으므로 표본조사를 이용하는 것이 효율적이다. 우리나라에서 현재 실시하고 있는 전수 조사에는 인구조사와 추곡생산량을 들 수 있으며, 현실에서는 표본조사를 사용하고 있다. 1. 표본을 택할 때의 유의점 국회의원 선거..
-
통계를 나타내는 방법카테고리 없음 2023. 1. 23. 15:22
자료의 형태와 목적에 따라 여러 가지 그래프로 나타낼 수 있다. 자료는 수치화 가능여부에 따라 양적 자료와 질적 자료로 구분된다. 양적자료는 수치로 나타낼 수 있는 자료로 이산형 자료와 연속형 자료로 구분된다. 이산형 자료는 사람 수, 점수 등과 같이 셀 수 있으나 연속형 자료는 키, 몸무게, 길이등과 같이 셀 수 없다. 질적 자료는 수치로 나타낼 수 없는 자료로 범주형 자료와 순위형 자료로 구분된다. 범주형 자료는 성별, 혈액형, 좋아하는 계절 등과 순위를 구분할 수 없다. 순위형 자료는 최종학력(예를 들면 중졸, 고졸, 대출, 대출이상), 선호도(예를 들면 매우 불만, 불만, 보통, 만족, 매우 만족)와 같은 자료로 순위를 구분할 수 있으며 이로 인해 특정 통계 분석에서는 양적 자료로 취급하기도 한다..