영화 데이터 살펴보기 with Stardog-studio
오픈 API를 통해 수집한 영화데이터를 지식그래프로 생성하여
Stardog 이라는 저장소에 저장하였다.
Stardog은 Studio라는 지식그래프 IDE를 제공하는데 이를 이용하여 질의를 하거나 차트를 그려 데이터를 살펴보거나 분석해 볼 수 있다.
영화데이터에는 인물,영화,영화사 데이터가 존재하는데
인물은 약 165000건, 영화는 약 59000건, 영화사는 약 4800건 정도의 데이터를 살펴보았다.
먼저 연도별 관객수와 개봉 스크린수를 살펴보았는데 제작연도를 기준으로 2000년부터 2022년까지의 추이를 구성하였다.
2004년 이전까지는 관객수도 적은 편이고 개봉 스크린도 적은 편이였으나 2004년 이후는 평균 관객수가 크게 늘어남을 알 수 있다.
그리고 2018년까지는 관객수와 개봉 스크린수도 증가를 보이다 2020년에 큰폭으로 줄었다. 이는 전 세계가 알고 있듯이 COVID-19가 발생하였기 때문인 것이다. 그럼에도 불구하고 재밌는 것은 개봉스크린수는 크게 줄지 않았었다는 점이 보여진다.
다음에는 천만 이상의 관객수를 동원한 영화들을 살펴보았다. 왼쪽읜 빨간색 두 개는 "태극기 휘날리며"와 "괴물"이고 가운데 제일 위에는 "명량"이라는 영화가 차지하고 있다. 결과에서와 같이 개봉스크린이 늘어난다고 하여도 그에 비례하여 반드시 관객수가 늘어나는 것은 아니라는 생각이 든다.
세번째는 영화를 제작하는 참여하는 스탭과 배우들에 대해서 살펴보고 싶었다.
가장 궁금했던 점은 스탭들과 배우들의 평균 종사 연수이며, 이부분의 궁금점을 해소하기 위해 데이터를 직접 구축하게 되었다.
데이터 상으로는 평균 종사연수가 없기 때문에 영화의 제작연도를 활용하여 제작된 연도가 종사하고 있는 연도라고 가정하고 계산하였다.
먼저 스탭들의 평균 종사연수는 2.5~3년 인 것으로 나왔다.
1년차, 2년차, 2.5년차까지 점점 증가를 하다 3년차부터 줄어드는 양상을 보이고 있다.
반면에 배우역할을 한 사람들은 아래의 그림과 같이 대부분의 배우들이 1년차 종사를 한 것으로 나타났다.
그리고 2년차 이후로 점차 줄어드는 것을 확인할 수 있다. 배우들 중에서 주 역할이 배우인 사람도 있고, 주 역할이 배우가 아닌 사람들도 영화 제작에 참여하기 때문에 주 역할을 기준으로 나누어 보면
영화 제작에 필요한 다양한 역할들 중 하나로서 주역할을 수행하면서 영화의 배우로 참여하는 경우가 15~20년 정도 다양하게 활동을 하는 것으로 나타났고, 감독이 주역할인 사람들이 영화에 배우로서 꾸준하게 활동하는 것으로 나타나고 있다. 아래의 그림은 활동연도별 주역할 산점도를 나타내고 있다.
아래의 그림은 활동연도별 주역할 밀도표를 나타내고 있다.
스타독 스튜디오를 사용하면 SPARQL을 통해 필요한 질의를 수행하고 차트 기능을 통해 시각화 분석이 가능하다는 점에서 유용한 장점을 제공한다.
Stardog Studio를 통해 SPARQL 질의를 하고 Chart를 구성하는 과정은 아래의 영상에 담아 두었다.
데이터로 사용한 영화데이터는 "영화진흥위원회의 통합전산망 오픈 API" 를 통해 수집하였다.