2023년 2학기 다변량 통계 분석 과목을 수강하면서 진행했던 프로젝트에 대해 리뷰해보려고 한다.
해당 프로젝트는 데이터 분석 프로젝트이고 분야는 데이터 분석, 시계열이 되겠다.
주제 선정 배경
요새 주변을 보면 전통킥보드, 전기자전거 등의 교통수단을 이용하는 사람이 많다. 그래서 실제로 자전거 수요량과 교통량을 조사해본 결과 자전거의 수요가 증가하고 있음을 확인했다. 자전거 이용량이 많아짐에 따라 자전거 사고 수도 증가하고 있음을 알게 되었다.
자전거는 자동차에 비해 사고가 났을 때 몸을 보호해줄 수 있는 보호장치, 안전수단이 부족하기 때문에 만약 사고가 발생했을 시 그 피해가 더 심각할 수 있다. 따라서 이 문제를 조금이라도 해결해보고자 자전거 사고를 다양한 시각에서 분석해보기로 하였다.
사용한 데이터 및 변수 정의
- 어떤 요인들이 자전거 교통사고 수 증감에 영향을 미치는지 분석하고자 했음
- 자전거 교통사고 데이터 (https://data.seoul.go.kr/dataList/10783/S/2/datasetView.do)
- 자전거도로 현황 데이터 (https://data.seoul.go.kr/dataList/276/S/2/datasetView.do)
- 서울시 인구밀도 데이터 (https://data.seoul.go.kr/dataList/10790/S/2/datasetView.do)
- 계절에 따른 기온 데이터 (https://data.kma.go.kr/stcs/grnd/grndTaList.do)
- 구별 교통량 데이터 (https://data.seoul.go.kr/dataList/OA-15065/L/1/datasetView.do)
- 종속 변수
- 자전거 교통사고의 사고 건수
- 독립 변수
- 자전거도로 현황 (도로 수, 도로의 폭 등)
- 구별 인구밀도
- 계절별 기온
- 구별 교통량
- 그 외 추가적인 변수
- 코로나의 영향
- 구별 소득수준
분석 방법
1) 시계열 분석
첫 번째로 시계열 분석을 진행하였다. 시계열 분석을 진행함에 있어서 중요하게 생각했던 변수는 코로나였고 실제로 2018년도보다 2020년에 사고가 증가했음을 알 수 있었다.
월별 자전거 사고 통계 그래프를 시각화해보았다. 왼쪽 그래프를 보면 뚜렷한 계절성을 보인다고 할 수 있다. 아무래도 활동성이 좋은 봄, 가을 등 계절에 따라 사고 수의 추세가 변화한 것으로 보여 1차 차분한 그래프(오른쪽)로 다시 조사하였다. 1차 차분한 결과 4번의 급상승 구간이 있었는데 이는 코로나 대유행 기간과 맞물렸다.
코로나 기간에 타인과 접촉이 적은 자전거, PM 등 개인형 이동수단을 활용하려는 사람이 많아져 자전거의 수요가 증가했고 이에 따라 자전거 통행량이 많아지면서 사고 수 또한 증가한 것이 아닐까 생각하였다.
추가로 시간대별 사고 수 그래프도 그려보았는데 퇴근 및 하교 시간에 자전거 안전사고가 집중된 결과를 얻을 수 있었다.
2) 군집분석
두 번째로 군집분석을 진행하였다. 서울의 27개의 자치구 중 어느 자치구가 가장 위험도가 높은지 알아보기 위해 수행하였다. 자전거 도로 수와 자전거 도로 길이로 Hirarchical Complete Clustering을 진행하였고 위 덴드로그램이 그 결과이다. 덴드로그램에서 자치구를 3개로 나눈 후에 군집분석 및 추가 분석을 진행하였다.
위 덴드로그램에 기반해 왼쪽 그래프처럼 군집분석을 진행하였다. 군집분석의 결과가 생각보다도 더 잘나와서 사실 좀 놀랐다. 자전거 도로의 수, 길이를 보았을 때 송파구가 다른 구에 비해 압도적으로 높은 결과를 보이고 그 다음이 강남구, 강동, 강서, 영등포 이런 느낌이다. 오른쪽 그래프처럼 막대 그래프 형태로 나타내었을 때도 군집별로 뚜렷한 차이를 보이는 것을 알 수 있다.
따라서 자전거 도로의 수와 도로 길이가 많아 사고가 자주 일어날 수 있는 송파구가 가장 위험한 자치구라고 결론을 내었다.
3) 상관관계 및 요인분석
세 번째로 상관관계 및 요인분석을 진행하였다. 이 두 분석을 진행할 때 지리 정보나 인구 데이터와도 사고 수가 관련이 있는가를 중점적으로 생각하였다. 이를 분석하기 위해 자전거 도로 관련 데이터, 인구관련 데이터, 면적, 가로등, 공원, 평균연령 등 다양한 데이터를 추가로 수집해서 상관분석을 진행하였다. 위의 군집분석에서도 확인했듯이 자전거 도로와 사고 수는 밀접한 양의 상관관계가 있었고 평균연령이 낮아질수록 사고 수도 증가한다는 새로운 사실을 알게 되었다. 자전거를 주로 이용하는 층은 10대이기 때문에 10대가 많은 구일수록 평균연령이 낮아지고 그 때문에 사고 수도 증가했지 않았나 싶다.
4) 해결방안
사실 해결방안이라고 생각한게 별게 없기는 하다. 1) 퇴근 및 하교 시간대에 사고가 주로 발생하므로 저녁시간대 안전 단속을 확대하는 방안 2) 평균 연령이 낮은 구일수록 사고가 많이 발생하므로 청소년층 위주의 안전 교육을 확대하는 방안 등이 있겠다.
이상으로 다변량 분석 프로젝트 <자전거 안전사고 원인 분석 프로젝트> 리뷰 포스팅을 마치려고 한다.
새로운 도메인의 데이터를 접해보는 좋은 기회여서 재밌었다.
'프로젝트' 카테고리의 다른 글
[프로젝트] 2024 하반기 ICT 학점연계 프로젝트 인턴십 합격 후기 (0) | 2024.08.14 |
---|---|
[프로젝트] 국내 주요 게임사 텍스트 데이터 분석 프로젝트 리뷰 (2) (4) | 2024.07.12 |
[프로젝트] 국내 주요 게임사 텍스트 데이터 분석 프로젝트 리뷰 (1) (2) | 2024.07.05 |
[프로젝트] 딥러닝을 활용한 치매 예측 및 예방 프로젝트 리뷰 (0) | 2024.07.04 |
[프로젝트] 데이콘 주관 도배하자 질의응답 처리 언어모델 개발 공모전 리뷰 (2) | 2024.02.26 |