오랫동안 관리하지 않고 있던 유튜브 영상에 어떤 분이 댓글을 달아주셨다.
질문이었는데,
“AI시대가 되면 데이터 분석가의 전망은 어떨까요? 영향이 없을까요?”게 요지였다.
답글을 짧지 않게 달았지만, 요약하면 “물론 영향이 있겠죠”라는 내용이었다.
그런데 나의 생각과 대답은 애초에 조금 더 긴 것이라
다시 차근 차근 정리를 해보는 게 낫겠다 싶었다.
2023년 3월 챗GPT가 유료 정책을 시작하며 대중에게 본격적으로 존재감을 알렸다.
무료로도 쓸 수 있는데 굳이 유료 버전을 사용하는 사람이 많을까 싶었지만
세상은 너무 빠르게 챗GPT에 잠식 당하고 있었다. 물론 나도 그즈음 결제를 했다.
얼른 결제해서 혼자 얼리어덥터가 되고 싶었는데 너무도 쉽게 Majority가 되어 버렸다.
지금도 여전히 구독을 해서 몇 년 간이나 이용을 하고 있고
지금은 챗GPT가 없는 삶을 꿈도 못 꿀 정도가 되었다.
매달 구독료를 입금하고 있지만 엄밀히 말하면 마이너스는 아니다.
업무에 적극 활용하면서 일하는 시간을 더 효율적으로 사용할 수 있게 되었고
한정된 시간 안에 할 수 있는 일이 많아지면서 경제적인 효과도 있었다.
아, 덕분에 책도 한 권 썼으니 (아무도 그렇게 불러주지는 않지만) ‘작가’라는 타이틀도 하나 생겼다.
책을 쓰고 났더니 외부 강의하는데도 도움이 되어서
이런 저런 효과들을 합치면 구독료가 별로 아깝지 않게 된 상황이다.
챗GPT같은 AI 서비스들은 우리의 직업을 위협할까? 물론 그럴 것이다. 아마도.
그런데 이는 비단 AI 기술만의 문제는 아니지 않나?
역사적으로도 새로운 기술이 생기면 언제나 기존의 기술과 생태계는 위협을 받는다.
챗GPT같은 AI 서비스들이 데이터 분석가들에게도 위협이 될까? 물론 그렇다.
(이건 좀 더 확신에 차서 얘기할 수 있다.)
나도 덕분에 많은 공부를 하고 있다.
데이터 분석가라는 직업으로 살고 있지만 여전히 모르는 것 투성인데
챗GPT에게 물어보면서 배우고 있다. 데이터를 더 많이 알게 되어가는 중이다.
나만 그럴까? 데이터 분석에 대해 1도 모르는 사람도 그럴 것이다.
코딩에 대해 1도 모르는 사람도 코딩을 할 수 있게 만들어주는 게 지금의 기술력이다.
(물론 잦은 오류가 난다. 그래도 오류가 난다고 하면 다시 고쳐주니 얼마나 편한가)
그도 아니면 가지고 있는 데이터를 직접 채팅창에 업로드하고 분석을 해달라고 하면 된다.
(물론 대용량의 데이터는 안된다. 적당한 분량 정도만 소화가 가능하다.)
내 생각에 직장인이 챗GPT를 이용하면서 가장 크게 받은 혜택은,
물어보기 싫거나 물어보기 미안한 사람에게 자꾸 질문하면서 귀찮게 하지 않아도 된다는 데 있다.
나 역시 더 물어보기 민망한 내용들은 메모해 두었다가 챗GPT와 문답을 하며 해결해 간다.
전문가의 권위는 질문을 받으면서 생기는 것인데, 질문을 받는 횟수가 줄어들게 되면
전문가의 권위도 조금씩 약해지거나 낮아지기 마련이다.
그러니까 사람들이 자신의 업무 영역을 넘어 전문가에게 할 자잘한 질문들을 챗GPT에게 한다는 것은
분명 전문가들의 권위를 점진적으로 낮아지게 만드는 효과가 될 것이다.
그건 의사도 그렇고 변호사도 그렇고 데이터 분석가에게도 마찬가지다.
물론 AI 등장 초기에 발목을 잡았던 ‘할루시네이션'(AI가 눈 하나 깜짝 안하고 뻥치는) 현상 때문에,
혹은 수집된 정보를 오판해서 잘못된 대답을 해 줄 수도 있을 것이다.
하지만 그건 극복하기 아주 쉬운 단점같다. 그래서 지금 누가 할루시네이션을 우려하는가.
인터넷 커뮤니티가 활성화되면서 의사 분들이 곤욕을 치뤘다고 한다.
사람들이 인터넷에서 얻은 정보들을 맹신해서 의사에게 아는 척을 한다든가,
혹은 불신을 하거나 무례하게 행동하거나, 혹은 정말 안타깝게 잘못된 행동을 해서
오히려 병을 더 키워 온다는 것이다.
챗GPT같은 AI 서비스도 결국 인터넷에 있는 정보를 습득해서 대답을 해주는 것이니까
인터넷 커뮤니티에 잘못 기재된 정보를 습득해서 잘못된 대답을 해줄 수도 있는 우려도 제기된다.
그래, 그럴 수 있는 확률이 없는 것은 아닐 것이다.
그런데 인터넷에 아무리 잘 못된 정보가 넘쳐나도 “집단지성”이라는 게 존재한다.
많은 사람들의 생각이 모여서 구성된 정보는 꽤 그럴듯하게 정답에 가까울수도 있다는 것이다.
통계에서 보더라도 “오차범위”라거나 “표준분포”라는 게 있지 않은가.
잘 못 될 확률이 있을수는 있지만, 반대로 보면 정답에 가까울 확률이 훨씬 높은 것이다.
더욱이 인터넷 커뮤니티 정보를 볼 때는 아무리 많은 정보를 샅샅이 훑어본다고 해도
짧은 시간에 천 건, 만 건의 유사 정보를 살펴 볼 수 없다.
AI는 우리가 몇 십 건의 정보를 살펴보며 재구성을 할 시간보다 빨리
셀 수도 없는 정보의 양을 살펴보기 때문에 인터넷 커뮤니티와 비교하기는 어렵다.
그럼 이렇게 코딩도 짜주고 각종 자잘한 질문에도 친절하게 대답해주고
심지어 대신 분석도 해주는 AI가 더 발전된다면 데이터 분석가는 없어질까?
나는 그럴 것 같지는 않다.
AI 기술의 발전을 단순히 지금 인간이 할 수 있는 대부분의 일을 대신해 주는 것만이라고 생각한다면
그래, 그럴 수는 있겠지.
그런데 AI 기술이 발전된다는 의미는, 어쩌면 새로운 데이터가 생기고 있다는 말로도 해석될 수 있다.
우리가 분석해야 하는 또 다른 종류의 데이터, 더 많은 규모의 데이터가 생기고 있다면?
그럼 또 그 데이터를 분석하기 위한 툴이 있어야 하고,
그 기술을 다룰 줄 아는 사람이 있어야 하고,
그 데이터의 특성과 한계를 정의하고 어떻게 활용하면 좋을지 예시를 만들고 연구를 하는 사람들이
있어야 한다.
또 기존의 데이터 분석 기법이나 통계적 방법들이 새로운 데이터에도 적용될 수 있는지 같은
세세한 부분들도 정밀하게 들여다 봐야 한다.
기술의 발전은 언제나 새로운 데이터를 가져다 준다.
요즘 흔하게 사용하는 말로 Data Driven Marketing이라는 게 있다.
데이터에 기반한 마케팅, 그러니까 감으로 하지 말고 데이터에 기반한 전략을 수립하라는 의미다.
그런데 이 말은 요즘 생긴 말이 아니다. 아주 먼 과거에 데이터베이스 개념이 생기면서 탄생한 말이다.
그 떄의 데이터가 뭐였겠는가? 지금처럼 고차원의 데이터 분석이었을까?
고작 데이터를 데이터베이스에 담을 수 있게 되었을 때 겨우 생긴 말이라는 것이다. (내가 알기론.)
데이터 분석이 본격적으로 대중화되기 시작한 건
대통령 선거에 ‘현대적’ 여론조사(통계 기반의 여론조사)가 적용되면서 부터라고 한다.
미국에서 처음 여론조사가 대통령 선거에 도입된 건 루즈벨트 대통령(1930년대),
우리나라에 처음 여론조사가 대통령 선거에 도입된 건 노태우~김영삼 대통령(1990년대) 때라고 하던데
그러면 넓게 잡아서 미국 기준으로도 고작 100년 안 팎, 우리나라 기준으로는 50년 안 팎 정도이다.
그런데 인터넷 환경이 확대되고 대중화되면서 온라인 조사가 생겨났고 그게 2000년대 전후라고 한다.
지금으로부터 불과 20~30년 전이다.
빅데이터는 어떨까? 2016년 다보스포럼에서 ‘클라우스 슈밥’ 의장이 빅데이터의 미래 가치를 선포했고
같은 해 ‘이세돌 9단’이 알파고에게 1승을 거두며 AI의 기술적 발전을 전세계에 알렸다.
빅데이터가 전세계적으로 주목 받기 시작한 것도 “정치판”에서부터였는데
오바마 대통령이 재선에 도전하던 2012~2013년 시기와
(오바마 대통령은 빅데이터를 선거 분석에 처음 활용했다.)
트럼프 대통령이 오바마 다음으로 처음 대통령이 되던 2017년 시기였다.
(트럼프 대통령 당선을 유일하게 빅데이터만 맞춰서 화제가 되었다.)
지금으로부터 불과 10년 전이다.
2016년 파격적으로 세상을 놀라게 했던 AI가 그동안 뭘 했는지 깜깜 무소식이다가
‘자연어처리‘ ‘LLM‘ ‘거대언어모델‘ 등의 알쏭달쏭한 수식어들을 들고 세상에 나타나
온 세상을 뒤집어 놓은 게 2023년이다.
지금으로부터 불과 2년 전이다.
유튜브에서 간간이 로봇 개발 시연 영상을 보기는 했었는데
최근 몇 년 사이 9시 뉴스에 툭하면 나온다.
발로 차도 일어서는 로봇이나 말처럼 뛰어 다니는 로봇을 넘어서
인간과 자연스럽게 대화하고 표정을 짓는, 그야말로 SF영화에 나올법한 로봇들 말이다.
챗GPT가 등장한 이후로 이 ‘거대언어모델’이라는 것이 로봇에도 적극 쓰여서 그런지
2023년 말부터 각종 언론에서 무수히 많이 해당 이슈들을 전했다.
이것도 고작 1~2년 전이다.
소프트웨어인 AI의 등장이 로봇인 하드웨어로까지 이어지고 있다는 것이다.
벌써 무수히 많은 정보들이 엄청나게 많은 곳곳에 기록되고 누적되고 있을 것이다.
AI를 삼킨 하드웨어 로봇이 지금은 세상에 나오기 전 막바지 테스트를 진행 중이지만
이게 또 각 가정이나 회사로 보급되기 시작한다면 어떨까.
그게 다 데이터다. 고장을 일으키면 어디서 주로 고장나는지 데이터를 분석해야 한다.
어떤 세부 기능을 가진 하드웨어, 장치들을 개발해야 시장에서 먹힐지도 다 데이터 분석의 영역이다.
그것도, 그마저도 다 AI가 데이터 분석을 해준다고?
그래, 그럴수도 있다.
그런데 그러면 또 세상은 변하고 또 데이터는 쌓이기 마련이다.
빅데이터, (빅)데이터분석가, 데이터사이언티스트 이런 트렌디한 용어가 절대적으로 추앙받던 시절이
앞으로도 계속 이어질까? 라고 묻는다면, 나는 그건 아닐 것이다. 라고 대답하고 싶다.
그리고 더이상은 그렇게 막연히 유행하지 말아야 한다는 게 내 생각이다.
(물론 내가 경험하고 속해있는 일부 데이터 시장에 대한 이야기겠지만)
애초에 빅데이터의 인기는 ‘거품’이 많이 껴 있기도 했다.
빅데이터는 데이터의 규모가 커진 것 뿐만 아니라 데이터의 종류가 바뀐 것에 해당한다.
데이터의 종류가 바뀌었으면 먼저 그에 대한 ‘충분한 연구’와 그를 통한 ‘정의’가 이뤄져야 하는데
빅데이터는 연구해야 하는 기간과 상업적 유행의 시기가 많이 겹쳐 있었던 것 같다.
챗GPT같은 서비스가 아직 완전히 제 기능을 하는 궤도에 오르지 못한 상황에서
그 희소성이나 미래의 가치만으로 구독 서비스를 밀어 부쳤다면 어땠을까?
빅데이터가 이제 껏 쉽게 보지 못했던 사람들의 ‘행동’에 가장 가까운 것이고
실제로 전통적인 여론 조사는 모두 틀렸던 대통령의 당선을 예측했다고 해서
다른 기업들에게도 모두 (그동안 숙원이었던) 시장의 정확한 예측을 가져다 주는 것은 아니다.
결국 빅데이터는,
더이상 빅데이터와 스몰데이터를 구분하지 않고 모두 그냥 ‘데이터’로 통칭하는 시기까지 왔음에도,
여전히 빅데이터는 엄청난 서버 용량을 잠식해가며 무수히 많이 기록되고 누적되고 있지만,
이전의 데이터가 주었던 결과 대비 아주 혁신적이고 아주 파워풀한 결과를
아주 즐겁고 만족할 만하게 제공해 주고 있지는 못하는 게 아닌가 싶다.
그래서 시대는 바뀌고 있지만,
데이터 분석의 전문성이 약해지고 있을지라도
여전히 데이터 분석가의 할 일은 많다는 게 내 생각이다.
그런데 (다소 어이없지만) 이 한 마디가 결국 결론인데,
데이터 분석가가 미래 유망 직종으로 계속 분류가 되든 그렇지 않든
그 모든 것을 떠나서
본인이 하고 싶은 분야로 시작을 했으면 좋겠다.
유망하다고 해서 다 적성에 맞는 건 아니니까.
그리고 유망하다는 것은 아직은 별거 없다는 얘기도 된다.
이제 시작일수도 있으니까 숙련공이 다른 산업보다 적을 수도 있다.
개척하는 재미야 있겠지만 그게 맞지 않을수도 있다.
그리고 유망하다는 말은 유행과도 같아서
언제든 어떻게 변할지 모른다는 단점도 있다.
유망해서! 말고 하고싶어서! 가
어쩌면 더 현실적인 판타지일지도 모른다.
