Thoughts2011.11.03 18:53
최근에 Big Data라는 키워드가 화두로 떠오르고 있습니다. 간단히 말하면 Big Data는 '데이터가 커졌다'는 것을 의미합니다. 데이터가 커지면 저장/관리/분석/유통 등의 모든 분야에서 문제가 생기게 되죠. 

그런데, 조금 더 안쪽으로 들여다보면 단순히 '데이터가 커졌다'고 이야기하면 안된다는 것을 느끼게 됩니다. 실제로, 대부분의 개별 데이터 크기는 그다지 커지지 않았어요. 대부분의 avi 동영상은 '아직도' 1G 수준이구요. 하나의 웹 페이지에 포함되는 데이터의 양도 그다지 커지지 않았습니다.

그러니 문제는 데이터 사이의 연관성과 그 연관성이 야기하는 '단위 시간당 데이터의 양'이라고 보는 것이 정확할 것 같아요. 통신 사업자들은 '단위 시간당 데이터의 양'을 증가시키는 주범으로 SNS를 꼽고 있습니다. 페이스북을 예로 들면, 페이스북은 단순히 가입자들 간의 소통의 장을 넘어서서, 대규모 미디어데이터를 호스팅하고 전달하는 수단이 되고 있거든요. 사용자들이 SNS를 이용하는 시간이 늘면, SNS를 통해 유통되는 단위시간당 데이터의 양도 따라서 증가하게 됩니다. 비디오, 오디오, 모든 것들이 그 대상이 되죠. 거기다 스마트폰을 비롯한 모바일 디바이스들 덕분에, 그런 경향은 가속화되고 말았죠.

그럼 우리가 'Big Data'라고 부르는 것은 분명 '유통' 부문에서는 문제가 된다고 봐야겠어요. 그렇다면 저장, 관리, 분석에 이르면 어떤가요?  



저장해야 할 데이터의 양이 문제가 될 거라는 것은 이미 오래 전부터 나온 이야기에요. 클라우드 데이터센터 이야기가 나올 때 부터 그랬죠. 그러니 정말로 문제가 되는 것은 데이터의 양이라기 보다는, 저장해야 하는 데이터의 유형이나 그 연관성일 가능성이 커요. 가령 지금 SNS에 저장되는 데이터의 상당수는 빠른 인덱싱을 요구하는 비정형 데이터거든요. 비정형 데이터는 기존의 RDBMS에 저장하기 굉장히 곤란하죠. 설사 저장한다고 하더라도, 이 비정형 데이터가 워낙에 많이 생산되다보니 빠르게 인덱싱하기도 곤란해요. 그리고 클라우드 업체나 SNS 업체들이, 단순히 데이터를 잘 저장하는 것이 아니라 이런 데이터를 실시간으로 분석해서 장사를 하려다 보니, 이게 예전 기술로는 잘 안되거든요. 그러다 보니 아예 'Big Data'라는 연구 분야를 새롭게 제안해서 저장 및 분석에 관한 연구를 하려고 한거라고 봐야 해요.

그래서 나온 기술들이 Hadoop, Pig Latin, Cassandra 같은 관련 기술들이죠. (특히 Pig Latin같은 기술은 다량의 비정형 데이터를 시간축에 따라 고속으로 분석하기위해 많이들 쓰이고 있죠. 링크드인에서도 Pig Latin을 써서 질의를 처리하고 있는 것으로 알려져 있어요. ) 그리고 앞으로도 이런 기술들의 헤게모니는 클라우드 업체들이나 SNS 업체들, 실제로 그런 데이터를 가지고 노는 사람들이 쥐게 될 가능성이 높습니다. 

그렇다면 왜 Big Data라는 것이 국내에서 새롭게 이슈가 되나요? 까 보면 기존에 열심히 하고 있는 기술의 연장선상일 뿐인데. (그리고, 어차피 국내 업체 가운데 이런 기술을 개발하고 적용하고 확대시킬 만한 능력이 있는 업체는 드문 것 같은데.) 국내에서 Big Data라는 이름으로 나오는 이야기들은, 제가 보기엔 전부 뒷북이에요.

통신 사업자들은 분명 긴장할 필요가 있을 것 같아요. 그러니 이슈화 하는 것이 바람직하겠죠. 이슈화 하려면 가장 좋은 방법이 좋은 이름을 붙이는 것임은 두말할 나위가 없을 것이고. 붙여진 이름에는 '거기에는 그런 문제만 있는 것이 아냐!'라고 주장하고 싶은 다른 사람들이 우루루 들러붙게 마련이죠.

그런데 아무리 좋게 봐도, 데이터 폭증에 따른 망 고도화 이슈는 헤묵었어요. 이름만 Big Data로 바꾼다고 해서 새로운 이슈가 되는 것은 아니라고 봐요. 이름을 바꿔서까지 관심을 불러일으키고 싶은 마음은 충분히 이해할만 하지만, '뭔가 새로운 문제가 있나보다'라고 생각할 많은 사람들에게는 혼란을 일으킬 뿐이죠.

지금 중요한 것은 '경향'에 따른 이런 라벨링이 아니라, '경향'에 대한 실질적인 엔지니어링이에요.

그런 면에서 보면 우리는 '엔지니어링'하기에는 너무 초라한 우리의 역량을 원망해야 할 지도 모르죠.

 
신고
Posted by 이병준

소중한 의견, 감사합니다. ^^

  1. Big Data 한번쯤 생각해볼 문제입니다

    2011.11.04 22:01 신고 [ ADDR : EDIT/ DEL : REPLY ]