Tag Archives: 팰런티어

팰런티어(Palantir), 테러리스트 색출을 도와주는 빅 데이터 분석 툴

작년 이맘 때에, ‘2012년 기술 트렌드‘라는 제목의 글을 여기에 올렸었다. 그 때 첫 번째로 꼽은 트렌드는 ‘빅 데이터’였는데, 정말 올 한 해는 빅 데이터의 해였다. 대용량 정보를 가공한다는 컨셉이나 기술 자체가 새로운 것은 아니었지만, 데이터를 저장하고 검색하고 처리하는 기술이 저렴해지면서 ‘빅 데이터’가 유행어로 떠오르고, 관련된 수많은 회사들이 투자를 받고 인수된 한 해였다는 점에서 의미가 있다.

소위 ‘빅 데이터’ 회사 중 내가 가장 관심 있게 보고 있는 곳은 팰런티어 테크놀러지(Palantir Technologies)이다. 팔로 알토 유니버시티 거리에 위치한 이 회사는 미국 중앙 정보부(CIA)로부터 $2 million(약 22억원)의 투자를 받아 시작되었으며, 창업자 중 한 명은 지난번 소개했던 “페이팔 마피아”로 유명한 피터 씨엘(Peter Thiel)이다. 창업 멤버들 중 일부가 페이팔(PayPal) 출신인데다 피터 씨엘 자신이 상당한 액수를 투자한 회사라는 점에서, 이 회사 역시 ‘페이팔 마피아‘에 의해 생겨났다고 이야기할만하다.

이 회사가 정말 재미있는 이유는, ‘빅 데이터’를 정말 흥미로운 문제 해결에 적용할 수 있도록 하는 도구를 만들고 있기 때문이다. CrunchBase의 프로필에 따르면, 그들은 고객들이 다음과 같은 문제에 대한 답을 찾아내는 것을 돕고 있다.

  • How do you take down human trafficking networks? (인신 매매 조직을 어떻게 찾아내는가?)
  • How can you prevent fraud in Medicare? (국민 건강 보험 사기를 어떻게 막을 수 있는가?)
  • How can you help stop the genocide in the Sudan? (수단에서 벌어지는 대량 학살을 어떻게 막을 수 있는가?)
  • How can we help target gangs to end their violence? (어떻게 조직 폭력배를 찾아내는가?)

분명히 CIA 같은 기관이 관심을 보일 만한 주제들이다. 물론 CIA에서 그동안 자체적으로 개발해 온 기술이 있었겠지만, 실리콘밸리에서 우수한 엔지니어들이 만든 이 소프트웨어를 따라갈 수는 없었나보다. 미국 정부가 주요 고객 중 하나이다. ‘Women in Tech’이라는 패널 토의에서, 카네기 멜론 대학을 다니면서 구글과 페이스북에서 인턴십을 마쳤다는 한 팔런티어 직원이 “이런 기술이 이미 정부에서 쓰이지 않고 있었다니 믿을 수가 없었어요. 그래서 다른 기회를 마다하고 팔런티에어서 일을 하기 시작했죠.” 라고 했다. 한편, 몇 달 전에 칼트레인(Caltrain)을 타고 샌프란시스코로 가다가 이 회사에 다니는 한 젊은 엔지니어를 만났는데, 정말 흥미로운 문제를 해결하는 일을 돕고 있는 중이라며 신이 나 있었다.

‘팰런티어(Palantir)’란, 원래 ‘반지의 제왕’에 등장하는, 마법사 간달프가 사용하는 구슬의 이름이다. 반지의 제왕 3에서는 사우론에 의해 나쁜 용도로 사용되기도 했다. 왜 회사 이름을 그렇게 지었느냐는 한 인턴의 질문에, 피터 씨엘은 “기술을 어떻게 쓰느냐에 따라 좋은 의도로 사용될 수도 있고, 나쁜 의도로 사용될 수도 있음을 일깨워주기 때문”이라고 했다.

팔런티어(Palantir). 마법사 간달프가 사용하는 구슬

팔런티어(Palantir). 마법사 간달프가 사용하는 구슬

크런치베이스(CrunchBase)에 따르면, 이 회사에 지금까지 투자된 액수는 총 $301 million, 즉 3200억원에 달한다. 어마어마한 액수이다. LinkedIn에 따르면 현재 직원 수가 500명이 넘는다.

팔런티어는 2009년-2012년에 걸쳐 총 $301M, 즉 약 3300억원의 투자를 받았다.

팔런티어는 2009년-2012년에 걸쳐 총 $301M, 즉 약 3300억원의 투자를 받았다.

무엇이 특이할까? 회사의 기술이 궁금해서 전에 1시간짜리 제품 데모를 본 적이 있는데, 그들이 만든 것은 기본적으로는 데이터 분석 툴이다. 다만, 1) 구조화된(structured) 데이터 뿐 아니라, 이메일, 트위터 타임라인 등 구조화되지 않은 데이터까지도 몽땅 통합해서 분석할 수 있다는 점, 2) 그리고 매일 축적되는 페타바이트(petabyte)단위의 데이터를 아주 빠른 속도로 찾아낼 수 있다는 점, 3) 그리고 대량의 데이터를 사람이 분석할 수 있도록 매우 다양한 그래프로 시각화하고 있다는 점 등이 차별점이다. 즉, 문제에 대한 해답을 컴퓨터가 자동으로 찾아내는 것이 아니라, 통찰력을 가진 사람이 이 툴을 이용해서 의미 있는 정보를 찾아낼 수 있도록 한다는 데에 초점이 있다. 아래는 몇 개의 툴 스크린샷인데(출처: Palantir 블로그), 방대하고 복잡한 데이터를 ‘사람이 이해할 수 있게’ 시각화해준다.

pg-timefilter

Time Filtering

hh-dashboard

Financial Dashboard: 실시간 금융 데이터를 효과적으로 볼 수 있도록 도와줌

hh-prettyfilters

Instrument Groups

pg-flows

Flows: 객체들 사이의 자원의 흐름을 보여줌

약 열흘 전에 공개한 아래의 5분짜리 비디오를 보면 이 툴을 써서 어떻게 원하는 정보를 찾아낼 수 있는지 더 쉽게 이해가 된다. 의심이 가는 두 개의 IP 주소를 이용해서 데이터베이스에 침입한 것으로 의심되는 내부 인물을 찾아내는 과정을 보여준다.

이 비디오를 보면, 데이터를 분석하고 찾아내는데 있어 사람의 역할이 얼마나 중요한지, 그리고 사람이 원하는 모양대로 데이터를 보여줄 수 있는 기술이 얼마나 중요한지 알 수 있다. 숫자가 잔뜩 나열된 테이블은 컴퓨터에게 편리한 방식이지만, 사람에게 편리한 방식은 그래프이다. 즉, 시각화 기술이 중요하다. Palantir는 바로 그 점에 착안하여 제품을 만든다. 즉, Human-Computer Interaction에서 마찰(friction)을 줄이는 것을 매우 중요하게 생각한다. 이러한 철학은, Palantir의 Director인 시암(Shyam Sankar)이 TED에서 했던 강연에서 잘 드러난다.

“The Rise of Human-Computer Cooperation”이라는 제목의 강연을, 그는 체스 시합 이야기로 시작한다. 2005년에 있었던 시합인데, 다음의 조합으로 서로 경기를 벌였다.

  • 수퍼 컴퓨터
  • 성능 안좋은 랩탑 하나 + 그랜드 마스터
  • 수퍼 컴퓨터 + 그랜드 마스터
  • 성능 안좋은 랩탑 세 개 + 두 명의 아마추어

어떤 조합이 이겼을까? 위에서 나열한 것이 역순위이다. 즉, ‘성능 안좋은 랩탑 세 개와 두 명의 아마추어’가 모든 다른 조합을 이겼다. 사람만이 아니고, 컴퓨터만이 아니고, 사람과 컴퓨터의 ‘공생(symbiosis)’이 가장 강력하다는 것이 시암의 주장이다.

2012년을 뜨겁게 달구었던 빅 데이터, 그리고 머신 러닝. ‘머신 러닝’이라는 말에서 주는 어감은, 컴퓨터가 스스로 학습해서 문제를 해결한다는 의미를 내포하고 있지만, 사실 어떤 데이터를 이용해서 학습시킬 것인가, 그리고 어떤 알고리즘을 이용해서 학습시킬 것인가는 사람이 결정한다. 컴퓨터가 발전하고 기술이 고도화되면서 언젠가는 기계가 사람을 지배하는 세상이 오는 것을 상상하지만, 아직은 그런 날은 요원하니 걱정할 필요가 없을 것 같다.

Comments { 0 }