작가들은 자신의 글을 다른 사람들에게 보여주고 싶어한다. 과학자는 종종 그와 반대다. 과학자들은 동료들의 연구 데이터에는 늘 호기심이 많으면서도 자신의 연구 데이터를 다른 이들에게 보여주기는 꺼리는 경우가 많다. 16세기 말 함께 연구했던 천문학자 튀코 브라헤와 요하네스 케플러도 예외가 아니었다.
튀코 브라헤(1546-1601)는 망원경이 아직 발견되기 전에 대규모 천문관측소를 세운 독특한 인물이다. 그는 우라니보르크 천문관측소 겸 연구시설을 짓고 수십 년 동안 꾸준히 밤하늘을 관측했다. 놀랍게도 브라헤는 망원경 없이도 관측오차를 1분각(1/60도) 수준까지 줄인, 인류 역사상 가장 정확한 천문자료를 남겼다.
요하네스 케플러(1571-1630)는 1600년 브라헤의 연구팀에 합류했다. 행성 운동 법칙을 연구하던 케플러에게는 브라헤의 관측 데이터가 꼭 필요했다. 그러나 브라헤는 자신의 핵심 관측 데이터에 대한 접근을 엄격히 통제했다. 1601년 브라헤가 사망한 후에야 케플러는 방대한 관측 자료를 본격적으로 활용할 수 있었다. 케플러는 이 데이터를 해석하면서 행성의 궤도가 타원임을 밝혀냈고, 이를 바탕으로 훗날 행성운동 3법칙을 정립했다. 정작 이 데이터를 모은 브라헤 본인은 그 안에 숨어 있는 행성 운동의 규칙을 발견하지 못했다. 하지만 그의 데이터가 케플러의 손에 들어가면서 현대 천문학과 천체역학의 토대가 만들어졌다.
400여 년 전의 이 해프닝은 과학에서 연구 데이터의 축적과 공유가 얼마나 중요한지를 보여준다. 2024년 노벨 화학상은 인공지능을 이용하여 단백질 구조 연구 분야에서 혁신적인 성과를 이룬 세 명의 화학자에게 돌아갔다. 구글 딥마인드에서 개발한 알파폴드는 단백질의 3차원 구조를 높은 정확도로 예측한다. 이미 2억 개 이상의 단백질 구조가 예측·공개되어 있고, 전 세계 수백만 명의 연구자들이 구글의 알파폴드를 연구에 활용하고 있다.
인공지능과 컴퓨터 기반 단백질 연구가 생명과학과 의학 분야에 미치는 영향은 비약적으로 커지고 있다. 신약 개발은 물론이고 환자 개개인에 대한 맞춤형 치료 같은 응용도 가능하게 될 것으로 기대된다. 이러한 연구의 기반인 알파폴드 개발을 위해서는 50년간 쌓아온 단백질 구조 데이터가 필요했다. 1971년에 국제 공동 프로젝트로 시작된 단백질 데이터 뱅크(PDB, Protein Data Bank)는 이후 수십 년에 걸쳐 단백질 구조 데이터를 축적해 왔고, 이를 국제사회에 무료로 공개했다. 구조생물학과 구조게놈학의 발전에 기여해 온 이 데이터는 구글의 알파폴드 개발에도 결정적 도움을 주었다.
우수한 데이터의 중요성을 보여주는 연구 사례는 상당히 많다. 슬론 디지털 전천탐사(Sloan Digital Sky Survey)는 2000년부터 시작된 현대 천문학을 대표하는 데이터 공유 프로젝트 중 하나로, 전용 망원경을 이용해 별, 은하, 퀘이사 등의 정보를 수집한다. 이 프로젝트는 수억 개의 천체에 대한 데이터를 구축하여 현대 천문학의 연구 방식을 근본적으로 바꾸었다. 또 축적된 데이터를 전 세계 연구자들에게 공개함으로써 데이터 중심 천문학 시대를 열었다. 멀리 갈 것 없이, 우리가 매일 접하는 일기예보의 핵심도 데이터이다. 위성, 레이더, 기상관측소 등에서 수집된 관측 데이터가 없으면 아무리 좋은 슈퍼컴퓨터나 기상예측모델도 의미가 없다.
그간 국가 연구개발 사업에서 생산된 국가연구 데이터의 관리는 각 부처와 연구개발기관, 연구자의 재량에 맡겨져 있었다. 데이터의 공개방식과 활용 기준, 연구자 기여 인정 체계 등이 충분히 정립되지 않은 상태여서 연구자들은 필요한 데이터가 어디에 있는지 파악하기 어려웠고 공유 기준도 명확하지 않았다. 지난 5월 '국가연구데이터 관리 및 활용 촉진에 관한 법률(국가연구데이터법)'이 국회 본회의를 통과했다. 이제는 국가 연구개발 사업에서 생산된 연구 데이터의 체계적인 관리와 적극적 활용이 가능해질 전망이다. 시행령, 고시 등의 후속조치에 연구자와 국가 모두에게 유의미한 구체적 내용이 잘 담기길 기대한다.