국내 연구진이 암 관련 유전자를 빠르고 정확하게 찾을 수 있는 검색엔진을 개발했다.
미래과학부(장관 최문기)는 카이스트(KAIST) 전산학과 박종철 교수와 지스트(GIST) 이현주 교수가 암 관련 유전자 연구문헌에서 암과 유전자의 관련성을 빠르게 파악할 수 있는 검색엔진인 ‘온코서치(OncoSearch)’ 개발에 성공했다고 22일 밝혔다. 암 연구의 효율성과 질적 향상에 기여할 것으로 기대된다.
암은 수천 개 이상의 유전자가 비정상적으로 변하면서 신호전달 체계가 교란 될 때 발생하는 것으로 알려져 있다. 때문에 수많은 연구진들은 암의 원인을 파악하고, 치료하기 위해 암과 유전자 변화의 관련성을 이해하는 연구를 수행, 다량의 연구 문헌 데이터베이스를 축적해왔다. 하지만 그 양이 방대해 새로운 연구에서 기존의 데이터베이스를 활용하는데 어려움을 겪었다.
연구진은 자체 개발한 말뭉치(언어 연구 및 언어 처리 시스템 개발 등을 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료)인 코맥씨(CoMAGC)를 사용해 최대 엔트로피 분류기들을 학습시키고, 유전자 역할에 대한 추론을 위해 특화된 추론 규칙을 접목해 새로운 온코서치를 개발했다.
온코서치는 연구문헌에서 유전자의 발현량 변화(DNA가 RNA 및 단백질로 전사 및 번역되는 것으로 유전형이 표현형으로 반영되는 가장 기초적인 단계)와 유전자 변화에 따른 암 상태 변화를 기술하는 문장을 찾아낼 수 있다.
검색 결과를 기반으로 해당 유전자의 암 관련 역할을 추론, 각 유전자를 종양형성유전자(oncogene)나 종양억제유전자(tumor suppressor gene) 등으로 분류한 검색 결과도 보여준다.
이를 이용하면 암 관련 유전자 역할에 대한 명시적인 표현(oncogene, tumor suppressor 등)이 없어도 관련 정보를 파악할 수 있고, 메드라인(생물학과 의학 연구문헌을 저장하는 데이터베이스)에 등재된 모든 논문에서 1700종 이상의 악성종양과 7500개 이상의 유전자에 관한 정보를 수집할 수 있다.
박종철 교수는 “온코서치가 첨단 텍스트마이닝 기술을 사용해 연구문헌에서 자동으로 수집한 암 관련 유전자에 대한 대량의 정보는 앞으로 자동 추론기술 등과 접목해 암 연구를 위한 새로운 도구로 활용될 수 있다”고 말했다.
연구 결과는 생물학 분야 학술지 핵산연구(Nucleic Acids Research) 온라인판 5월 9일자에 게재됐다.
-대한민국 의학전문지 헬스코리아뉴스-