자료실
National Nanotechnology Policy Center

나노기술 및 정책 정보

미국 번역 소프트웨어로 효율적인 DNA 데이터 저장 가능

페이지 정보

발행기관
Nanowerk
저자
 
종류
R&D
나노기술분류
 
발행일
2021-04-02
조회
1,959

본문

대량의 데이터를 DNA 분자에 저장하기 위한 주요 공동 프로젝트를 지원하기 위해 로스앨러모스 국립 연구소의 연구진은 디지털 바이너리 파일을 분자 저장에 필요한 4개 문자의 유전자 알파벳으로 변환하는 핵심 구현 기술을 개발함.

 

소프트웨어 Adaptive DNA Storage Codec (ADS Codex)는 컴퓨터가 이해하는 데이터 파일을 생물학이 이해하는 것으로 변환하며, 이 작업은 정부 및 민간 부문의 빅 데이터 운영에 더 저렴하고 더 크고 오래 지속되는 스토리지를 제공하기 위한 IARPA (Intelligent Advanced Research Projects Activity) MIST(Molecular Information Storage) 프로그램의 핵심 부분임. MIST의 단기 목표는 1 테라 바이트(1조 바이트)를 쓰고 24시간 내에 1,000달러에 10테라 바이트를 읽는 것임. 다른 공동연구진은 이니셔티브의 쓰기(DNA 합성) 및 검색(DNA 시퀀싱) 구성 요소를 개선하고 있으며 로스앨러모스 연구진은 코딩 및 디코딩 작업을 하고 있음.

 

연구진은 DNA가 콜드 스토리지의 일반적인 방법인 테이프에 비해 유망한 솔루션을 제공한다며, DNA 스토리지는 데이터 보존이 너무 길고 데이터 밀도가 너무 높기 때문에 아카이브 스토리지에 대해 생각하는 방식을 방해할 수 있다고 설명함. 먼저 서로 다른 기술을 통합하는 것과 관련된 몇 가지 어려운 기술적 장애물을 해결하는 것이 중요함.

 

피자 크기의 자기 테이프 릴을 사용하는 기존의 장기 저장 방법과 비교할 때 DNA 저장은 잠재적으로 비용이 저렴하고 물리적으로 더 작으며 에너지 효율적으로 오래 지속됨. DNA는 수백 년 동안 보존되며 유지 관리가 필요하지 않음. DNA에 저장된 파일은 무시할 수 있는 비용으로 매우 쉽게 복사할 수 있음. DNA의 저장 밀도도 상당함. 인류는 2025년까지 33제타 바이트를 생성할 것으로 예상됨.

 

바이너리 파일을 분자로 인코딩하는 것은 DNA 합성에 의해 수행됨. 상당히 잘 알려진 기술인 합성은 DNA의 구성 요소를 다양한 배열로 구성하며, 이 배열은 문자 A, C, G T의 순서로 표시됨. 모든 DNA 코드의 기초가 되어 모든 지구상에 살아있는 생명체를 구축하는 지침을 제공함.

 

연구진의 ADS Codex는 바이너리 데이터(모두 01)A, C, G, T4개 문자 조합 시퀀스로 정확하게 변환하는 방법을 개발함. Codex는 디코딩을 다시 바이너리로 처리함. DNA는 여러 가지 방법으로 합성할 수 있으며 ADS Codex는 이를 모두 수용할 수 있음. 연구진은 ADS Codex 버전 1.0을 완료했으며 202111월에 다른 MIST 팀에서 개발한 저장 및 검색 시스템을 평가하는 데 사용할 계획임.

 

한편, DNA 합성은 때때로 코딩에서 실수를 하기 때문에 ADS CodexDNA 데이터 파일을 만드는 데 있어 두 가지 큰 장애물을 해결할 수 있음. 첫째, 기존의 디지털 시스템에 비해 분자 저장소에 쓰는 동안 오류율이 매우 높기 때문에 연구진은 오류 수정을 위한 새로운 전략을 찾아야 함. 둘째, DNA 저장 오류는 디지털 세계에서와는 다른 소스에서 발생하므로 오류를 수정하기가 더 까다로움.

 

디지털 하드 디스크에서는 01로 바뀌거나 그 반대일 때 바이너리 오류가 발생하지만 DNA를 사용하면 삽입 및 삭제 오류로 인해 더 많은 문제가 발생한다고 함.

ADS Codex는 데이터를 검증하는 데 사용할 수 있는 오류 감지 코드라는 추가 정보를 추가함. 소프트웨어가 데이터를 다시 바이너리로 변환할 때 코드가 일치하는지 테스트함. 그렇지 않은 경우 ACOMA는 확인이 성공할 때까지 뉴클레오티드를 제거하거나 추가하려고 함.

 

대형웨어 하우스에는 엑사 바이트 규모(1조 백만 바이트 이상)의 스토리지를 갖춘 오늘날의 가장 큰 데이터 센터가 있음. 구축, 전원 공급 및 실행에 수십억 비용이 소요되는 이러한 유형의 디지털 기반 데이터 센터는 데이터 스토리지에 대한 요구가 기하 급수적으로 계속 증가함에 따라 최상의 옵션이 아닐 수 있음. MIST 프로젝트는 테이프, DNA 합성 회사, DNA 시퀀싱 회사 및 로스앨러모스와 같은 고성능 컴퓨팅 조직을 만드는 레거시 스토리지 공급 업체 간의 새로운 연합을 자극하여 컴퓨터를 과학 기반 시뮬레이션의 더 큰 규모의 체제로 만들고 있음. 분석해야 할 엄청난 양의 데이터를 산출함.

 

대부분의 사람들은 DNA를 생각할 때 컴퓨터가 아니라 생명을 생각함. 그러나 DNA는 그 자체로 유기체에 대한 정보를 전달하기 위한 4개 문자 코드임. DNA 분자는 아데닌(A), 티민(T), 구아닌(G), 사이토신(C)의 네 가지 유형의 염기 또는 뉴클레오티드로 구성되며 각 염기는 문자로 식별됨. 이 염기들은 분자를 형성하기 위해 서로를 둘러싸는 꼬인 사슬(익숙한 이중 나선)으로 감싸게 됨. 이러한 문자를 시퀀스로 배열하면 유기체에게 형성 방법을 알려주는 코드가 생성됨. DNA 분자의 완전한 세트가 게놈, 즉 신체의 청사진을 구성함.

 

DNA 분자를 합성하여(처음부터 만들 수 있음) 연구원들은 A, C, G, T 문자의 긴 문자열을 지정하거나 기록한 다음 그 서열을 다시 읽을 수 있음을 발견함. 이 프로세스는 컴퓨터가 01을 사용하여 정보를 저장하는 방법과 유사함. 이 방법은 작동하는 것으로 입증되었지만 현재 DNA로 인코딩된 파일을 읽고 쓰는 데 시간이 오래 걸린다고 연구진은 설명함.

여러 회사가 이 문제를 해결하기 위해 다양한 합성 방법을 연구하고 있지만 ADS Codex는 모든 접근 방식에 적용할 수 있음