У людства намічається величезна проблема зі зберіганням даних. За останні два роки люди створили більше інформації, ніж за всю попередню історію. І цей потік інформації скоро перевершить місткість жорстких дисків.
Дослідники повідомляють, що знайшли новий спосіб кодувати цифрову інформацію в ДНК. В одному грамі ДНК можна зберігати 215 петабайтів (215 млн гігабайтів) даних. Таким чином, вся інформація, коли-небудь створена людиною, буде займати контейнер розміром з декілька вантажівок.
ДНК має багато переваг для зберігання цифрової інформації. Вона ультракомпактна і може зберігатися тисячі років в прохолодному сухому місці. І люди завжди зможуть розшифрувати її. «ДНК не деградує з часом, як касети або диски, і не застаріє», — говорить Янів Ерліх, вчений з Колумбійського університету (США).
Вчені зберігають цифрову інформацію в ДНК з 2012 року. Тоді генетики з Гарвардського університету (США) Джордж Черч, Срі Косури і їх колеги зашифрували книгу з 52 тисяч слів в тисячі фрагментів ДНК, використовуючи нитки з чотирьохбуквенного алфавіту — A, G, T і C, щоб закодувати нулі і одиниці оцифрованого файлу.
Ця система шифрування була відносно неефективною і могла зберігати тільки 1,28 петабайта на грам ДНК. Інші підходи спрацювали краще. Але жодна не дозволила ДНК зберегти більше половини її максимальної місткості. ДНК може витримати близько 1,8 біта на нуклеотид ДНК (кількість не досягає 2 біт з рідкісних, але неминучих помилок читання і запису).
Ерліх вирішив, що він підійде ближче до цього ліміту. Тому він і Діна Зилінськи звернулися до алгоритмів, які були використані для шифрування і розшифровки інформації. Вони почали з 6 файлів, які включали повну комп’ютерну операційну систему, комп’ютерний вірус, французький фільм 1895 року під назвою «Прибуття поїзда на вокзал Ла Ciotat» та дослідження 1948 року теоретика Клода Шеннона. Спершу вчені конвертували файли в двійкові ланцюжки одиниць і нулів, стиснули їх в один базовий файл, а потім розділили дані на короткі ланцюжки бінарного коду. Вони розробили алгоритм під назвою «Фонтан ДНК», який у випадковому порядку упаковує ланцюжки в так звані «краплі». До них дослідники додали додаткові теги, щоб перебудувати їх пізніше в правильному порядку. Усього вчені згенерували цифровий список з 72 тисяч ланцюжків ДНК, кожна 200 знаків у довжину.
Вони послали їх у вигляді текстових файлів в стартап «Твіст Біосайенс» в Каліфорнії, де синтезували нитки ДНК. Через два тижні Ерліх і Зилінськи отримали поштою ампулу з частинкою ДНК, в якій були зашифровані файли. Щоб розшифрувати їх, вчені використовували сучасну технологію секвенування ДНК. Секвенції були відправлені в комп’ютер, який перевів генетичний код знову в бінарний і використовував теґи, щоб знову зібрати шість оригінальних файлів. Технологія спрацювала так добре, що нові файли не містили помилок.
Однак Косурі і Ерліх зазначили, що новий підхід не готовий до масштабного використання. Вони витратили 7 тисяч доларів, щоб синтезувати 2 мегабайта інформації у файли, і ще 2 тисячі доларів, щоб її прочитати. Порівняно з іншими формами зберігання даних, запис та читання з ДНК відносно повільні.