DNA Storage อนาคตของการเก็บข้อมูล เยอะกว่าล้านเท่าตัว ซับซ้อนด้วยกลไกของชีวิต

เพราะการคิดค้นหลอดไฟไม่ได้เกิดขึ้นได้จากการพัฒนาเทียนไขไปเรื่อย ๆ ในหลายต่อหลายครั้งการพัฒนานวัตกรรมที่จะนำพาสังคมมนุษย์ให้ก้าวต่อไปสู่อนาคตข้างหน้า ก็จำเป็นต้องอาศัยแนวคิดริเริ่มประดิษฐ์สิ่งแปลกใหม่หมดจดที่ไม่เหมือนกับสิ่งที่เคยมีมาในอดีต ดังเช่นการเกิดขึ้นของ DNA Storage หรือการพัฒนาการใช้สารชีวโมเลกุลเป็นตัวกลางชนิดใหม่ในการเก็บข้อมูลแทนวิธีที่เราอาจคุ้นชินอย่างกระดาษหรือแถบแม่เหล็ก

ในยุคการล้นทะลักของข้อมูลอย่างในปัจจุบัน ศาสตร์ของ DNA Storage ได้เป็นที่พูดถึงมากยิ่งขึ้นเรื่อย ๆ ในแวดวงวิชาการจากข้อมูลที่น่าสนใจอย่างการที่ในเชิงทฤษฎี DNA สามารถเก็บข้อมูลได้ถึง 10^18 ไบต์หรือกว่า 1,000,000 เทระไบต์ในพื้นที่เพียง 1 ลูกบาศก์มิลลิเมตร (หรือประมาณ 215 เพตะไบต์/กรัม) เท่านั้น ซึ่งมากกว่าวิธีเก็บที่ได้มากที่สุดในปัจจุบันในพื้นที่ขนาดเท่ากันกว่า 1,000,000 เท่า โดยหลายต่อหลายคนเชื่อว่ามันจะเป็นวิธีที่อาจก้าวนำเราสู่ยุคใหม่ของการเก็บข้อมูลที่ซับซ้อนยิ่งขึ้นและทนทานยิ่งขึ้น

MESSE

Molecular Encoded Storage for Space Exploration

เป็นโครงการสำรวจอวกาศที่อยู่บนจุดตัดระหว่างวิทยาศาสตร์ กับศิลปะ โดยการสร้าง DNA Storage จากโน๊ตดนตรีของเพลง “ความฝันกับจักรวาล” เป็นเพลงไทยเพลงแรกที่ถูกนำมาแปลงเป็น DNA และถูกส่งขึ้นสู่อวกาศ พัฒนาโดยเยาชนไทย

อ่านเพิ่มเติม >

จุดเริ่มต้นของ DNA Storage

ในปี 1959 Richard Feynman หนึ่งในนักฟิสิกส์ที่ทรงอิทธิพลมากที่สุดของครึ่งหลังของศตวรรษที่ 20 ได้เริ่มเปิดประเด็นของการใช้ประโยชน์จากการย่อวัตถุต่าง ๆ ให้มีขนาดเล็กลงซึ่งสามารถตั้งข้อสังเกตได้ว่าเมื่อวัตถุที่สามารถทำหน้าที่ได้เหมือนกันมีขนาดเล็กลง เราจะสามารถใช้ประโยชน์จากพื้นที่ขนาดเท่าเดิมได้มากยิ่งขึ้น โดยได้เสนอแนวทางในหลายรูปแบบไม่ว่าจะเป็นการย่อส่วนคอมพิวเตอร์ การคิดค้นกล้องจุลทรรศน์ที่มีประสิทธิภาพสูงขึ้น รวมถึงได้ตั้งข้อคิดเห็นว่าเราอาจสามารถใช้ประโยชน์จากสสารทางชีววิทยาที่มักมีขนาดเล็กอย่างเซลล์ของสิ่งมีชีวิตได้ (หัวข้อของเลคเชอร์ที่ Feynman พูดถึงเรื่องนี้มีชื่อว่า There’s Plenty of Room at the Bottom ซึ่งก็ได้กลายเป็นหนึ่งในคำพูดที่โด่งดังที่สุดของเขา)

Richard Feynman ในปี 1959 – ที่มา California Institute of Technology

ต่อมาในช่วงกลางทศวรรษ 1960 ได้มีนักวิทยาศาสตร์ 2 คนคือ Mikhail Neiman ชาวโซเวียตและ Norbert Wiener ชาวอเมริกันออกมากล่าวถึง Genetic Memory ในเวลาไล่เลี่ยกัน โดย Neiman ได้ตีพิมพ์บทความ 3 ชิ้นเกี่ยวกับการย่อขนาดของการเก็บข้อมูลอุปกรณ์อิเลคทรอนิกส์ในระดับโมเลกุลถึงระดับอะตอม และ Weiner ได้ให้สัมภาษณ์ในหัวข้อ Machines smarter than men? และได้ให้แง่คิดเกี่ยวกับการเก็บข้อมูลใน DNA แบบเดียวกับในร่างกายของสิ่งมีชีวิตและได้ย้ำถึงงานวิจัยที่จะเกิดขึ้นต่อ ๆ ไปในอนาคต

ภาพของ Microvenus จากอักษรรูนเยอรมันโบราณสู่ข้อมูลไบนารี่สู่ DNA

ผ่านไปกว่า 20 ปี วิทยาศาสตร์และเทคโนโลยีในปลายทศวรรษที่ 1980 การแมพข้อมูล Binary เข้าเป็นคู่เบส DNA ก็ได้เกิดขึ้นครั้งแรกในงานของ Joe Davis นักวิจัยและศิลปินชื่อ Microvenus โดยเป็นการเก็บสัญลักษณ์ Algiz ลงไปใน DNA โดย Davis ได้อธิบายความหมายของสัญลักษณ์นี้ไว้ว่าเป็นอักษรรูนเยอรมันโบราณที่หมายความถึงชีวิตและโลก กลายเป็นการเก็บข้อมูลเข้า DNA ในทางปฏิบัติครั้งแรกของโลก

5′-CTTAAAGGGGCCCCCCAACGCGCGCGCT-3′
3′-GAATTTCCCCGGGGGGTTGCGCGCGCGA-5′

สาย DNA ขนาด 28 Base Pair ที่ Joe Davis สร้างขึ้นมาเป็นตัวเก็บ Microvenus

ในช่วงเวลาต่อมาก็ได้เริ่มมีกลุ่มนักวิจัยที่ค้นคว้าในหัวข้อนี้เรื่อย ๆ เช่นในปี 1999 ได้มีการกล่าวถึงแนวคิดการอำพรางข้อมูล (Steganography) ลงไปใน DNA ซึ่งผู้เขียนได้ตั้งคำนวณออกมาว่าความเป็นไปได้ในการถอดข้อมูลของผู้ไม่รู้วิธีการแทบจะเป็นไปไม่ได้ จนกระทั่งในช่วงต้นทศวรรษที่ 2010 ที่เทคโนโลยี DNA Storage ได้กลับมาเติบโตอย่างก้าวกระโดดอีกครั้งเมื่อกลุ่มวิจัย 2 กลุ่มได้ทำการเก็บข้อมูลขนาดใหญ่ (มากกว่า 10^5 ไบต์ จากตอนนั้นที่งานที่มากที่สุดอยู่ที่ 990 ไบต์ (7920 บิต)) ลงใน DNA ทีมนำโดย George Church ได้ทำการเก็บหนังสือ (ในรูปแบบไฟล์​ HTML) รูปภาพ JPG และโปรแกรมภาษา Javascript ลงไปใน DNA ขนาด 159 นิวคลิโอไทด์ (nt) กว่า 54,898 สาย

ขณะที่ทีมนำโดย Nick Goldman ได้ทำการเก็บ Sonnet ของ Shakespeare ทั้ง 154 บทในรูปแบบของ ASCII, วารสารทางวิทยาศาสตร์ในรูปแบบไฟล์ PDF, รูปภาพสีในรูปแบบไฟล์ JPEG2000, ส่วนหนึ่งจากไฟล์เสียงสุนทรพจน์ I have a dream ของ Martin Luther King ในรูปแบบ MP3 และโค้ดที่ใช้ในการศึกษาในงานฉบับนั้นลงใน DNA ขนาด 117 นิวคลิโอไทด์ (nt) ทั้งสิ้น 153,335 สาย นอกจากนี้ในเปเปอร์ฉบับนี้ยังได้พูดถึงแนวโน้มที่ราคาของเทคโลโลยีการสังเคราะห์ DNA จะมีราคาถูกลงเรื่อย ๆ จนเข้าถึงได้มากยิ่งขึ้น (คล้ายกับในกรณีของคอมพิวเตอร์อิเลคทรอนิกส์ในอดีต)

ในปี 2017 ทีมนักวิจัยจาก Harvard และ George Church ได้เข้ารหัสแปลงไฟล์ GIF รูปม้าวิ่งไปเก็บใน DNA ของแบคทีเรีย – ที่มา Nature

จากข้อสังเกตของผู้เขียน Review Article เรื่อง Molecular digital data storage using DNA ในช่วงเวลาเพียง 6 ปีกว่าตั้งแต่งานของ Church และ Goldman ถูกตีพิมพ์ การวิจัย DNA Storage ได้ก้าวหน้าขึ้นในเชิงตัวเลขเป็นแบบเอ็กซ์โพเนนเชียลอย่างเห็นได้ชัด ความจุสูงสุดของข้อมูลที่ถูกเก็บได้เพิ่มขึ้นกว่า 10^3 เท่าในช่วงเวลานั้น (2012-2019) ประกอบกับเทคโนโลยีที่เกี่ยวข้องอย่างการสังเคราะห์ DNA ก็ได้เจริญก้าวหน้าขึ้นอย่างมาก

ข้อมูลถูกเก็บได้อย่างไร?

Max Tegmark เคยได้อธิบายหลักการหัวใจสำคัญของการเก็บข้อมูลไว้ในหนังสือเรื่อง Life 3.0: Life 3.0: Being Human in the Age of Artificial Intelligence ไว้แบบง่าย ๆ ว่าการเก็บข้อมูลคือการใช้อุปกรณ์หรือตัวกลางเชื่อมโยงสิ่ง ๆ หนึ่งไปถึงข้อมูลชุดหนึ่งในธรรมชาติ เช่นการใช้แผนที่โลก (อุปกรณ์) เชื่อมโยงถึงที่ตั้งจริง ๆ ของจุดต่าง ๆ บนโลก (ชุดข้อมูลในธรรมชาติ)

โดยสิ่งที่สำคัญที่สุดของอุปกรณ์หรือตัวกลางนี้คือการที่มันสามารถดำรงอยู่ในสภาวะที่หลากหลายในเวลาที่นานพอสำหรับการใช้งาน การดำรงในสภาวะที่หลากหลายเช่นบิตของคอมพิวเตอร์ที่สามารถดำรงอยู่ได้ 2 สภาวะคือ 0 และ 1 (เราอาจเรียกมันว่าบิตสามารถเก็บข้อมูลได้ 2 State) ส่วนในเวลาที่นานพอสำหรับการใช้งาน เช่นเราสามารถใช้กระดาษ (ที่ขีดเขียนตัวอักษร) เก็บข้อมูลได้เพราะมันอยู่ได้คงทนไม่ย่อยสลายคามือภายใน 0.1 วินาทีหลังจากเขียน ในขณะที่เราไม่สามารถใช้นิ้วเขียนบนน้ำเพื่อเก็บข้อมูลได้เพราะผิวน้ำหลังจากที่เราเอามือจุ่มลงไปได้ไม่นานมันก็จะกลับมาสภาพเหมือนเดิม

แผนที่โลกโดยหลักการแล้วคืออุปกรณ์ที่เป็นตัวกลางเชื่อมโยงตัวอักษรและรูปภาพบนกระดาษไปยังพื้นที่บนโลก – ที่มา United Nation

คุณสมบัติของการที่ตัวกลางดำรงอยู่ในสภาวะที่หลากหลายนี่เองที่เป็นกุญแจสู่การเก็บข้อมูล สมมติเรามีตัวกลางที่เก็บค่าได้ 2 State 1 ชิ้น (สมมติว่าเป็น 0 กับ 1) เราจะเก็บค่าได้ทั้งหมดสองค่าคือ 0 และ 1 หากเรามีตัวกลาง 2 ชิ้น เราจะเก็บค่าได้ทั้งหมด 2*2=4 ค่าคือ 00, 01, 10, 11 หากเรามีตัวกลาง 3 ชิ้นเราจะเก็บค่าได้ทั้งหมด 2*2*2=8 แบบคือ 000, 001, 010, 011, 100, 101, 110, 111 เป็นแบบนี้ไปเรื่อย ๆ เป็นความสัมพันธ์ 2^n (ในกรณีข้อมูล 2 state หาก 3 state ก็ได้ 3^n แบบ) บิตของคอมพิวเตอร์ก็อาศัยหลักการนี้เช่นกัน

เมมโมรี่ของคอมพิวเตอร์สามารถจำค่าได้เพียง 2 แบบคือ 0 และ 1 แต่เป็นมนุษย์ที่นำ 0 และ 1 ที่เรียงต่อกันมาแปลความหมาย เช่นมีการกำหนดมาตรฐานการเก็บตัวอักษรอย่างหนึ่งชื่อ ASCII (อาจจะเคยเห็นผ่านตาไปเมื่อตอนต้นบทความเพราะ Goldman ได้นำข้อมูลฟอร์แมต ASCII ไปเก็บด้วยอย่างหนึ่ง) โดยใช้บิตคอมพิวเตอร์ 7 บิต (หรือ 1 ไบต์) เรียงต่อกัน เช่น 1000001 หมายถึงตัว A (a ใหญ่) 1100001 หมายถึงตัว a (a เล็ก) โดย ASCII ที่ใช้ 7 บิตนี้จะเก็บค่าได้ทั้งหมด 2^8 = 128 แบบเป็นต้น

ตาราง ASCII ที่ถูกสร้างขึ้นในปี 1972

การเก็บข้อมูลใน DNA ก็มีพื้นฐานมาจากหลักการเดียวกันคือการใช้สภาวะที่แตกต่างกันเรียงต่อกัน โครงสร้างของ DNA 1 เส้นจะประกอบไปด้วยสาย Polynucleotide 2 สายเชื่อมต่อกัน สายหนึ่งเรียกว่าสาย Primary (สายหลัก) และอีกสายเรียกว่า Complementary (สายเสริม) สายสองสายนี้จะมีลักษณะคล้าย ๆ กันคือจะประกอบไปด้วย Nucleotide เรียงต่อกันเป็นเส้นยาว และในแต่ละ Nucleotide จะประกอบไปด้วย 3 ส่วนคือ 1. หมู่ฟอสเฟต 2. น้ำตาล Deoxyribose และ 3. Nitrogenous Base โดยตัว Nitrogenous Base นี่เองที่ทำให้ DNA มีคุณสมบัติในการเก็บข้อมูลได้ เพราะความเป็นไปได้ของ Nitrogenous Base นี่จะมีทั้งหมด 4 แบบคือ A->Adenine T->Thymine C->Cytosine และ G->Guanine (อาจมองง่าย ๆ เทียบกับบิตคอมพิวเตอร์ 00110101100010 -> ATCCTAGCTGTA แบบนี้)

โครงสร้างทางเคมีของ DNA (Deoxyribonucleic Acid) เกิดจากสาย Polynucleotide 2 เส้นสร้างพันธะเชื่อมต่อกัน จะสังเกตได้ว่าในโมเลกุลเชื่อมต่อกันระหว่างสองสายจะเป็นโมเลกุลของ Nitrogenous Base โดย Adenine จะจับคู่กับ Thymine และ Guanine จะจับคู่กับ Cytosine เสมอ ทำให้หากเรารู้ Nitrogenous Base ด้านหนึ่งของสาย DNA แล้ว เราจะสามารถรู้ Nitrogenous Base อีกด้านหนึ่งได้เลยคือจะเป็นคู่ตรงข้ามเสมอ จากการที่ Nitrogenous Base จะมาเป็นคู่ ทำให้งานในด้าน DNA Storage มักนับจำนวนเบสที่ถูกใช้เป็น Base Pair (คู่เบส) – ที่มา Madprime

ในส่วนของวิธีการเข้ารหัสข้อมูลต่าง ๆ ที่จะนำมาเข้าสู่สังเคราะห์เข้าสู่ DNA นั้น ตั้งแต่ในในอดีตเมื่อเกือบ 40 ปีที่แล้วจนถึงในปัจจุบัน ผู้วิจัยก็มักจะมีวิธีการที่แตกต่างกันออกไป แต่ในยุคหลัง ๆ มานี้ งานแทบทุกชิ้นมักเริ่มต้นจากลักษณะเดียวกันคือการเปลี่ยนข้อมูลต้นฉบับมาจากไฟล์ดิจิทัล ซึ่งไฟล์ดิจิทัลสามารถนำมาแปลงเป็น 0 และ 1 เพื่อนำมาดำเนินการอย่างอื่นต่อไปได้ง่าย

ในส่วนของวิธีการเข้ารหัสผู้เขียนจะมาเล่าแนวคิดและหลักการเบื้องหลังอย่างละเอียดอีกทีในบทความที่อธิบายเรื่องวิธีการเข้ารหัสเพลงความฝันกับจักรวาลเป็น DNA และหลังจากที่คู่เบสที่เข้ารหัสข้อมูลถูกสร้างขึ้นมาแล้ว มันจะถูกนำไปสังเคราะห์สู่โลกความเป็นจริงด้วยวิธีแตกต่างกันออกไปเช่น Illumina หรือ Nanopore หลังจากนั้นก็เข้าสู่การทดลองต่าง ๆ เพื่อสร้างประโยชน์เป็นงานวิจัยค้นคว้าสู่การพัฒนาในยุคต่อ ๆ ไป

เรียบเรียงโดย ทีมงาน SPACETH.CO และทีมวิจัย MESSE

อ่านคอนเทนต์ชุด MESSE
1U ตัวเลขมหัศจรรย์ จุดเริ่มต้นในการทำงานอวกาศ บนพื้นที่ 10x10x10 เซนติเมตร
DNA Storage อนาคตของการเก็บข้อมูล เยอะกว่าล้านเท่าตัว ซับซ้อนด้วยกลไกของชีวิต
เขียนโปรแกรมให้ชีวิตด้วย Synthetic Biology รู้จัก Gibson Assembly ในภารกิจ MESSE
ปรัชญา อวกาศ เรเนซองส์ ความฝันกับจักรวาล และความเป็นมนุษย์ที่อยู่ในภารกิจ MESSE

แมว วาราบิโมจิ ปิศาจสปาเกตตี้บินได้