سازندگان هارد دیسک به دنبال ذخیره‌سازی داده بر روی دی‌ان‌ای انسان!

زومیت نوشت: دی‌ان‌ای ممکن است محاسبات را روی مجموعه‌های بزرگی از داده‌های ذخیره‌شده امکان‌پذیر کند، بنابراین برخی از شرکت‌های بزرگ روی استفاده از دی‌ان‌ای به‌عنوان ابزار ذخیره‌سازی داده‌ها سرمایه‌گذاری می‌کنند.

1401/07/02

زمان تقریبی مطالعه 5 دقیقه

جامعه پژوهشی درمورد پتانسیل DNA برای عملکرد به‌عنوان ابزاری برای ذخیره‌سازی آرشیوی طولانی‌مدت هیجان‌زده محسوب می‌شود که تا حد زیادی به آن علت است که دی‌ان‌ای بسیار متراکم است و ازنظر شیمیایی برای ده‌ها هزار سال پایدار است و الگویی دارد که بعید است نحوه خواندن آن را فراموش کنیم.

درحالی‌که پیشرفت‌های جالبی وجود داشته، به‌علت هزینه بالا و سرعت بسیار پایین خواندن و نوشتن، تلاش‌ها عمدتاً محدود به جامعه پژوهشی مانده است. این‌ها مشکلاتی هستند که باید پیش از عملی‌شدن ذخیره‌سازی مبتنی‌بر دی‌ان‌ای حل شوند. بنابراین، شنیدن این خبر موجب شگفتی است که سیگیت، غول ذخیره‌سازی داده‌ها با یک شرکت ذخیره‌سازی مبتنی‌بر DNA به نام کاتالوگ وارد همکاری شده است.

ارز تکنیکا برای پی بردن به این مسئله که فناوری این شرکت چقدر به کاربردی‌شدن نزدیک است، با هیونجون پارک، مدیرعامل شرکت کاتالوگ صحبت کرد. پارک اشاره کرد که رویکرد کاتالوگ در دو سطح غیرمنتظره است: داده‌ها را آن‌طور که انتظار دارید، ذخیره نمی‌کند و اصلاً روی ذخیره‌سازی آرشیوی تمرکز ندارد.

ذخیره‌سازی متفاوت

دی‌ان‌ای مولکولی است که می‌توان آن را به‌عنوان آرایه خطی از بازها درنظر گرفت که هر باز یکی از چهار ماده شیمیایی متمایز است: A، T، C و G.

به‌طور معمول، از هر باز DNA برای نگه‌داری دو بیت اطلاعات استفاده می‌شود و مقادیر بیت‌ها توسط باز خاصی که وجود دارد، مشخص می‌شود. بنابراین، A می‌تواند رمزکننده ۰۰ باشد، T می‌تواند رمزکننده ۰۱ باشد، C می‌تواند ۱۱ را رمزگذاری کند و G می‌تواند ۱۱ را رمزگذاری کند. به این شیوه، مولکول AA از توانایی رمزگذاری ۰۰۰۰ برخوردار است، درحالی‌که AA می‌تواند ۰۰۱۰ را رمزگذاری کند و به همین ترتیب.

ما می‌توانیم مولکول‌های دی‌ان‌ای به طول صدها باز را با کارآیی بالا سنتز کنیم و می‌توانیم توالی‌های جانبی را اضافه کنیم که معادل اطلاعات سامانه فایل‌بندی است که به ما می‌گوید قطعه‌ی واحدی از دی‌ان‌ای کدام قطعه از داده‌های باینری را نشان می‌دهد.

مشکل این رویکرد آن است که هرچه رشته بیت‌هایی که می‌خواهید ذخیره کنید، طولانی‌تر باشد، زمان و هزینه بیشتری می‌برد. سخت‌افزارهای رباتیک واکنش‌های سنتر را انجام می‌دهند و هر واحد سخت‌افزاری می‌تواند در هر زمان فقط یک مولکول دی‌ان‌ای را سنتز کند.

مواد خامی که سخت‌افزار از آن برای سنتز استفاده می‌کند، نیز هزینه‌ای به هر مولکول ذخیره‌شده اضافه می‌کند. درحالی‌که این نگرانی برای پروژه‌های کوچک وجود ندارد، اگر شروع به ذخیره‌سازی مقادیر عظیمی از داده‌ها کنید، هزینه‌ها به سرعت بالا خواهد رفت. به‌گفته‌ی پارک، با فرض هزینه سنتر ۰٫۰۳ سنت به ازای هر باز و با درنظر گرفتن حجمی در حد گیگابایت، هزینه به چند میلیون دلار خواهد رسید که پول بسیار زیادی است.

پارک به ارز تکنیکا گفت که شرکت کاتالوگ با بازاندیشی درمورد فرایند رمزگذاری برای عبور از این مانع راه‌اندازی شد. فرایند رمزگذاری این شرکت با کتابخانه‌ای از ده‌ها تا صدها قطعه کوتاه از دی‌ان‌ای به نام اولیگو (مخفف اولیگونوکلئوتید) شروع می‌شود. سپس هر بیت از داده‌ها به ترکیب منحصربه‌فردی از اولیگوها اختصاص داده می‌شود. می‌توانید این فرایند را مانند پردازنده سیلیکونی درنظر بگیرید که یک بیت را در حافظه به یک آدرس منحصربه‌فرد ۶۴ بیتی اختصاص می‌دهد.

اگر آن بیت ۱ باشد، ربات می‌تواند نمونه‌های کوچکی از محلول‌های حاوی هریک از اولیگوها را که برای نشان دادن آن مورد نیاز است جمع‌آوری کند و آن‌ها را با آنزیمی ترکیب کند که بتواند همه اولیگوها را به هم متصل کند. آنزیم مذکور اولیگوها را به شکل یک مولکول منفرد دی‌ان‌ای و طولانی‌تر در کنار هم قرار می‌دهد که حاوی ترکیب منحصربه‌فرد آن یک بیت است. درمقابل، اگر بیت صفر باشد، دی‌ان‌ای متناظر آدرس آن ساخته نمی‌شود.

سپس تمام مولکول‌هایی که تولید می‌شود را می‌توان در یک محلول واحد با هم ترکیب کرد (که می‌توان برای نگه‌داری طولانی‌مدت آن را خشک کرد). به‌منظور خواندن آن داده‌ها، جمعیت مولکول‌های دی‌ان‌ای توالی‌یابی می‌شود و یک الگوریتم ترکیب منحصربه‌فرد اولیگوهای حاضر در هر مولکول را تشخیص می‌دهد. به آدرس‌های تشخیص داده‌شده ۱ اختصاص داده می‌شود و بقیه ۰ می‌گیرند. این امر داده‌های رمزگذاری‌شده را به شکل دیجیتال بازیابی می‌کند.

این سیستم نسبت‌ به ذخیره‌سازی دو بیت در هر باز، ازنظر داده به ازای دی‌ان‌ای کارآیی کمتری دارد. اما مولکول‌های انفرادی به اندازه کافی کوچک باقی می‌مانند که همچنان محیط ذخیره‌سازی پایدار و فشرده‌ای باشد. این سیستم به دلیل عدم تقارن، به‌طور قابل‌توجهی در زمان و هزینه قابل‌توجهی صرفه‌جویی می‌کند: سنتز تعداد زیادی از یک توالی خاص دی‌ان‌ای نسبت‌ به سنتز مقادیر کمی از تعداد زیادی توالی مختلف دی‌ان‌ای ارزان‌تر است.

بنابراین، با مونتاژ دی‌ان‌ای با استفاده از مقادیر اندکی از حجم بالای دی‌ان‌ای از پیش ساخته‌شده، هزینه سنتز به‌طور چشمگیری کاهش پیدا می‌کند. هر واکنش مونتاژ می‌تواند به صورت موازی نیز اجرا شود. درمقابل، در روش سنتز توالی‌ها به صورت انفرادی، دستگاه تا زمان کامل شدن سنتز درگیر است و نمی‌تواند به‌طور هم‌زمان کار دیگری انجام دهد.

پارک گفت، در جدیدترین طرح این مفهوم، شرکت کاتالوگ براساس فناوری جوهرافشان دستگاهی را ساخته است. دستگاه مذکور شانون نام‌گذاری شده که برگرفته از نام کلاد شانون نظریه‌پرداز اطلاعات است. هر جت (فشانه) می‌تواند یک اولیگو را درون قطره‌ای روی صفحه پیوسته‌ای از یک فیلم چاپ کند. اولیگوهای مختلف در یک نقطه واکنش فرود می‌آیند و یک قطره آنزیم نیز به آن اضافه می‌شود. سپس فیلم درون انکوباتور قرار می‌گیرد و آنزیم آن‌ها را در قالب یک مولکول‌ دی‌ان‌ای مونتاژ می‌کند. وقتی واکنش‌ها کامل شد، قطرات می‌توانند با هم در یک محلول واحد قرار گیرند که حاوی کل داده‌های رمزگذاری شده است.

بخشی از مشارکت کاتالوگ با سیگیت شامل بررسی این موضوع است که آیا برخی از سخت‌افزارهای کار با مایعات که این شرکت‌ هارد درایو آن را توسعه داده، می‌توانند به کوچک‌شدن و خودکارشدن بیشتر این فرایند کمک کنند و استفاده از انرژی و منابع را کاهش دهند (پارک می‌گوید اندازه شانون درحد یک آشپزخانه معمولی است).

خروجی شانون برای بایگانی تنظیم شده است، اما این شرکت متوجه شده است که مشتریان بالقوه کمتر از انتظار آن‌ها، به آرشیوسازی علاقه‌مند هستند. پارک می‌گوید: «ما با شرکت‌هایی مانند سیگیت، سایر شرکت‌های صنعت سرگرمی، گاز یا فناوری صحبت کرده‌ایم که شرکت‌هایی هستند که مشکلات و چالش‌های بزرگی در زمینه داده‌ها دارند و دیدیم که فقط جنبه ذخیره‌سازی سرد این کار نیست که برای آن‌ها جالب است.»

درعوض، پارک دریافت که مردم مجذوب این چشم‌انداز شده‌اند که دی‌ان‌ای می‌تواند عملیات موازی گسترده‌ای را روی داده‌های ذخیره‌شده بدون نیاز به تبدیل آن‌ها به اشکال دیجیتالی ممکن سازد. پارک می‌گوید: «می‌خواهیم سطح جدیدی از ذخیره‌سازی محاسباتی را ایجاد کنیم که از حجم عظیمی از داده‌ها حمایت کند اما درعین‌حال بسیار جست‌وجوپذیر و محاسبه‌پذیر باشد.»

به‌گفته‌ی پارک، این شیوه رمزگذاری می‌تواند مزیتی برای برخی از عملیات مبتنی‌بر دی‌ان‌دی فراهم کند، تا حدی به این علت که از قبل درمورد ساختار داده‌ها می‌دانیم. این مورد با طرح‌های رمزگذاری که در آن‌ها توالی بازها براساس داده‌های ذخیره‌شده متفاوت است، امکان‌پذیر نیست.

به‌طور مشابه، نبود توالی‌های خاص در این الگوی رمزگذاری می‌تواند مفید باشد. بااین‌حال، در این مرحله پارک و کاتالوگ هنوز درحال بررسی نحوه به کارگیری برخی از این ایده‌ها هستند. برخی از مزیت محاسباتی ممکن است دورتر باشند، زیرا برخی از مزیت‌ها فقط در مقیاس‌های بسیار بزرگ به دست می‌آیند.

ذخیره‌سازی مبتنی‌بر دی‌ان‌دی درنهایت از راه خواهد رسید، زیرا بهتر می‌تواند محاسبات موازی عظیم را مدیریت کند. پارک گفت، اگر برای مثال می‌خواهید روی مگابایت داده ذخیره‌شده در دی‌ان‌ای محاسبه انجام دهید، زمان یا منبع موردنیاز انجام این کار، مثلاً با زمان موردنیاز برای انجام محاسبه روی یک پتابایت (هر پتابایت برابر ۱۰۰۰ ترابایت است) داده ذخیره‌شده درون دی‌ان‌ای مشابه است.

درحالی‌که استارتاپی مانند کاتالوگ به‌طور آشکارا روی شرکت‌های سودآوری متمرکز است که با مجموعه‌های عظیم داده سروکار دارند، ممکن است برخی از اولین کاربردها از جامعه دانشگاهی ظاهر شود.

پارک به حجم عظمی داده‌های تولیدشده توسط برخورددهنده هادرونی بزرگ به‌عنوان یک هدف احتمالی اشاره می‌کند و می‌گوید شرکت کاتالوگ برای چارچوب توسعه فناوری Open Labs که توسط سازمان اروپایی پژوهش‌های هسته‌ای اجرا می‌شود، قرارداد امضا کرده است. پارک می‌گوید: «فکر می‌کنم دی‌ان‌ای راهی عالی برای ذخیره‌سازی حجم عظیمی از داده‌ها باشد. وقتی تئوری جدیدی ارائه می‌شود، می‌خواهید بتوانید تمام آزمایش‌های قبلی را به شکل کارآمد جست‌وجو و بررسی کنید. درحال‌حاضر راهی برای انجام این کار وجود ندارد. فکر می‌کنم یک سیستم مبتنی‌بر دی‌ان‌ای راه‌حل عالی برای این مسئله باشد.

1401/07/02

زمان تقریبی مطالعه 5 دقیقه