سازندگان هارد دیسک به دنبال ذخیرهسازی داده بر روی دیانای انسان!
زومیت نوشت: دیانای ممکن است محاسبات را روی مجموعههای بزرگی از دادههای ذخیرهشده امکانپذیر کند، بنابراین برخی از شرکتهای بزرگ روی استفاده از دیانای بهعنوان ابزار ذخیرهسازی دادهها سرمایهگذاری میکنند.
جامعه پژوهشی درمورد پتانسیل DNA برای عملکرد بهعنوان ابزاری برای ذخیرهسازی آرشیوی طولانیمدت هیجانزده محسوب میشود که تا حد زیادی به آن علت است که دیانای بسیار متراکم است و ازنظر شیمیایی برای دهها هزار سال پایدار است و الگویی دارد که بعید است نحوه خواندن آن را فراموش کنیم.
درحالیکه پیشرفتهای جالبی وجود داشته، بهعلت هزینه بالا و سرعت بسیار پایین خواندن و نوشتن، تلاشها عمدتاً محدود به جامعه پژوهشی مانده است. اینها مشکلاتی هستند که باید پیش از عملیشدن ذخیرهسازی مبتنیبر دیانای حل شوند. بنابراین، شنیدن این خبر موجب شگفتی است که سیگیت، غول ذخیرهسازی دادهها با یک شرکت ذخیرهسازی مبتنیبر DNA به نام کاتالوگ وارد همکاری شده است.
ارز تکنیکا برای پی بردن به این مسئله که فناوری این شرکت چقدر به کاربردیشدن نزدیک است، با هیونجون پارک، مدیرعامل شرکت کاتالوگ صحبت کرد. پارک اشاره کرد که رویکرد کاتالوگ در دو سطح غیرمنتظره است: دادهها را آنطور که انتظار دارید، ذخیره نمیکند و اصلاً روی ذخیرهسازی آرشیوی تمرکز ندارد.
ذخیرهسازی متفاوت
دیانای مولکولی است که میتوان آن را بهعنوان آرایه خطی از بازها درنظر گرفت که هر باز یکی از چهار ماده شیمیایی متمایز است: A، T، C و G.
بهطور معمول، از هر باز DNA برای نگهداری دو بیت اطلاعات استفاده میشود و مقادیر بیتها توسط باز خاصی که وجود دارد، مشخص میشود. بنابراین، A میتواند رمزکننده ۰۰ باشد، T میتواند رمزکننده ۰۱ باشد، C میتواند ۱۱ را رمزگذاری کند و G میتواند ۱۱ را رمزگذاری کند. به این شیوه، مولکول AA از توانایی رمزگذاری ۰۰۰۰ برخوردار است، درحالیکه AA میتواند ۰۰۱۰ را رمزگذاری کند و به همین ترتیب.
ما میتوانیم مولکولهای دیانای به طول صدها باز را با کارآیی بالا سنتز کنیم و میتوانیم توالیهای جانبی را اضافه کنیم که معادل اطلاعات سامانه فایلبندی است که به ما میگوید قطعهی واحدی از دیانای کدام قطعه از دادههای باینری را نشان میدهد.
مشکل این رویکرد آن است که هرچه رشته بیتهایی که میخواهید ذخیره کنید، طولانیتر باشد، زمان و هزینه بیشتری میبرد. سختافزارهای رباتیک واکنشهای سنتر را انجام میدهند و هر واحد سختافزاری میتواند در هر زمان فقط یک مولکول دیانای را سنتز کند.
مواد خامی که سختافزار از آن برای سنتز استفاده میکند، نیز هزینهای به هر مولکول ذخیرهشده اضافه میکند. درحالیکه این نگرانی برای پروژههای کوچک وجود ندارد، اگر شروع به ذخیرهسازی مقادیر عظیمی از دادهها کنید، هزینهها به سرعت بالا خواهد رفت. بهگفتهی پارک، با فرض هزینه سنتر ۰٫۰۳ سنت به ازای هر باز و با درنظر گرفتن حجمی در حد گیگابایت، هزینه به چند میلیون دلار خواهد رسید که پول بسیار زیادی است.
پارک به ارز تکنیکا گفت که شرکت کاتالوگ با بازاندیشی درمورد فرایند رمزگذاری برای عبور از این مانع راهاندازی شد. فرایند رمزگذاری این شرکت با کتابخانهای از دهها تا صدها قطعه کوتاه از دیانای به نام اولیگو (مخفف اولیگونوکلئوتید) شروع میشود. سپس هر بیت از دادهها به ترکیب منحصربهفردی از اولیگوها اختصاص داده میشود. میتوانید این فرایند را مانند پردازنده سیلیکونی درنظر بگیرید که یک بیت را در حافظه به یک آدرس منحصربهفرد ۶۴ بیتی اختصاص میدهد.
اگر آن بیت ۱ باشد، ربات میتواند نمونههای کوچکی از محلولهای حاوی هریک از اولیگوها را که برای نشان دادن آن مورد نیاز است جمعآوری کند و آنها را با آنزیمی ترکیب کند که بتواند همه اولیگوها را به هم متصل کند. آنزیم مذکور اولیگوها را به شکل یک مولکول منفرد دیانای و طولانیتر در کنار هم قرار میدهد که حاوی ترکیب منحصربهفرد آن یک بیت است. درمقابل، اگر بیت صفر باشد، دیانای متناظر آدرس آن ساخته نمیشود.
سپس تمام مولکولهایی که تولید میشود را میتوان در یک محلول واحد با هم ترکیب کرد (که میتوان برای نگهداری طولانیمدت آن را خشک کرد). بهمنظور خواندن آن دادهها، جمعیت مولکولهای دیانای توالییابی میشود و یک الگوریتم ترکیب منحصربهفرد اولیگوهای حاضر در هر مولکول را تشخیص میدهد. به آدرسهای تشخیص دادهشده ۱ اختصاص داده میشود و بقیه ۰ میگیرند. این امر دادههای رمزگذاریشده را به شکل دیجیتال بازیابی میکند.
این سیستم نسبت به ذخیرهسازی دو بیت در هر باز، ازنظر داده به ازای دیانای کارآیی کمتری دارد. اما مولکولهای انفرادی به اندازه کافی کوچک باقی میمانند که همچنان محیط ذخیرهسازی پایدار و فشردهای باشد. این سیستم به دلیل عدم تقارن، بهطور قابلتوجهی در زمان و هزینه قابلتوجهی صرفهجویی میکند: سنتز تعداد زیادی از یک توالی خاص دیانای نسبت به سنتز مقادیر کمی از تعداد زیادی توالی مختلف دیانای ارزانتر است.
بنابراین، با مونتاژ دیانای با استفاده از مقادیر اندکی از حجم بالای دیانای از پیش ساختهشده، هزینه سنتز بهطور چشمگیری کاهش پیدا میکند. هر واکنش مونتاژ میتواند به صورت موازی نیز اجرا شود. درمقابل، در روش سنتز توالیها به صورت انفرادی، دستگاه تا زمان کامل شدن سنتز درگیر است و نمیتواند بهطور همزمان کار دیگری انجام دهد.
پارک گفت، در جدیدترین طرح این مفهوم، شرکت کاتالوگ براساس فناوری جوهرافشان دستگاهی را ساخته است. دستگاه مذکور شانون نامگذاری شده که برگرفته از نام کلاد شانون نظریهپرداز اطلاعات است. هر جت (فشانه) میتواند یک اولیگو را درون قطرهای روی صفحه پیوستهای از یک فیلم چاپ کند. اولیگوهای مختلف در یک نقطه واکنش فرود میآیند و یک قطره آنزیم نیز به آن اضافه میشود. سپس فیلم درون انکوباتور قرار میگیرد و آنزیم آنها را در قالب یک مولکول دیانای مونتاژ میکند. وقتی واکنشها کامل شد، قطرات میتوانند با هم در یک محلول واحد قرار گیرند که حاوی کل دادههای رمزگذاری شده است.
بخشی از مشارکت کاتالوگ با سیگیت شامل بررسی این موضوع است که آیا برخی از سختافزارهای کار با مایعات که این شرکت هارد درایو آن را توسعه داده، میتوانند به کوچکشدن و خودکارشدن بیشتر این فرایند کمک کنند و استفاده از انرژی و منابع را کاهش دهند (پارک میگوید اندازه شانون درحد یک آشپزخانه معمولی است).
خروجی شانون برای بایگانی تنظیم شده است، اما این شرکت متوجه شده است که مشتریان بالقوه کمتر از انتظار آنها، به آرشیوسازی علاقهمند هستند. پارک میگوید: «ما با شرکتهایی مانند سیگیت، سایر شرکتهای صنعت سرگرمی، گاز یا فناوری صحبت کردهایم که شرکتهایی هستند که مشکلات و چالشهای بزرگی در زمینه دادهها دارند و دیدیم که فقط جنبه ذخیرهسازی سرد این کار نیست که برای آنها جالب است.»
درعوض، پارک دریافت که مردم مجذوب این چشمانداز شدهاند که دیانای میتواند عملیات موازی گستردهای را روی دادههای ذخیرهشده بدون نیاز به تبدیل آنها به اشکال دیجیتالی ممکن سازد. پارک میگوید: «میخواهیم سطح جدیدی از ذخیرهسازی محاسباتی را ایجاد کنیم که از حجم عظیمی از دادهها حمایت کند اما درعینحال بسیار جستوجوپذیر و محاسبهپذیر باشد.»
بهگفتهی پارک، این شیوه رمزگذاری میتواند مزیتی برای برخی از عملیات مبتنیبر دیاندی فراهم کند، تا حدی به این علت که از قبل درمورد ساختار دادهها میدانیم. این مورد با طرحهای رمزگذاری که در آنها توالی بازها براساس دادههای ذخیرهشده متفاوت است، امکانپذیر نیست.
بهطور مشابه، نبود توالیهای خاص در این الگوی رمزگذاری میتواند مفید باشد. بااینحال، در این مرحله پارک و کاتالوگ هنوز درحال بررسی نحوه به کارگیری برخی از این ایدهها هستند. برخی از مزیت محاسباتی ممکن است دورتر باشند، زیرا برخی از مزیتها فقط در مقیاسهای بسیار بزرگ به دست میآیند.
ذخیرهسازی مبتنیبر دیاندی درنهایت از راه خواهد رسید، زیرا بهتر میتواند محاسبات موازی عظیم را مدیریت کند. پارک گفت، اگر برای مثال میخواهید روی مگابایت داده ذخیرهشده در دیانای محاسبه انجام دهید، زمان یا منبع موردنیاز انجام این کار، مثلاً با زمان موردنیاز برای انجام محاسبه روی یک پتابایت (هر پتابایت برابر ۱۰۰۰ ترابایت است) داده ذخیرهشده درون دیانای مشابه است.
درحالیکه استارتاپی مانند کاتالوگ بهطور آشکارا روی شرکتهای سودآوری متمرکز است که با مجموعههای عظیم داده سروکار دارند، ممکن است برخی از اولین کاربردها از جامعه دانشگاهی ظاهر شود.
پارک به حجم عظمی دادههای تولیدشده توسط برخورددهنده هادرونی بزرگ بهعنوان یک هدف احتمالی اشاره میکند و میگوید شرکت کاتالوگ برای چارچوب توسعه فناوری Open Labs که توسط سازمان اروپایی پژوهشهای هستهای اجرا میشود، قرارداد امضا کرده است. پارک میگوید: «فکر میکنم دیانای راهی عالی برای ذخیرهسازی حجم عظیمی از دادهها باشد. وقتی تئوری جدیدی ارائه میشود، میخواهید بتوانید تمام آزمایشهای قبلی را به شکل کارآمد جستوجو و بررسی کنید. درحالحاضر راهی برای انجام این کار وجود ندارد. فکر میکنم یک سیستم مبتنیبر دیانای راهحل عالی برای این مسئله باشد.