يجد علماء البيولوجيا أنفسهم في مواجهة تلال هائلة من البيانات. فثمة الآلاف من مجموعات البيانات التي يتعين عليهم الاختيار منها. ولسوء الحظ، لم تخضع هذه المجموعات للمعالجة بالطريقة نفسها، فقد تستخدِم مسميات مختلفة لخلايا أو أنسجة متماثلة أو متطابقة، كما قد توجد متناثرة بغير نظام في أرجاء الشبكة العنكبوتية...
تهدف «مجموعة أدوات تشان زوكربيرج سِل من منصة جين ديسكفر» إلى أن تخدم كمحطة تسوق واحدة للراغبين في تخزين بيانات تسلسل الحمض النووي الريبي للخلايا المفردة، والوصول إليها وتحليلها، لدى الوقوف على بيانات التعبير الجيني الخاصة بخلايا مفردة، يجد علماء البيولوجيا أنفسهم في مواجهة تلال هائلة من البيانات. فثمة الآلاف من مجموعات البيانات التي يتعين عليهم الاختيار منها. ولسوء الحظ، لم تخضع هذه المجموعات للمعالجة بالطريقة نفسها، فقد تستخدِم مسميات مختلفة لخلايا أو أنسجة متماثلة أو متطابقة، كما قد توجد متناثرة بغير نظام في أرجاء الشبكة العنكبوتية، أو قد لا تتاح إلا بطلب شراء.
ومع أن استخدام مجموعة بيانات بعينها يتسم بالبساطة نسبيًا، فإن تجميع البيانات والإشراف عليها ودمجها معًا للوصول إلى استنتاجات من تجارب شتى، هو "عملية مضنية" بتعبير اختصاصي نظم المعلومات الحيوية تيموثي تريتشي جونيور من معهد فان أندِل في مدينة جراند رابيدز بولاية ميشيجان الأمريكية.
على سبيل المثال، تفيد كريستينا ثيودوريس اختصاصية علم الأحياء الحاسوبي بأنها استخدمت في دراسة أُجريت عام 20231، واحد من نماذج التعلم العميق، يشار إليه باسم «جين فورمر» .Geneformer؛ فبالبناء على حوالي 30 مليون مجموعة بيانات ترانسكربتومية لخلايا مفردة جمعتها ثيودوريس يدويًا في عام 2021، يسمح هذا النموذج بالتنبؤ بتأثير الاضطرابات الجينية في أنواع لم يشهد مثلها من قبل من الخلايا أو الجينات، لكن لأن البيانات تناثرت عبر 18 قاعدة بيانات عامة وبين عدد من المختبرات المستقلة، "استغرق تجميعها ومعالجتها كافة شهرين"، بحسبما ما أفادت ثيودوريس.
مورد هائل
لكن اليوم، بفضل مورد بيانات جديد طرحته مبادرة تشان زوكربيرج (CZI) في مدينة ريدوود بولاية كاليفورنيا الأمريكية، قد لا يستغرق أداء هذه المهام إلا بضع دقائق. وهذا المورد هو «مجموعة أدوات تشان زوكربيرج سِل من منصة جين ديسكفر» Chan Zuckerberg Cell by GENE Discover، ويتمثل في مجموعة من الأدوات مفتوحة المصدر المتاحة بالمجان، والتي تسمح بالبحث عن بيانات الخلايا المفردة والاستفسار عنها وتحليلها وتنزيلها ونشرها.
واعتبارًا من إبريل من العام الجاري، ضم هذا المورد بيانات حوالي 85 مليون خلية مفردة و1317 مجموعة بيانات تغطي 844 نوعًا من الخلايا، وقد أشرف عليه وعالجه بطريقة موحدة طاقم من نحو 25 مهندس بيانات وقيِّم عليها، فضلًا عن أفراد طاقم آخرين، بحسب ما أفادت باتريشيا برينان، نائب رئيس تكنولوجيا العلوم في مبادرة «تشان زوكربيرج».
وتعبر غالبية هذه البيانات عن معلومات لتسلسل الحمض النووي الريبي لخلايا مفردة من أنسجة بشرية سليمة، بيد أن المورد يتيح أيضًا بيانات عن خطوط خلوية وأنواع خلايا غير بشرية وأنماط من الجزيئات الحيوية، جُمعت بتقنيات التحليل الترانسكربتومي المكاني. وتُختزن جميع هذه البيانات بصيغة موحدة، بناءً على تصنيف معياري لمجموعات أنواع الخلايا وعدد من البيانات الوصفية.'
ويمكن لمستخدمي مجموعة الأدوات العثور على بيانات غير مكانية واستكشافها من خلال بوابة البيانات «CZ CELLxGENE»، أو الوصول إلى هذه البيانات باستخدام لغتي البرمجة «آر» أو «بايثون» عبر واجهة تطبيقات برمجية باسم «سينساس» Census. (يُتوقع إضافة بيانات مكانية أخرى في وقت لاحق من هذا العام، بحسب ما صرح متحدث باسم مبادرة «تشان زوكربيرج»). من هنا، تستخدم ميرا براساد، على سبيل المثال، وهي طالبة دراسات عليا من معهد كاليفورنيا للتكنولوجيا في باسادينا، بوابة «CZ CELLxGENE» لتوصيف البيئة الميكروية في طيف من الخلايا قوامه 9 ملايين خلية سليمة وخلية سرطانية ثديية، تمثل جميعها حوالي 150 نوعًا من الخلايا. وتأمل براساد من خلال الدمج بين بيانات البوابة وبيانات مختبرها في الوصول إلى محاكاة أفضل للبيئة الميكروية للأورام واكتشاف الجينات التي تُعزى إليها التغيرات البنيوية المرتبطة بالإصابة بالسرطان.
أما جوناه كول، وهو أحد مسؤولي البرامج العلمية في مبادرة «تشان زوكربيرج»، فيضيف أن بوابة «CZ CELLxGENE» تفتح الباب أمام اثنين من التطبيقات. فمما لا شك فيه أن الباحثين بإمكانهم الاستفسار عن كميات هائلة مما يجمعه غيرهم أو يجمعونه من البيانات. تريتشي، على سبيل المثال، درس ما يقرب من 12 مليون خلية من خلايا الفئران لدراسة تأثير الكروموسومات الجنسية على بيولوجيا الخلايا المناعية. وحول ذلك، يقول: "هذا عدد يزيد بأكثر من 11 ونصف مليون خلية تقريبًا عما أمكن لنا عادة دراسته في تجارب الخلايا المفردة". وتكرار هذه التحليلات محليًا في أي منظمة قد يهدر مواردها المالية، وفي الوقت نفسه، فإن تحليل البيانات التي عالجها آخرون قد يغدو باعثًا على الملل. و"بالمواءمة" بين مجموعات البيانات تلك، وإدراجها في مكان واحد، تغني بوابة «CZ CELLxGENE» عن كثير من الخطى "الثقيلة"، بتعبير تريتشي، الذي يضيف: "يُبخس تقدير عِظم التأثير الذي يتأتى بإتاحة استخدام هذه البيانات لجميع الراغبين في ذلك".
مرونة في النمذجة
كذلك يُمكن للمستخدمين، على سبيل المثال، الاختيار من خمسة من هذه النماذج، ومنها نموذج «جين فورمر»، لنمذجة بياناتهم أو لتعزيز دقة هذه البيانات. ويمكنهم استخدام خاصية تنزيل "العناصر المضمنة" - وهي بيانات تمثيلية رقمية مضغوطة تعبر عن عمليات النسخ الجيني- من أي من هذه النماذج، للسماح بـ"عرض" بياناتهم وبيانات «CZ CELLxGENE» في مساحة مشتركة. وبحسب ما يفيد كول، يتيح هذا للباحثين الاستفسار عن أنواع الخلايا المماثلة لتلك التي يتناولونها بالدراسة أو عن أنواع الظروف التي تطلق تغييرات في هذه الخلايا.
وقد درب جور ليسكوفيك، اختصاصي علم الحاسوب من جامعة ستانفورد في ولاية كاليفورنيا الأمريكية «نموذج العناصر المضمنة الخلوي الشامل» Universal Cell Embeddings model 2 الذي ابتكره على بيانات بوابة «CZ CELLxGENE» لاكتشاف نوع نادر من خلايا كلى الفئران، يُعرف باسم خلايا «نورن» Norn. وباستخدام "أداة الفرز" الناتجة في تحليل مجموعة بيانات أكبر تضم 36 مليون خلية، وجد أن هذا النوع من الخلايا يوجد كذلك في القلب والرئتين والغدد التناسلية. وبالرجوع إلى تلك التجربة، يقول ليسكوفيك: "هذه القدرة على تعميم النتائج هي أهم إمكانات هذه النماذج".
غير أن بوابة «CZ CELLxGENE» ليست المورد الوحيد لتجميع بيانات دراسات الخلايا المفردة وتبسيطها. على سبيل المثال، يملك مشروع «أطلس الخلايا البشرية» Human Cell Atlas، بوابة بيانات خاصة به. كذلك تستضيف مواقع لجامعة كاليفورنيا بمدينة سانتا كروز الأمريكية، ولمعهد برود - التابع لمعهد ماساتشوستس للتكنولوجيا وجامعة هارفارد في كامبريدج بولاية ماساتشوستس- أدوات لتحليل أنماط محددة من مجموعات بيانات الخلايا المفردة عبر الإنترنت.
على سبيل المثال، في مارس من العام الجاري، ليور باتشر، اختصاصي علم الأحياء الحاسوبي من معهد كاليفورنيا للتكنولوجيا طرح مع فريقه البحثي توصيفًا للبنية الأساسية لـ«الأطلس الشامل للخلايا» Commons Cell Atlas الذي وضعوه 4,3، وهو مورد يختزن ويعالج بطريقة موحدة بيانات التسلسل الجيني الأولية عبر طيف من مجموعات البيانات. (في المقابل، تختزن بوابة CZ CELLxGENE البيانات في صورة "مصفوفات عد جيني"، كما تحتفظ بروابط تؤدي إلى بيانات التسلسل الجيني الأصلية، بحسب متحدث باسم مبادرة «تشان زوكربيرج». ووفقًا لباتشر، يمكن أن تخضع بيانات التسلسل الجيني هذه لتحليل مختلف باختلاف التعليقات التوضيحية التي توسَّم بها الجينات، وقد استغل مع فريقه البحث هذه الاختلافات لدراسة النظائر البروتينية المعنية بطفرات التضفير الجيني في الخصية البشرية. ويقول حول ذلك: "إمكانية الرجوع إلى البيانات وإعادة بناء الأطلس مرارًا وتكرارًا تُعد أداة قوية ومفيدة حقًا".
وقد أعلنت مبادرة «تشان زوكربيرج» في سبتمبر من العام الماضي اعتزامها تصميم مجموعة خوادم حوسبية من ألف وحدة معالجة رسومية تتيح توسعة النماذج والإسراع من وتيرة تطويرها.
ومن شأن هذه الخطوة أن تعود بالنفع على الباحثين، فبحسب ما أوضحه كول، لا يتاح لأغلب المختبرات التي تجري أبحاث الخلايا المفردة سوى عدد ضئيل من وحدات المعالجة الرسومية، وهو ما يحُد من إمكانات النماذج التي يمكن لهذه المختبرات تصميمها ويطيل الوقت الذي تستغرقه تجاربها. ووفقًا لكول، فإن استخدام المجموعة الجديدة من الخوادم الحوسبية يتيح للباحثين البدء في بناء المزيد من النماذج المعقدة عالية الدقة. وهنا يضيف متحدث رسمي باسم مبادرة «تشان زوكربيرج»، إن مجموعة الخوادم الحوسبية الجديدة يُتوقع لها "الدخول في حيز التشغيل بحلول يونيو المقبل".
اضف تعليق