Một phương pháp thống kê mới cung cấp một cách hiệu quả hơn để khám phá những thay đổi có ý nghĩa sinh học trong dữ liệu bộ gen bao gồm nhiều điều kiện — chẳng hạn như các loại tế bào hoặc mô.
Các nghiên cứu về toàn bộ bộ gen tạo ra lượng dữ liệu khổng lồ, từ hàng triệu trình tự DNA riêng lẻ đến thông tin về vị trí và số lượng trong số hàng nghìn gen được biểu hiện đến vị trí của các yếu tố chức năng trong bộ gen.
Do số lượng và độ phức tạp của dữ liệu, việc so sánh các điều kiện sinh học khác nhau hoặc giữa các nghiên cứu được thực hiện bởi các phòng thí nghiệm riêng biệt có thể là một thách thức về mặt thống kê.
Qunhua Li, phó giáo sư thống kê tại Penn State cho biết: “Khó khăn khi bạn có nhiều điều kiện là làm thế nào để phân tích dữ liệu cùng nhau theo cách vừa mạnh mẽ về mặt thống kê vừa hiệu quả về mặt tính toán”. “Các phương pháp hiện tại rất tốn kém về mặt tính toán hoặc tạo ra các kết quả khó diễn giải về mặt sinh học.
Chúng tôi đã phát triển một phương pháp gọi là CLIMB để cải tiến các phương pháp hiện có, hiệu quả về mặt tính toán và tạo ra các kết quả có thể diễn giải về mặt sinh học.
Chúng tôi thử nghiệm phương pháp này trên ba loại dữ liệu bộ gen được thu thập từ tế bào tạo máu – liên quan đến tế bào gốc máu – nhưng phương pháp này cũng có thể được sử dụng để phân tích dữ liệu ‘omic’ khác.”
Các nhà nghiên cứu mô tả phương pháp CLIMB (Composite LIkelihood eMpirical Bayes) trong một bài báo đăng trực tuyến ngày 12 tháng 11 trên tạp chí Nature Communications.
Hillary Koch, một sinh viên tốt nghiệp tại Penn State vào thời điểm nghiên cứu và hiện là một nhà thống kê cấp cao cho biết: “Trong các thí nghiệm có quá nhiều thông tin nhưng từ tương đối ít cá nhân, việc sử dụng thông tin hiệu quả nhất có thể sẽ giúp ích rất nhiều”. tại Moderna.
“Có những lợi thế thống kê để có thể xem xét mọi thứ cùng nhau và thậm chí sử dụng thông tin từ các thí nghiệm liên quan. CLIMB cho phép chúng tôi làm điều đó.”
Phương pháp CLIMB sử dụng các nguyên tắc từ hai kỹ thuật truyền thống để phân tích dữ liệu trên nhiều điều kiện. Một kỹ thuật sử dụng một loạt so sánh theo cặp giữa các điều kiện nhưng ngày càng trở nên khó diễn giải khi các điều kiện bổ sung được thêm vào.
Một kỹ thuật khác kết hợp mô hình hoạt động của mỗi đối tượng trong các điều kiện thành một “vectơ liên kết”, chẳng hạn như một gen được điều chỉnh tăng, giảm hoặc không thay đổi trong từng loại tế bào. Vectơ liên kết phản ánh trực tiếp mô hình đặc hiệu của điều kiện và dễ diễn giải.
Tuy nhiên, vì có thể có nhiều kết hợp khác nhau ngay cả khi chỉ có một số ít điều kiện, nên các phép tính cực kỳ phức tạp về mặt tính toán. Để vượt qua thách thức này, cách tiếp cận thứ hai này tự đưa ra các giả định về cách đơn giản hóa dữ liệu không phải lúc nào cũng đúng.
“CLIMB sử dụng các khía cạnh của cả hai cách tiếp cận này,” Koch nói. “Cuối cùng, chúng tôi phân tích các vectơ liên kết, nhưng trước tiên, chúng tôi sử dụng các phân tích theo cặp để xác định các mẫu có khả năng tồn tại ở phía trước. Thay vì đưa ra các giả định về dữ liệu, chúng tôi sử dụng thông tin theo cặp để loại bỏ các kết hợp mà dữ liệu không hỗ trợ mạnh mẽ. Điều này làm giảm đáng kể không gian của các mẫu có thể có trong các điều kiện mà nếu không sẽ làm cho các tính toán trở nên chuyên sâu.”
Sau khi biên dịch tập hợp các véc-tơ liên kết có thể đã rút gọn, phương pháp này sẽ nhóm các đối tượng lại với nhau theo cùng một mẫu trong các điều kiện. Ví dụ, kết quả có thể cho các nhà nghiên cứu biết các tập hợp gen được điều hòa chung ở một số loại tế bào, nhưng lại bị điều hòa giảm ở những loại tế bào khác.
Các nhà nghiên cứu đã thử nghiệm phương pháp của họ trên dữ liệu thu thập được từ các thí nghiệm sử dụng công nghệ gọi là RNA-seq, có thể đo lượng RNA được tạo ra từ tất cả các gen được biểu hiện trong một tế bào, để kiểm tra xem liệu một số gen nhất định có giúp xác định loại tế bào nào của tế bào gốc tạo máu hay không. tế bào cuối cùng biến thành.
Li cho biết: “So với phương pháp thông minh theo cặp phổ biến, kết quả của chúng tôi cụ thể hơn. “Danh sách gen của chúng tôi ngắn gọn hơn và phù hợp hơn về mặt sinh học.”
Trong khi phương pháp theo cặp thông minh truyền thống đã xác định được sáu đến bảy nghìn gen quan tâm, CLIMB đã tạo ra một danh sách hẹp hơn nhiều gồm hai đến ba nghìn gen, với ít nhất một nghìn gen trong số đó được xác định trong cả hai phân tích.
Ross Hardison cho biết: “Các loại tế bào máu khác nhau có nhiều chức năng khác nhau – một số trở thành tế bào hồng cầu và một số khác trở thành tế bào miễn dịch – và chúng tôi muốn biết gen nào có nhiều khả năng tham gia vào việc xác định từng loại tế bào riêng biệt”. T. Ming Chu Giáo sư Hóa sinh và Sinh học Phân tử tại Penn State. “Phương pháp CLIMB đã rút ra một số gen quan trọng; một số trong số chúng chúng tôi đã biết và một số khác bổ sung cho những gì chúng tôi biết. Nhưng sự khác biệt là những kết quả này cụ thể hơn và dễ hiểu hơn rất nhiều so với những kết quả từ các phân tích trước đó.”
Các nhà nghiên cứu cũng sử dụng CLIMB trên dữ liệu được tạo ra từ một công nghệ thử nghiệm khác, ChIP-seq, có thể xác định vị trí dọc theo bộ gen mà một số protein nhất định liên kết với DNA. Họ đã khám phá cách thức liên kết của protein gọi là CTCF – yếu tố phiên mã giúp thiết lập các tương tác cần thiết để điều hòa gen trong nhân tế bào – thay đổi hoặc không thay đổi trên 17 quần thể tế bào, tất cả đều xuất phát từ cùng một tế bào gốc tạo máu. Phân tích CLIMB đã xác định các danh mục khác nhau của các vị trí gắn với CTCF, một số cho thấy vai trò của yếu tố phiên mã này trong tất cả các tế bào máu và những loại khác thể hiện vai trò trong các loại tế bào cụ thể.
Cuối cùng, nhóm nghiên cứu đã khám phá dữ liệu từ một công nghệ thử nghiệm khác, được gọi là DNase-seq, có thể xác định vị trí của các vùng quy định, để so sánh khả năng tiếp cận của chất nhiễm sắc – một phức hợp DNA và protein – trong 38 loại tế bào của con người.
“Đối với cả ba thử nghiệm, chúng tôi muốn xem liệu kết quả của chúng tôi có liên quan đến sinh học hay không, vì vậy chúng tôi đã so sánh kết quả của mình với dữ liệu độc lập, chẳng hạn như nghiên cứu về trình tự thông lượng cao của sửa đổi histone và dấu vết của yếu tố phiên mã.” Koch nói. “Trong mỗi trường hợp, kết quả của chúng tôi tương ứng với các phương pháp khác này. Tiếp theo, chúng tôi muốn cải thiện tốc độ tính toán của phương pháp của mình và tăng số lượng điều kiện mà nó có thể xử lý. Ví dụ: dữ liệu về khả năng tiếp cận chất nhiễm sắc có sẵn cho nhiều loại tế bào hơn , vì vậy chúng tôi muốn tăng quy mô của CLIMB.”
Ngoài Li, Koch và Hardison, nhóm nghiên cứu còn có Cheryl Keller, Guanjue Xiang và Belinda Giardine tại Penn State, Feipeng Zhang tại Đại học Giao thông Tây An ở Trung Quốc và Yicheng Wang tại Đại học British Columbia ở Canada. Nghiên cứu này được hỗ trợ bởi Viện Y tế Quốc gia, bao gồm Viện Khoa học Y tế Tổng quát Quốc gia, Viện Nghiên cứu Bộ gen Người Quốc gia và Viện Tiểu đường, Bệnh Tiêu hóa và Thận Quốc gia.