Giảm thông tin dư thừa để tìm các mẫu đơn giản hóa trong tập dữ liệu và mạng phức tạp là một thách thức khoa học trong nhiều lĩnh vực kiến thức.
Hơn nữa, việc phát hiện tính chiều của dữ liệu vẫn là một vấn đề khó giải quyết. Một bài báo đăng trên tạp chí Nature Communications trình bày một phương pháp để suy ra tính chiều của các mạng phức tạp thông qua việc áp dụng hình học hyperbol, nắm bắt được sự phức tạp của các cấu trúc quan hệ của thế giới thực trong nhiều lĩnh vực khác nhau.
>> Tham khảo: Các nhà nghiên cứu thử nghiệm một thế hệ kính hiển vi lượng tử mới.
Trong số các tác giả của nghiên cứu có các nhà nghiên cứu M. Ángeles Serrano và Marián Boguñá, từ Khoa Vật lý và Viện Hệ thống Phức hợp của UB (UBICS), và Pedro Almargo, từ Trường Kỹ thuật Kỹ thuật Cao cấp của Đại học Sevilla.
Nghiên cứu cung cấp một mô hình hyperbol đa chiều của các mạng phức hợp tái tạo kết nối của nó, với chiều cực thấp và có thể tùy chỉnh cho từng mạng cụ thể. Điều này cho phép mô tả cấu trúc của nó tốt hơn — ví dụ: ở quy mô cộng đồng — và cải thiện khả năng dự đoán của nó.
Nghiên cứu cho thấy những quy luật bất ngờ, chẳng hạn như kích thước cực thấp của mạng lưới phân tử liên kết với các mô sinh học; chiều kích cao hơn một chút theo yêu cầu của mạng xã hội và Internet; và phát hiện ra rằng các kết nối não gần với ba chiều trong tổ chức tự động của chúng.
Hình học Hyperbolic so với Euclide
Hình dạng nội tại của các tập dữ liệu hoặc mạng phức tạp là không rõ ràng, điều này trở thành một trở ngại trong việc xác định kích thước của các mạng thực.
Một thách thức khác là định nghĩa về khoảng cách phải được thiết lập theo cấu trúc quan hệ và kết nối của chúng, và điều này cũng đòi hỏi các mô hình phức tạp.
Giờ đây, cách tiếp cận mới dựa trên hình học của các mạng phức tạp và cụ thể hơn là dựa trên mô hình hình học cấu hình hoặc mô hình SD.
Giảng viên M. Ángeles, nhà nghiên cứu ICREA tại Khoa Vật lý Vật chất Ngưng tụ của UB cho biết: “Mô hình này, mà chúng tôi đã phát triển trong công việc trước đây, mô tả cấu trúc của các mạng phức tạp dựa trên các nguyên tắc cơ bản.
“Cụ thể hơn — anh ấy tiếp tục — , mô hình đưa ra định luật về sự liên kết của các phần tử mạng (hoặc các nút) là lực hấp dẫn, vì vậy các nút gần nhau hơn trong một không gian tương đồng — của hình cầu trong các chiều D — và với phổ biến hơn — một chiều bổ sung tương ứng với tầm quan trọng của nút — có nhiều khả năng thiết lập kết nối hơn.”
>> Tham khảo: Kỷ nguyên mới của vật liệu sắt điện hai chiều.
Trong nghiên cứu này, các biến số tương đồng và phổ biến được kết hợp để tạo ra hình học hyperbol của mô hình, xuất hiện dưới dạng hình học tự nhiên đại diện cho kiến trúc phân cấp của các mạng phức tạp.
Trong các nghiên cứu trước đây, nhóm đã áp dụng phiên bản đơn giản nhất của mô hình SD một chiều — mô hình S1 — để giải thích nhiều tính năng điển hình của các mạng trong thế giới thực: thuộc tính thế giới nhỏ (sáu độ phân tách), sự phân bố không đồng nhất về số lượng hàng xóm trên mỗi nút và mức độ cao của các mối quan hệ bắc cầu (các kết nối tam giác có thể được minh họa bằng biểu thức bạn của bạn tôi cũng là bạn của tôi).
“Ngoài ra, việc áp dụng các kỹ thuật suy luận thống kê cho phép chúng tôi có được các bản đồ mạng thực trong kế hoạch hyperbol phù hợp với mô hình đã thiết lập,” cô nói.
“Ngoài hình ảnh trực quan, các biểu diễn này đã được sử dụng trong vô số nhiệm vụ, bao gồm các phương pháp điều hướng hiệu quả, phát hiện các mẫu tự tương đồng, phát hiện các cộng đồng nút tương tác mạnh và triển khai quy trình tái chuẩn hóa mạng cho thấy các đối xứng ẩn trong tổ chức đa quy mô của các mạng phức tạp và cho phép tạo ra các bản sao mạng ở quy mô thu nhỏ hoặc mở rộng.”
Bây giờ, nhóm nghiên cứu suy ra chiều của không gian hyperbol bên dưới các mạng thực từ các thuộc tính liên quan đến chiều hình học của chúng.
Cụ thể, công trình đo lường số liệu thống kê của các chu trình bậc cao (hình tam giác, hình vuông, hình ngũ giác) liên quan đến các kết nối.
Một phương pháp áp dụng cho tất cả các mạng phức tạp
Trong khoa học máy tính, các kỹ thuật được áp dụng dựa trên dữ liệu thường tạo ra các định nghĩa về khoảng cách tương tự giữa các phần tử của chúng, một cách tiếp cận liên quan đến việc xây dựng các biểu đồ được ánh xạ lên một không gian tiềm ẩn của các đặc trưng Euclide.
“Các ước tính của chúng tôi về số chiều của các mạng phức tạp thấp hơn nhiều so với ước tính của chúng tôi dựa trên không gian Euclide, vì không gian hyperbol phù hợp hơn để biểu diễn cấu trúc phân cấp của các mạng phức hợp thực.
Ví dụ: Internet chỉ yêu cầu các chiều D = 7 được ánh xạ vào không gian hyperbol của mô hình của chúng tôi, trong khi tên này được nhân với sáu và chia tỷ lệ thành D = 47 trong một trong những kỹ thuật gần đây nhất sử dụng không gian Euclide,” Giáo sư Marián Boguñá nói.
Ngoài ra, các kỹ thuật ánh xạ dữ liệu phức tạp thường giả định một không gian tiềm ẩn, với tên kích thước được xác định trước hoặc triển khai các kỹ thuật heuristic để tìm giá trị phù hợp.
Do đó, phương pháp mới dựa trên một mô hình không cần ánh xạ không gian của mạng để xác định kích thước hình học của nó.
Trong lĩnh vực khoa học mạng, nhiều phương pháp sử dụng khoảng cách ngắn nhất để nghiên cứu cấu trúc kết nối của mạng (đường đi ngắn nhất) dưới dạng không gian số liệu.
>> Tham khảo: Ô nhiễm không khí đe dọa các phương pháp kiểm soát dịch hại tự nhiên trong canh tác bền vững.
Tuy nhiên, những khoảng cách này bị ảnh hưởng mạnh mẽ bởi thuộc tính thế giới nhỏ và không cung cấp nhiều giá trị khoảng cách.
“Mô hình của chúng tôi sử dụng một định nghĩa hoàn toàn khác về khoảng cách dựa trên không gian hyperbol cơ bản và chúng tôi không cần lập bản đồ mạng.
Phương pháp của chúng tôi có thể áp dụng cho bất kỳ chuỗi dữ liệu hoặc mạng thực nào có cấu trúc phức tạp và kích thước thường là hàng nghìn hoặc M. Ángeles Serrano cho biết, hàng chục nghìn nút nhưng có thể lên tới hàng trăm nghìn nút trong thời gian tính toán hợp lý.
Kích thước thực sự của các mạng xã hội và Internet là gì?
Theo kết quả nghiên cứu, các mạng xã hội và Internet cao hơn (từ 6 đến 9) so với các mạng trong các lĩnh vực khác. Tuy nhiên, nó vẫn còn rất thấp — thấp hơn từ 6 đến 7 lần — so với giá trị thu được bằng các phương pháp khác. Điều này phản ánh thực tế rằng các tương tác trong các hệ thống này phức tạp hơn và được xác định bởi nhiều yếu tố hơn.
Mặt khác, các mạng xã hội dựa trên tình bạn đứng đầu bảng xếp hạng về chiều. “Đây là một kết quả bất ngờ, vì người ta có thể nghĩ rằng tình bạn là một loại quan hệ tình cảm tự do hơn, nhưng kết quả của chúng tôi liên quan đến thực tế là đồng tính luyến ái trong các tương tác của con người được xác định bởi vô số yếu tố xã hội học như tuổi tác, giới tính, tầng lớp xã hội, M. Ángeles Serrano nói.
Trong trường hợp của Internet, mặc dù nó là một mạng công nghệ, nhưng tính đa chiều hơn của nó phản ánh thực tế rằng đối với một hệ thống tự trị, việc kết nối không có nghĩa là chỉ truy cập vào hệ thống, như người ta có thể nghĩ lúc đầu.
Ngược lại, nhiều yếu tố khác nhau ảnh hưởng đến việc hình thành các kết nối này và do đó, có thể có nhiều mối quan hệ khác (ví dụ: nhà cung cấp-khách hàng, ngang hàng, ngang hàng dựa trên trao đổi, v.v.).
>> Tham khảo: Tổ hợp bộ gen mới cho giống lúa mì ‘Fielder’.
“Điều thực sự đáng ngạc nhiên, đối với cả mạng xã hội và internet, là khung lý thuyết của chúng tôi – không sử dụng bất kỳ chú thích nào về các kết nối bên ngoài sự tồn tại của chúng – có thể nắm bắt được thực tế đa chiều này vốn không rõ ràng trong dữ liệu của chúng tôi,” nhóm hiện đang làm việc để xây dựng các bản đồ đa chiều hyperbol của các mạng phức hợp phù hợp với khung lý thuyết được thiết lập bởi mô hình SD kết luận.