Data science

Starburst Backs Data Mesh Architecture

Kiến trúc lưới dữ liệu mới nổi có tiềm năng giữ cho các dự án phân tích và AI tiếp tục phát triển ngay cả khi việc lưu trữ và xử lý dữ liệu tiếp tục phân tán rộng khắp. Một người ủng hộ độc lập khái niệm lưới dữ liệu là Starburst, công ty đứng sau phiên bản của công cụ truy vấn SQL phân tán Presto được gọi là Trino. Giám đốc điều hành của Starburst, Justin Borgman, nói rằng có một động lực đáng kể đằng sau khái niệm lưới dữ liệu. “Có vẻ như nó đang đạt được một số động lực,” Borgman nói với Datanami. “Về cơ bản, đó là một sự thừa nhận rằng dữ liệu sẽ được phân cấp và có những lợi thế khi được phân cấp và thực sự những gì chúng tôi đang cố gắng tạo ra là một điểm truy cập hoặc một điểm phân tích duy nhất trên tất cả dữ liệu đó bất kể nó sống ở đâu . ” Trên trang web của mình, Starburst đang định vị Trino (trước đây là PrestoSQL) là “công cụ phân tích cho lưới dữ liệu”. Trino, giống như Presto, là một công cụ phân tán có thể thực thi các truy vấn SQL dựa trên dữ liệu được lưu trữ trong một loạt các cơ sở dữ liệu và hệ thống tệp. Ban đầu nó được thiết kế để hoạt động trong cụm Hadoop đã được sửa đổi của Facebook, nhưng ngày nay các trường hợp sử dụng lớn nhất được cho là truy vấn dữ liệu được lưu trữ trong hệ thống lưu trữ đối tượng tương thích S3 hoặc S3, cũng như các hồ như Delta Lake của Databricks. “ Stonebraker nổi tiếng đã nói rằng không có cơ sở dữ liệu nào có kích thước phù hợp với tất cả, và điều đó hợp lý có nghĩa là bạn sẽ có rất nhiều cơ sở dữ liệu khác nhau trong tổ chức của mình và những nhóm đó có lẽ biết dữ liệu đó tốt nhất, ”Borgman nói. “Mỗi người là một miền cụ thể về mặt đó. Và do đó, các nhóm đó sẽ có các kỹ sư dữ liệu của riêng họ quản lý dữ liệu đó, nhưng được kết hợp với nhau bằng vải này hoặc lưới dữ liệu này và đó là nơi chúng tôi phát huy tác dụng, bằng cách cho phép bạn xem trên tất cả các nguồn dữ liệu đó. ” Các kho dữ liệu riêng biệt về mặt vật lý có thể được liên kết một cách hợp lý thông qua một lưới dữ liệu (Song_about_summer / Shutterstock) Các hồ dữ liệu dựa trên đám mây là kho dữ liệu lớn nhất hiện nay, nhưng chúng không phải là nơi duy nhất mà dữ liệu tồn tại. Bằng cách tuân theo các quy tắc của kiến ​​trúc lưới dữ liệu, Starburst nhằm mục đích thống nhất phân tích dữ liệu trên các miền phân tán thay mặt cho khách hàng của mình, bao gồm cả Comcast. “Comcast là một ví dụ tuyệt vời,” Borgman nói. “Quay lại ba năm trước, trường hợp sử dụng ban đầu của họ về cơ bản là Teradata và Hadoop. [Comcast said] chúng ta cần có quyền truy cập vào cả hai. Chúng tôi có hành vi xem trong hồ dữ liệu, như những gì mọi người xem và chúng tôi có dữ liệu thanh toán trong Teradata. Chúng tôi muốn có thể hiểu các chương trình mà mọi người xem tác động như thế nào đến số tiền họ chi tiêu cho chúng tôi và thực hiện các chiến dịch bán kèm và bán thêm từ hai tập dữ liệu đó ”. Comcast sử dụng Trino như một phần của “kết cấu truy vấn” nhằm hợp nhất hoạt động phân tích dữ liệu trên các miền, công cụ truy vấn và kho lưu trữ khác nhau. Borgman nói: Cấu trúc truy vấn cụm từ về cơ bản có nghĩa giống như cấu trúc dữ liệu. “Mỗi người có một thuật ngữ khác nhau,” anh nói. Các công ty đa quốc gia lớn có thể đang ở vị trí dẫn đầu của phong trào lưới dữ liệu vì một lý do đơn giản: GDPR buộc các công ty phải duy trì dữ liệu về cư dân châu Âu trong ranh giới thực của quốc gia họ cư trú. “Nếu bạn là một tổ chức đa quốc gia, Borgman nói. “Dữ liệu ở Thụy Sĩ được tạo ra ở Thụy Sĩ bởi người Thụy Sĩ phải được lưu giữ ở Thụy Sĩ. Dữ liệu được tạo ở Đức phải ở Đức. Dữ liệu được tạo ra ở Pháp phải ở lại Pháp. ” Borgman tiếp tục cho biết các luật và quy định về dữ liệu và quyền riêng tư mới nổi “về cơ bản đang buộc phải thực hiện chiến lược lưới dữ liệu”. “Không còn có thể lấy tất cả dữ liệu của tôi từ Đức và Pháp cũng như tất cả các quốc gia khác nhau này và tập hợp tất cả chúng lại với nhau, bởi vì điều đó sẽ vi phạm các quy tắc, luật pháp”. Starburst đã tạo ra một sản phẩm có tên là Stargate nhằm giúp các công ty khai thác giá trị từ dữ liệu của họ trong khi tuân thủ các quy định mới này. Về cơ bản, Stargate cho phép người dùng kết nối nhiều cụm Starburst với nhau, đồng thời đảm bảo dữ liệu về khách hàng không bao giờ vượt qua biên giới. Borgman nói: “Stargate về cơ bản là một đầu nối Starburst đến Starburst. “Có thể bạn có một cụm ở AWS East và một cụm ở AWS Frankfurt. Hoặc nó có thể là đa đám mây. Nó có thể là một cụm trong AWS và một cụm trong Azure. Nhưng bất kể dữ liệu đó thực sự sống ở đâu, cụm Starburst cục bộ đó đang thực hiện xử lý và chỉ trả lại kết quả tuân thủ hiệu quả. ” Starburst muốn phần mềm dựa trên Trino của mình trở thành công cụ truy vấn cho lưới dữ liệu mới nổi. Nhưng Borgman nói rằng điều quan trọng là phải nhận ra rằng Starburst không phải là một lưới dữ liệu, trong và của chính nó. Ông nói: “Các thành phần khác cho kiểu mô hình này hoặc kiểu thiết kế này sẽ là quản trị và kiểm soát truy cập, ví dụ như các công ty như Immuta hoặc Privacera. Theo dõi dữ liệu trong lưới dữ liệu là rất quan trọng và đó là nơi mà danh mục dữ liệu từ các nhà cung cấp như Collibra và Alation phát huy tác dụng, Borgman nói. “Và các công cụ BI nhằm mục đích trực quan hóa dữ liệu về những thứ này,” ông nói thêm. “Chúng tôi có quan hệ đối tác cụ thể với Tableau và ThoughtSpot và [Microsoft’s] PowerBI mà chúng tôi hợp tác rất chặt chẽ để giúp hình dung dữ liệu mà chúng tôi có thể kết nối.” Vào cuối ngày, chiến lược lưới dữ liệu là một sự thỏa hiệp, giống như bất kỳ thứ gì khác. Nhưng khi bạn từ bỏ việc bắt buộc tập trung dữ liệu, bạn sẽ không từ bỏ chất lượng dữ liệu hoặc quản trị dữ liệu. Thay vào đó, các bước đó và các nguyên tắc đó giờ đây được tiến hành đơn giản theo cách phân tán, phản ánh trạng thái tự nhiên của chính dữ liệu. “Lý do tôi thấy [data mesh] đặc biệt hấp dẫn chỉ đơn giản là nó phản ánh với tôi thực tế trông như thế nào một cách tự nhiên,” Borgman nói. “Thật hiếm có một khách hàng nào thực sự triển khai kho dữ liệu doanh nghiệp ở mức tối đa. Thực tế mà nói, để có thể thực sự có mọi thứ bạn cần ở một nơi là rất khó để thực hiện. Và tôi nghĩ điều đó trở lại những ngày đầu tiên Teradata cố gắng làm [that]. Và bây giờ Snowflake đang cố gắng làm điều đó. ” Dữ liệu ngày nay được trải rộng trên các cửa hàng đối tượng trên đám mây. Nó nằm trong bộ nhớ S3, Azure Data Lake và Google Cloud Storage. Nó nằm trong cơ sở dữ liệu MongoDB, Cassandra và Aerospike NoSQL. Nó nằm trong các nhà hồ Databricks và nhà kho Snowflake. Nó nằm trong các cụm Hadoop; Cơ sở dữ liệu SingleStore, CockroachDB và Yugabyte NewSQL; và các cửa hàng đồ thị từ Neo4j, TigerGraph và Franz. Nó có trong vô số các kho lưu trữ đối tượng trên đám mây và tại chỗ cũng như các hệ thống tệp phân tán. Nó có sẵn trong cơ sở dữ liệu quan hệ Oracle, Db2 và Postgres. Nó đang chảy trong Kafka, Pulsar và các hệ thống quán rượu phụ khác. Nó nằm trong trang tính Excel và cơ sở dữ liệu Access. Thần dữ liệu đã ra khỏi bình và nó sẽ không bao giờ quay trở lại. “Trở lại câu nói của Stonebreaker, không có một kích thước nào phù hợp với tất cả hệ thống cơ sở dữ liệu,” Borgman nói. “Tôi nghĩ điều đó vẫn còn áp dụng trong kỷ nguyên đám mây. Nó chỉ là một tập hợp cơ sở dữ liệu khác nhau. ” Các mục liên quan: Lưới dữ liệu hình thành theo đuổi sự hài hòa dữ liệu Trước tương lai của phân tích dữ liệu mở, Foundation nói Starburst Galaxy Manages Presto in the Cloud

Back to top button