Data science

Kết cấu dữ liệu hình thành để xoa dịu cơn ác mộng về quản lý dữ liệu đám mây

Các công ty đang tăng cường các dự án phân tích và AI nâng cao của họ trên đám mây, điều này đang giúp họ đưa ra các quyết định dựa trên dữ liệu trong các thị trường ngày càng cạnh tranh. Tuy nhiên, cuộc tiến quân lên đám mây cũng đang bộc lộ những điểm yếu trong chiến lược quản lý dữ liệu của các công ty. Điều đó thúc đẩy một số công ty áp dụng các kết cấu dữ liệu, điều này có thể giúp vá những lỗ hổng trong việc triển khai hỗn hợp và đa đám mây. Một trong những nhà phân tích đã quan sát những thử nghiệm và khó khăn của việc quản lý dữ liệu trong những năm qua là Noel Yuhanna của Forrester. Như Yuhanna nhận thấy, sự gia tăng của đám mây đang làm trầm trọng thêm những thách thức hiện có mà các công ty gặp phải về quản lý dữ liệu. “Tôi nói chuyện với ba đến bốn khách hàng mỗi ngày, hầu hết là các công ty Fortune 1000, và họ “Này, chúng tôi có tất cả các loại vấn đề đang chạy với quản lý dữ liệu, không chỉ di chuyển và silo dữ liệu, mà còn bảo mật và quản trị dữ liệu và tích hợp và chuyển đổi và chuẩn bị và chất lượng,” Yuhanna nói với Datanami. “Nó là một cơn ác mộng.” Yuhanna đã đi đầu trong khái niệm kết cấu dữ liệu khi nó lần đầu tiên xuất hiện vào giữa 2000 và bây giờ anh ấy đang xem việc áp dụng đám mây bùng nổ đang làm tăng thêm nhu cầu vải dữ liệu trong 2020 s. “Chúng tôi đã nói về điều này [data fabric] trong 15 nhiều năm,” Yuhanna nói. “Mười lăm năm trước, chúng ta thường nói về kết cấu dữ liệu chủ yếu là tại cơ sở. Nhưng ngày nay, nó phải làm với đám mây và đám mây đa đám mây và đám mây lai ở các cạnh. Vì vậy, vải càng trở nên quan trọng hơn ”. Cấu trúc trong đám mây Như Yuhanna đã nói trong phần 2017, cấu trúc dữ liệu về cơ bản là một lớp trừu tượng liên kết một bộ sưu tập khác nhau của các công cụ dữ liệu nhằm giải quyết các điểm khó khăn chính nói chung. dự án dữ liệu. Một giải pháp kết cấu dữ liệu phải cung cấp các khả năng trong các lĩnh vực truy cập, khám phá, chuyển đổi, tích hợp, bảo mật, quản trị, dòng dõi và điều phối dữ liệu. Nó cũng phải cung cấp khả năng tự phục vụ, cũng như một số capabilite biểu đồ để xác định dữ liệu được kết nối. Một mô tả về cấu trúc dữ liệu, được sự cho phép của nhà cung cấp phân tích AtScale Bằng cách cung cấp một cách để mang lại những khả năng quản lý dữ liệu này dựa trên dữ liệu trải dài tất cả các silo này, cấu trúc dữ liệu có thể giúp giảm bớt những thách thức về quản lý dữ liệu cốt lõi khiến các công ty không thể sử dụng dữ liệu cấp cao hơn các trường hợp, bao gồm phân tích nâng cao và AI trên đám mây. Một nhà cung cấp đang tìm kiếm lực kéo với giải pháp kết cấu dữ liệu của mình là Ataccama. Công ty – được đặt tên theo sa mạc Chile nhưng có trụ sở chính trên thế giới ở Toronto và văn phòng R & D ở Prague, Cộng hòa Séc – đã trải qua sự gia tăng nhu cầu đối với các giải pháp của mình kể từ khi COVID bắt đầu hướng khách hàng đến đám mây với số lượng lớn hơn, Marek cho biết Ovcacek, phó chủ tịch chiến lược nền tảng của Ataccama. “Những gì tôi đang thấy từ khách hàng của chúng tôi và trên thị trường, ngay bây giờ không chỉ là một đám mây. Chúng thường di chuyển đến nhiều đám mây, ”Ovcacek nói với Datanami. “Một nhóm đang nghiên cứu giải pháp nói rằng Azure và một nhóm khác đang nghiên cứu giải pháp trên đám mây của Google, v.v.” Ông nói, nếu không có cách liên kết các quy trình quản lý dữ liệu của họ trên nhiều đám mây và các hoạt động tại chỗ, các công ty sẽ có nguy cơ khiến các dự án dữ liệu của họ chệch hướng. Ông nói: “Rõ ràng là có một chút rắc rối nếu bạn có những kiểu thiết lập này. Sum of Fabric's Parts Ovcacek cho biết khách hàng đến Ataccama với những ý tưởng mơ hồ về những gì họ cần. Họ có thể bắt đầu hỏi về danh mục dữ liệu của công ty, dẫn đến nhu cầu của họ về chất lượng dữ liệu tốt hơn. Tại một số điểm, cuộc trò chuyện chuyển hướng rõ ràng theo hướng của một kết cấu dữ liệu, bao gồm nó là gì và nó có thể làm gì cho khách hàng. Các đám mây đã nổi lên như một kho lưu trữ chính cho kết cấu dữ liệu (Ảnh Phonlamai / Shutterstock) Theo quan điểm của Ovcacek, thành phần quan trọng biến một nhóm các công cụ quản lý dữ liệu khác nhau thành một kết cấu dữ liệu là loại bỏ nhu cầu quản lý dữ liệu theo cách thủ công. Sự tự động hóa này chủ yếu được thúc đẩy bởi siêu dữ liệu cơ bản, liên kết các tác vụ quản lý dữ liệu khác nhau. “Lý tưởng nhất đối với tôi, khi kết cấu dữ liệu hoàn tất, tương tác thủ công của con người không còn ở đó nữa, hoặc đó là một ẩn sau hậu trường, và nó liền mạch khi tôi nhận được những gì mình cần,” anh nói. “Bạn có thể có tất cả các phần của cấu trúc dữ liệu… .Gartner gọi chúng là sáu trụ cột của cấu trúc dữ liệu. Bạn có thể có tất cả chúng trong tổ chức. Nếu bạn không sử dụng nó một cách chính xác, bạn sẽ không có một kết cấu dữ liệu ”. Theo hệ thống cũ, khi một nhân viên cần quyền truy cập vào dữ liệu, họ phải đến tổ chức và yêu cầu ai đó cung cấp cho họ quyền truy cập vào dữ liệu. Đây là một quá trình chủ yếu là thủ công và nó làm mọi thứ chậm lại, Ovcacek nói. Ông nói: “Bây giờ quy trình sử dụng kết cấu dữ liệu. “Khi bạn có một ca sử dụng… có rất nhiều quy trình tự động cung cấp cho bạn dữ liệu và thực sự cung cấp cho bạn chính xác những gì bạn cần. Tôi không nói rằng không thể có bất kỳ kiểm tra thủ công nào. Nhưng không nhất thiết phải là tôi đang gọi ai đó từ một tổ chức khác để cấp cho tôi quyền truy cập vào dữ liệu. Nó cần được tích hợp vào giải pháp ”. Ông nói, một kết cấu dữ liệu cũng nên có thể kết hợp được. Nghĩa là, khách hàng có thể thay thế một khía cạnh của kết cấu dữ liệu – ví dụ danh mục dữ liệu – và thay thế nó bằng một giải pháp khác. “Tôi muốn có một tiêu chuẩn cho các nhà cung cấp kết cấu dữ liệu,” Ovacek nói. “Tôi không nghĩ rằng điều đó sẽ xảy ra.” Tuy nhiên, API có thể giúp ích cho bạn. Nền tảng đám mây đang phát triển Yuhanna là tác giả của Làn sóng Forrester dành cho Vải dữ liệu doanh nghiệp, Quý 2 2020 Các nhu cầu quản lý dữ liệu cấp bách nhất đang diễn ra trên đám mây, nhờ vào sự bùng nổ của sự đổi mới đang diễn ra ở đó và tiết kiệm cơ sở hạ tầng có thể có ở đó. Các công ty đang phấn đấu theo hướng dữ liệu muốn có thể cung cấp cho các nhà khoa học và nhà phân tích dữ liệu của họ quyền truy cập nhanh chóng và dễ dàng vào tất cả các loại dữ liệu, đồng thời tuân thủ các hạn chế cần thiết về bảo mật, quyền riêng tư và quản trị. Đây là những gì các loại vải dữ liệu làm. Theo quan điểm của Yuhanna, khách hàng sẽ chạy một phiên bản kết cấu dữ liệu trong mỗi môi trường đám mây mà khách hàng chạy. Vì vậy, môi trường AWS của họ sẽ có một phiên bản kết cấu dữ liệu, giống như môi trường Google Cloud và Microsoft Azure của họ. Các công ty có thể sử dụng các loại dữ liệu từ các nhà cung cấp bên thứ ba cung cấp chúng, chẳng hạn như Talend, Informatica, Cambridge Semantics, Cloudera, Infoworks và Ataccama, trong số những người khác. Họ cũng có thể sử dụng các loại dữ liệu mà các nhà cung cấp đám mây đang bắt đầu cung cấp, chẳng hạn như dịch vụ DataPlex của Google Cloud, được ra mắt vào tháng 3. Yuhanna nói: “Tôi nghĩ Microsoft cũng đang bắt đầu phát triển thành dịch vụ dữ liệu chung của họ, mô hình dữ liệu chung mà họ đang làm việc. “Nhưng Google dường như đang có một chút lợi thế ở đây với chất liệu vải. Họ vẫn chưa xong. Nó vẫn đang phát triển trên nền tảng này. ” Mặc dù mỗi loại vải riêng lẻ sẽ có các quy trình và siêu dữ liệu độc quyền của riêng mình, nhưng sẽ có một số mức độ tích hợp giữa chúng bằng cách sử dụng API, cũng như dữ liệu JSON, Yuhanna nói. “Các API và JSON đang đóng một vai trò lớn trong mức độ tiêu chuẩn hóa này ở một mức độ nào đó,” ông nói. Forrester ước tính rằng 20% các tổ chức đã sử dụng nhiều đám mây ngày nay và dự kiến ​​con số đó sẽ tăng gấp đôi trong ba năm tới. Yuhanna nói rằng điều đó làm dấy lên những lo ngại thực sự và cũng là cơ hội cho các nhà cung cấp giải pháp kết cấu dữ liệu. Ông nói: “Nhiều người hiện đang bắt đầu tận dụng vải vì dữ liệu được trải rộng trên tất cả các đám mây khác nhau. “Đúng vậy, ngày nay vải đang đóng một vai trò to lớn trong ngành công nghiệp đa đám mây và đám mây lai”. Các mục liên quan: Google Cloud giải quyết vấn đề hợp nhất dữ liệu với các sản phẩm mới Quay lại kiến ​​thức cơ bản: Quản lý dữ liệu lớn trong hỗn hợp, Chi phí vượt trội trên thế giới đa đám mây và Quản lý sai: Hai mối đe dọa đối với hành trình dữ liệu đám mây của bạn

Back to top button