Data science

Từ Phố Wall đến Phố Chính: Bên trong Hành trình Dữ liệu lớn của Deephaven

Trong thế giới hậu Hadoop này, chúng ta đã thấy một số kiến ​​trúc dữ liệu xuất hiện và đạt được sức hút. Một trong những công cụ thú vị hơn là Deephaven, vốn được phát triển vào thập kỷ trước để cung cấp năng lượng cho một quỹ đầu cơ định hướng định lượng và hiện đang được cung cấp cho thế giới như một nền tảng mở cho phân tích thời gian thực và học máy. Pete Goddard thành lập Walleye Capital tại 2004 với ý tưởng sử dụng nhiều dữ liệu và máy tính nhanh để kiếm nhiều tiền cho khách hàng của mình. Goddard đã giám sát sự phát triển của một hệ thống có tên là Deephaven cho phép các nhà phân tích của Walleye truy vấn một lượng lớn dữ liệu chuyển động nhanh trong thời gian thực, do đó mang lại cho khách hàng của ông lợi thế cạnh tranh trên thị trường chứng khoán. Anh ấy đã kiếm được rất nhiều tiền cho khách hàng của mình. Trong 2016, Goddard đã tách Deephaven Data Labs thành công ty riêng của mình, với ý tưởng sử dụng hệ thống Deephaven để giải quyết các thách thức về dữ liệu theo những cách khác. Trong 5 năm qua, công ty đã thu hút được một số khách hàng trong nhiều ngành khác nhau, bao gồm chăm sóc sức khỏe, sản xuất và thậm chí cả đua ô tô. Giờ đây, công ty đang tìm cách mở rộng sự hiện diện và sử dụng sản phẩm của mình bằng cách đón nhận cộng đồng nguồn mở. Kiến trúc Deephaven “Thật thú vị và thú vị khi được lãnh đạo một công ty thương mại và sử dụng công nghệ này, cũng như một số công nghệ khác mà chúng tôi có, để kiếm tiền. Tôi đã làm điều đó trong một thời gian dài, ”Goddard nói với Datanami. “Chúng tôi nghĩ rằng chúng tôi đang ở một vị trí độc nhất hiện nay. Chúng tôi hiểu một cách làm khác. Chúng tôi đã thấy nó hoạt động. Chúng tôi biết nó có thể mạnh mẽ như thế nào. Và bây giờ chúng tôi muốn mang nó đến với cộng đồng một cách cởi mở ”. Một khung dữ liệu mới Vậy, Deephaven là gì? Đó không phải là một câu hỏi dễ trả lời. Trang web của công ty nói rằng, về cốt lõi, Deephaven là một cơ sở dữ liệu hướng theo cột. Người phát ngôn của công ty đã mô tả nó như một cơ sở dữ liệu chuỗi thời gian. Khi được yêu cầu mở rộng về điều đó, Goddard đã né tránh một chút. “Về cơ bản, đó là hai điều khác nhau,” anh nói. “Đó là một công cụ dữ liệu, và sau đó là một khung dữ liệu.” Là một công cụ dữ liệu, Deephaven hoạt động tương tự như các công cụ tính toán khác, chẳng hạn như Apache Spark hoặc công cụ truy vấn SQL, Goddard nói. Người dùng có thể truy vấn dữ liệu, dữ liệu này thường được lưu trữ ở định dạng Parquet và thậm chí đưa các mô hình học máy được phát triển bằng Python hoặc Tensorflow đối chiếu với dữ liệu đó. Nhưng không giống như nhiều sản phẩm dữ liệu lớn, không có Spark nào được tìm thấy bên trong Deephaven. Và cũng không có giao diện SQL. Goddard nói: “Đó là một cách làm việc mới với dữ liệu để tạo ra phân tích, để phát triển các ứng dụng. “Nó không nằm trên các công cụ dữ liệu khác. Nó là phiên bản riêng của nó. ” Là một khuôn khổ, Deephaven, được phát triển bằng Java, cung cấp rất nhiều “thứ” khác mà người dùng cần để làm việc hiệu quả với phần mềm. Điều đó bao gồm trình kết nối dữ liệu, API, khả năng tương tác với các công cụ khác và giao diện người dùng cho phép người dùng làm việc trực tiếp với dữ liệu được nhập vào hệ thống. Khi nói đến học máy, phần mềm có thể thực thi các mô hình được phát triển bằng Python, Tensorflow và Numba. Nhưng đó cũng không phải là mô tả đầy đủ về những gì Deephaven làm. Theo Goddard, điều mà Deephaven thực sự vượt trội là cho phép phân tích và học máy trên dữ liệu thời gian thực. “Chúng tôi không giống bất kỳ hệ thống dữ liệu nào khác tồn tại ở đó ở khả năng xử lý cả dữ liệu thời gian thực, dữ liệu động và cho phép người dùng di chuyển liền mạch giữa dữ liệu tĩnh lịch sử và dữ liệu động thời gian thực”, Goddard nói . “Dưới vỏ bọc, chúng tôi quan sát việc thêm, xóa, cập nhật, sửa đổi và chúng tôi đang duy trì trạng thái theo những cách thú vị để chúng tôi có thể tính toán từng bước một thay vì thực hiện lại toàn bộ tính toán theo một số chu kỳ.” Thời gian đóng dấu dữ liệu Theo dõi thời điểm một sự kiện xảy ra là rất quan trọng trong việc thực hiện các chiến lược giao dịch và nó ngày càng trở nên quan trọng trong các ngành khác, đặc biệt là đối với các tổ chức muốn thu thập thông tin chi tiết từ dữ liệu sự kiện có khối lượng lớn. Đối với Goddard, chìa khóa có thể giao được cho phép khách hàng của anh ta nhớ lại trạng thái của thế giới tại bất kỳ thời điểm nào. Ông nói: “Có thể có hai nguồn dữ liệu mà bạn quan tâm, hoặc có thể có hàng nghìn nguồn dữ liệu. “Tôi vừa giao dịch ở Apple. Chà, điều gì đã xảy ra trên Twitter một giây ngay trước khi tôi thực hiện giao dịch với Apple? Có phải số lượng Twitter tăng đột biến xung quanh Apple không, và do đó có thể đó là một gợi ý cho tôi rằng thế giới đã biết điều gì đó mà tôi không biết và tôi chỉ cần vượt qua? “Có tất cả dữ liệu khác biệt này trên thế giới có thể chảy theo nhiều cách,” anh ấy tiếp tục, “và tôi cần có thể kết hợp chúng thật tốt dựa trên dấu thời gian, nghĩa là chúng ở đây ngay bây giờ, hoặc tôi muốn thực hiện nghiên cứu này từ 10 phút trước. Điều đó có thể khá quan trọng. ” Ở cấp độ kỹ thuật, Deephaven có khả năng chấp nhận luồng dữ liệu thời gian thực từ các hệ thống pub / sub, chẳng hạn như Kafka hoặc Solace và kết hợp dữ liệu đó với dữ liệu tĩnh nằm trong tệp Parquet và “theo cách rất nhẹ, không giống như KSQL , cung cấp các luồng bắt nguồn từ đầu các luồng cho người tiêu dùng, thông qua API hoặc qua trải nghiệm người dùng, ”Goddard nói. “Điều đó sẽ tồn tại ngoài hộp.” Deephaven, chạy theo cách phân tán, cũng hoạt động tốt với dữ liệu được lưu trữ ở định dạng dữ liệu Mũi tên và Mũi tên Apache và Goddard đang tìm cách mở rộng sự hiện diện của Deephaven trong góc nhỏ đó của cộng đồng nguồn mở. Trên thực tế, Deephaven đã đóng góp một tính năng mới cho dự án Arrow cho phép định dạng dữ liệu hiểu rõ hơn về dữ liệu đang thay đổi. Công ty đang cung cấp Deephaven theo giấy phép “nguồn có sẵn”. Ý tưởng là thu hút nhiều người dùng hơn đến với Deephaven, với hy vọng rằng các nhà phát triển sẽ nắm bắt và giúp tích hợp sâu hơn nữa với cộng đồng mã nguồn mở. Goddard nói: “Có khá nhiều tài sản trí tuệ thú vị nằm dưới vỏ bọc và những phần quan trọng của tài sản đó hiện đang được công khai để mọi người có thể nhìn thấy trong cơ sở mã của chúng tôi,” Goddard nói. “Nhưng tôi không nghĩ rằng nhiều nhà phát triển hoặc thành viên cộng đồng sẽ quan tâm đến cách nó hoạt động. Họ sẽ chỉ có thể sử dụng nó và vui mừng vì nó hoạt động. ” Data Meets Software Goddard dường như thích vị thế của mình như một người ngoài cuộc. Sau hơn một thập kỷ sống trong nồi áp suất ở Phố Wall, người gốc Illinois dường như không quan tâm đến việc phù hợp với những định kiến ​​về danh mục phần mềm của Thung lũng Silicon. Pete Goddard là Giám đốc điều hành của Deephaven Data Labs Khi nói đến dữ liệu, liệu Deephaven có nên được mô tả như một cơ sở dữ liệu theo chuỗi thời gian, định hướng cột hay một khung phân tích trực tuyến hay hệ thống xử lý hàng loạt thời gian thực kết hợp hay không, những từ đó không có nghĩa nhiều cho Goddard. “Sự khác biệt lớn giữa chúng tôi và mọi người là chúng tôi đến từ bên ngoài và do đó chúng tôi nghĩ rằng công cụ này là một sự liên tục,” anh nói. “Tôi chỉ nghĩ về những thứ theo hướng dữ liệu khi dữ liệu gặp phần mềm. Mọi người khác đặt nó vào một chiếc hộp. Tôi giống như, tôi không quan tâm nếu đó là một trong những hộp. Phần mềm đáp ứng dữ liệu có thể là thời gian thực hoặc có thể là hàng loạt. Phần mềm đáp ứng dữ liệu có thể là một ứng dụng. Nó có thể là phân tích. Nó có thể là một hình dung cho một nhà phân tích kinh doanh hoặc nó có thể là khoa học dữ liệu hoặc bất cứ điều gì ”. Công ty đã làm việc với một loạt khách hàng, bao gồm cả những khách hàng ở thị trường vốn, công ty viễn thông chăm sóc sức khỏe và thậm chí cả đội đua xe Công thức 1. Đặc điểm chung liên kết tất cả những khách hàng này là mong muốn có được thông tin chi tiết về lượng lớn dữ liệu chuyển động nhanh. Goddard nói: “Đây không phải là một dự án khoa học. “Đây là công nghệ đang hoạt động mà một số đối thủ nặng ký nhất trên thị trường vốn đang sử dụng cho những thứ quan trọng về đường dẫn… ..Đây là những thứ mà khách hàng hiện tại của chúng tôi đang làm, và họ là những người rất tinh vi có thể chọn những thứ khác để sử dụng. ” Các mục liên quan: Sơ lược về tương lai của Kiến trúc dữ liệu mở Truyền dữ liệu theo thời gian thực, Kafka và Analytics Phần một: Truyền dữ liệu 101 Thời gian thực dựa trên máy học Phát hiện mối đe dọa đối với ngân hàng Phân tích đồ thị tạo sức mạnh cho cái nhìn sâu sắc về dịch vụ tài chính

  • Trang chủ
  • Trí tuệ nhân tạo
  • Chuyên viên phân tích kinh doanh
  • Thông tin kinh doanh
  • Khoa học dữ liệu
  • Back to top button