Data science

Công cụ suy luận Nvidia giữ độ trễ BERT trong vòng một phần nghìn giây

Thật tiếc khi các nhà khoa học dữ liệu của bạn đánh giá độ chính xác của mô hình học sâu ở một mức độ rất cao, chỉ để bị buộc phải rút ra mô hình để suy luận vì những hạn chế về tài nguyên. Nhưng điều đó sẽ hiếm khi xảy ra với phiên bản mới nhất của công cụ suy luận TensorRT của Nvidia, có thể chạy mô hình biến áp BERT-Large với độ trễ ít hơn một phần nghìn giây, nhà sản xuất hệ thống AI đã công bố hôm nay. “Theo truyền thống, đào tạo cho AI luôn được thực hiện trong trung tâm dữ liệu,” Siddharth Sharma, người đứng đầu bộ phận tiếp thị sản phẩm của Nvidia cho AI Software cho biết trong một cuộc họp hôm qua. “Bạn bắt đầu với hàng petabyte dữ liệu, hàng trăm nghìn giờ dữ liệu giọng nói. Bạn đào tạo mô hình với độ chính xác cao nhất mà bạn có thể. Và sau đó một khi bạn đã đào tạo nó, bạn thực sự ném nó đi để suy luận. ” Mặc dù việc xây dựng mô hình học máy được cho là phần khó nhất của hệ thống AI, nhưng công việc vẫn chưa hoàn thành vào thời điểm đó. Trên thực tế, một khi bạn ném mô hình qua tường để các kỹ sư phần mềm ghép vào một đoạn mã có thể triển khai, vẫn có một số lựa chọn khá khó khăn để thực hiện. Đó là bởi vì khối lượng công việc suy luận thực tế sẽ chạy trên các hệ thống ít mạnh hơn nhiều so với những gì mô hình đã được đào tạo, bao gồm các hệ thống nhúng, trên ô tô và các thiết bị tiên tiến khác. Sharma nói: “Bạn sẽ phải đưa ra những lựa chọn thực sự khó khăn trên các thông số khác nhau khi bạn cố gắng triển khai. “Đây là một trong những thách thức lớn nhất trong việc triển khai các ứng dụng AI ngày nay: làm thế nào để bạn tối đa hóa hoặc giữ lại mức độ chính xác mà bạn đã tạo ra từ các nhóm nghiên cứu mà bạn đã đào tạo và sau đó cung cấp cho khách hàng của mình với số tiền ít nhất độ trễ mà bạn có thể chạy? ” TensorRT thu hẹp khoảng cách giữa phát triển và triển khai học sâu (hình ảnh lịch sự của Nvidia) TensorRT là phần mềm của Nvidia cung cấp cho khối lượng công việc suy luận. Nó hỗ trợ tất cả các loại mô hình khác nhau, bao gồm mạng nơ-ron tuần hoàn, mạng nơ-ron đồng thời và các mô hình biến áp mới nhất như BERT, được phát triển trên nhiều ngôn ngữ, từ PyTorch đến TensorFlow. Sản phẩm đã được 5 năm tuổi và TensorRT phiên bản 7, phiên bản mới nhất, vẫn sở hữu một số kỷ lục điểm chuẩn về độ chính xác và hiệu quả. Tuy nhiên, những điểm chuẩn đó dường như không dài đối với thế giới này, vì Nvidia đang chuẩn bị cung cấp TensorRT 8, cải thiện dựa trên TensorRT 7 theo một số cách quan trọng, bao gồm tăng gấp 2 lần hiệu suất thô, gấp 2 lần cải thiện độ chính xác bằng cách sử dụng số nguyên tám bit và hỗ trợ thưa thớt trên GPU Ampere. Các cải tiến sẽ áp dụng tốt cho các trường hợp sử dụng AI khác nhau, bao gồm hiểu ngôn ngữ, thị giác máy tính, hình ảnh y tế và hệ thống khuyến nghị, Sharma nói. Ông nói: “TensorRT 8 là giải pháp suy luận tiên tiến nhất hiện có trên thị trường. “Và với những thành tựu này, chúng tôi rất vui mừng được biết các nhà phát triển sẽ có thể làm gì với nó.” Hỗ trợ thưa thớt mới cho GPU Ampere của Nvidia sẽ cung cấp một cách để cắt bỏ các phần của mô hình mà không làm ảnh hưởng đến hiệu suất. “Vì vậy, không phải tất cả các phần của mô hình học sâu đều quan trọng như nhau,” Sharma nói. “Một số trọng lượng có thể được giảm xuống bằng không. Điều đó có nghĩa là… bạn không cần phải thực hiện tính toán trên những trọng lượng cụ thể đó. Điều đó thật thú vị bởi vì điều đó hiện dẫn đến việc tính toán ít hơn, ít bộ nhớ hơn, băng thông ít hơn ”. Độ chính xác tăng gấp 2 lần khi sử dụng số nguyên tám bit (INT8) đến từ thứ mà Nvidia gọi là Đào tạo Nhận thức Lượng tử (QAT). Theo Sharma, Nvidia đã tìm ra cách để đạt được mức độ chính xác tương tự khi sử dụng số bit chính xác 32 – (FP 32) khi sử dụng định dạng dữ liệu INT8. “Một trong những kỹ thuật được sử dụng trong Tensor RT là sử dụng lượng tử hóa,” Sharma nói. “Thay vì sử dụng FP 32, bạn cố gắng sử dụng một phần tư dung lượng bộ nhớ để tính toán. Điều đó có nghĩa là bây giờ bạn đang sử dụng có thể một vài bit để thực sự đại diện cho những con số khổng lồ này, vì vậy sự tùy ý là rất, rất khác. TensorRT hỗ trợ cho việc chạy các mô hình thưa thớt trên GPU Ampere “Bởi vì bạn đang sử dụng số lượng ít hơn, bạn có xu hướng mất độ chính xác,” ông tiếp tục. “Nhưng bằng cách sử dụng kỹ thuật này, bạn có thể giữ lại độ chính xác như khi bạn có với FP 32. Điều này thật đáng kinh ngạc bởi vì nó hầu như chưa từng xảy ra trong ngành. Vì vậy, tôi có thể nói rằng đây thực sự là một thành tích đáng chú ý cho phép chúng tôi giữ được độ chính xác trong khi mang lại hiệu suất thực sự cao với TensorRT8. ” Những cải tiến về tốc độ và độ chính xác trong TensorRT8 là tuyệt vời đến mức nó có thể mang lại độ trễ dưới mili giây cho BERT, Sharma nói. Điều đó có thể có nghĩa là sự khác biệt giữa việc cung cấp trải nghiệm suy luận thành công và thỏa mãn cho người dùng các sản phẩm học sâu và giải quyết trải nghiệm tốc độ thứ hai mà bỏ qua độ chính xác hoặc tốc độ. “BERT-Large đạt được độ chính xác vượt qua các đường cơ sở về độ chính xác của con người trên toàn bộ các ứng dụng khác nhau,” Sharma nói. “Tuy nhiên, với quy mô lớn, các công ty phải đưa ra những lựa chọn thực sự khó khăn về những gì họ sẽ triển khai.” Ví dụ: một số công ty đã phải thu nhỏ kích thước của mô hình BERT-Large của họ xuống 50% hoặc hơn để giữ độ trễ trong một phạm vi có thể quản lý được, giả sử là hai hoặc ba mili giây, Sharma nói . Vì vậy, những khách hàng sử dụng mô hình học sâu lớp 12 được đào tạo chuyên sâu có thể phải loại bỏ chín mô hình và đưa ra thị trường với một mô hình có chỉ ba lớp, để giữ độ trễ trong phạm vi. Sharma nói: “Bạn có thể tưởng tượng mức độ chính xác mà họ đang mất đi. “Độ chính xác của tìm kiếm có nghĩa là hệ thống tìm kiếm của bạn không thể hiểu những gì bạn đang nói. Đề xuất quảng cáo của bạn có nghĩa là các đề xuất mà bạn nhận được kém hơn rất nhiều bởi vì mô tả đối tượng của bạn không khớp với truy vấn mà bạn yêu cầu. Các bot trò chuyện khi bạn đang nói chuyện với các ứng dụng khác nhau, chúng không hiểu sắc thái. Họ cũng không hiểu bạn đang nói gì. Và do đó, nó dẫn đến trải nghiệm phụ trên toàn diện. ” Nhưng khả năng triển khai toàn bộ mô hình BERT-Large và duy trì thời gian phản hồi trong vòng một phần nghìn giây, sẽ có tác động lớn, ông nói. “Điều đó là rất lớn và tôi tin rằng điều đó sẽ dẫn đến một thế hệ ứng dụng AI đàm thoại hoàn toàn mới, một mức độ thông minh, một mức độ trễ chưa từng có trước đây,” Sharma nói. Theo Nvidia, Nvidia cũng đã thông báo rằng một trong những nhóm khoa học dữ liệu của họ đã giành chiến thắng trong một loạt cuộc thi, bao gồm Thử thách của Booking.com và sử dụng hàng triệu điểm dữ liệu ẩn danh đang bùng nổ để dự đoán thành phố cuối cùng mà một người đi nghỉ ở châu Âu sẽ chọn. truy cập và Thử thách dữ liệu thương mại điện tử SIGIR, thử thách phát hiện các tín hiệu mua hàng trong dữ liệu thu thập được từ các phiên thương mại điện tử của khách hàng. Vào cuối tháng 6, Nvidia đã giành chiến thắng trong cuộc thi thứ ba trong vòng 5 tháng khi đứng đầu trong ACM RecSys Challenge. Cuộc thi này liên quan đến việc dự đoán người dùng Twitter thích hoặc đăng lại tweet nào, dựa trên một tập huấn luyện bao gồm bốn triệu điểm dữ liệu mỗi ngày trong 28 ngày. Nhóm có 20 GB bộ nhớ, một CPU duy nhất, một 24 -giờ hạn thời gian. Nó đã sử dụng 23 giờ và 40 phút, và đưa ra mô hình chiến thắng. Benedikt Schifferer, một trong những thành viên của nhóm khoa học dữ liệu Nvidia, cho biết: “Chúng tôi thực sự đang ở trong tình thế cạnh tranh. “Email đến ngay dưới bộ rung – 20 vài phút sau và chúng tôi đã hết thời gian chờ,” Chris Deotte, một thành viên khác trong nhóm cũng là một Đại sư phụ Kaggle. Sau đó, nhóm đã chạy cùng một mô hình trên một GPU Nvidia A 100 duy nhất. Chỉ mất 5 phút rưỡi. Các mục liên quan: Cloudera, Nhóm Nvidia tăng tốc độ AI trên đám mây thông qua Spark Jarvis của Nvidia cung cấp các chuyên gia dịch máy thời gian thực Không đồng ý về tính tiện ích của các mô hình ngôn ngữ lớn

  • Trang chủ
  • Trí tuệ nhân tạo
  • Chuyên viên phân tích kinh doanh
  • Thông tin kinh doanh
  • Khoa học dữ liệu
  • Back to top button