Artificial intelligence

Lisa Su của AMD đột phá qua trần nhà Silicon

May mắn thay cho các mạng nơ-ron nhân tạo như vậy – sau này được gọi là “học sâu” khi chúng bao gồm thêm các lớp nơ-ron – hàng thập kỷ của Định luật Moore và các cải tiến khác trong phần cứng máy tính đã mang lại số lượng tính toán mà một máy tính có thể thực hiện tăng gần 10 triệu lần. trong một giây. Vì vậy, khi các nhà nghiên cứu quay trở lại nghiên cứu sâu vào cuối những năm 2000, họ đã sử dụng các công cụ tương đương với thử thách. Những máy tính mạnh hơn này có thể tạo ra các mạng với nhiều kết nối và nơ-ron hơn và do đó có khả năng mô hình hóa các hiện tượng phức tạp cao hơn. Các nhà nghiên cứu đã sử dụng khả năng đó để phá kỷ lục này đến kỷ lục khác khi họ áp dụng học sâu vào các nhiệm vụ mới. Mặc dù sự phát triển của học sâu có thể là quan trọng, nhưng tương lai của nó có thể gập ghềnh. Giống như Rosenblatt trước họ, các nhà nghiên cứu học sâu ngày nay đang tiến gần đến biên giới của những gì công cụ của họ có thể đạt được. Để hiểu tại sao điều này sẽ định hình lại việc học máy, trước tiên bạn phải hiểu tại sao học sâu lại thành công như vậy và chi phí để duy trì nó như vậy. Học sâu là một hiện thân hiện đại của xu hướng lâu dài trong trí tuệ nhân tạo đã chuyển từ các hệ thống được sắp xếp hợp lý dựa trên kiến ​​thức chuyên môn sang các mô hình thống kê linh hoạt. Các hệ thống AI ban đầu dựa trên quy tắc, áp dụng logic và kiến ​​thức chuyên môn để thu được kết quả. Các hệ thống sau này đã kết hợp việc học để thiết lập các thông số có thể điều chỉnh của chúng, nhưng chúng thường có số lượng ít. Mạng nơ-ron ngày nay cũng học các giá trị tham số, nhưng những tham số đó là một phần của các mô hình máy tính linh hoạt – nếu chúng đủ lớn – chúng trở thành các bộ xấp xỉ hàm phổ quát, nghĩa là chúng có thể phù hợp với bất kỳ loại dữ liệu nào. Sự linh hoạt không giới hạn này là lý do tại sao học sâu có thể được áp dụng cho rất nhiều lĩnh vực khác nhau. Tính linh hoạt của mạng nơ-ron đến từ việc sử dụng nhiều đầu vào cho mô hình và để mạng kết hợp chúng theo vô số cách. Điều này có nghĩa là kết quả đầu ra sẽ không phải là kết quả của việc áp dụng các công thức đơn giản mà thay vào đó là những công thức vô cùng phức tạp. Ví dụ: khi hệ thống nhận dạng hình ảnh tiên tiến Noisy Student chuyển đổi các giá trị pixel của hình ảnh thành xác suất đối với đối tượng trong hình ảnh đó, nó sẽ thực hiện điều này bằng cách sử dụng mạng có 480 triệu tham số. Việc đào tạo để xác định giá trị của một số lượng lớn các tham số như vậy thậm chí còn đáng chú ý hơn bởi vì nó được thực hiện chỉ với 1,2 triệu hình ảnh được dán nhãn — điều này có thể dễ hiểu nhầm lẫn với những người trong chúng ta, những người nhớ từ đại số trung học rằng chúng ta được cho là có nhiều phương trình hơn không biết. Phá vỡ quy tắc đó hóa ra lại là chìa khóa. Các mô hình học sâu được phổ biến quá mức, có nghĩa là chúng có nhiều tham số hơn số điểm dữ liệu có sẵn để đào tạo. Về mặt cổ điển, điều này sẽ dẫn đến việc trang bị quá mức, trong đó mô hình không chỉ học các xu hướng chung mà còn cả các biến động ngẫu nhiên của dữ liệu mà nó được đào tạo. Học sâu tránh bẫy này bằng cách khởi tạo các tham số một cách ngẫu nhiên và sau đó điều chỉnh lặp đi lặp lại các tập hợp của chúng để phù hợp hơn với dữ liệu bằng cách sử dụng một phương pháp gọi là stochastic gradient descent. Đáng ngạc nhiên, quy trình này đã được chứng minh để đảm bảo rằng mô hình đã học sẽ khái quát tốt. Thành công của mô hình học sâu linh hoạt có thể được nhìn thấy trong dịch máy. Trong nhiều thập kỷ, phần mềm đã được sử dụng để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác. Các cách tiếp cận ban đầu cho vấn đề này đã sử dụng các quy tắc do các chuyên gia ngữ pháp thiết kế. Nhưng khi có nhiều dữ liệu dạng văn bản hơn trong các ngôn ngữ cụ thể, thì các phương pháp thống kê — những phương pháp mang tên bí truyền như entropy cực đại, mô hình Markov ẩn và các trường ngẫu nhiên có điều kiện — có thể được áp dụng. Ban đầu, các cách tiếp cận hoạt động tốt nhất cho mỗi ngôn ngữ khác nhau dựa trên tính sẵn có của dữ liệu và thuộc tính ngữ pháp. Ví dụ: các phương pháp tiếp cận dựa trên quy tắc để dịch các ngôn ngữ như tiếng Urdu, tiếng Ả Rập và tiếng Malay tốt hơn so với các phương pháp thống kê — lúc đầu. Ngày nay, tất cả những phương pháp tiếp cận này đã vượt trội hơn hẳn nhờ học sâu, điều này đã chứng tỏ bản thân nó vượt trội ở hầu hết mọi nơi mà nó được áp dụng. Vì vậy, tin tốt là học sâu cung cấp tính linh hoạt rất lớn. Tin xấu là sự linh hoạt này đi kèm với một chi phí tính toán rất lớn. Thực tế đáng tiếc này có hai phần. Ngoại suy những thành tựu trong những năm gần đây có thể cho thấy rằng vào năm 2025, mức độ lỗi trong các hệ thống học sâu tốt nhất được thiết kế để nhận dạng các đối tượng trong tập dữ liệu ImageNet sẽ giảm xuống chỉ còn 5%. . Nhưng tài nguyên máy tính và năng lượng cần thiết để đào tạo một hệ thống tương lai như vậy sẽ rất lớn, dẫn đến việc phát thải nhiều carbon dioxide như Thành phố New York tạo ra trong một tháng [bottom]. NGUỒN: NC THOMPSON, K. GREENEWALD, K. LEE, GF MANSO Phần đầu tiên đúng với tất cả các mô hình thống kê: Để cải thiện hiệu suất theo hệ số k, ít nhất k2 điểm dữ liệu nữa phải được sử dụng để huấn luyện mô hình. Phần thứ hai của chi phí tính toán rõ ràng đến từ việc tham số hóa quá mức. Sau khi được tính toán, điều này mang lại tổng chi phí tính toán để cải thiện ít nhất là k4. Số 4 nhỏ đó trong số mũ là rất đắt: Ví dụ, một cải tiến gấp 10 lần sẽ yêu cầu tính toán tăng ít nhất 10.000 lần. Để làm cho sự đánh đổi tính linh hoạt trở nên sinh động hơn, hãy xem xét một tình huống mà bạn đang cố gắng dự đoán liệu X-quang của bệnh nhân có phát hiện ung thư hay không. Giả sử xa hơn rằng câu trả lời đúng có thể được tìm thấy nếu bạn đo 100 chi tiết trong X-quang (thường được gọi là các biến hoặc đặc trưng). Thách thức là chúng ta không biết trước biến nào là quan trọng và có thể có một nhóm rất lớn các biến ứng cử viên để xem xét. Phương pháp tiếp cận hệ thống chuyên gia cho vấn đề này sẽ là nhờ những người hiểu biết về X quang và ung thư học chỉ định những biến số mà họ cho là quan trọng, cho phép hệ thống chỉ kiểm tra những biến số đó. Cách tiếp cận hệ thống linh hoạt là kiểm tra càng nhiều biến số càng tốt và để hệ thống tự tìm ra biến quan trọng, đòi hỏi nhiều dữ liệu hơn và phát sinh chi phí tính toán cao hơn nhiều trong quá trình này. Các mô hình mà các chuyên gia đã thiết lập các biến có liên quan có thể nhanh chóng tìm hiểu giá trị nào hoạt động tốt nhất cho các biến đó, làm như vậy với số lượng tính toán hạn chế — đó là lý do tại sao chúng rất phổ biến ngay từ đầu. Nhưng khả năng học hỏi của họ nếu một chuyên gia không chỉ định chính xác tất cả các biến cần được đưa vào mô hình. Ngược lại, các mô hình linh hoạt như học sâu kém hiệu quả hơn, phải tính toán nhiều hơn để phù hợp với hiệu suất của các mô hình chuyên gia. Tuy nhiên, với đủ tính toán (và dữ liệu), các mô hình linh hoạt có thể hoạt động tốt hơn các mô hình mà các chuyên gia đã cố gắng xác định các biến có liên quan. Rõ ràng, bạn có thể cải thiện hiệu suất từ ​​học sâu nếu bạn sử dụng nhiều sức mạnh tính toán hơn để xây dựng các mô hình lớn hơn và đào tạo chúng với nhiều dữ liệu hơn. Nhưng gánh nặng tính toán này sẽ trở nên đắt đỏ như thế nào? Liệu chi phí có trở nên cao đến mức cản trở tiến độ không? Để trả lời những câu hỏi này một cách cụ thể, gần đây chúng tôi đã thu thập dữ liệu từ hơn 1.000 bài báo nghiên cứu về học sâu, bao gồm các lĩnh vực phân loại hình ảnh, phát hiện đối tượng, trả lời câu hỏi, nhận dạng thực thể được đặt tên và dịch máy. Ở đây, chúng ta sẽ chỉ thảo luận chi tiết về phân loại hình ảnh, nhưng các bài học áp dụng rộng rãi. Trong những năm qua, việc giảm thiểu các lỗi phân loại hình ảnh đã đi kèm với sự mở rộng đáng kể gánh nặng tính toán. Ví dụ, vào năm 2012, AlexNet, mô hình lần đầu tiên cho thấy sức mạnh của việc đào tạo các hệ thống học sâu trên các đơn vị xử lý đồ họa (GPU), đã được đào tạo trong năm đến sáu ngày bằng cách sử dụng hai GPU. Đến năm 2018, một mô hình khác, NASNet-A, đã giảm tỷ lệ lỗi của AlexNet xuống một nửa, nhưng nó sử dụng lượng điện toán nhiều hơn 1.000 lần để đạt được điều này. Phân tích của chúng tôi về hiện tượng này cũng cho phép chúng tôi so sánh những gì thực sự đã xảy ra với những kỳ vọng lý thuyết. Lý thuyết cho chúng ta biết rằng máy tính cần mở rộng quy mô với ít nhất là sức mạnh thứ tư của việc cải thiện hiệu suất. Trong thực tế, các yêu cầu thực tế đã được mở rộng với ít nhất là sức mạnh thứ chín. Sức mạnh thứ chín này có nghĩa là để giảm một nửa tỷ lệ lỗi, bạn có thể cần gấp hơn 500 lần tài nguyên tính toán. Đó là một mức giá cao khủng khiếp. Tuy nhiên, có thể có một lớp lót bạc ở đây. Khoảng cách giữa những gì đã xảy ra trong thực tế và những gì lý thuyết dự đoán có thể có nghĩa là vẫn còn những cải tiến thuật toán chưa được khám phá có thể cải thiện đáng kể hiệu quả của học sâu. Để giảm một nửa tỷ lệ lỗi, bạn có thể cần gấp hơn 500 lần tài nguyên tính toán. Như chúng tôi đã lưu ý, Định luật Moore và các tiến bộ phần cứng khác đã mang lại sự gia tăng đáng kể về hiệu suất của chip. Điều này có nghĩa là yêu cầu máy tính ngày càng leo thang không? Tiếc là không có. Trong số 1.000 lần khác biệt về máy tính được sử dụng bởi AlexNet và NASNet-A, chỉ có một cải tiến gấp sáu lần đến từ phần cứng tốt hơn; phần còn lại đến từ việc sử dụng nhiều bộ vi xử lý hơn hoặc chạy chúng lâu hơn, làm phát sinh chi phí cao hơn. Sau khi ước tính đường cong hiệu suất chi phí tính toán để nhận dạng hình ảnh, chúng tôi có thể sử dụng nó để ước tính lượng tính toán sẽ cần thiết để đạt được các điểm chuẩn hiệu suất ấn tượng hơn nữa trong tương lai. Ví dụ, để đạt được tỷ lệ lỗi 5 phần trăm sẽ yêu cầu 10 19 tỷ phép toán dấu phẩy động. Công trình quan trọng của các học giả tại Đại học Massachusetts Amherst cho phép chúng ta hiểu được chi phí kinh tế và lượng khí thải carbon được ngụ ý bởi gánh nặng tính toán này. Câu trả lời thật nghiệt ngã: Việc đào tạo một mô hình như vậy sẽ tiêu tốn 100 tỷ đô la Mỹ và sẽ tạo ra lượng khí thải carbon nhiều như Thành phố New York làm trong một tháng. Và nếu chúng ta ước tính gánh nặng tính toán của tỷ lệ lỗi 1 phần trăm, kết quả sẽ tệ hơn đáng kể. Việc ngoại suy ra nhiều bậc độ lớn như vậy có phải là điều hợp lý để làm không? Có và không. Chắc chắn, điều quan trọng là phải hiểu rằng các dự đoán không chính xác, mặc dù với những kết quả hấp dẫn như vậy, chúng không cần phải truyền tải thông điệp tổng thể về sự không bền vững. Suy rộng ra theo cách này sẽ là không hợp lý nếu chúng ta giả định rằng các nhà nghiên cứu sẽ đi theo quỹ đạo này đến một kết quả cực đoan như vậy. Chúng tôi không. Đối mặt với chi phí tăng chóng mặt, các nhà nghiên cứu hoặc sẽ phải tìm ra những cách hiệu quả hơn để giải quyết những vấn đề này, hoặc họ sẽ từ bỏ việc giải quyết những vấn đề này và tiến độ sẽ chậm chạp. Mặt khác, việc ngoại suy các kết quả của chúng ta không chỉ hợp lý mà còn rất quan trọng, vì nó truyền tải được tầm quan trọng của thách thức phía trước. Mấu chốt hàng đầu của vấn đề này đã trở nên rõ ràng. Khi công ty con DeepMind của Google đào tạo hệ thống của mình để chơi cờ vây, nó ước tính trị giá 35 triệu đô la. Khi các nhà nghiên cứu của DeepMind thiết kế một hệ thống để chơi trò chơi điện tử StarCraft II, họ đã cố tình không thử nhiều cách để cấu trúc một thành phần quan trọng, vì chi phí đào tạo sẽ quá cao. Tại OpenAI, một tổ chức tư duy máy học quan trọng, các nhà nghiên cứu gần đây đã thiết kế và đào tạo một hệ thống ngôn ngữ học sâu được đánh giá cao gọi là GPT-3 với chi phí hơn 4 triệu đô la. Mặc dù họ đã mắc lỗi khi triển khai hệ thống, họ đã không sửa chữa nó, họ giải thích đơn giản trong phần bổ sung cho ấn phẩm học thuật của họ rằng “do chi phí đào tạo, việc đào tạo lại mô hình là không khả thi.” Ngay cả các doanh nghiệp bên ngoài ngành công nghệ cũng đang bắt đầu né tránh chi phí tính toán của việc học sâu. Một chuỗi siêu thị lớn ở châu Âu gần đây đã từ bỏ hệ thống dựa trên học sâu, cải thiện rõ rệt khả năng dự đoán sản phẩm nào sẽ được mua. Các nhà điều hành công ty đã từ bỏ nỗ lực đó vì họ đánh giá rằng chi phí đào tạo và vận hành hệ thống sẽ quá cao. Đối mặt với chi phí kinh tế và môi trường ngày càng tăng, cộng đồng học sâu sẽ cần phải tìm cách để tăng hiệu suất mà không khiến nhu cầu điện toán tăng cao. Nếu không, tiến độ sẽ trì trệ. Nhưng đừng tuyệt vọng: Rất nhiều người đang được thực hiện để giải quyết thách thức này. Một chiến lược là sử dụng bộ xử lý được thiết kế đặc biệt để hiệu quả cho các phép tính học sâu. Cách tiếp cận này đã được sử dụng rộng rãi trong thập kỷ qua, khi CPU nhường chỗ cho GPU và trong một số trường hợp, mảng cổng có thể lập trình trường và các IC dành riêng cho ứng dụng (bao gồm Bộ xử lý Tensor của Google). Về cơ bản, tất cả các cách tiếp cận này đều hy sinh tính tổng quát của nền tảng máy tính để nâng cao hiệu quả chuyên môn hóa. Nhưng việc chuyên môn hóa như vậy phải đối mặt với lợi nhuận ngày càng giảm. Vì vậy, lợi ích lâu dài hơn sẽ yêu cầu áp dụng các khung phần cứng hoàn toàn khác nhau — có thể là phần cứng dựa trên các hệ thống tương tự, thần kinh đa hình, quang học hoặc lượng tử. Tuy nhiên, cho đến nay, các khung phần cứng hoàn toàn khác nhau này vẫn chưa có nhiều tác động. Chúng ta phải thích ứng với cách chúng ta thực hiện học sâu hoặc đối mặt với một tương lai tiến bộ chậm hơn nhiều. Một cách tiếp cận khác để giảm tính toán gánh nặng cuối cùng tập trung vào việc tạo ra các mạng nơ-ron, khi được triển khai, sẽ nhỏ hơn. Chiến thuật này làm giảm chi phí mỗi khi bạn sử dụng chúng, nhưng nó thường làm tăng chi phí đào tạo (những gì chúng tôi đã mô tả cho đến nay trong bài viết này). Chi phí nào trong số những chi phí này quan trọng nhất phụ thuộc vào tình hình. Đối với một mô hình được sử dụng rộng rãi, chi phí vận hành là thành phần lớn nhất trong tổng số tiền đầu tư. Đối với các mô hình khác — ví dụ, những mô hình thường xuyên cần được đào tạo lại — chi phí đào tạo có thể chiếm ưu thế. Trong cả hai trường hợp, tổng chi phí phải lớn hơn chỉ riêng việc đào tạo. Vì vậy, nếu chi phí đào tạo quá cao, như chúng tôi đã trình bày, thì tổng chi phí cũng sẽ cao hơn. Và đó là thách thức với các chiến thuật khác nhau đã được sử dụng để làm cho việc triển khai nhỏ hơn: Chúng không giảm đủ chi phí đào tạo. Ví dụ, một cho phép đào tạo một mạng lớn nhưng lại xử lý sự phức tạp trong quá trình đào tạo. Một cách khác liên quan đến việc đào tạo một mạng lớn và sau đó “cắt bỏ” các kết nối không quan trọng. Tuy nhiên, một người khác tìm thấy một kiến ​​trúc càng hiệu quả càng tốt bằng cách tối ưu hóa trên nhiều mô hình — cái gì đó được gọi là tìm kiếm kiến ​​trúc thần kinh. Mặc dù mỗi kỹ thuật này có thể mang lại những lợi ích đáng kể cho việc triển khai, nhưng các tác động đối với việc đào tạo lại bị tắt – chắc chắn là không đủ để giải quyết những mối quan tâm mà chúng tôi thấy trong dữ liệu của mình. Và trong nhiều trường hợp, họ làm cho chi phí đào tạo cao hơn. Một kỹ thuật đang phát triển có thể giảm chi phí đào tạo có tên là meta-learning. Ý tưởng là hệ thống học trên nhiều loại dữ liệu và sau đó có thể được áp dụng trong nhiều lĩnh vực. Ví dụ: thay vì xây dựng các hệ thống riêng biệt để nhận dạng chó trong hình ảnh, mèo trong hình ảnh và ô tô trong hình ảnh, một hệ thống duy nhất có thể được đào tạo trên tất cả chúng và sử dụng nhiều lần. Thật không may, nghiên cứu gần đây của Andrei Barbu của MIT đã tiết lộ việc học meta có thể khó khăn như thế nào. Ông và các đồng tác giả của mình đã chỉ ra rằng ngay cả những khác biệt nhỏ giữa dữ liệu gốc và nơi bạn muốn sử dụng nó cũng có thể làm giảm hiệu suất một cách nghiêm trọng. Họ đã chứng minh rằng các hệ thống nhận dạng hình ảnh hiện tại phụ thuộc rất nhiều vào những thứ như liệu đối tượng được chụp ở một góc cụ thể hay ở một tư thế cụ thể. Vì vậy, ngay cả nhiệm vụ đơn giản là nhận ra các đối tượng giống nhau ở các tư thế khác nhau cũng khiến độ chính xác của hệ thống giảm đi gần một nửa. Benjamin Recht của Đại học California, Berkeley và những người khác đã đưa ra quan điểm này thậm chí còn rõ ràng hơn, cho thấy rằng ngay cả với các tập dữ liệu mới được xây dựng có chủ đích để bắt chước dữ liệu đào tạo ban đầu, hiệu suất giảm hơn 10%. Nếu ngay cả những thay đổi nhỏ trong dữ liệu cũng làm giảm hiệu suất lớn, thì dữ liệu cần thiết cho một hệ thống meta-learning toàn diện có thể rất lớn. Vì vậy, lời hứa tuyệt vời của meta-learning vẫn còn lâu mới thành hiện thực. Một chiến lược khả thi khác để tránh các giới hạn tính toán của học sâu là chuyển sang các loại học máy khác, có lẽ chưa được khám phá hoặc chưa được đánh giá cao. Như chúng tôi đã mô tả, các hệ thống học máy được xây dựng dựa trên sự hiểu biết sâu sắc của các chuyên gia có thể hiệu quả hơn nhiều về mặt tính toán, nhưng hiệu suất của chúng không thể đạt được đỉnh cao như các hệ thống học sâu nếu các chuyên gia đó không thể phân biệt được tất cả các yếu tố góp phần. Các phương pháp ký hiệu thần kinh và các kỹ thuật khác đang được phát triển để kết hợp sức mạnh của kiến ​​thức chuyên môn và lý luận với tính linh hoạt thường thấy trong mạng thần kinh. Giống như tình huống mà Rosenblatt phải đối mặt vào buổi bình minh của mạng nơ-ron, học sâu ngày nay đang trở nên hạn chế bởi các công cụ tính toán có sẵn. Đối mặt với việc mở rộng quy mô tính toán sẽ gây tổn hại về mặt kinh tế và môi trường, chúng ta phải thích ứng với cách chúng ta thực hiện học sâu hoặc đối mặt với một tương lai tiến bộ chậm hơn nhiều. Rõ ràng, thích nghi là điều nên làm. Một bước đột phá thông minh có thể tìm ra cách làm cho việc học sâu hiệu quả hơn hoặc phần cứng máy tính mạnh hơn, điều này sẽ cho phép chúng tôi tiếp tục sử dụng các mô hình cực kỳ linh hoạt này. Nếu không, con lắc có thể sẽ quay ngược trở lại theo hướng dựa nhiều hơn vào các chuyên gia để xác định những gì cần phải học.

Back to top button