Artificial intelligence

AI của ngày mai sẽ lý do giống như con người, dự đoán của nhà phát triển IBM Watson

Loại hình đào tạo này được gọi là học tăng cường (RL) và nó là một trong những lĩnh vực thú vị nhất của học máy hiện nay. RL có thể được sử dụng để dạy các đặc vụ, có thể là phần mềm hoặc robot vật lý, cách hành động để đạt được các mục tiêu nhất định. Và nó là nguyên nhân dẫn đến một số chiến thắng ấn tượng nhất của AI trong những năm gần đây, chẳng hạn như chiến thắng của AlphaGo trong trò chơi cờ vây trong trận đấu với một chuyên gia xếp hạng cao nhất của con người. RL khác với một cách tiếp cận khác được gọi là học có giám sát, trong đó các hệ thống được đào tạo bằng cách sử dụng tập dữ liệu có nhãn hiện có. Để tiếp tục ví dụ về poker: Trong một chế độ học tập có giám sát, người chơi AI sẽ lấy dữ liệu về hàng triệu ván bài. Mỗi điểm dữ liệu sẽ được gắn nhãn để mô tả mức độ tốt hay xấu của một hành động đối với một trạng thái nhất định của trò chơi. Điều này sẽ cho phép người chơi thực hiện các hành động tốt khi thấy các trạng thái trò chơi tương tự như trong dữ liệu huấn luyện. Đây không phải là một cách thực tế để đào tạo về các vấn đề ra quyết định tuần tự như vậy, vì việc xây dựng một tập dữ liệu với một số lượng lớn các trạng thái và hành động trò chơi là không thể thực hiện được. Học tập củng cố là nguyên nhân dẫn đến một số thành tích ấn tượng nhất của AI trong những năm gần đây. Ngược lại, RL cung cấp một cách huấn luyện hiệu quả hơn bằng cách cho phép người chơi tương tác với thế giới trong quá trình huấn luyện. Bạn không cần một tập dữ liệu được gắn nhãn cho RL, điều này chứng tỏ một lợi thế lớn khi xử lý các ứng dụng trong thế giới thực không đi kèm với hàng đống các quan sát được sắp xếp cẩn thận. Hơn nữa, các nhân viên RL có thể học các chiến lược cho phép họ hành động ngay cả trong một môi trường không chắc chắn và thay đổi, đưa ra những dự đoán tốt nhất của họ về hành động thích hợp khi đối mặt với một tình huống mới. Một chỉ trích điển hình về RL là nó không hiệu quả, rằng nó chỉ là một quá trình thử-và-sai được tôn vinh thành công do sức mạnh tính toán thô bạo được đưa vào nó. Nhưng nhóm nghiên cứu của tôi tại Phòng thí nghiệm AI của Intel đã phát minh ra các kỹ thuật hiệu quả có thể tận dụng RL cho những đột phá thực tế. Chúng tôi đang nghiên cứu các đặc vụ RL có thể nhanh chóng tìm ra các nhiệm vụ cực kỳ phức tạp và có thể làm việc cùng nhau theo nhóm, đặt mục tiêu chung của nhóm lên trước mục tiêu cá nhân của họ. Chúng tôi đang có kế hoạch sớm thử nghiệm các phương pháp của mình trong rô bốt và các hệ thống tự hành khác để đưa những thành tựu này vào thế giới thực. Trong RL, chúng tôi giả định rằng tác nhân hoạt động với một số loại môi trường động và ít nhất nó có thể quan sát một phần trạng thái của môi trường đó. Ví dụ: một chiếc xe tự hành có thể cảm nhận các giá trị pixel thô từ camera trên xe hoặc nó có thể lấy nhiều dữ liệu được xử lý hơn như vị trí của người đi bộ, ô tô và vạch kẻ làn đường. Môi trường cũng phải củng cố hành động của tác nhân bằng các loại phản hồi nhất định — chẳng hạn như liệu một chiếc xe tự hành có đến đích mà không gặp sự cố hay đâm vào tường hay không. Tín hiệu phản hồi này thường được gọi là phần thưởng. Trong RL hiện đại, các tác nhân thường là các mạng nơ-ron sâu, những mạng này ánh xạ các quan sát đầu vào đến các hành động đầu ra. Một thủ tục phổ biến là để một tác nhân RL bắt đầu bằng cách thực hiện một loạt các hành động ngẫu nhiên và ghi lại tín hiệu phản hồi cho mỗi hành động, lưu trữ tất cả những tín hiệu này trong một thứ được gọi là bộ đệm phát lại — về cơ bản, bộ nhớ của tác nhân. Theo thời gian, tác nhân tạo ra một tập dữ liệu lớn về trải nghiệm ở dạng trạng thái, hành động, trạng thái tiếp theo và bất kỳ phần thưởng kết quả nào. Trong học tập củng cố, có một căng thẳng cơ bản giữa việc khai thác một chiến lược hiện có và khám phá các lựa chọn thay thế. Sử dụng dữ liệu này, đại lý tự đào tạo và đưa ra chính sách hoặc cách hành động trong môi trường sẽ tối đa hóa tổng phần thưởng của mình. Chính sách của họ sẽ tốt hơn theo thời gian khi họ biết được, nhưng đại lý không biết liệu chính sách của họ có tối ưu ở bất kỳ điểm nào hay không. Vì vậy, nó phải đưa ra quyết định: Liệu nó có nên tiếp tục lựa chọn các hành động dựa trên chính sách hiện tại của mình hay đi chệch hướng khỏi nó và khám phá những khả năng mới? Nếu nó chọn cái cũ, nó sẽ không bao giờ cải thiện. Do đó, hầu hết các đại lý RL có một nhiệm vụ quan trọng là đôi khi bỏ qua chính sách tốt nhất hiện tại của họ để ủng hộ việc thử những điều mới. Tần suất các đại lý đi “ngoài chính sách” là một tham số bổ sung của hệ thống đào tạo. Thông thường, tỷ lệ thăm dò được giữ ở mức cao khi bắt đầu đào tạo và giảm xuống khi đặc vụ tích lũy được kinh nghiệm. Cho dù chúng ta đang giao dịch với một người chơi poker AI, một chiếc xe tự hành hay một nhà giao dịch chứng khoán ảo, thì sự căng thẳng giữa việc khai thác chính sách hiện có và việc khám phá các lựa chọn thay thế là điều cơ bản đối với RL. Những thách thức thậm chí còn lớn hơn khi một đặc vụ hoạt động trong một môi trường có phần thưởng thưa thớt. Trong tình huống này, môi trường cung cấp tín hiệu phản hồi rất hiếm khi – có lẽ chỉ khi kết thúc một nhiệm vụ dài nhiều bước. Vì vậy, hầu hết các hành động của đại lý không tạo ra phản hồi hữu ích. Ví dụ: người chơi poker AI giả định của chúng tôi sẽ chỉ nhận được phần thưởng dương nếu họ thắng một ván bài, chứ không phải nếu người chơi có ván bài tốt nhưng bị người chơi khác đánh bại trong gang tấc. Phần thưởng càng thưa thớt, vấn đề càng khó. Để kiểm tra khả năng của các đặc vụ RL trong những tình huống khó khăn như vậy, nhiều nhà nghiên cứu đã sử dụng một điểm chuẩn do OpenAI tạo ra gọi là Mujoco Humanoid. Tại đây, các nhà nghiên cứu phải huấn luyện một mô hình máy tính có hình người 3D để đi bộ trong một khoảng thời gian cố định mà không bị ngã. Mặc dù đi bộ nghe có vẻ đơn giản nhưng đó là một nhiệm vụ cực kỳ khó khăn đối với một hệ thống RL để thành thạo. Các quan sát của tác nhân RL bao gồm các góc của tất cả các khớp của hình người, mỗi khớp có ba bậc tự do. Với một loạt các trạng thái có thể có phức tạp như vậy, một chính sách về các hành động ngẫu nhiên gần như được đảm bảo sẽ thất bại. Thật hiếm khi hình người đứng vững và thực hiện đủ các bước thành công để đạt được phần thưởng. Đối với thử thách Mujoco Humanoid, chúng tôi đã có nhiều người học giải quyết các vấn đề nhỏ hơn như không ngã và giơ chân. Chúng tôi đã đưa ra một giải pháp mới, mà chúng tôi gọi là CERL: Học tập củng cố tiến hóa hợp tác. Bài báo của chúng tôi về nó đã chứng minh rằng thách thức trước mắt có thể được chia thành hai loại thành phần: các vấn đề nhỏ hơn mà hệ thống có thể nhận được một số phản hồi ngay lập tức và vấn đề tối ưu hóa lớn hơn cần được giải quyết trong một khoảng thời gian dài hơn. Chúng tôi lập luận rằng đối với mỗi vấn đề nhỏ hơn đó, chúng tôi có thể đạt được tiến bộ nhanh hơn với một nhóm các tác nhân cùng khám phá và chia sẻ kinh nghiệm. Đối với người chơi poker AI giả định của chúng tôi, điều này tương đương với việc đột nhiên tạo ra nhiều hình đại diện và để tất cả họ chơi cùng một lúc để cùng đưa ra một chiến lược. Đối với thử thách Mujoco Humanoid, chúng tôi đã có nhiều người học giải quyết các vấn đề nhỏ hơn như không ngã, giơ chân, v.v. Người học nhận được phản hồi ngay lập tức khi họ cố gắng đạt được những mục tiêu nhỏ này. Do đó, mỗi người học trở thành một chuyên gia trong lĩnh vực kỹ năng của riêng mình, những kỹ năng có thể đóng góp vào mục tiêu chung là đi bộ bền vững — mặc dù mỗi người học không có cơ hội đạt được mục tiêu lớn hơn đó. Trong cách tiếp cận của chúng tôi với thử thách Mujoco Humanoid, một số “người học” đã làm việc dựa trên các kỹ năng rời rạc, mà một “diễn viên” sau này đã tập hợp lại thành một chiến lược đi bộ hoàn chỉnh. ngân hàng bộ nhớ mà nó sử dụng để tìm hiểu những hành động tốt hay xấu. Nhưng trong thiết kế của chúng tôi, chúng tôi cho phép tất cả người học đồng thời đóng góp và rút ra từ một bộ đệm duy nhất. Điều này có nghĩa là mỗi người học có thể tiếp cận kinh nghiệm của tất cả những người khác, giúp khám phá của chính họ và làm cho nó hiệu quả hơn đáng kể trong nhiệm vụ của mình. Trong khi giải quyết các vấn đề rời rạc, họ đều học các quy tắc vật lý cơ bản giống nhau. Nhóm tác nhân thứ hai, mà chúng tôi gọi là tác nhân, nhằm tổng hợp tất cả các chuyển động nhỏ để đạt được mục tiêu lớn hơn là đi bộ bền vững. Bởi vì những đại lý này hiếm khi đến đủ gần mục tiêu này để đăng ký phần thưởng, chúng tôi đã không sử dụng RL ở đây. Thay vào đó, chúng tôi sử dụng cái được gọi là thuật toán di truyền, một quy trình bắt chước sự tiến hóa sinh học bằng cách chọn lọc tự nhiên. Các thuật toán di truyền, là một dạng con của các thuật toán tiến hóa, bắt đầu với một tập hợp các giải pháp khả thi cho một vấn đề và sử dụng một hàm phù hợp để dần dần phát triển theo hướng giải pháp tối ưu. Trong mỗi “thế hệ”, chúng tôi khởi tạo một tập hợp các tác nhân, mỗi người có một chiến lược khác nhau để thực hiện nhiệm vụ đi bộ. Sau đó, chúng tôi xếp hạng chúng theo hiệu suất, giữ lại những cái có hiệu suất cao nhất và loại bỏ phần còn lại. Thế hệ tiếp theo của các tác nhân là “con đẻ” của những người sống sót và kế thừa các chính sách của họ, mặc dù chúng tôi thay đổi các chính sách này thông qua cả đột biến (thay đổi ngẫu nhiên trong chính sách của một người cha) và chéo (kết hợp chính sách của hai bậc cha mẹ). Hệ thống của chúng tôi vượt trội hơn các đường cơ sở khác về nhiệm vụ Mujoco Humanoid phức tạp. Nhưng nó cũng nổi tiếng về tính hoàn chỉnh của nó – nếu một giải pháp tồn tại, nó sẽ được tìm thấy cuối cùng. Mục tiêu của chúng tôi là tận dụng sự hoàn chỉnh này trong khi tăng tốc độ tìm kiếm bằng cách khai thác các phương pháp RL nhanh. Những người học RL của chúng tôi đã nhanh chóng đưa ra các giải pháp hợp lý nhưng chưa tối ưu, mà chúng tôi đã chèn vào quần thể tìm kiếm tiến hóa để hướng dẫn các tác nhân của chúng tôi hướng tới các giải pháp tốt hơn. Hệ thống kết hợp của chúng tôi đã nhanh chóng đạt được chính sách tối ưu cho phép Mujoco Humanoid đi dạo và vượt trội hơn rất nhiều so với các thuật toán khác tại thời điểm đó. Mặc dù số lượng phần thưởng ít khiến RL đủ khó, nhưng nó thậm chí còn trở nên phức tạp hơn khi một nhiệm vụ đòi hỏi một số đặc vụ phải làm việc hợp tác để đạt được mục tiêu chung. Ví dụ, trong một điểm chuẩn liên quan đến tàu lượn trên sao Hỏa mô phỏng, hai tàu lượn phải làm việc cùng nhau để tìm ra nhiều mục tiêu trong khoảng thời gian ngắn nhất. Đối với nhiệm vụ này, chúng tôi cần đào tạo từng người lái xe không chỉ về các kỹ năng như điều hướng mà còn về các chiến lược hợp tác cho phép một cặp người lái xe đạt được mục tiêu chung, ngay cả khi không giao tiếp trực tiếp. Rover 1 đã loại bỏ mục tiêu cục bộ của mình và thay vào đó đi đường dài hơn đến một mục tiêu khác – vì lợi ích lớn hơn của cả đội. Ở đây, mục tiêu toàn cầu là cho cả nhóm đến thăm số lượng mục tiêu lớn nhất. Để đạt được mục tiêu đó, mỗi người dẫn đường cần học cách điều hướng nhanh chóng đến mục tiêu và cũng cần học cách lập chiến lược với đối tác của mình. Lúc đầu, người lái khám phá cảnh quan một cách ngẫu nhiên, sử dụng cảm biến LIDAR để quét tìm mục tiêu. Trong một khoảng thời gian nhất định, một người dẫn đường có thể tình cờ gặp một mục tiêu, vì vậy chúng tôi nói rằng mục tiêu cục bộ của việc điều hướng đến một mục tiêu có phần thưởng dày đặc. Mục tiêu toàn cầu chỉ đạt được nếu cả hai máy dò tìm thấy mục tiêu, đây là một tín hiệu phần thưởng thưa thớt hơn nhiều. Hãy tưởng tượng rằng cả hai bộ điều khiển đều có một mục tiêu nhất định trong tầm nhìn. Rover 1 chỉ có đủ nhiên liệu để đến mục tiêu, nhưng không thể đi xa hơn. Trong trường hợp này, chiến lược nhóm tốt nhất là để Rover 1 đi đến điểm đến có thể nhìn thấy đó và để Rover 2 hy sinh mục tiêu cục bộ — giảm thiểu thời gian đến mục tiêu — và đi ra ngoài tìm kiếm các mục tiêu khác. Trong một điểm chuẩn liên quan đến các thiết bị di chuyển mô phỏng, các tác nhân phải làm việc cùng nhau để đạt được mục tiêu tổng thể. Intel AI Vấn đề này vẫn có thể trở nên khó khăn hơn bằng cách thêm một yêu cầu khác. Hãy tưởng tượng rằng các đội lớn hơn và một số người di chuyển phải đạt được một mục tiêu đồng thời để nó được tính. Điều kiện này đại diện cho các tình huống như tìm kiếm và cứu hộ trong đó có thể cần nhiều đặc vụ để hoàn thành một nhiệm vụ, chẳng hạn như nâng một chùm tia nặng. Nếu ít hơn số lượng người di chuyển đạt được mục tiêu cần thiết, họ sẽ không nhận được phần thưởng nào cả. Do đó, các nhà điều hành phải học các kỹ năng cần thiết để tìm mục tiêu và cũng phải học cách liên kết với những người khác và cùng nhau truy cập các mục tiêu để đạt được mục tiêu toàn cầu của nhóm. Hơn nữa, ngay từ đầu, những người điều khiển trong một nhóm không biết có bao nhiêu người đi cùng phải truy cập vào một mục tiêu — họ chỉ nhận được thông tin đó khi họ thành công. Để giải quyết nhiệm vụ đa tác nhân khó khăn này, chúng tôi đã mở rộng khung CERL của mình. Chúng tôi đã trình bày kỹ thuật mới của mình, mà chúng tôi gọi là Học tập củng cố tiến hóa đa phương thức (MERL), tại Hội nghị quốc tế năm 2020 về học máy. Chúng tôi lại chia nhỏ vấn đề thành hai phần. Mỗi rover sử dụng RL để nắm vững một mục tiêu cục bộ, chẳng hạn như giảm khoảng cách của nó tới mục tiêu. Nhưng thành công đó không giúp giải quyết được những vấn đề lớn hơn trong việc thành lập liên minh và tối đa hóa tổng số mục tiêu đã truy cập. Một lần nữa, chúng tôi đã giải quyết vấn đề toàn cầu bằng tìm kiếm tiến hóa. Lần này, chúng tôi làm việc với các nhóm, vì vậy về cơ bản chúng tôi đã tạo ra nhiều bản sao của toàn bộ nhóm điều động. Trong các đội đó, tất cả những chiếc Rover 1 đều chia sẻ một bộ đệm phát lại duy nhất, tất cả những chiếc Rover 2 cũng vậy, v.v. Chúng tôi cố tình tách các bộ đệm phát lại bằng các bộ lưu trữ vì nó cho phép mỗi bộ đệm tập trung vào việc học cục bộ của riêng mình. (Chúng tôi đã chạy các thử nghiệm tương tự với đội bóng đá mô phỏng, nơi phương pháp này cho phép thủ môn, tiền đạo và những người chơi khác học các kỹ năng khác nhau.) Bởi vì mỗi mục tiêu chỉ được tính khi có đủ người đánh đến được nó, nên các mục tiêu bắt buộc phải làm việc cùng nhau. Cũng giống như trong CERL, các chính sách được tối ưu hóa cục bộ được đưa vào tìm kiếm tiến hóa, có thể thử các chính sách tốt nhất từ ​​Rover 1, Rover 2, v.v. Sự tiến hóa chỉ cần thiết để đối phó với chiến lược của nhóm lớn hơn. Chúng tôi đã so sánh hiệu suất của MERL với hiệu suất của một hệ thống hiện đại khác dành cho RL đa tác nhân, thuật toán MADDPG từ Đại học California, Berkeley. Đầu tiên, chúng tôi đã thử nghiệm các rô bốt ảo của mình về vấn đề máy di chuyển đơn giản hơn, trong đó chỉ có một máy di chuyển phải tiếp cận mục tiêu. Chúng tôi nhận thấy rằng MERL đã đạt được nhiều mục tiêu hơn MADDPG và cũng thấy hành vi của nhóm thú vị xuất hiện trong MERL. Trong một ví dụ, Rovers 1 và 2 đều hướng tới cùng một mục tiêu, nhưng Rover 1 lại đổi hướng giữa chừng và hướng tới một mục tiêu khác. Điều đó có ý nghĩa: Nếu cả hai người lái xe đều đạt được mục tiêu, họ sẽ không ghi thêm điểm. Vì vậy, Rover 1 đã loại bỏ mục tiêu cục bộ của mình và thay vào đó, đi tuyến đường dài hơn đến một mục tiêu khác – vì lợi ích lớn hơn của nhóm. Khi ba máy điều khiển phải tiếp cận mục tiêu cùng một lúc, MADDPG hoàn toàn thất bại và đội hình mới nổi của MERL thậm chí còn rõ ràng hơn, một xu hướng mà chúng tôi ngày càng quan sát thấy là số lượng máy lái xe được gắn vào yêu cầu. Chúng tôi đã kiểm tra công việc của mình bằng cách sử dụng một số điểm chuẩn đa phương tiện khác nhau. Trong mỗi trường hợp, tối ưu hóa hai phần của MERL về cơ bản tốt hơn đáng kể so với các thuật toán hiện đại nhất. Tại phòng thí nghiệm AI của Intel, chúng tôi cũng đang khám phá cách giao tiếp có thể giúp các hệ thống đa tác nhân tối ưu hóa hiệu suất. Đặc biệt, chúng tôi đang điều tra xem các nhân viên trong một nhóm đang giao tiếp với nhau có thể hình thành các loại ngôn ngữ hay không. Để đưa ra một ví dụ từ mô phỏng rover: Nếu chúng tôi cho phép mỗi rover một băng thông giới hạn để giao tiếp với những người khác, nó sẽ truyền loại thông điệp nào? Và liệu những người lái xe có cùng tìm ra các từ mã cho một số hành động nhất định không? Thử nghiệm này có thể cho chúng ta cái nhìn sâu sắc về cách ngôn ngữ phát triển để đạt được mục tiêu chung. Các hệ thống tự trị dưới nhiều hình thức hiện đang trở thành một phần của cuộc sống hàng ngày. Trong khi Roomba của bạn không có khả năng gây ra nhiều thiệt hại, ngay cả khi nó bị cháy, một chiếc xe tải robot chạy trên đường cao tốc một cách thất thường có thể giết người. Vì vậy, chúng tôi cần đảm bảo rằng bất kỳ đặc vụ nào được đào tạo qua RL sẽ hoạt động an toàn trong thế giới thực. Tuy nhiên, làm thế nào để làm điều đó, không đặc biệt rõ ràng. Chúng tôi đang khám phá các cách để xác định một tiêu chuẩn an toàn chung cho các thuật toán RL khác nhau và một khuôn khổ chung có thể được sử dụng để đào tạo các tác nhân RL hoạt động một cách an toàn, bất kể ứng dụng nào. Điều này nói thì dễ hơn làm, bởi vì một khái niệm trừu tượng về an toàn rất khó định nghĩa và một định nghĩa an toàn theo nhiệm vụ cụ thể khó có thể mở rộng trên các nhiệm vụ. Bây giờ điều quan trọng là phải tìm ra cách để các hệ thống như vậy hoạt động một cách an toàn, bởi vì chúng tôi tin rằng các hệ thống RL có một vai trò to lớn trong xã hội. AI ngày nay vượt trội trong các nhiệm vụ nhận thức như nhận dạng đối tượng và giọng nói, nhưng nó không phù hợp để thực hiện các hành động. Đối với rô bốt, ô tô tự lái và các hệ thống tự hành khác, đào tạo RL sẽ cho phép chúng học cách hành động trong môi trường có các điều kiện thay đổi và bất ngờ. Trong một thử nghiệm liên tục về các lý thuyết của chúng tôi, chúng tôi đang sử dụng RL kết hợp với các thuật toán tìm kiếm để dạy cho rô bốt cách phát triển quỹ đạo thành công với sự tương tác tối thiểu với thế giới thực. Kỹ thuật này có thể cho phép rô bốt thử các hành động mới mà không có nguy cơ tự làm hỏng bản thân trong quá trình này. Hiện chúng tôi đang áp dụng kiến ​​thức thu được theo cách này vào một robot hai chân thực tế tại Đại học Bang Oregon. Cuối cùng, trong một bước nhảy vọt từ hệ thống robot sang thiết kế hệ thống, chúng tôi đã áp dụng cùng một cách tiếp cận để cải thiện các khía cạnh khác nhau của hệ thống phần mềm và phần cứng. Trong một bài báo gần đây, chúng tôi đã chứng minh rằng tác nhân RL có thể học cách thực hiện hiệu quả việc quản lý bộ nhớ trên bộ tăng tốc phần cứng. Phương pháp tiếp cận của chúng tôi, Đồ thị tiến hóa RL, có thể tăng gần gấp đôi tốc độ thực thi trên phần cứng so với trình biên dịch gốc đơn giản bằng cách phân bổ hiệu quả các khối dữ liệu vào các thành phần bộ nhớ khác nhau. Thành tựu này và các công trình gần đây khác của cộng đồng nghiên cứu cho thấy RL đang chuyển từ giải quyết các trò chơi sang giải quyết các vấn đề trong cuộc sống thực.

Back to top button