Trí tuệ nhân tạo của Google tự đánh cờ vây với chính mình để trở thành siêu cao thủ, không cần con người nữa

28/10/2017

AlphaGo Zero – thành tựu AI mới của Google sở hữu khả năng chơi cờ vây xuất sắc mà không cần sử dụng dữ liệu từ các người chơi khác.

Ảnh minh họa

DeepMind – công ty con của Google, đã chính thức ra mắt phiên bản phần mềm AI mới nhất có khả năng chơi cờ vây xuất sắc với tên gọi AlphaGo Zero. So với phiên bản cũ vốn đã được đánh giá rất cao nhờ chiến thắng trước kiện tướng cờ vây vô địch thế giới hồi đầu năm nay, AlphaGo Zero mang đến những cải tiến đáng kể, đặc biệt là khả năng tự động tiếp thu kiến thức mới mà không cần người khác “dạy”.

DeepMind cho biết điều này đồng nghĩa với việc họ đã tiến thêm một bước dài trên con đường tạo ra những thuật toán chung nhằm giải quyết một số vấn đề khó chịu nhất trong nhiều lĩnh vực khoa học, từ việc chế tạo ra các loại thuốc mới cho đến việc mô phỏng chính xác hơn những biến đổi của khí hậu.

Dù phiên bản AlphaGo trước đây đã cho thấy khả năng chơi cờ vây tuyệt đỉnh nhưng nó vẫn cần đến sự hỗ trợ về chuyên môn từ các cao thủ trong bộ môn này. Cụ thể, AlphaGo đã phải thu thập và sử dụng dữ liệu của hơn 100.000 trận đấu làm kiến thức nền để phát triển.

Mặt khác, AlphaGo Zero chỉ được lập trình với những luật cơ bản nhất của cờ vây mà thôi. Theo tờ Nature cho biết, Zero đã phát triển kỹ năng chơi cờ bằng cách tự thách đấu với… chính bản thân nó. Ban đầu, nó sử dụng những nước đi ngẫu nhiên, và cứ sau mỗi trận thắng, Zero lại nâng cấp hệ thống của mình. Quá trình này cứ thế lặp đi lặp lại đến hàng triệu lần!

Sau 3 ngày “tự sướng”, Zero đã đủ khả năng đánh bại người tiền nhiệm – phiên bản từng hạ gục Lee Se-dol, kiện tướng 18 lần vô địch thế giới. Sau 40 ngày, Zero đã có tỷ lệ chiến thắng lên đến 90% so với phiên bản AlphaGo cao cấp nhất trước đây. DeepMind nhận định điều này đã biến Zero thành một cao thủ hàng đầu trong lịch sử bộ môn cờ vây.

David Silver, lập trình viên chính trong dự án AlphaGo, cho biết: “Chính vì không sử dụng dữ liệu cũng như chuyên môn từ các người chơi cờ vây dưới bất kỳ hình thức nào, chúng tôi đã loại bỏ được những hạn chế trong kiến thức của con người. Nhờ thế, Zero có thể tự tạo ra vốn kiến thức cho riêng mình, khiến nó trở nên mạnh mẽ hơn rất nhiều so với các phiên bản trước đây”.

Silver giải thích rằng trong quá trình tự chơi cờ với bản thân, Zero đã khám phá ra các chiến thuật độc đáo do con người phát triển trong hàng nghìn năm qua: “Ban đầu, Zero chơi khá “ngây thơ” giống như bất cứ người nhập môn nào. Nhưng theo thời gian, nó đã phát triển đến mức tiệm cận, thậm chí là vượt qua các cao thủ khác”.

Cụ thể, Zero đã bắt đầu với rất nhiều chiến lược cơ bản và nổi tiếng cùng những biến thể khác trước khi tự sản sinh ra một chiến thuật “vô tiền khoáng hậu” cho riêng mình. Theo Silver cho biết: “Nó áp dụng các nước đi mà người chơi hay sử dụng và cuối cùng lựa chọn, kết hợp những miếng đánh mà nó tâm đắc nhất”.

Giống như những phiên bản AlphaGo trước đây, DeepMind hy vọng Zero sẽ là một nguồn cảm hứng dành cho các kiện tướng cờ vây chuyên nghiệp trên thế giới với những nước đi, chiến thuật mà nó tạo ra.

Zero cũng sở hữu những lợi thế quan trọng so với những người tiền nhiệm của mình. Thứ nhất, nó cần ít điện toán hơn khi chỉ hoạt động trên 4 bộ TPU (bộ xử lý AI riêng biệt của Google) so với con số 48 của các phiên bản trước. Điều này cho phép Zero hoạt động linh hoạt với khả năng cải tiến ít gặp khó khăn hơn.

Thứ hai, với khả năng “tự học”, Zero đã cho thấy rằng chúng ta hoàn toàn đủ khả năng để phát triển các thuật toán tiên tiến mà không cần phụ thuộc quá nhiều vào dữ liệu sẵn có.

Các chuyên gia trong lĩnh vực này nhận định Zero đóng một vai trò quan trọng trong quá trình nghiên cứu của họ. Hiện nay, có rất nhiều người tỏ ra không hài lòng với công nghệ AI và cho rằng phần lớn những lợi ích gần đây của công nghệ này đến từ sức mạnh tin học “rẻ tiền” cùng một khối lượng lớn dữ liệu thu thập từ nhiều nguồn khác nhau.

Thậm chí Geoffrey Hinton, một người tiên phong trong trào lưu “tẩy chay” AI, còn cho biết machine learning là một con lừa chuyên đánh cắp dữ liệu để tạo ra các tính năng mới mà không đảm bảo được tốc độ phát triển ổn định.

Thành quả mà DeepMind cùng Zero đạt được đã bác bỏ những định kiến sai lệch đó khi cho thấy rằng chỉ cần tập trung vào các thuật toán thay vì dữ liệu cũng có thể tạo ra những cải tiến lớn trong AI.

Ilya Sutskever, Giám đốc nghiên cứu tại viện OpenAI của Elon Musk, cho biết: “Công trình nghiên cứu của DeepMind cho thấy sự kết hợp giữa các kỹ thuật dù không hề mới nhưng cũng có thể mang đến kết quả vượt quá sự tưởng tượng chúng ta. Tuy nhiên, dù là sử dụng công nghệ cũ hay mới đi nữa, mục tiêu quan trọng nhất chính là sự phát triển chung của lĩnh vực AI này”.

Đối với trường hợp của AlphaGo Zero, điều tuyệt vời nhất chính là hệ thống này không hề phụ thuộc vào chuyên môn hay kiến thức của con người. Satinder Singh, giáo sư khoa học đồng thời cũng là tác giả của bài báo về DeepMind trên tờ Nature, đã khen ngợi chiến công hiển hách của hãng trrong việc đơn giản hóa lĩnh vực này.

Cụ thể, ông Singh cho biết đây là một chiến thắng quan trọng của AI khi nó có thể đạt được mục đích cuối cùng mà không cần ai hướng dẫn cả. Phương pháp này được gọi là Reinforcement Learning. So với phương thức nạp dữ liệu cho máy học truyền thống, Reinforcement Learning hứa hẹn sẽ mang lại những thành tựu còn lớn hơn nữa. Tóm lại, hệ thống AI càng “tự học” được nhiều thì sẽ càng phát triển mạnh.

Ông Singh cho biết: “Reinforcement Learning đã nổi lên trong 5,6 năm qua và ảnh hưởng rất nhiều đến thế giới. Có thể nói, DeepMind cũng đóng góp không nhỏ trong quá trình này. Xây dựng được một hệ thống AI chơi cờ vây xuất sắc mà không cần sử dụng dữ liệu của con người là một thành tựu đáng nể, nâng Reinforcement Learning cũng như AI lên một tầm cao mới”.

Theo Demis Hassabis, nhà đồng sáng lập DeepMind, nhận định thành công này sẽ mang lại rất nhiều ứng dụng mới cho xã hội. Họ có thể cung cấp những động lực để thúc đẩy công tác nghiên cứu khoa học. Ông cho biết: “Rất nhiều thành viên dự án AlphaGo đã và đang thử áp dụng công nghệ này sang các lĩnh vực khác”.

Hassabis giải thích rằng có thể coi AlphaGo là một cỗ máy hiệu quả trong việc tìm kiếm các thông tin phức tạp. Còn đối với Zero, những thông tin đó chính là các nước đi độc đáo trong bộ môn cờ vây. Đặc biệt hơn, vì Zero không được lập trình riêng cho cờ vây nên chúng ta hoàn toàn có thể sử dụng nó để tìm kiếm dữ liệu trong các lĩnh vực khác như: công thức các loại thuốc, hóa học lượng tử, vật lý hạt và thiết kế vật liệu.

Hassabis cũng tiết lộ “hậu duệ” của Zero có thể sở hữu khả năng tìm kiếm các chất siêu dẫn nhiệt – một chất cho phép dòng điện chạy qua mà không bị hề hao phí điện năng. Hiện tại, loại chất siêu dẫn này chỉ hoạt động tốt trong các môi trường cực lạnh mà thôi.

Cũng giống như bộ môn cờ vây, các thuật toán của hệ thống AI này sẽ bắt đầu với những điều cơ bản nhất như thành phần nguyên tử của các vật liệu khác nhau và các tính chất liên quan đến chúng. Sau đó, nó sẽ tiếp tục phát triển cho đến khi tìm ra những điều mà nhân loại chưa từng biết đến.

Hassabis chia sẻ: “Khi còn bé, tôi đã đọc rất nhiều sách vật lý và mơ tưởng đến một loại chất siêu dẫn như thế. Nhưng cần có rất nhiều nguyên liệu để có thể tạo ra loại chất nó, và quan trọng hơn, khi ấy tôi còn không chắc rằng liệu nó có tồn tại hay không”.

Tất nhiên là dự án này sẽ phức tạp và tinh vi hơn rất nhiều so với AlphaGo Zero. Suy cho cùng, các hệ thống máy tính có thể dễ dàng hiểu rõ cờ vây cũng giống như các boardgame khác. Luật chơi không nhiều, không có yếu tố may mắn, không có thông tin ẩn, và nhất là các nhà nghiên cứu đã tạo ra rất nhiều phiên bản mô phỏng hoàn hảo của trò chơi này. AI chỉ cần tiến hành hàng triệu bài test và đảm bảo rằng nó không bỏ lỡ bất cứ dữ liệu nào. Ngoài cờ vây ra, khó lĩnh vực nào có thể đáp ứng được các tiêu chí trên của Zero.

Theo Trí Thức Trẻ