TỪ ĐIỂN THUẬT NGỮ VỀ ARTIFICIAL-INTELLIGENCE
- ARTIFICIAL INTELLIGENCE
- AI là một thuật ngữ rộng, áp dụng cho bất kỳ kỹ thuật công nghệ cho phép máy tính có thể bắt chước theo trí thông minh của con người, sử dụng tính logic, hệ thống decision trees (tạm dịch: Cây quyết định) và machine learning (gồm cả deep learning)
- MACHINE LEARNING
- Một phạm trù của công nghệ AI bao gồm các kỹ thuật thống kê sâu sắc cho phép máy tính phân tích dữ liệu mà sẽ tự động hóa việc xây dựng mô hình phân tích bao gồm deep learning.
- DEEP LEARNING
- Một mục nhỏ của công nghệ machine learning bao gồm các thuật toán cho phép phần mềm có thể tự học nhằm thực hiện các tác vụ như nhận diện hình ảnh và giọng nói bằng cách đặt các mạng nơ-ron đa tầng vào lượng dữ liệu khổng lồ.
Deep learning hầu như có thể thay đổi mọi ngành công nghiệp. Theo Jeff Dean, người dẫn đầu dự án Google Brain, cho biết: “Những thay đổi chủ yếu sẽ diễn ra khi mà tầm nhìn máy tính thật sự hoạt động”. Hoặc như khi ông mơ hồ lặp lại lời nói của mình: “Máy tính hiện tại đã có thể mở đôi mắt của chúng ra rồi”.
Jeff Dean
Liệu đây có nghĩa là đến lúc ta nên chuẩn bị ứng phó với “tính độc nhất”- theo giả thuyết là các cỗ máy siêu thông minh sẽ tự phát triển mà không cần sự can thiệp của con người với hậu quả khủng khiếp là nó sẽ thống trị toàn bộ loài người?
Vẫn chưa đâu. Quả thực mạng nơ-ron rất tốt ở khâu nhận diện- đôi lúc còn tốt hơn cả con người. Nhưng chúng không thể suy luận.
Những tia hy vọng le lói về cuộc cách mạng sắp xảy ra đã bắt đầu vào năm 2009. Nhà nghiên cứu chính của Microsoft, Li Deng vào mùa hè đó đã mời người tiên phong về mạng nơ-ron, Geoffrey Hinton, đến từ trường Đại học Toronto ghé thăm. Ấn tượng với nghiên cứu của ông, nhóm của Deng đã quyết định thực hiện thử nghiệm mạng nơ-ron về nhận diện giọng nói. Ông Lee nói: “Chúng tôi sốc với kết quả thu được. Độ chính xác tăng 30% chỉ qua những giao thức đầu tiên.”
Ông Li Deng
Vào năm 2011, theo ông Lee, Microsoft đã trình làng công nghệ machine learning tích hợp trong các sản phẩm nhận diện giọng nói thương mại của họ. Google sau đó cũng đã theo đuổi lĩnh vực này vào tháng 8 năm 2012.
Nhưng cú hích nổ ra là vào tháng 10 năm 2012. Tại phòng làm việc tại Florence, Italy, người đứng đầu phòng thí nghiệm Stanford AI Lab và là người thành lập ra cuộc thi computer-vision (tạm dịch: thị giác máy tính) ImageNet nổi tiếng hằng năm, Fei-Fei Li đã thông báo rằng hai trong số học sinh của ông Hinton đã sáng tạo ra một phần mềm có khả năng nhận diện vật thể với độ chính xác gấp đôi các đối thủ của họ. Ông Hinton tường thuật lại: “Đây quả là một kết quả tuyệt vời và hoàn toàn thuyết phục những người mà trước đây đã từng hoài nghi về điều này.”
Sự bùng nổ trong lĩnh vực nhận diện hình ảnh đã nổ ra một phát súng và khởi đầu cho cuộc đua tuyển dụng. Google đã mời được Hinton cùng hai sinh viên thắng cuộc thi vào năm đó về làm việc cho họ. Facebook thì lại mời được nhà sáng tạo deep learning người Pháp Yann LeCun, người tiên phong về các loại hình thuật toán vào những năm 1980 và 1990 và đã giành chiến thắng tại cuộc thi ImageNet, về dưới trướng của mình. Ở bên kia đại dương, ông lớn Baidu cũng không vừa khi chiêu mộ được Ng, người trước đây đứng đầu Stanford AI Lab đồng thời giúp vận hành và dẫn đầu dự án Google Brain chú trọng vào lĩnh vực deep learning vào năm 2010.
Ông Yann LeCun
Sức hút từ việc tuyển dụng cũng từ đó mà tăng lên. Ngày nay ông Lee tại Microsoft cho biết: “Quả thực là có một cuộc chiến đổ máu cho những tài năng ở lĩnh vực này.”
Geoffrey Hinton
Geoffrey Hinton năm nay đã 68 tuổi và là người tiên phong về mạng nơ-ron vào năm 1972 và bắt đầu công việc nghiên cứu về trí tuệ nhân tạo tại trường Đại học Edinburgh sau khi tốt nghiệp. Từng học về tâm lý học thử nghiệm khi còn là sinh viên tại trường Đại học Cambridge, ông Hinton đã bày tỏ sự yêu thích, hăng hái của mình về mạng nơ-ron mà đó là các cấu trúc phần mềm đã lấy cảm hứng từ cách mà mạng lưới nơ-ron trong não hoạt động. Vào thời gian đó, người ta không mặn mà gì với mạng nơ-ron cho lắm. Ông nhớ lại: “Mọi người nghĩ mạng nơ-ron là một thứ gì đó điên rồ”. Nhưng ông Hinton vẫn kiên trì theo đuổi.
Mạng nơ-ron đã mang đến một viễn cảnh mà máy tính có thể “học” như một đứa trẻ. Nó sẽ học từ trải nghiệm thực tế hơn là qua các phần mềm hướng dẫn phù hợp do con người tạo ra. Ông Hinton nhớ lại: “Hầu hết AI đều lấy cảm hứng từ logic. Nhưng logic là cái mà con người ta mất rất lâu để nhận thức. Những đứa trẻ từ 2 đến 3 tuổi không tài nào mà có thể logic được. Vì thế theo tôi dường như mạng nơ-ron là mô hình kiểu mẫu tuyệt vời về cách mà trí thông minh của ta sẽ thực hiện tốt hơn logic.” (Logic như là truyền thống của nhà ông Hinton. Ông đến từ một gia tộc với các nhà khoa học nổi tiếng và là cháu của George Boole, nhà toán học vĩ đại thế kỷ 19).
Trong những năm 1950 và 1960, mạng nơ-ron bắt đầu được các nhà khoa học máy tính chú ý tới. Trong năm 1958, Frank Rosenblatt, nhà tâm lý học nghiên cứu tại trường Đại học Cornell, đang thực hiện dự án Navy tại một phòng thí nghiệm tại Buffalo đã xây dựng nên một giao thức mạng nơ-ron mà ông gọi nó là Perceptron. Giao thức mạng này sử dụng một máy tính thẻ đục lỗ để lấp đầy những chỗ còn trống. Sau 50 lần thử thì nó cũng đã học được cách phân biệt giữa thẻ nào được đánh dấu bên trái và thẻ nào được đánh dấu bên phải. Công bố về sự kiện này, tờ New York Times viết: “The Navy đang thai nghén về một máy tính điện tử có thể đi, nói, nhìn, viết, giời thiệu và cả nhận thức về sự tồn tại của bản thân nó.”
Một sơ đồ Perceptron
Phần mềm Perceptron chỉ có một lớp nơ-ron với các nút đã cho thấy được những hạn chế. Nhưng nhóm các nhà nghiên cứu tin rằng họ có thể tạo ra một mạng lưới nơ-ron sâu hoặc đa lớp.
Hinton đã giải thích ý tưởng cơ bản đó theo cách này. Giả sử như một mạng nơ-ron đang giải thích các hình ảnh mà một trong số chúng là hình ảnh về concept chim chóc. Ông nói: “Khi nhập hình ảnh vào thì lớp đầu tiên sẽ nhận diện các cạnh nhỏ. Vùng tối ở một bên và vùng sáng ở một bên. Ở lớp tiếp theo, nó sẽ phân thích dữ liệu gửi từ lớp đầu tiên sẽ nhận diện những thứ như là các góc khi mà hai cạnh giao nhau theo một góc nào đó”. Một trong các nơ-ron này sẽ phản hồi tích cực về góc của mỏ con chim.
Tiếp đến nó sẽ xem xét đến các cấu trúc phức tạp hơn như là hàng tá góc sắp xếp thành vòng tròn. Một nút nơ-ron ở lớp này sẽ phản hồi về đầu của con chim. Và ở cấp độ cao hơn, các nơ-ron sẽ tìm ra vị trí các góc gần kề giống như các góc của con chim gần giống với phần đầu. Và đó là một tín hiệu khá tốt rằng nó có thể là đầu của một con chim. Các nơ-ron ở các lớp cao hơn sẽ phản hồi theo concept theo cách phức tạp hơn và trừu tượng hơn cho đến khi lớp trên cùng tương ứng với concept về “chim chóc”.
Tuy nhiên để học thì mạng lưới nơ-ron sâu cần phải thực hiện nhiều hơn việc chỉ gởi tín hiệu từ lớp dưới sang lớp trên. Nó cũng cần phải đảm bảo rằng liệu tín hiệu nó nhận được là kết quả chính xác hay không? Nếu không thì nó sẽ gửi tín hiệu trở lại để lớp nơ-ron bên dưới khởi động lại quy trình làm việc nhằm đưa ra kết quả chính xác nhất. Và đây là quá trình sẽ xảy ra.
Vào đầu những năm 1980, Hinton đã bắt tay vào thực hiện vấn đề này. Vì thế một nhà nghiên cứu người Pháp khác tên là Yann LeCun cũng đã bắt đầu công việc của mình tại thủ đô Paris của Pháp. LeCun sau đó tính cờ bắt gặp bài báo của Hinton xuất bản vào năm 1983 nói về mạng nơ-ron đa tầng. Ông nhớ lại: “Thuật ngữ này không được rõ ràng lắm. Bởi vì vào thời điểm đó để xuất bản bài báo đề cập tới “nơ-ron” hay “mạng nơ-ron” quả thực là rất khó”. Vì vậy ông đã viết một bài báo khác theo cách khó hiểu hơn để đánh lạc hướng các nhà phê bình. Nhưng ông đã nghĩ rằng bài báo quả thật cực kỳ thú vị. Bộ đôi này đã gặp nhau sau 2 năm và trở nên ăn ý với nhau.
Vào năm 1986, Hinton cùng 2 cộng sự đã viết một bài báo có sức ảnh hưởng đề cập đến một giải pháp thuật toàn cho các vấn đề về sửa lỗi. Ông LeCun nói: “Bài báo của ông Hinton quả thực là nền tảng cho làn sóng thứ 2 về mạng nơ-ron”. Bài báo này đã làm lĩnh vực này sống dậy một lần nữa.
Sau khi Hinton cho đăng tải bài postdoc của mình, ông LeCun đã chuyển sang làm việc tại phòng thí nghiệm Bell Labs của AT&T vào năm 1988. Cũng trong thập kỷ tới, ông cũng đã thực hiện một dự án tiên phong về hầu hết các tác vụ nhận diện hình ảnh mà ngày nay vẫn còn sử dụng. Trong nhưng năm 1990, công ty con của Bell Labs là NCR đã thương mại hóa thiết bị sử dụng mạng nơ-ron, phần lớn được đưa vào sử dụng trong các ngân hàng, mà theo ông LeCun là nó có khả năng đọc được các con số viết tay trên sổ sách. Cùng thời điểm đó, hai nhà nghiên cứu người Đức là Sepp Hochreiter, hiện đang ở trường Đại học Linz và Jürgen Schmidhuber, đồng giám đốc tại phòng thí nghiệm Swiss AI ở Lugano đã độc lập tiên phong nghiên cứu về các hoại hình thuật toán khác nhau mà thậm chí 20 năm sau, loại hình này đã trở thành phần không thể thiếu cho các ứng dụng xử lý ngôn ngữ tự nhiên.