Dù cho có nhiều bước tiến sáng giá nhưng giữa những năm 1990, mạng nơ-ron lại bị thất sủng một lần nữa do bởi cái gọi là sức mạnh tính toán của thời đại lấn áp, các công cụ machine learning hiệu quả hơn. Tình thế như vậy vẫn kéo dài hầu như gần một thập kỷ cho đến khi công suất tính toán tăng trở lại 3 đến 4 lần về cường độ và cho phép các nhà nghiên cứu khám phá ra cách tăng tốc GPU.
Nhưng vẫn còn thiếu một phần đó là data. Dù cho Internet đóng vai trò quan trọng ở nhiều lĩnh vực, nhưng hầu hết data đặc biệt về hình ảnh thì vẫn chưa được đánh dấu và đó chính là cái cần thiết để train mạng nơ-ron. Và đó cũng là cái mà chuyên gia tại Stanford AI, Fei-Fei Li đã nhảy vào. Giải thích trong buổi phỏng vấn, cô nói: “Sứ mạng của chúng tôi là lượng data khổng lồ có thể thay đổi cách machine learning hoạt động. Data sẽ mang đến việc học.”
Trong năm 2007, cô đã cho ra mắt ImageNet tập hợp các cơ sở dữ liệu tự do của hơn 14 triệu hình ảnh có dán nhãn. Cơ sở dữ liệu này đã khởi sắc vào năm 2009 và trong năm tiếp theo, cô đã tổ chức một cuộc thi hằng năm nhằm khuyến khích những đột phá về computer vision.
Vào tháng 10 năm 2012 khi mà 2 học trò của ông Hinton đã giành chiến thắng cuộc thi này thì deep learning mới được chú ý đến.
Sau đó thì đại đa số công chúng cũng đã từng nghe qua về deep learning nhưng chỉ ở vài sự kiện. Vào tháng 6 năm 2012, dự án Google Brain đã công bố về kết quả của một dự án độc đáo mà hiện nay được biết đến như là dự án “cat experiment”. Dự án này đã tạo ra cú hích và lan truyền rộng rãi trên các trang mạng xã hội.
Một phần nhỏ của dự án “cat experiment”
Dự án thực ra cũng đã chỉ ra một vấn đề quan trọng vẫn chưa được giải quyết trong deep learning chính là “unsupervised learning” (tạm dịch: việc học không được giám sát). Hầu như mọi sản phẩm công nghệ deep learning trong thương mại hiện nay đều dùng đến “supervised learning” (tạm dịch: việc học có giám sát), có nghĩa là mạng nơ-ron được train với những data đã đánh dấu (chẳng hạn như hình ảnh trên trang ImageNet). Trái ngược với điều này, “unsupervised learning” chính là mạng nơ-ron sẽ hiển thị dữ liệu chưa được đánh dấu và thường hỏi về các mẫu lặp lại. Các nhà nghiên cứu sớm thôi sẽ lĩnh hội được “unsupervised learning” do các thiết bị có thể tự dạy cho nó về mọi thứ từ các nơi lưu trữ dữ liệu rộng lớn vẫn chưa được khai thác ngày nay và có thể tạo ra một thế giới riêng cho nó.
Mô hình unsupervised learning
Về dự án “cat experiment”, các nhà nghiên cứu đã trình làng một mạng nơ-ron rộng lớn trải dài khắp 1.000 máy tính với 10 triệu hình ảnh chưa được đánh dấu được lấy ngẫu nhiên từ các video trên trang YouTube và sau đó chỉ cần để phần mềm thực hiện việc còn lại. Tiếp đến họ sẽ kiểm tra các nơ-ron ở lớp cao hơn và đảm bảo một trong số chúng phản hồi đúng về hình ảnh con mèo. Người đứng đầu dự án Google Brain lúc đó là Ng cho biết: “Chúng tôi cũng đã tìm ra một nơ-ron phản hồi rất tích cực về gương mặt con người. Tuy nhiên kết quả cũng khá là bối rối khi chúng tôi không tìm ra được nơ-ron nào phản hồi về những chiếc xe hơi. Có nhiều nơ-ron khác mà chúng tôi không tài mà diễn tả nó bằng từ tiếng Anh. Quả thật là nan giải”.
Nghiên cứu đã mở ra một bước tiến mới nhưng unsupervised learning vẫn còn tồn tại những bất cập mà có lẽ nó chính là thử thách mà các nhà nghiên cứu sẽ đối mặt trong tương lai.
Không có gì làm lạ khi hầu như các ứng dụng deep learning gần đây vẫn đang được triển khai một cách thương mại do những tập đoàn có một lượng lớn dữ liệu lưu trữ cần thiết cho các thuật toán deep learning như Google, Microsoft, Facebook, Baidu và Amazon. Nhiều công ty khác cũng đang nỗ lực phát triển nhiều “chatbot” (những dịch vụ khách hàng tự động) hữu ích và thực tế hơn.
BỐN ÔNG LỚN LÀNG CÔNG NGHỆ HOẠT ĐỘG TRONG LĨNH VỰC DEEP LEARNING
- Google đã triển khai dự án Google Brain chú trọng vào deep learning vào năm 2011 và đã trình làng mạng nơ-ron tích hợp trong các sản phẩm nhận diện giọng nói vào giữa năm 2012 và chiêu mộ được nhà khoa học máy tính Geoffey Hinton vào tháng 3 năm 2013. Hiện nay công ty đang có hơn 1000 dự án về deep learning đang được triển khai trải dài trên các lĩnh vực như công cụ tìm kiếm, hệ điều hành Android, Gmail, Ứng dụng hình ảnh, bản đồ, dịch thuật, YouTube và xe tự lái. Vào năm 2014, Google đã thâu tóm công ty DeepMind đang thực hiện dự án chương trình cờ vây máy tính mang tên là AlphaG đã đánh bại nhà vô địch thế giới Lee Sedol ở bộ môn này vào tháng 3 và đạt được một bước ngoặc mới về lĩnh vực trí tuệ nhân tạo.
MICROSOFT
- Microsoft đã trình làng công nghệ deep learning ở các sản phẩm thương mại về nhận diện giọng nói của họ bao gồm công cụ tìm kiếm bằng giọng nói Bing và các câu lệnh bằng giọng nói trong các thiết bị X-Box vào đầu và giữa năm 2011. Hiện nay công ty đang sử dụng mạng nơ-ron trong các mục xếp hạng tìm kiếm, tìm kiếm hình ảnh, hệ thống dịch thuật và nhiều thứ khác. Năm ngoái công ty cũng đã chiến thắng trong cuộc thi nhận diện hình ảnh và vào tháng 9 cũng đã ghi dấu về tỷ lệ lỗi thấp ở mục nhận diện giọng nói với số điểm benchmark là 6,3%.
- Vào tháng 12 năm 2013, Facebook đã mời được nhà tiên phong về mạng nơ-ron người Pháp có tên là Yann LeCun về dưới trướng của họ và cho ông trực tiếp chỉ đạo phòng thí nghiệm nghiên cứu công nghệ AI mới của họ. Facebook dùng mạng nơ-ron để dịch khoảng 2 tỷ bài đăng từ người dùng với hơn 40 ngôn ngữ khác nhau và biết có khoảng 800 triệu người xem qua các bản dịch này hằng ngày. Facebook cũng sử dụng mạng nơ-ron cho việc tìm kiếm bằng hình ảnh và sắp xếp ảnh và nó hoạt động ở tính năng tạo caption bằng giọng nói cho các hình ảnh không được gắn thẻ cho cộng đồng đồng người khiếm thị.
BAIDU
- Vào tháng 5 năm 2014, công ty Baidu đã mời giáo sư Andrew Ng về làm việc cho họ. Ông Andrew trước đây là người giúp triển khai và dẫn dắt dự án Google Brain vào bước đầu. Công ty dẫn đầu về tìm kiếm và dịch vụ web Baidu sử dụng mạng nơ-ron cho các mục nhận diện giọng nói, dịch thuật, tìm kiếm hình ảnh và dự án xe tự lái. Công nghệ nhận dạng giọng nói là lĩnh vực chủ chốt tại Trung Quốc vì tiếng phổ thông tại quốc gia này rất khó đánh. Baidu cho biết lượng khách hàng tương tác bằng giọng nói đã tăng gấp 3 lần vào 18 tháng qua.
Các công ty như IBM và Microsoft đang giúp các khách hàng doanh nghiệp thích ứng với các ứng dụng deep learning như là giao diện nhận dạng giọng nói và các dịch vụ dịch thuật dành riêng cho doanh nghiệp của họ trong khi các dịch vụ đám mây như dịch vụ Amazon Web Services mang đến dịch vụ tính toán deep learning dựa trên GPU rẻ hơn cho những cá nhân muốn tự phát triển phần mềm cho riêng họ. Nhiều phần mềm mã nguồn mở như là Caffe, Google’s TensorFlow, và Amazon’s DSSTNE đã tạo động lực thúc đẩy cho quá trình đổi mới và đạo đức công khai khi các nhà nghiên cứu có thể trình làng thành quả của họ ngay lập tức lên database mà không cần qua quá trình thẩm định.