Databricks giới thiệu mô hình ngôn ngữ quy mô lớn (LLM) mã nguồn mở đầu tiên có tên là Dolly 2.0 vào ngày thứ Tư vừa qua. Mô hình này đã được huấn luyện và tinh chỉnh từ dữ liệu do con người tạo ra và có khả năng biến thành giải pháp thương mại hoá như các chatbot hiện có trên thị trường.
Databricks được thành lập vào năm 2013 bởi các kỹ sư đã phát triển Apache Spark – một công cụ framework xử lý dữ liệu quy mô lớn, cũng là mã nguồn mở. Mục tiêu của Databricks là giúp tổ chức, doanh nghiệp và cá nhân tạo ra và tùy chỉnh các LLM mà không phải trả tiền thuê API thuật toán hoặc chia sẻ dữ liệu cá nhân của người dùng với bên thứ ba. Dolly 2.0 được huấn luyện dựa trên 12 tỷ tham số, dựa trên nền tảng mô hình Pythia của EleutherAI và được tinh chỉnh từ dữ liệu tự học do nhân viên của Databricks cung cấp. Việc này giúp Dolly 2.0 trở thành nền tảng cho các chatbot với khả năng vận hành tương đương với ChatGPT của OpenAI. Điều này đặc biệt hữu ích trong việc tìm kiếm câu trả lời cho những câu hỏi của người dùng và bắt đầu chuyện với người dùng.
Dolly 1.0 đã được ra mắt vào tháng 3, nhưng do thiếu dữ liệu tự học và phụ thuộc vào gói dữ liệu từ bên thứ ba, nó đã gặp nhiều khó khăn trong việc ứng dụng thương mại hoá. Vì vậy, để giải quyết vấn đề này và tạo ra Dolly 2.0, Databricks đã “crowdsource” dữ liệu từ hơn 5.000 nhân viên của mình trong thời gian từ tháng 3 đến tháng 4 để tạo ra hơn 13.000 tệp dữ liệu cho AI tự học. Tất cả các tập dữ liệu và mã nguồn huấn luyện thuật toán AI đã được biến thành dữ liệu mã nguồn mở, tuân thủ giấy phép Creative Commons, cho phép các đơn vị và cá nhân sử dụng, tuỳ chỉnh và mở rộng thuật toán.
ChatGPT là một cái tên nổi tiếng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Tuy nhiên, để sử dụng API của ChatGPT, người dùng phải trả tiền và tuân thủ quy định sử dụng dịch vụ của OpenAI. Điều này có thể giới hạn khả năng tùy chỉnh API để phù hợp với nhu cầu của từng đơn vị. Tương tự, LLaMA của Meta cũng không cho phép sử dụng tự do và miễn phí. Nó chỉ được sử dụng để tạo ra một số chatbot kể từ thời điểm mô hình bị rò rỉ trên BitTorrent.
Theo nhà nghiên cứu AI Simon Willison, việc phát triển một mô hình ngôn ngữ mã nguồn mở là rất quan trọng. Ngay cả khi Dolly 2.0 không thực hiện tốt như mong đợi, nó vẫn có thể tạo ra một xu hướng mới, đó là những mô hình ngôn ngữ không bị giới hạn bởi những rào cản do các đơn vị nghiên cứu tạo ra, bao gồm thoả thuận sử dụng và bản quyền dữ liệu.