Sự phát triển gần đây của ngành AI được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu suất của các ngành nghề khác nhau, Boston Consulting cho rằng GPT đã tăng cường hiệu suất làm việc ở Mỹ khoảng 20%. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, chuyển từ thiết kế mã chính xác trong quá khứ sang việc nhúng các khung mô hình lớn vào phần mềm, giúp phần mềm có hiệu suất tốt hơn và hỗ trợ nhiều loại đầu vào và đầu ra khác nhau hơn. Công nghệ học sâu thực sự đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, làn sóng này cũng đã ảnh hưởng đến ngành công nghiệp tiền điện tử.
Báo cáo này sẽ khám phá chi tiết lịch sử phát triển của ngành AI, phân loại công nghệ, cũng như tác động của việc phát minh công nghệ học sâu đến ngành. Sau đó, nó sẽ phân tích sâu về chuỗi công nghiệp liên quan đến GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên, v.v., và tình hình phát triển cũng như xu hướng của chúng. Cuối cùng, báo cáo sẽ thảo luận chi tiết về mối quan hệ giữa tiền điện tử và ngành AI, và sẽ hệ thống hóa cấu trúc chuỗi công nghiệp AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau trong bối cảnh các thời đại và các lĩnh vực khác nhau.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", tư tưởng của công nghệ này là để máy móc dựa vào dữ liệu lặp đi lặp lại trong nhiệm vụ nhằm cải thiện hiệu suất hệ thống. Các bước chính là đưa dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện nay, học máy có ba trường phái chính, lần lượt là kết nối, ký hiệu và hành vi, lần lượt mô phỏng hệ thần kinh, tư duy và hành động của con người.
Hiện nay, chủ nghĩa liên kết đại diện bởi mạng nơ-ron đang chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là vì kiến trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn, một khi số lượng lớp và nơ-ron ( tham số ) đủ lớn, sẽ có đủ cơ hội để khớp với các nhiệm vụ tổng quát phức tạp. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số nơ-ron, cuối cùng trải qua nhiều dữ liệu, nơ-ron này sẽ đạt trạng thái tối ưu ( tham số ), đó là cái được gọi là "sâu" - đủ số lượng lớp và nơ-ron.
Ví dụ, có thể hiểu đơn giản rằng đã xây dựng một hàm, hàm này có đầu vào X=2 thì Y=3, X=3 thì Y=5. Nếu muốn hàm này có thể xử lý tất cả các giá trị của X, cần phải liên tục thêm bậc của hàm và các tham số của nó. Chẳng hạn, có thể xây dựng hàm thỏa mãn điều kiện này là Y = 2X -1, nhưng nếu có một dữ liệu là X=2, Y=11, thì cần phải tái cấu trúc một hàm phù hợp với ba điểm dữ liệu này, sử dụng GPU để bẻ khóa một cách mạnh mẽ phát hiện ra Y = X2 -3X +5 là phù hợp hơn, nhưng không cần phải hoàn toàn trùng khớp với dữ liệu, chỉ cần tuân thủ sự cân bằng, đầu ra tương tự là đủ. Ở đây X2 cũng như X, X0 đại diện cho các nơ-ron khác nhau, trong khi 1, -3, 5 là các tham số của nó.
Nếu trong thời điểm này nhập một lượng lớn dữ liệu vào mạng nơ-ron, có thể tăng số lượng nơ-ron và điều chỉnh các tham số để phù hợp với dữ liệu mới, như vậy có thể phù hợp với tất cả dữ liệu.
Công nghệ học sâu dựa trên mạng nơ-ron cũng có nhiều phiên bản và tiến hóa kỹ thuật, từ mạng nơ-ron đầu tiên, đến mạng nơ-ron truyền tiếp, RNN, CNN, GAN, cuối cùng tiến hóa thành các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, thêm vào một bộ chuyển đổi ( Transformer ), dùng để mã hóa dữ liệu của tất cả các kiểu ( như âm thanh, video, hình ảnh, v.v. ) thành các giá trị tương ứng để biểu diễn, sau đó được đưa vào mạng nơ-ron, như vậy mạng nơ-ron có thể phù hợp với bất kỳ loại dữ liệu nào, nghĩa là thực hiện đa mô thức.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên diễn ra vào những năm 60 của thế kỷ 20, sau một thập kỷ kể từ khi công nghệ AI được đề xuất. Làn sóng này là do sự phát triển của công nghệ ký hiệu, công nghệ này giải quyết các vấn đề về xử lý ngôn ngữ tự nhiên tổng quát cũng như đối thoại giữa người và máy. Cùng thời gian đó, hệ thống chuyên gia ra đời, đây là hệ thống DENRAL do Đại học Stanford hoàn thành dưới sự giám sát của NASA, hệ thống này sở hữu kiến thức hóa học rất mạnh, thông qua việc đặt câu hỏi để suy luận nhằm tạo ra câu trả lời tương tự như một chuyên gia hóa học. Hệ thống chuyên gia hóa học này có thể được coi là sự kết hợp giữa cơ sở dữ liệu kiến thức hóa học và hệ thống suy luận.
Sau hệ thống chuyên gia, vào những năm 1990, nhà khoa học và triết gia người Mỹ gốc Israel Judea Pearl( đã đề xuất mạng Bayes, mạng này cũng được gọi là mạng niềm tin. Cùng thời gian đó, Brooks đã đưa ra robot học dựa trên hành vi, đánh dấu sự ra đời của chủ nghĩa hành vi.
Năm 1997, sản phẩm "Deep Blue" của một công ty công nghệ nổi tiếng đã đánh bại nhà vô địch cờ vua Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc của trí tuệ nhân tạo, công nghệ AI đã bước vào giai đoạn phát triển lần thứ hai.
Làn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba thần kinh học sâu Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm học sâu, một thuật toán sử dụng mạng nơ-ron nhân tạo làm cấu trúc để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu đã dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng nhau hình thành nên làn sóng công nghệ thứ ba, và đây cũng là thời kỳ hoàng kim của chủ nghĩa liên kết.
Nhiều sự kiện mang tính biểu tượng cũng đã dần xuất hiện cùng với việc khám phá và tiến triển của công nghệ học sâu, bao gồm:
Năm 2011, một công ty công nghệ nổi tiếng, Watson) đã chiến thắng con người và giành chức vô địch trong chương trình kiểm tra câu hỏi "Jeopardy(".
Năm 2014, Goodfellow đã đề xuất GAN) Mạng đối kháng sinh, Generative Adversarial Network(, thông qua việc cho hai mạng nơ-ron cạnh tranh với nhau để học, có khả năng tạo ra những bức ảnh giống thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách mang tên "Deep Learning", được gọi là cuốn sách hoa, là một trong những cuốn sách nhập môn quan trọng trong lĩnh vực học sâu.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trong tạp chí "Nature", phương pháp học sâu này ngay lập tức đã gây tiếng vang lớn trong giới học thuật cũng như ngành công nghiệp.
Năm 2015, một tổ chức nghiên cứu AI nổi tiếng được thành lập, nhiều nhân vật nổi tiếng tuyên bố cùng đầu tư 1 tỷ đô la.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã thi đấu với nhà vô địch cờ vây thế giới, kiện tướng cờ vây 9 dan Lee Sedol, và giành chiến thắng với tỷ số 4-1.
Năm 2017, một công ty robot nổi tiếng phát triển robot hình người Sophia, được coi là robot đầu tiên trong lịch sử được cấp quyền công dân hạng nhất, sở hữu nhiều biểu cảm trên khuôn mặt và khả năng hiểu ngôn ngữ của con người.
Năm 2017, một công ty công nghệ nổi tiếng có đội ngũ tài năng và tích trữ công nghệ phong phú trong lĩnh vực trí tuệ nhân tạo đã phát hành bài báo "Attention is all you need" đề xuất thuật toán Transformer, mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, một tổ chức nghiên cứu AI nổi tiếng đã công bố GPT)Generative Pre-trained Transformer( được xây dựng dựa trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2018, một đội ngũ AI nổi tiếng đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu mốc tiến bộ to lớn trong lĩnh vực trí tuệ nhân tạo.
Năm 2019, một tổ chức nghiên cứu AI nổi tiếng đã phát hành GPT-2, mô hình này có 1,5 tỷ tham số.
Năm 2020, một tổ chức nghiên cứu AI nổi tiếng đã phát triển GPT-3, có 175 tỷ tham số, cao gấp 100 lần so với phiên bản trước là GPT-2, mô hình này đã sử dụng 570GB văn bản để huấn luyện, có thể đạt hiệu suất tiên tiến nhất trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên như trả lời câu hỏi, dịch thuật, viết bài.
Năm 2021, một tổ chức nghiên cứu AI nổi tiếng đã phát hành GPT-4, mô hình này có 1.76 nghìn tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, vào tháng 3 ChatGPT đạt một trăm triệu người dùng, trở thành ứng dụng nhanh nhất trong lịch sử đạt một trăm triệu người dùng.
Năm 2024, một viện nghiên cứu AI nổi tiếng đã ra mắt GPT-4 omni.
Chú thích: Do có rất nhiều bài báo về trí tuệ nhân tạo, có nhiều trường phái khác nhau và công nghệ phát triển không đồng nhất, nên ở đây chủ yếu theo lịch sử phát triển của học sâu hoặc chủ nghĩa liên kết, các trường phái và công nghệ khác vẫn đang trong quá trình phát triển nhanh chóng.
![Người mới phổ cập丨AI x Crypto: Từ số không đến đỉnh cao])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chuỗi công nghiệp học sâu
Các mô hình ngôn ngữ lớn hiện tại đều sử dụng các phương pháp học sâu dựa trên mạng nơ-ron. Với sự dẫn dắt của GPT, các mô hình lớn đã tạo ra một làn sóng hưng phấn trong lĩnh vực trí tuệ nhân tạo, nhiều người chơi đã đổ xô vào lĩnh vực này. Chúng tôi cũng nhận thấy nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường đã bùng nổ mạnh mẽ, vì vậy trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi cung ứng của thuật toán học sâu. Trong ngành AI do thuật toán học sâu thống trị, chuỗi cung ứng và nhu cầu cung cấp của nó được hình thành như thế nào, và tình trạng hiện tại cũng như mối quan hệ cung cầu, sự phát triển trong tương lai ra sao.
Đầu tiên, chúng ta cần làm rõ rằng, trong quá trình đào tạo mô hình lớn LLMs dựa trên công nghệ Transformer do GPT dẫn đầu ), có tổng cộng ba bước.
Trước khi huấn luyện, vì dựa trên Transformer, do đó bộ chuyển đổi cần chuyển đổi văn bản đầu vào thành giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị này được gọi là Token. Theo quy tắc kinh nghiệm chung, một từ hoặc ký tự tiếng Anh có thể được coi như một Token, trong khi mỗi chữ Hán có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng trong định giá GPT.
Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp đủ cặp dữ liệu cho lớp đầu vào, tương tự như ví dụ được nêu trong phần báo cáo đầu tiên (X,Y), để tìm kiếm các tham số tốt nhất của từng nơ-ron trong mô hình, lúc này cần rất nhiều dữ liệu, và quá trình này cũng là quá trình tiêu tốn sức mạnh tính toán nhất, vì phải lặp đi lặp lại để các nơ-ron thử nghiệm nhiều tham số khác nhau. Sau khi một lô cặp dữ liệu hoàn thành việc huấn luyện, thường sẽ sử dụng cùng một lô dữ liệu để huấn luyện lần thứ hai nhằm lặp lại các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là cung cấp một lượng dữ liệu ít nhưng chất lượng rất cao để huấn luyện, sự thay đổi như vậy sẽ làm cho đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể có lỗi hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng.
Bước ba, học tăng cường. Trước tiên sẽ xây dựng một mô hình hoàn toàn mới, chúng tôi gọi nó là "mô hình phần thưởng", mục đích của mô hình này rất đơn giản, đó là sắp xếp các kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ tương đối đơn giản, vì bối cảnh kinh doanh khá chuyên sâu. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, như vậy chúng tôi có thể sử dụng một mô hình phần thưởng để tự động lặp lại các tham số của mô hình lớn. ( nhưng đôi khi cũng cần sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình )
Tóm lại, trong quá trình huấn luyện mô hình lớn, việc đào tạo trước có yêu cầu rất cao về khối lượng dữ liệu, và sức mạnh tính toán GPU cần thiết cũng là nhiều nhất, trong khi việc tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số, học tăng cường có thể thông qua một mô hình phần thưởng để lặp đi lặp lại các tham số nhằm tạo ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát càng cao, ví dụ như trong ví dụ hàm số Y = aX + b, thực tế có hai nơ-ron X và X0, vì vậy cách thay đổi tham số, dữ liệu mà nó có thể khớp là rất hạn chế, vì bản chất vẫn là một đường thẳng. Nếu số lượng nơ-ron nhiều hơn, thì có thể lặp lại nhiều tham số hơn, từ đó có thể khớp với nhiều dữ liệu hơn, đó là lý do tại sao các mô hình lớn lại tạo ra những điều kỳ diệu, và đây cũng là lý do tại sao tên gọi phổ thông là mô hình lớn, bản chất là số lượng nơ-ron và tham số khổng lồ, cùng với khối lượng dữ liệu khổng lồ, đồng thời cần một lượng sức mạnh tính toán khổng lồ.
Do đó, hiệu suất của mô hình lớn chủ yếu được quyết định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, sức mạnh tính toán, ba yếu tố này cùng nhau ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Chúng ta giả định số lượng tham số là p, khối lượng dữ liệu là n( tính theo số lượng Token), từ đó chúng ta có thể tính toán lượng sức mạnh tính toán cần thiết theo quy tắc kinh nghiệm thông thường, như vậy chúng ta có thể ước lượng được tình hình sức mạnh tính toán mà chúng ta cần mua cũng như thời gian đào tạo.
 và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Độ sâu phân tích: Sự hội nhập giữa AI và tài sản tiền điện tử từ quá trình phát triển đến toàn cảnh chuỗi công nghiệp
AI x Crypto: Từ số 0 đến đỉnh cao
Sự phát triển gần đây của ngành AI được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu suất của các ngành nghề khác nhau, Boston Consulting cho rằng GPT đã tăng cường hiệu suất làm việc ở Mỹ khoảng 20%. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, chuyển từ thiết kế mã chính xác trong quá khứ sang việc nhúng các khung mô hình lớn vào phần mềm, giúp phần mềm có hiệu suất tốt hơn và hỗ trợ nhiều loại đầu vào và đầu ra khác nhau hơn. Công nghệ học sâu thực sự đã mang lại sự thịnh vượng lần thứ tư cho ngành AI, làn sóng này cũng đã ảnh hưởng đến ngành công nghiệp tiền điện tử.
Báo cáo này sẽ khám phá chi tiết lịch sử phát triển của ngành AI, phân loại công nghệ, cũng như tác động của việc phát minh công nghệ học sâu đến ngành. Sau đó, nó sẽ phân tích sâu về chuỗi công nghiệp liên quan đến GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên, v.v., và tình hình phát triển cũng như xu hướng của chúng. Cuối cùng, báo cáo sẽ thảo luận chi tiết về mối quan hệ giữa tiền điện tử và ngành AI, và sẽ hệ thống hóa cấu trúc chuỗi công nghiệp AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau trong bối cảnh các thời đại và các lĩnh vực khác nhau.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", tư tưởng của công nghệ này là để máy móc dựa vào dữ liệu lặp đi lặp lại trong nhiệm vụ nhằm cải thiện hiệu suất hệ thống. Các bước chính là đưa dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra triển khai mô hình, sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện nay, học máy có ba trường phái chính, lần lượt là kết nối, ký hiệu và hành vi, lần lượt mô phỏng hệ thần kinh, tư duy và hành động của con người.
Hiện nay, chủ nghĩa liên kết đại diện bởi mạng nơ-ron đang chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là vì kiến trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn, một khi số lượng lớp và nơ-ron ( tham số ) đủ lớn, sẽ có đủ cơ hội để khớp với các nhiệm vụ tổng quát phức tạp. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số nơ-ron, cuối cùng trải qua nhiều dữ liệu, nơ-ron này sẽ đạt trạng thái tối ưu ( tham số ), đó là cái được gọi là "sâu" - đủ số lượng lớp và nơ-ron.
Ví dụ, có thể hiểu đơn giản rằng đã xây dựng một hàm, hàm này có đầu vào X=2 thì Y=3, X=3 thì Y=5. Nếu muốn hàm này có thể xử lý tất cả các giá trị của X, cần phải liên tục thêm bậc của hàm và các tham số của nó. Chẳng hạn, có thể xây dựng hàm thỏa mãn điều kiện này là Y = 2X -1, nhưng nếu có một dữ liệu là X=2, Y=11, thì cần phải tái cấu trúc một hàm phù hợp với ba điểm dữ liệu này, sử dụng GPU để bẻ khóa một cách mạnh mẽ phát hiện ra Y = X2 -3X +5 là phù hợp hơn, nhưng không cần phải hoàn toàn trùng khớp với dữ liệu, chỉ cần tuân thủ sự cân bằng, đầu ra tương tự là đủ. Ở đây X2 cũng như X, X0 đại diện cho các nơ-ron khác nhau, trong khi 1, -3, 5 là các tham số của nó.
Nếu trong thời điểm này nhập một lượng lớn dữ liệu vào mạng nơ-ron, có thể tăng số lượng nơ-ron và điều chỉnh các tham số để phù hợp với dữ liệu mới, như vậy có thể phù hợp với tất cả dữ liệu.
Công nghệ học sâu dựa trên mạng nơ-ron cũng có nhiều phiên bản và tiến hóa kỹ thuật, từ mạng nơ-ron đầu tiên, đến mạng nơ-ron truyền tiếp, RNN, CNN, GAN, cuối cùng tiến hóa thành các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, thêm vào một bộ chuyển đổi ( Transformer ), dùng để mã hóa dữ liệu của tất cả các kiểu ( như âm thanh, video, hình ảnh, v.v. ) thành các giá trị tương ứng để biểu diễn, sau đó được đưa vào mạng nơ-ron, như vậy mạng nơ-ron có thể phù hợp với bất kỳ loại dữ liệu nào, nghĩa là thực hiện đa mô thức.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên diễn ra vào những năm 60 của thế kỷ 20, sau một thập kỷ kể từ khi công nghệ AI được đề xuất. Làn sóng này là do sự phát triển của công nghệ ký hiệu, công nghệ này giải quyết các vấn đề về xử lý ngôn ngữ tự nhiên tổng quát cũng như đối thoại giữa người và máy. Cùng thời gian đó, hệ thống chuyên gia ra đời, đây là hệ thống DENRAL do Đại học Stanford hoàn thành dưới sự giám sát của NASA, hệ thống này sở hữu kiến thức hóa học rất mạnh, thông qua việc đặt câu hỏi để suy luận nhằm tạo ra câu trả lời tương tự như một chuyên gia hóa học. Hệ thống chuyên gia hóa học này có thể được coi là sự kết hợp giữa cơ sở dữ liệu kiến thức hóa học và hệ thống suy luận.
Sau hệ thống chuyên gia, vào những năm 1990, nhà khoa học và triết gia người Mỹ gốc Israel Judea Pearl( đã đề xuất mạng Bayes, mạng này cũng được gọi là mạng niềm tin. Cùng thời gian đó, Brooks đã đưa ra robot học dựa trên hành vi, đánh dấu sự ra đời của chủ nghĩa hành vi.
Năm 1997, sản phẩm "Deep Blue" của một công ty công nghệ nổi tiếng đã đánh bại nhà vô địch cờ vua Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc của trí tuệ nhân tạo, công nghệ AI đã bước vào giai đoạn phát triển lần thứ hai.
Làn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba thần kinh học sâu Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm học sâu, một thuật toán sử dụng mạng nơ-ron nhân tạo làm cấu trúc để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu đã dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng nhau hình thành nên làn sóng công nghệ thứ ba, và đây cũng là thời kỳ hoàng kim của chủ nghĩa liên kết.
Nhiều sự kiện mang tính biểu tượng cũng đã dần xuất hiện cùng với việc khám phá và tiến triển của công nghệ học sâu, bao gồm:
Năm 2011, một công ty công nghệ nổi tiếng, Watson) đã chiến thắng con người và giành chức vô địch trong chương trình kiểm tra câu hỏi "Jeopardy(".
Năm 2014, Goodfellow đã đề xuất GAN) Mạng đối kháng sinh, Generative Adversarial Network(, thông qua việc cho hai mạng nơ-ron cạnh tranh với nhau để học, có khả năng tạo ra những bức ảnh giống thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách mang tên "Deep Learning", được gọi là cuốn sách hoa, là một trong những cuốn sách nhập môn quan trọng trong lĩnh vực học sâu.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trong tạp chí "Nature", phương pháp học sâu này ngay lập tức đã gây tiếng vang lớn trong giới học thuật cũng như ngành công nghiệp.
Năm 2015, một tổ chức nghiên cứu AI nổi tiếng được thành lập, nhiều nhân vật nổi tiếng tuyên bố cùng đầu tư 1 tỷ đô la.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã thi đấu với nhà vô địch cờ vây thế giới, kiện tướng cờ vây 9 dan Lee Sedol, và giành chiến thắng với tỷ số 4-1.
Năm 2017, một công ty robot nổi tiếng phát triển robot hình người Sophia, được coi là robot đầu tiên trong lịch sử được cấp quyền công dân hạng nhất, sở hữu nhiều biểu cảm trên khuôn mặt và khả năng hiểu ngôn ngữ của con người.
Năm 2017, một công ty công nghệ nổi tiếng có đội ngũ tài năng và tích trữ công nghệ phong phú trong lĩnh vực trí tuệ nhân tạo đã phát hành bài báo "Attention is all you need" đề xuất thuật toán Transformer, mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, một tổ chức nghiên cứu AI nổi tiếng đã công bố GPT)Generative Pre-trained Transformer( được xây dựng dựa trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2018, một đội ngũ AI nổi tiếng đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu mốc tiến bộ to lớn trong lĩnh vực trí tuệ nhân tạo.
Năm 2019, một tổ chức nghiên cứu AI nổi tiếng đã phát hành GPT-2, mô hình này có 1,5 tỷ tham số.
Năm 2020, một tổ chức nghiên cứu AI nổi tiếng đã phát triển GPT-3, có 175 tỷ tham số, cao gấp 100 lần so với phiên bản trước là GPT-2, mô hình này đã sử dụng 570GB văn bản để huấn luyện, có thể đạt hiệu suất tiên tiến nhất trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên như trả lời câu hỏi, dịch thuật, viết bài.
Năm 2021, một tổ chức nghiên cứu AI nổi tiếng đã phát hành GPT-4, mô hình này có 1.76 nghìn tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, vào tháng 3 ChatGPT đạt một trăm triệu người dùng, trở thành ứng dụng nhanh nhất trong lịch sử đạt một trăm triệu người dùng.
Năm 2024, một viện nghiên cứu AI nổi tiếng đã ra mắt GPT-4 omni.
Chú thích: Do có rất nhiều bài báo về trí tuệ nhân tạo, có nhiều trường phái khác nhau và công nghệ phát triển không đồng nhất, nên ở đây chủ yếu theo lịch sử phát triển của học sâu hoặc chủ nghĩa liên kết, các trường phái và công nghệ khác vẫn đang trong quá trình phát triển nhanh chóng.
![Người mới phổ cập丨AI x Crypto: Từ số không đến đỉnh cao])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chuỗi công nghiệp học sâu
Các mô hình ngôn ngữ lớn hiện tại đều sử dụng các phương pháp học sâu dựa trên mạng nơ-ron. Với sự dẫn dắt của GPT, các mô hình lớn đã tạo ra một làn sóng hưng phấn trong lĩnh vực trí tuệ nhân tạo, nhiều người chơi đã đổ xô vào lĩnh vực này. Chúng tôi cũng nhận thấy nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường đã bùng nổ mạnh mẽ, vì vậy trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi cung ứng của thuật toán học sâu. Trong ngành AI do thuật toán học sâu thống trị, chuỗi cung ứng và nhu cầu cung cấp của nó được hình thành như thế nào, và tình trạng hiện tại cũng như mối quan hệ cung cầu, sự phát triển trong tương lai ra sao.
Đầu tiên, chúng ta cần làm rõ rằng, trong quá trình đào tạo mô hình lớn LLMs dựa trên công nghệ Transformer do GPT dẫn đầu ), có tổng cộng ba bước.
Trước khi huấn luyện, vì dựa trên Transformer, do đó bộ chuyển đổi cần chuyển đổi văn bản đầu vào thành giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị này được gọi là Token. Theo quy tắc kinh nghiệm chung, một từ hoặc ký tự tiếng Anh có thể được coi như một Token, trong khi mỗi chữ Hán có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng trong định giá GPT.
Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp đủ cặp dữ liệu cho lớp đầu vào, tương tự như ví dụ được nêu trong phần báo cáo đầu tiên (X,Y), để tìm kiếm các tham số tốt nhất của từng nơ-ron trong mô hình, lúc này cần rất nhiều dữ liệu, và quá trình này cũng là quá trình tiêu tốn sức mạnh tính toán nhất, vì phải lặp đi lặp lại để các nơ-ron thử nghiệm nhiều tham số khác nhau. Sau khi một lô cặp dữ liệu hoàn thành việc huấn luyện, thường sẽ sử dụng cùng một lô dữ liệu để huấn luyện lần thứ hai nhằm lặp lại các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là cung cấp một lượng dữ liệu ít nhưng chất lượng rất cao để huấn luyện, sự thay đổi như vậy sẽ làm cho đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể có lỗi hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng.
Bước ba, học tăng cường. Trước tiên sẽ xây dựng một mô hình hoàn toàn mới, chúng tôi gọi nó là "mô hình phần thưởng", mục đích của mô hình này rất đơn giản, đó là sắp xếp các kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ tương đối đơn giản, vì bối cảnh kinh doanh khá chuyên sâu. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, như vậy chúng tôi có thể sử dụng một mô hình phần thưởng để tự động lặp lại các tham số của mô hình lớn. ( nhưng đôi khi cũng cần sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình )
Tóm lại, trong quá trình huấn luyện mô hình lớn, việc đào tạo trước có yêu cầu rất cao về khối lượng dữ liệu, và sức mạnh tính toán GPU cần thiết cũng là nhiều nhất, trong khi việc tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số, học tăng cường có thể thông qua một mô hình phần thưởng để lặp đi lặp lại các tham số nhằm tạo ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát càng cao, ví dụ như trong ví dụ hàm số Y = aX + b, thực tế có hai nơ-ron X và X0, vì vậy cách thay đổi tham số, dữ liệu mà nó có thể khớp là rất hạn chế, vì bản chất vẫn là một đường thẳng. Nếu số lượng nơ-ron nhiều hơn, thì có thể lặp lại nhiều tham số hơn, từ đó có thể khớp với nhiều dữ liệu hơn, đó là lý do tại sao các mô hình lớn lại tạo ra những điều kỳ diệu, và đây cũng là lý do tại sao tên gọi phổ thông là mô hình lớn, bản chất là số lượng nơ-ron và tham số khổng lồ, cùng với khối lượng dữ liệu khổng lồ, đồng thời cần một lượng sức mạnh tính toán khổng lồ.
Do đó, hiệu suất của mô hình lớn chủ yếu được quyết định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, sức mạnh tính toán, ba yếu tố này cùng nhau ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Chúng ta giả định số lượng tham số là p, khối lượng dữ liệu là n( tính theo số lượng Token), từ đó chúng ta có thể tính toán lượng sức mạnh tính toán cần thiết theo quy tắc kinh nghiệm thông thường, như vậy chúng ta có thể ước lượng được tình hình sức mạnh tính toán mà chúng ta cần mua cũng như thời gian đào tạo.
![Người mới phổ cập丨AI x Crypto:Từ số không đến đỉnh cao](