个人年度总结:深度学习与AIGC技术在智能诗歌生成中的应|社区征文

2023总结
前言

首先,让我们弄清楚AIGC是什么。AIGC全称为"Artificial Intelligence Generated Content",意为“人工智能生成的内容”。与以往我们了解的AI不同,它不再只是执行预定任务,而是可以根据输入内容自主创作,比如写文章、画画、做视频等等。

picture.image

AIGC可以用来做什么?

AIGC到底是什么?下图可以概括一下AIGC包括的内容.

picture.image

文字创作 AIGC 生成文字目前主要被应用于新闻的撰写、给定格式的撰写以及风格改写。比如用户可以通过输入一段对于目标文章的描述或者要求,系统会自动抓取数据,根据我们描述的指令进行创作。

图像创作 技术平台降低了艺术绘画创作的门槛,用户只需要通过输入文字描述,计算机将会自动生成一张作品。

视频创作 例如 Google 推出了 AI 视频生成模型 Phenaki 能够根据文本内容生成可变时长视频的技术,在公布的 DEMO 中,Phenaki 基于几百个单词组成一段前后逻辑连贯的视频只需两分钟。

音频剪辑 AIGC 生成音频早被应用于我们的日常生活当中,比如常用的手机导航中的声音。更深层次的应用将会是虚拟人领域,AIGC 不仅可以生成虚拟人的声音,并可以创造出说的内容。

游戏开发 AIGC 在游戏当中的应用可分为两方面,一方面用于场景和故事的搭建,另一方面玩家可以通过 AIGC 的平台工具来创建自己的虚拟人,可以用于游戏中的打金等活动。

代码生成 资料显示,2022 年 AIGC 发展速度惊人,迭代速度更是呈现指数级爆发,其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为 AIGC 发展的“加速度”。

“智能诗歌生成”的AIGC项目

我曾参与了一个名为“智能诗歌生成”的AIGC项目。该项目的主要目标是利用人工智能技术生成具有特定主题和风格的诗歌。以下是我在该项目中的实践经验和内容分享:

数据收集与预处理: 首先,我们收集了大量的古代诗歌和现代诗歌数据,并对这些数据进行清洗和预处理,包括去除标点符号、停用词、分词等操作,以便于后续的特征提取和模型训练。

特征提取: 我们使用词嵌入技术将诗歌中的每个词表示为一个高维向量,这些向量能够捕捉到词语之间的语义关系。然后,我们通过计算这些向量的相似度来提取诗歌的特征。

模型训练: 我们采用了基于循环神经网络(RNN)的生成模型进行训练。该模型接受诗歌的特征作为输入,并输出下一行诗歌的词向量序列。在训练过程中,我们使用了变分自编码器(VAE)来引入潜在变量,以捕捉诗歌的潜在分布。

picture.image

import tensorflow as tf  
from tensorflow.keras.models import Sequential  
from tensorflow.keras.layers import Dense, Embedding, LSTM, GRU, RNN  
from tensorflow.keras.preprocessing.text import Tokenizer  
from tensorflow.keras.preprocessing.sequence import pad_sequences  
  
# 加载诗歌数据  
poems = ["云彩飘过山峰间", "夜色映照着江水清", "晨曦照亮大地新", "春风拂面心自静"]  
  
# 文本预处理  
tokenizer = Tokenizer(num_words=10000, oov_token="<OOV>")  
tokenizer.fit_on_texts(poems)  
sequences = tokenizer.texts_to_sequences(poems)  
max_len = max([len(seq) for seq in sequences])  
padded_sequences = pad_sequences(sequences, maxlen=max_len, padding='post')  
  
# 构建模型  
model = Sequential()  
model.add(Embedding(10000, 16, input_length=max_len))  
model.add(LSTM(32))  
model.add(Dense(10, activation='softmax'))  
  
# 编译模型  
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])  
  
# 训练模型  
model.fit(padded_sequences, np.array([1]*len(sequences)), epochs=10, batch_size=32)  
  
# 生成诗歌  
input_seq = tokenizer.texts_to_sequences(["春风拂面心自静"])[0]  
input_seq = pad_sequences([input_seq], maxlen=max_len, padding='post')  
output = model.predict(input_seq)[0]  
generated_poem = tokenizer.sequences_to_texts([output])[0]  
print(generated_poem)

我们使用了Transformer架构中的TransformerEncoder层,它引入了注意力机制,使得模型能够更好地理解诗歌的上下文,并生成更有意义的文本。通过调整d_model、nhead和dim_feedforward等超参数,可以进一步优化模型的性能。此外,还可以使用预训练的Transformer模型或使用更复杂的深度学习技术来改进诗歌生成的效果。

未来展望

AIGC的成熟也让元宇宙的落地不再是一纸空谈,它不仅能够真正的帮助元宇宙以后的发展,还大大节省了人工消耗,借助AI突破生产环节的枷锁,无限的应用力、想象力,使元宇宙有着神速的发展,高效率产生高质量的内容。

我们要相信以现在的发展状况来看,可能在未来的某一天突然上线一款虚拟芯片,可以使用户在虚拟世界中无限的探索。而那时的我们,可能就像今天面对chatgpt一样,抱着好奇,新颖的体验感真正的迈入web3.0的时代当中,开启全新元宇宙时代。

infoq原文链接:https://xie.infoq.cn/article/c63f9d338f69aa3226bc16528

0
0
0
0
关于作者
相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论