大模型面试 - 分词(Tokenization)

机器学习数据库算法

本合集包含60篇大模型面试文章(机器学习、深度学习、大模型各20篇),共计299微信豆,谢谢您的订阅。

适合人群:

  1. 在校学生:如果你是在校学生,对AI有浓厚兴趣,并希望通过学习相关内容增强自己的实践能力,以便在未来的实习或工作中脱颖而出,那么大模型的知识将是你简历上的一大亮点。
  2. 职场新人:对于那些刚刚步入职场不久的同学,如果你想通过掌握大模型技术来提升自己的职业竞争力,无论是为了升职加薪还是寻求更好的职业发展机会,这部分内容都将是你的宝贵资产。
  3. 追求效率者:如果你希望通过“偷懒”来节省时间,获取整理好的大模型面试资料和信息,以便更高效地准备面试或学习,那么这些资源将是你的得力助手。
  4. 经验交流者:渴望与行业内的专业人士近距离交流,汲取更多实战经验,获取第一手行业信息的人群,也将从这些内容中受益匪浅。

不适合人群:

  1. 自主学习强者:对于那些已经拥有强大自我学习能力,能够独立完成AI相关知识学习的人来说,这些额外的帮助可能不是必需的。

  2. 非AI领域人士:如果你不准备进入AI相关领域,或者对AI学习没有兴趣,那么这部分内容可能并不适合你。

分词(Tokenization)

分词是NLP任务中最基本的一步,它直接影响到后续的词性标注、句法分析、词向量以及文本分析的质量。在英文中,由于单词之间天然存在空格分隔,分词相对简单。但在中文中,由于缺少显式的分隔符,分词成为了一个复杂且重要的任务。

分词技术包括 基于词典的匹配法 (如最大匹配、双向匹配等)、 基于统计的模型法 (如HMM、CRF、深度学习等)以及 子词级别的切分法 (如BPE、WordPiece、Unigram),旨在高效、准确地将文本切分为更小的语言单元。

  1. 基于词典的分词方法: 将待分词的文本与预先构建的词典进行匹配,找到文本中的词并切分出来。
  • 最大匹配法:包括正向最大匹配和逆向最大匹配,选择匹配长度最长的词作为分词结果。
  • 双向最大匹配法:结合正向和逆向最大匹配的结果,选择词数较少的一种作为最终分词结果。
  • 全切分路径选择:列出所有可能的分词路径,选择最优的路径作为分词结果。

  1. 基于统计的分词方法:利用统计模型对文本中的词进行建模,通过计算词的概率或频率来决定分词。
  • 隐马尔科夫模型(HMM):通过观测序列(文本)和隐藏状态(分词结果)之间的概率关系来进行分词。
  • 条件随机场(CRF):基于条件概率进行分词,考虑上下文信息。
  • 深度学习模型:如循环神经网络(RNN)、Transformer等,通过训练大量数据来学习分词规则。

  1. 子词(Subword)级别的分词方法: 将词切分成更小的单元(子词),以便更好地处理低频词和未登录词。
  • Byte-Pair Encoding(BPE):通过迭代合并出现频率最高的字符对来构建子词表。
  • WordPiece:与BPE类似,但考虑了合并后子词在词中的概率,以构建更合理的子词表。
  • Unigram:基于语言模型的概率进行分词,不直接依赖于频率信息。

picture.image

Tokenization

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论