AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。
- • github地址: AI-Compass👈:https://github.com/tingaicompass/AI-Compass
- • gitee地址: AI-Compass👈:https://gitee.com/tingaicompass/ai-compass
🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟
📋 核心模块架构:
- • 🧠 基础知识模块 :涵盖AI导航工具、Prompt工程、LLM测评、语言模型、多模态模型等核心理论基础
- • ⚙️ 技术框架模块 :包含Embedding模型、训练框架、推理部署、评估框架、RLHF等技术栈
- • 🚀 应用实践模块 :聚焦RAG+workflow、Agent、GraphRAG、MCP+A2A等前沿应用架构
- • 🛠️ 产品与工具模块 :整合AI应用、AI产品、竞赛资源等实战内容
- • 🏢 企业开源模块 :汇集华为、腾讯、阿里、百度飞桨、Datawhale等企业级开源资源
- • 🌐 社区与平台模块 :提供学习平台、技术文章、社区论坛等生态资源
📚 适用人群:
- • AI初学者 :提供系统化的学习路径和基础知识体系,快速建立AI技术认知框架
- • 技术开发者 :深度技术资源和工程实践指南,提升AI项目开发和部署能力
- • 产品经理 :AI产品设计方法论和市场案例分析,掌握AI产品化策略
- • 研究人员 :前沿技术趋势和学术资源,拓展AI应用研究边界
- • 企业团队 :完整的AI技术选型和落地方案,加速企业AI转型进程
- • 求职者 :全面的面试准备资源和项目实战经验,提升AI领域竞争力
NativeMindExtension-GitHub
NativeMind - 官网
简介
NativeMind 是一款本地 AI 助手,可连接 Ollama 本地大语言模型,在浏览器中提供 AI 功能,无需将私人数据上传到云端。具有本地优先、隐私为本、开源、支持企业级应用等特点,支持多种强大开源模型本地运行。
核心功能
- • 总结网页内容:将长文章或报告总结为简洁摘要。
- • 多标签页无缝对话:跨网页提问,保持上下文连贯。
- • 本地网页搜索:在浏览器中完成搜索与回答。
- • 沉浸式翻译:即时翻译整个网页并保持排版。
技术原理
通过连接 Ollama,实现本地大语言模型(如 DeepSeek、Qwen、Llama 等)的运行,所有操作在本地设备完成,无需将数据发送到云端,利用本地算力进行数据处理和交互。
应用场景
- • 个人使用:无需注册,无行为追踪,免费使用,可用于日常网页内容总结、对话、搜索、翻译等。
- • 企业应用:适合企业日常流程,提供快速响应、本地运行、安全无忧的支持。
简介
Gen CLI 是基于开源 Gemini - CLI,依托硅基流动 SiliconCloud 平台 API 开发的命令行 AI 编程工具,为国内开发者提供类似 Gemini - CLI 的高效编程能力,可连接工具、理解代码并加速工作流。
核心功能
-
- 代码库操作:查找代码库中与 Prompt 相关内容,分析代码仓库功能和结构。
-
- 自动化开发:创建测试文件,实现持续修改 - 运行 - Debug 循环。
-
- 任务处理:一键创建应用,处理日常任务如分析发票金额组合。
-
- 交互扩展:提供交互式命令行界面,支持多命令参数,扩展性良好。
-
- 跨语境操作:能在 Gemini 1M token 上下文窗口内外查询和编辑大代码库。
-
- 多模态生成:利用 Gemini 多模态能力从 PDF 或草图生成新应用。
-
- 任务自动化:自动化操作任务,如查询拉取请求、处理复杂变基。
-
- 工具连接:连接工具和 MCP 服务器,新增媒体生成等能力。
-
- 搜索辅助:借助内置 Google Search 工具优化查询。
技术原理
基于 Gemini - CLI 架构,保留其命令行解析、Prompt 处理、文件操作等基本架构和功能逻辑;通过硅基流动 SiliconCloud 平台的 API 调用 DeepSeek 模型,利用其语言理解和生成能力执行用户命令和 Prompt。
应用场景
-
- 开发者编程:自动生成代码和测试文件,简化开发流程。
-
- 项目分析:快速掌握代码库结构和功能细节。
-
- 日常任务:自动化创建应用、处理文件任务,减少重复工作。
-
- 文件处理:从多种文件格式提取数据,支持批量处理。
-
- 交互式任务:通过命令行输入描述生成代码或执行任务,支持自定义扩展。
gen-cli
简介
千音漫语是北京熠声科技推出的智能声音创作助手,提供 1200 + AI 主播,支持多语言,具备智能配音、音视频翻译配音、语音识别、声音克隆、音频处理等功能,可用于有声书制作、视频创作等场景。
核心功能
- • 智能配音:1200 + AI 主播,近 20 个调音功能,确保配音自然流畅。
- • 音视频翻译配音:大模型技术实现一站式字幕翻译与多语种配音。
- • 语音识别:准确率 95%,支持数十种语言。
- • 声音克隆:10 秒声音样本复刻声音,支持 100 多种语言。
- • 音频处理:提供提取、转换、静音识别等多种功能。
技术原理
借助大模型技术实现音视频翻译配音;基于最新语音转文字大模型进行语音识别。
应用场景
- • 有声书制作
- • 视频创作
- • 广告配音
- • 个人创作
千音漫语
简介
OpenPaper 是 AI 驱动的学术研究辅助平台,集成多种智能工具,可进行深度文献阅读与总结,支持从选题到文献引用的全流程写作,能助力科研人员提升研究效率。
核心功能
-
- 学术库资源整合:集成 Semantic Scholar、arXiv、PubMed 等学术库。
-
- 论文阅读辅助:深度文献阅读、总结,智能导读,双语对照与溯源定位,对比阅读。
-
- 学术写作支持:全流程写作辅助,多参考文献格式引用,AI 辅助润色。
-
- 代码生成与复现:一键代码生成,AI 论文代码复现。
-
- 创新点挖掘:从研究主题描述自动生成结构化研究想法。
-
- 邮件订阅:接收个性化学术信息简报。
技术原理
依托人工智能技术,通过大规模学术数据训练引擎,实现对学术文献的语义理解、内容提炼、写作辅助等功能,如利用 AI 模型进行论文核心内容总结、代码生成等。
应用场景
-
- 文献综述:快速完成文献综述,生成引文网络并转换格式。
-
- 跨学科研究:订阅跨学科主题,获取多领域研究动态。
-
- 学术写作:辅助学生和研究人员撰写论文。
-
- 研究假设生成:根据研究主题生成创新性假设。
-
- 实验设计:将研究想法转化为可验证的实验方案。
openpaper
简介
蝉妈妈 AI 是蝉妈妈平台推出的电商智能工具,全面接入 DeepSeek - R1 满血版。为电商从业者提供全方位数据分析和运营支持,涵盖直播数据监测、竞品分析等功能,还有 AI 写作、脚本生成等内容创作工具,支持多端使用。
核心功能
-
- 智能对话:支持多种电商场景智能问答。
-
- AI 看板:个性化数据看板,可自定义指标,自动更新数据。
-
- 任务自动执行:设置日常任务并自动执行。
-
- 历史对话同步:登录后可管理历史对话记录。
-
- 深度分析:支持复杂问题分析。
-
- 内容创作:包含文案提取、脚本创作等功能。
技术原理
蝉妈妈 AI 基于 DeepSeek - R1 满血版技术,利用自然语言处理技术理解用户的问题和指令,通过对电商大数据的收集、整理和分析,为用户提供精准的信息和解决方案。在内容创作方面,运用机器学习算法生成符合需求的文案、脚本等。
应用场景
-
- 选品与爆品挖掘:通过商品热度分析等锁定潜力爆品。
-
- 直播运营优化:实时监控直播间数据调整策略。
-
- 短视频创作:一键生成带货视频脚本、文案等。
-
- 竞品分析:监控竞品直播间,对比优劣势。
蝉妈妈 AI - 电商
简介
HumanOmniV2 是阿里通义实验室开源的多模态推理模型,解决了多模态推理中全局上下文理解不足和推理路径简单的问题。它能在生成答案前分析视觉、听觉和语言信号,构建场景背景,精准捕捉隐藏逻辑和深层意图。该模型在 IntentBench 等基准测试中表现出色,现已开源。
核心功能
- • 全面理解多模态信息:综合分析图像、视频、音频等多模态输入,捕捉隐藏信息和深层逻辑。
- • 精准推理人类意图:基于上下文背景,准确理解对话或场景中的真实意图。
- • 生成结构化推理路径:输出详细的上下文总结和推理步骤,确保推理可解释。
- • 应对复杂社交场景:识别理解人物情绪、动机及社会关系,提供符合人类认知的判断。
技术原理
- • 强制上下文总结机制:输出 标签内的上下文概括,构建完整场景背景。
- • 大模型驱动的多维度奖励体系:包含上下文、格式、准确性和逻辑奖励,激励模型准确推理。
- • 基于 GRPO 的优化训练方法:引入词元级损失,移除问题级归一化项,应用动态 KL 散度机制。
- • 高质量的全模态推理训练数据集:包含图像、视频和音频任务,附带详细标注。
- • 全新的评测基准 IntentBench:评估模型对人类行为动机、情感状态和社会互动的理解能力。
应用场景
- • 视频内容理解与推荐:为视频平台提供精准推荐。
- • 智能客服与客户体验优化:帮助客服人员应对客户问题。
- • 情感识别与心理健康支持:辅助心理健康应用提供情绪支持。
- • 社交互动分析与优化:优化社交推荐和用户互动体验。
- • 教育与个性化学习:为在线教育平台提供个性化学习建议。
HumanOmniV2
https://github.com/HumanMLLM/HumanOmniV2
HumanOmniV2 - 模型
HumanOmniV2 - 论文
简介
Skywork-R1V 是昆仑万维开源的多模态推理模型,具备跨模态推理、多学科泛化等能力,在高考数学、多学科推理评测中表现出色,应用广泛。SkyReels-V1 是先进的开源以人为中心的视频基础模型,通过对 HunyuanVideo 微调,在开源模型中表现优秀,具有面部动画、光影美学等优势。SkyReels-V2 是世界首个使用 Diffusion Forcing 框架的无限长度电影生成模型,结合多种技术优化,支持多种应用。
核心功能
- • Skywork-R1V:跨模态推理、多学科泛化、逻辑与数学推理、教育与科研应用、高效知识迁移。
- • SkyReels-V1:文本到视频和图像到视频生成,捕捉面部表情,实现电影级光影美学,具备高效推理框架。
- • SkyReels-V2:故事生成、图像到视频合成、相机导演功能、多主体一致视频生成、视频扩展、起始和结束帧控制。
技术原理
- • Skywork-R1V:基于 Group Relative Policy Optimization(GRPO) 算法强化学习,引入关键熵驱动机制,冷启动与数据蒸馏,连接器微调,小数据高效训练。
- • SkyReels-V1:自主研发数据清洗和标注管道,多阶段图像到视频预训练。
- • SkyReels-V2:视频字幕器提供详细注释,多任务预训练构建基础能力,强化学习提升运动质量,Diffusion Forcing 训练生成扩展视频,高质量监督微调阶段优化视觉效果。
应用场景
- • Skywork-R1V:教育领域的智能辅导、科研中的数据分析和模型验证、医疗领域的疾病诊断。
- • SkyReels-V1:影视制作、视频内容创作。
- • SkyReels-V2:故事创作、影视制作、图像到视频转换、相机导演辅助。
Skywork 天工 - R1V
Skywork 天工 - SkyReels-V2
Skywork 天工 - SkyReels-V1
简介
网页主要介绍了小浣熊家族的两款工具,代码小浣熊可用于编程相关操作,办公小浣熊则专注于数据分析和处理。通过使用办公小浣熊对 10000 条应届生就业数据进行分析,解答了关于就业的疑问,并为表妹制定了求职规划,同时还能将分析内容整理成文档。
核心功能
- • 代码小浣熊 :支持 Python、Go、Javascript 等语言,可进行写代码、编注释、做重构、修 bug 等操作。
- • 办公小浣熊 :
- • 数据分析 :检查数据质量,智能处理数据,分析各因素对就业的影响,生成可视化图表。
- • 任务规划 :根据用户需求生成求职规划,包括强化能力方案、作品集模板、招聘信息整理、话术模板等。
- • 文档生成 :起草大纲,生成分析文档,支持插入生成的内容。
应用场景
- • 编程领域 :代码小浣熊可帮助程序员快速编写和修改代码。
- • 数据分析领域 :办公小浣熊可用于分析各种类型的数据,如就业数据、市场数据等。
- • 求职规划 :为应届生提供就业分析和可落地的求职路径规划。
- • 文档整理 :将分析内容整理成结构清晰的文档。
商汤 - 官网
简介
Syft 是 Orion Arm 推出的 AI 个性化新闻聚合应用,从全球可信来源筛选新闻,为用户提供清晰、简洁的母语摘要。用户可依兴趣选话题,应用据此生成专属每日简报,支持三十多种语言,避免标题党、广告和算法操控,提升信息获取效率。
核心功能
- • 个性化新闻推送:根据用户指定主题生成定制化新闻摘要。
- • 多语言支持:支持三十多种语言,提供全球新闻母语摘要。
- • 去重与结构化:自动对新闻归类去重,提取关键信息生成简洁摘要。
- • 每日简报:提供每日最重要的三条新闻摘要。
- • 多平台支持:支持 iOS、Android 和网页版,方便不同设备获取新闻。
应用场景
- • 个人高效新闻阅读:适合上班族、学生等需高效获取新闻人群。
- • 多语言新闻聚合:适合语言学习者、国际商务人士和海外留学生。
- • 行业动态追踪:适合从业者、研究人员和分析师。
- • 国际热点关注:适合国际新闻爱好者和全球化企业员工。
- • 移动碎片化阅读:适合频繁使用移动设备人群。
Syft - 官网
简介
TradingAgents 是多智能体交易框架,模拟现实交易公司,部署专业代理评估市场和决策。TradingAgents-CN 基于其开发,为中文用户提供文档和本地化支持,支持多模型,整合多数据源,适用于中国金融市场。
核心功能
- • 多智能体协作 :分析师团队多维度分析市场,研究员辩论提供洞察,交易员决策,风险管理保障安全,管理层协调工作。
- • 多模型支持 :支持阿里百炼、Google AI、OpenAI 和 Anthropic 等国内外大语言模型。
- • 直观操作 :基于 Web 界面,可视化进度,支持不同研究深度,结构化展示结果。
- • 全面数据集成 :支持 A 股、美股数据及新闻、社交数据,采用数据库提升访问效率。
技术原理
- • 角色分工 :为智能体分配角色和目标,分解交易任务。
- • 多智能体协作 :模拟交易公司架构,信息共享、辩论和反馈优化决策。
- • 模型选择 :依任务需求选合适的大语言模型。
- • 数据融合 :结合结构化与非结构化数据,挖掘潜在价值。
- • 数据管道 :高效设计数据获取、清洗和特征工程流程。
应用场景
- • 个股分析 :分析个股信息制定交易策略。
- • 风险评估 :评估投资组合或资产风险并控制。
- • 风险预警 :监测市场风险并预警。
- • 趋势分析 :分析市场趋势、行业动态和宏观经济因素。
- • 策略研究 :探索新投资策略提供理论支持。
TradingAgents
TradingAgents-CN
书籍推荐: