基于 Trae 的美国金融学年会(AFA)入选论文分析

大模型向量数据库机器学习

本实践课程为华南理工大学陈可儿、李静怡、文悦悦编写。

本文主要展示了案例的分析结果以及 Trae 在分析中的作用,对于更详细的完整代码解析,欢迎通过海报上的二维码扫描或点击下方链接获取,带你深入了解每一个步骤和实现细节。

🔗:https://sourl.cn/MJ8bNi

picture.image

  1. 本实践材料 ==========
  • Trae

https://www.trae.com.cn/

picture.image

  • 数据集来源:AFA官网
  • AFA年会是全球金融学界的顶级盛会,每年吸引哈佛、MIT、芝加哥大学等顶尖机构的学者,展示从资本市场到绿色金融、从风险管理到后疫情经济的前沿研究。

picture.image

  1. 实践 =======

2.1 2025年AFA宏观数字画像

2.1.1 机构贡献排名(柱状图)

柱状图展示发文量 Top 10 的大学/研究机构,标注是否有新兴机构异军突起。

2.1.1.1 实现过程


        
          
# 添加图例  
legend_elements = [  
    Patch(facecolor='#3498db', label='traditional institutions'),  
    Patch(facecolor='#2ecc71', label='emerging institutions')]  
plt.legend(handles=legend_elements, loc='lower right')  
  
# 优化图表布局  
plt.grid(axis='x', linestyle='--', alpha=0.7)  
plt.tight_layout()  
  

      

2.1.1.2 可视化展示

  • 这两张柱状图分别展示了AFA主会场与PhD分会场年会论文中发文量 Top 10 的大学/研究机构。
  • 在主会场中,University of North Carolina – Chapel Hill 发文量最多;在分会场中,Columbia University发文量最多。
  • 在发文量 Top 10 的大学/研究机构中,INSEAD 和 City University of Hong Kong 为异军突起的新兴机构。

picture.image

AFA主会场中发文量top10的研究机构

picture.image

phD分会场年会论文中发文量top10的研究机构

2.1.2 作者合作模式(饼图)

饼图呈现“独立作者 vs 合著文章”比例,反映学术学者之间的合作趋势。

2.1.2.1 实现过程


        
          
根据两个文件“2025AFA.csv”“PhD.csv”的数据,展示了 AFA 会议投递论文的信息,请画出独立著作和合作著作占比的饼图,请给我完整代码,要求饼图确保美观 > 进一步优化:请进一步美化饼图,要求配色自然  

      
  • 代码实现

        
          
    # 美化饼图样式  
    plt.legend(legend_labels,   
              loc='center',   
              bbox_to_anchor=(0.5, -0.1),  
              ncol=2,  
              frameon=False,  
              fontsize=10)  

      

2.1.2.2 可视化展示

  • 这两张饼图对比展示了 AFA 会议中PhD Session & AFA Session中独立著作(Solo Papers)和合作著作(Collaborative Papers)的比例。
  • 其中,在PhD Session中,合作著作占比 46.8%,独立著作占比 53.2%,二者比例基本持平,但独立著作会相对较多;在AFA 主Session中,合作著作占比66.5 %,高于独立著作的 33.5%,表明作者之间的合作模式突出,对未来AFA论坛学者之间的交流合作趋势有预测作用

picture.image

PhD Session 中独立著作和合作著作的比例

picture.image

AFA Session 中独立著作和合作著作的比例

2.1.3 高频词探究(词云图)

2.1.3.1 实现过程

  • 代码实现

这里将停用词扩充,以更好地去过滤提取出的无效高频词。


        
          
# 定义停用词列表,无效词去除  
stopwords = ["from", "and", "in", "university", "php", "afa", "pm", "school", "am", "viewp", "of", "is",  
             "chair", "the", "https", "college", "session", "conference", "discussant", "to", "with", "on", "for"]  
  
  
def generate_wordcloud(text_list):  
    """生成高频词词云"""  
    # 拼接文本  
    text = " ".join(text_list)  
    # 分词  
    seg_list = jieba.cut(text)  
    # 过滤停用词、长度小于等于 1 的词以及数字  
    tokens = [token for token in seg_list if len(token) > 1 and token.lower() not in stopwords and not token.isdigit()]  
    # 统计词频  
    word_counts = Counter(tokens)  

      

2.1.3.2 可视化结果展示

  • 由于对论文整体进行高频词统计时无效词太多,这里是提取文章标题做出的高频词云图。

picture.image

标题高频词云图

  • 根据高频词云图,易看出在文章标题中,出现频率最高的是 Market,进一步分析,我们认为2025年AFA会议的核心聚焦热门话题主要在这几个方面:

picture.image

2.2 学术巨头vs新锐黑马

2.2.1 机构影响力排行榜初览(气泡图)

2.2.1.1 实现过程

  • 传统强校定义

建校时间在 1900 年前,且满足以下任一条件:诺贝尔经济学奖得主数量 ≥3 位 JCR 金融类期刊论文引用总量排名前 20 金融经济学领域顶刊(如 JF、JFE、RFS)发文量历史累计排名前 20

  • 新兴机构定义:
  1. 建校时间在 1950 年后,或
  2. 近 10 年(2015-2024)金融领域顶刊发文量增长率 ≥100%,或
  3. 位于发展中国家/地区且近 5 年金融领域顶刊年均发文量 ≥3 篇

代码实现


        
          
# 图像优化  
fig.update_layout(  
    plot_bgcolor='white',  
    width=1000,  
    height=600,  
    title_x=0.5,  
    title_font_size=20,  
    showlegend=True,  
    legend=dict(  
        yanchor="top",  
        y=0.99,  
        xanchor="left",  
        x=0.01,  
        bgcolor='rgba(255, 255, 255, 0.8)',  
        bordercolor='rgba(0, 0, 0, 0.3)',  
        borderwidth=1  
    )  
)  

      

2.2.1.2 可视化结果展示

  • 图像结构:

气泡图展示了 2025 年 AFA 会议的机构论文发表情况,采用了三维数据可视化方式:横轴表示机构的发文量(0-20 篇),纵轴表示作者数量(0-20 人),气泡的大小反映人均发文效率(发文量/作者数量)。同时,通过颜色对机构进行分类:蓝色代表传统强校、橙色代表新兴机构、绿色代表其他机构,这种多维度的展示方式直观地反映了不同类型机构在学术产出上的表现差异。

  • 图像解析:
  1. 数据分布:

①右上角(发文量 15-20 篇):主要是传统强校,表明这些机构既有高发文量又有较大的作者团队

②中部区域(发文量 8-12 篇):三类机构都有分布,显示这是一个竞争激烈的区间

③左下部(发文量 0-5 篇):以其他机构为主,少量新兴机构

  1. 关键发现:

①总体上发文量与作者数量呈正相关,但人均产出(气泡大小)存在差异

②传统强校占据优势位置,表明其在学术研究上的主导地位

③部分新兴机构(橙色)已经进入中等发文量区域,显示其发展潜力

  1. 特殊现象:

①个别传统强校在相对较少的作者数量下实现了高发文量,显示出较高的研究效率

②新兴机构的分布相对分散,反映出发展阶段的不同

③大量其他机构集中在低发文量区域,构成了学术研究的基础层

这样的定义优势在于,使用客观数据指标并考虑历史积累和近期发展,避免主观判断。

picture.image

机构影响力排行榜初览气泡图

2.2.2 跨机构合作网络图(桑基图)

桑基图(Sankey Diagram)通过可视化不同机构间论文合作的流量和强度,清晰展现了学术合作网络的结构。其中粗细不一的连接线直观反映了合作的频繁程度,有助于识别重要的合作关系和潜在的合作机会,突出学术联盟特性。

2.2.2.1 实现过程

代码实现


        
          
source = []  # 存储边的源节点(机构名称)  
target = []  # 存储边的目标节点(机构名称)  
value = []   # 存储边的值(合作次数)  
all_nodes = set()  # 存储所有唯一的机构名称(用于构建节点)  
  
# 创建桑基图对象  
fig = go.Figure(data=[go.Sankey(  
    arrangement="snap",  # 启用自动节点排列,防止节点重叠  
    node=dict(    
        pad=15,    
        thickness=20,    
        line=dict(color="black", width=0.5),    
        label=node_names,    
        color=node_colors,    
        customdata=node_names,  # 用于鼠标悬停时显示  
        hovertemplate="%{customdata}<extra></extra>"  # 自定义鼠标悬停文本  
    ),  
    link=dict(  # 连接线设置  
        source=source_indices,    
        target=target_indices,   
        value=value,   
        color=link_colors,    
        customdata=value,  # 用于鼠标悬停  
        hovertemplate="%{source.customdata} and %{target.customdata} collaborate %{customdata} times.<extra></extra>"  # (可选)自定义鼠标悬停文本  
    )  
)])  
  

      

2.2.2.2 可视化结果展示

  • 图像结构:

其中,节点代表各个研究机构,节点的高度反映了该机构参与合作的数量,同时每个机构都有独特的颜色,便于区分;连线代表机构之间的合作关系。连线的粗细表示合作的论文数量,连线越粗,合作越频繁;流向即连线的方向展示了合作关系的方向性,颜色深浅与合作数量相关,数量越多,颜色越深,这有助于快速识别重要的合作关系。

同时,plotly 生成图像支持交互作用,鼠标悬停在某个机构时, 可以显示具体机构名称和合作来源和数量;鼠标悬停在某条流向时,可以显示具体的合作机构。

注:考虑到桑基图的美观性,这里只展示合作数量 2 篇及以上的流向组合。

  • 图像解析:

由图可以看出:

  1. 在 AFA 论坛中,合作普遍存在,这与前面饼图展示的合作模式突出相对应。
  2. 但高度集中于少数核心机构和若干个合作集群,如新国立和圣路易斯华盛顿大学,这体现了他们之间可能形成了稳定的合作关系或研究方向上的协同;
  3. 其中"Other"节点最为突出,虽然代表了低频合作,但它也揭示了学术合作网络的一个重要特征:大量的机构参与了合作,但大多数合作的频率较低,这可能反映了学术研究的多元化,以及新合作关系的不断涌现。

picture.image

跨机构合作网络桑基图

picture.image

跨机构合作网络桑基图(悬停效果)

2.2.3 世界科研参与度竞争(热力图)


        
          
# 创建机构-国家映射字典  
institution_country = dict(zip(df_clean['institution'], df_clean['country']))  
  
# 为原始数据添加国家信息  
df_raw['country'] = df_raw['institution'].map(institution_country)  
  
# 获取唯一论文列表  
unique_papers = df_raw['title'].unique()  
total_papers = len(unique_papers)  
  
# 统计每篇论文的合作类型  
single_country_count = 0  
multiple_countries_count = 0  
  
for paper in unique_papers:  
    # 获取这篇论文的所有国家  
    paper_countries = df_raw[df_raw['title'] == paper]['country'].unique()  
    if len(paper_countries) > 1:  
        multiple_countries_count += 1  
    else:  
        single_country_count += 1  
  
# 统计各国参与度  
country_participation = df_raw.groupby(['country', 'title']).size().reset_index(name='count')  
country_participation = country_participation.groupby('country')['count'].count().reset_index(name='paper\_count')  
  
# 创建世界地图  
fig = px.choropleth(country_participation,  
                    locations=country_participation['country'],  
                    locationmode='country names',  
                    color='paper\_count',  
                    hover_name='country',  
                    range_color=[0, country_participation['paper\_count'].max()*0.3],  
                    title='2025 AFA各国参与度分布')  
                    
# 更新颜色条的设置  
fig.update_coloraxes(  
    colorbar_title="论文数量",  
    colorbar=dict(  
        lenmode='fraction',  
        len=0.75,  
        thickness=20,  
        tickfont=dict(size=12)  
    )  
)  

      
  • 注释信息可知,单国主导的论文数量多于多国合作,说明在 2025 AFA 相关研究中,各国独立开展研究的情况相对普遍,但仍有超三分之一的研究是多国合作完成,反映出国际合作在该领域有一定需求和0发展。从地图颜色来看,美国区域颜色最深,论文数量达到265,在 2025 AFA 中的参与度极高,其他国家的参与度差异较小。

picture.image

世界科研参与度竞争热力图

picture.image

世界科研参与度竞争热力图(悬停效果)

2.3 2020-2025年AFA宏观数字演化

2.3.1 主题相似度网络图

2.3.2 Trae的辅助

首先生成了基础的代码块(使用 TF-IDF 提取关键词,包含自定义停用词过滤——筛选关联度较高的关键词(基于出现频率总和排序,取前3个))——进一步用prompt美化网络图配色(如sci蓝绿色块)——生成动态悬停效果(自定义悬停框样式)

2.3.3 可视化解析

  • 2020和2021年聚焦“acquisitions、regulations、market、accounting”,可能涉及互联网治理与企业合规;
  • 2022年和2023年转向“activism、accumulation、acquisitions”,体现对系统性问题的结构化讨论;
  • 2024-2025年突出“risk、corporate、financial”,显示议题主要聚焦金融风险和公司金融等主题。

网络权重: 该网络图气泡之间不同的弦粗细和颜色深浅展示了各年度高频词的相似度,其中2023、2024、2025展示了较强的关联度,表明了高频热点延续的特点,同时2022和2023年之间也有较强的关联度。

picture.image

主题相似度网络动态图

2.4 国家-机构关联矩阵

2.4.1 Trae的辅助

首先生成了基础的代码块(机构分类为传统或新兴机构——计算每个重点国家的年度占比——计算新兴机构的趋势线)——进一步用prompt增加交互效果(添加重点国家下钻交互功能)

2.4.2 可视化解析

  • 以2020-2025年为横轴,列举了不同主要国家的关联矩阵,传统强校与新兴机构的年度占比
  • X轴为年份,Y轴为机构类型占比,颜色区分传统院校(蓝色)与新兴院校(橙色)
  • 2020-2025年,美国的新兴机构占比持续超过传统强校,但值得关注的是,新型机构发展趋势线为下降的走向,说明近几年传统机构比重有所上升。

picture.image

国家-机构关联矩阵(USA)

picture.image

国家-机构关联矩阵(all countries)

2.5 华人发文数量年度变化图

2.5.1 Trae的辅助

首先生成了基础的代码块(扩展的中文姓氏列表——存储2020-2025总体计数和详细信息)——进一步用prompt增加交互效果(使用Plotly创建动态交互式折线图)

2.5.2 可视化解析

  • 利用动态折线图展示了华人从2020-2025年发文数量占总发文量比重的变化趋势。
  • 从整体趋势可见,华人发文量保持在一个较高的比重,平均都在40%所有波动,折线走向经历了先升后降再升的过程。
  • 值得关注的是,2022年发文量有迅速下跌的趋势,仅占22.2%,之后又快速回升,2023-2024增长至51.55%的水平,可能受到疫情冲击等因素影响。

picture.image

华人发文数量年度变化图

2.6 中国大学发文机构比重变化图

2.6.1 Trae的辅助

首先生成了基础的代码块(筛选的中国和香港学术机构列表——存储2020-2025总体计数和详细信息)——进一步用prompt增加交互效果(使用Plotly创建交互式折线图)

2.6.2 可视化解析

  • 利用动态折线图展示了中国大学机构发文量占总发文量的比重的变化趋势。
  • 从整体趋势可见,2020-2025年比重大致在10%左右波动。
  • 可以关注的是,2023年中国机构发文量也经历了一个较为急剧的下跌过程,只占总比重3.15%,之后快速反弹,恢复到了9.01%的正常波动区域。

picture.image

中国大学发文机构比重变化图

2.7 机构论文发表情况变化图

2.7.1 Trae的辅助

根据给出的定义,Trae辅助筛选出了传统强校与新兴机构的名单,并清洗、分析原始数据,得出人均发文量、合作机构数与发文量。生成可用滑块查看各年度的基础气泡图后,通过Trae的辅助进增加了悬停展示每个气泡具体数据、交互式旋转视角与动画逐年播放演变过程等功能。

2.7.2 可视化解析

  • 利用动态气泡图展示了2020-2025年各机构在AFA会议上论文发表情况的变化,气泡大小表示总影响力指数
  • 传统强校的人均发文量往往小于其他机构,但发文量较多,反映出传统强校的教授(作者)数量较多
  • 新兴机构的合作机构数往往较多,反映出合作有利于机构的整体发展
  • 哥伦比亚大学六年中有三年(2021、2022、2024)合作机构数及发文量均在所有机构的前列

picture.image

机构论文发表情况变化图

2.8 全球各国论文发表情况变化图

2.8.1 Trae的辅助

Trae根据提供的prompt将各国年度发文量归一化为0-1值,并生成了滑块式热力图,随后进一步增加了悬停展示各国具体数据与动画逐年播放演变过程等功能。

2.8.2 可视化解析

  • 美国连续6年发文量占比超过48%,最高在2022年达到65.79%,反映出美国在AFA论坛的绝对统治地位
  • 中国连续6年成为发文量占比第二高的国家,可见中国在经济金融领域具有较大潜力
  • 有颜色的国家与地区呈现逐渐增多的趋势,体现越来越多的国家在经济科研领域有了突破

picture.image

全球各国论文发表情况变化图

2.9 国家-机构论文发表情况联动图

2.9.1 Trae的辅助

根据机构论文发表情况变化图与全球各国论文发表情况变化图,在Trae的辅助下将两图联动进行同步展示。

2.9.2 可视化解析

  • 将热力图与气泡图联动展示,反映各国与各机构论文发表情况的关联
  • 人均发文量和合作机构数都较高的机构往往位于发文量占比较高的国家

picture.image

国家-机构论文发表情况联动图

2.10 折线图

2.10.1 Trae的辅助

Trae提供代码帮助统计每个机构的出版物数量,选取每年发文量最多的前5个机构发文量,绘制出2020-2025年发文量top5的研究机构的发文量折线图。

2.10.2 可视化解析

  • 2020-2025年top5 发文量研究机构折线图

picture.image

整体趋势 :大部分机构在 2020 - 2021 年发文量相对平稳且较低,2022 - 2024 年出现显著波动,2025 年部分机构有回升或下降趋势。

突出机构 :INSEAD 和 Federal Reserve Board 在 2024 年发文量达到峰值,分别约为 35 篇和 32 篇,远超其他年份和多数机构,说明这两个机构在该年度科研产出极为突出。

picture.image

2.11 高频词动态词云图

2.11.1 Trae的辅助

在制作相关文章高频词的词云图和动态词云图的时候,Trae首先帮我定义了一些停用词,然后将文本转换为小写并分割成单词,过滤停用词和短词,统计词频,最后绘制出高频词云图和动态词云图。

2.11.2 可视化解析

2.11.2.1 历年高频词词云图展示:

picture.image

共性高频词

“market”“risk”“corporate”“financial” 在各年份词云中都较为突出,说明市场、风险、企业和金融是这几年持续关注的核心概念,是该领域研究和讨论的重点。

年份特征高频词

picture.image

2.11.2.2 动态词云图展示:

picture.image

2.12 AI关键词动态分析

2.12.1 Trae的辅助

在绘制AI话题发文量柱状图时,首先Trae帮助我创建一个函数来检查文本是否包含AI关键词,然后在标题中筛选包含AI关键词的文章,按年份统计AI相关文章数量,绘制柱状图。

在制作相关文章高频词的词云图和动态词云图的时候,Trae帮我定义了一些停用词,将文本转换为小写并分割成单词,过滤停用词和短词,统计词频,最后绘制出高频词云图和动态词云图。

2.12.2 可视化解析

AI话题发文量柱状图展示

picture.image

相关文章高频词词云图展示:

picture.image

动态词云图

picture.image

这组图是 2020 - 2025 年 AI 研究的关键词词云图,能从中看出各年 AI 研究重点及变化:

共性关键词

“risk”(风险)、“market”(市场)在各年都较为突出,说明风险分析和市场应用一直是 AI 研究的重要方向。

年份特征关键词

  • 2020 年:“uncertainty”(不确定性)、“capital”(资本)较大,表明这一年 AI 研究在不确定性环境下的资本运作等方面关注度较高。
  • 2021 年:“retail”(零售)、“financial”(金融)显眼,显示 AI 在零售金融领域的应用研究是热点。
  • 2022 年:“government”(政府)、“sustainable”(可持续的)突出,意味着 AI 与政府政策、可持续发展的结合是研究重点。
  • 2023 年:“global”(全球)、“credit”(信用)较大,说明 AI 在全球信用体系等方面的研究受到重视。
  • 2024 年:“retail” 再次突出,且 “evidence”(证据)明显,可能在强调 AI 在零售领域应用的实证研究。
  • 2025 年:“uncertainty” 又变大,同时 “supply chains”(供应链)突出,暗示 AI 在应对不确定性的供应链管理中的研究增多。

趋势总结: AI 研究在围绕风险和市场的基础上,不断拓展到不同行业和领域,并且对不确定性因素的关注贯穿始终,同时也随着经济社会发展,与各领域的结合不断深化。

如果你也做出了好的作品,欢迎随时联系我们或提交至问卷链接: https://sourl.cn/MH7TgL

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论