每日一题23:统计文本中单词出现的次数

一、每日一题

解答:

python 复制代码
import pandas as pd
def count_occurrences(files: pd.DataFrame) -> pd.DataFrame:
    bull_cnt = len(files[files['content'].str.contains(r'\sbull\s')])
    bear_cnt = len(files[files['content'].str.contains(r'\sbear\s')])
    res_df = pd.DataFrame(
        {
            'word': ['bull', 'bear'],
            'count': [bull_cnt, bear_cnt]
        }
    )
    return res_df

题源:Leetcode

二、 总结

files['content'].str.contains(r'\sbull\s'):

  • 使用 str.contains() 方法来查找 content 列中包含匹配正则表达式 r'\sbull\s' 的行。
  • 正则表达式**r'\sbull\s'** 寻找以空白字符(空格)开头和结尾的 "bull" 字符串:
    • \s 表示空白字符(比如空格、制表符等)。
    • 因此,r'\sbull\s' 匹配的是整个单词 "bull",而不会匹配诸如 "bulldog" 或 "bullish" 这样的部分匹配。

2024.5.26

相关推荐
这个DBA有点耶1 小时前
NULL不是空——数据库里最反直觉的设计,90%新人踩过的坑
数据库·mysql·代码规范
karry_k2 小时前
MyBatis批量insert-select踩坑:useGeneratedKeys=true 可能让PostgreSQL返回大量插入结果
java·后端
karry_k2 小时前
PostgreSQL 在 MyBatis 中执行正常 SQL 失效:一次 DELETE USING 踩坑记录
java·后端
这个DBA有点耶3 小时前
AI写的SQL跑崩了生产库,这锅谁背?
数据库·人工智能·程序员
镜舟科技4 小时前
Databricks 再提 LTAP,AI 时代的数据底座为何重回大一统叙事?
数据库·架构·agent
Databend5 小时前
从湖仓升级为 Agent 时代的数据控制面,Snowflake 和 Databricks 有哪些布局
大数据·数据库·agent
SamDeepThinking5 小时前
从源码到代码:MyBatis-Flex 与 MyBatis-Plus 的逐项对比
java·后端·程序员
ClouGence8 小时前
SQL Server CDC 能放到 Always On 备库读吗?一文讲透原理与实践
数据库·sql server
她的男孩8 小时前
Spring Boot 接 Flowable 工作流:用 3 个注解搭一个请假审批流程
java·后端·架构
荣码10 小时前
LLM结构化输出:让AI返回JSON而不是废话,我踩了4个坑
java·python