用PHP的FFI调用cjieba

phpjieba_ffi

使用PHP 7.4的 FFI 测试直接调用cjieba分词的动态库

选用CJieba的原因是FFI使用的是C的调用约定,如果用Cpp,还得自己包装一下,然后extern C,让编译器生成标准C的动态库。

碰到的问题

段错误

C变量没有初始化

直接调用了C的函数,没有通过FFI 初始化后的的C对象调用

非空判断 需要使用 FFI::isNull($x)

指针形式的数组 不能用foreach

指针形式数组的循环

查看C代码发现Cut部分如下:

CJiebaWord* Cut(Jieba handle, const char* sentence, size_t len) {
  cppjieba::Jieba* x = (cppjieba::Jieba*)handle;
  vector<string> words;
  string s(sentence, len);
  x->Cut(s, words);
  
  CJiebaWord* res = (CJiebaWord*)malloc(sizeof(CJiebaWord) * (words.size() + 1));
  size_t offset = 0;
  for (size_t i = 0; i < words.size(); i++) {
    res[i].word = sentence + offset;
    res[i].len = words[i].size();
    offset += res[i].len;
  }
  if (offset != len) {
    free(res);
    return NULL;
  }
  res[words.size()].word = NULL;
  res[words.size()].len = 0;
  return res;
}

返回的是一个结构体指针,在C语言里,数组名实际是数组第一个变量的指针地址,所以可以通过指针地址++的操作来遍历,在FFI里面呢?

对于这个数组,我一开始用foreach 循环,直接报段错误了,后来和C一样,直接用指针++,发现是可行的,这里给FFI点赞,居然也可以直接操作C指针。

分词结果获取

如上面的代码,对于单个分词CJiebaWord,也不是保存的分词,而是sentence + offset,就是说第一个分词结果肯定是原始字符串。

在C的demo里是printf格式化(. 表示字段宽度和对齐),但是PHP里没有类似的方法,需要截取字符串substr($x->word, 0, $x->len)

  for (x = words; x->word; x++) {
    printf("%*.*s\\n", x->len, x->len, x->word);
  }

用法示例

编译动态库

make libjieba.so

运行

time php demo.php

运行c demo

make demo
time ./demo

结果

PHP
load: 0.00025701522827148
real    1m59.619s
user    1m56.093s
sys     0m3.517s
C
real    1m54.738s
user    1m50.382s
sys     0m4.323s
CPU 占用 基本都是 12%

可以发现使用FFI,PHP的速度基本和C差不多,如有CPU占用大的业务,可以尝试使用其它语言(C/C++,golang,Rust等)编写然后导出标准C的动态库。

FFI的用途

在没有FFI之前,需要系统调用或者sdk方式调用的地方,PHP就需要开发扩展,但是开发扩展不仅需要理解C语言,还得了解PHP内核,比较困难。 现在就方便多了,直接使用FFI调用动态库即可。

扩展 宏展开

比如海康的sdk里有大量的宏 gcc -E -P HCNetSDK.h -o HCNetSDK_unfold.h 支持 type define 放心使用

关于用PHP的FFI调用cjieba的文章就分享到这,如果对你有帮助欢迎继续关注我们哦

本文来自投稿,不代表科技代码立场,如若转载,请注明出处https://www.cwhello.com/41786.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
上一篇 2022年6月23日 16:30
下一篇 2022年6月23日 16:30

相关推荐

  • 重蔚php学习第三十天——php数组

    什么是数组 数组其实就是一组数据的集合,其表现形式是指在内存中一段连续的内存地址。 为什么使用数组 标量数据类型只能存储一个数据,一个数组变量可以存储多个数据。 $name=’zhangsan’; $age=30; 缺点: 定义...

    2017年10月6日 PHP自学教程
    0317
  • Redis在PHP应用中的数据库索引。

    Redis是一款常用的内存数据库,它被广泛使用在各种语言和应用中,其中包括PHP。 PHP是一种使用广泛的Web编程语言,开发者在使用PHP编写Web应用程序时往往需要使用外部数据存储以及快速访问这些数据。而Redis的快...

    2023年5月21日
    00
  • php字符串的常用函数

    字符串分解和合并 说明:在PHP中提供了两个函数可以对字符串进行“拆分”和“组合-数组”,作用是如多选框有多少个值 Explode:把字符串通过一个分割字符进行分割成数组 Implode:把一维数组转换成字符串 去除字符串的...

    2017年11月20日 PHP自学教程
    0250
  • PHP中Memcached缓存技术的实现和原理。

    Memcached是一种高速缓存系统,被广泛应用于Web服务器和其他需要缓存数据的场合。在PHP开发中,Memcached常用于提升应用程序的性能和优化数据库访问。本文将介绍Memcached缓存技术的实现和原理。一、Memcached的...

    2023年5月21日
    00
  • PHP8中的新函数:fdiv()的多种使用技巧。

    随着PHP8的推出,一个新的函数fdiv()也出现在了开发者面前。它可以简化代码、提高精度和效率。在这篇文章中,我们将探讨fdiv()的多种使用技巧。一、提高精度:在PHP7中,我们可以使用函数bcdiv()来实现高精度计算...

    2023年5月21日
    06
  • 浅谈PHP中的装饰器模式

    装饰器模式允许向一个现有的对象添加新的功能,同时又不改变其结构。本篇文章带大家了解PHP中的装饰器模式,介绍一下装饰器的好处以及最适用于的场景。工厂模式告一段落,我们来研究其他一些模式。不知道各位大佬...

    2023年3月29日
    00
  • PHP8中的数组函数:array_chunk()的高效应用方法。

    随着PHP8的发布,数组函数的效率得到了大幅度提升。其中一个非常有用的数组函数是array_chunk(),它可以将一个数组按照指定大小分割成多个子数组。在本文中,我们将探讨如何高效地使用array_chunk()。简单的使用...

    2023年5月21日
    00
  • 十个PHP安全的必备技巧

    你好,PHP 开发人员。 在这篇文章中,我将尝试为你提供一些可以提高 PHP 应用程序安全性的具体步骤。我关注的是 PHP 配置本身,所以我们不会讨论 SQL 注入、HTTPS 或其他与 PHP 无关的问题。我将使用我的docker-e...

    2022年6月21日
    0118

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息